CN114026578A

CN114026578A - 常规化时空调度价值估计

Info

Publication number: CN114026578A
Application number: CN201980097591.XA
Authority: CN
Inventors: 唐小程; 秦志伟; 叶杰平
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2022-02-08
Also published as: WO2020248213A1; US20220253765A1

Abstract

一种用于评估订单调度政策的系统，包括第一计算设备、至少一个处理器和存储器。第一计算设备配置为生成与驾驶员相关联的历史驾驶员数据。该至少一个处理器配置为存储指令。当由至少一个处理器执行时，指令使该至少一个处理器执行操作。由该至少一个处理器执行的操作包括获得所生成的与驾驶员相关联的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度政策相关联。然后确定最佳订单调度政策。最佳订单调度政策与估计出的价值函数的最大值相关联。价值函数的估计应用前馈中性网络。

Description

常规化时空调度价值估计

技术领域

本公开一般涉及在线调度的方法和设备，特别是涉及用于利用函数逼近的常规化调度政策评估的方法和设备。

背景技术

能够进行驾驶员-乘客调度的乘车共享平台通常会在大的空间决策区域中做出将可用驾驶员分配给附近未分配的乘客的决定。因此，努力捕捉实时交通供需动态是至关重要的。

发明内容

本公开的各种实施方式可以包括用于对订单调度进行优化的系统、方法和非暂时性计算机可读介质。

根据本公开的一些实施方案，一种用于评估订单调度政策的系统包括计算设备、至少一个处理器和存储器。计算设备配置为生成与驾驶员相关联的历史驾驶员数据。该至少一个处理器配置为存储指令。当由该至少一个处理器执行时，指令使该至少一个处理器执行操作。由该至少一个处理器执行的操作包括获得与驾驶员相关联的已生成的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度政策相关联。然后确定最佳订单调度政策。最佳订单调度政策与估计出的价值函数的最大值相关联。

根据本公开的一些实施方案，一种用于评估订单调度政策的方法包括生成与驾驶员相关联的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度政策相关联。然后确定最佳订单调度政策。最佳订单调度政策与估计出的价值函数的最大值相关联。

本文所公开的系统、方法和非暂时性计算机可读介质的这些和其他特征，以及相关结构元素的操作方法和功能，以及成分的组合和制造的经济性，在参照附图对以下描述和所附权利要求进行考虑后将变得更加明显，所有附图构成本说明书的一部分，其中类似的参考数字指定了各图中的相应部分。然而，应明确理解的是，附图仅用于说明和描述的目的，并不打算作为本发明的界限的定义。

附图说明

在附图中，通过示例而非限制的方式展示本发明的实施方式，其中类似的附图标记表示类似的元素，并且在其中：

图1展示根据一实施方式的运输叫车平台的方框图；

图2展示根据一实施方式的示例性调度系统的方框图；

图3展示图2的调度系统的另一种配置的方框图；

图4是带有函数逼近器的图2的调度系统的方框图；

图5展示根据一实施方式的图1的运输叫车平台的用户的决策图；

图6是带有训练的图4的调度系统的方框图；

图7展示根据一实施方式的分层六边形网格系统；以及

图8展示实现利用分层粗编码时空嵌入实施常规化价值估计的方法的流程图；以及

图9展示根据一实施方式的评估订单调度政策的方法的流程图。

具体实施方式

能够进行驾驶员-乘客调度的乘车平台，在大的空间决策区域(例如城市)中做出将可用驾驶员分配给附近未分配的乘客的决定。最佳决策政策要求平台考虑到调度过程的空间范围和时间动态，因为这样的决策可以对整个空间决策区域的可用驾驶员的分布产生长期影响。可用驾驶员的分布严重影响到未来订单的服务质量。

然而，现有的技术往往假设单一的驾驶员视角，或者将模型空间限制在只有表格的情况。为了克服现有技术的不足，并为乘车共享平台提供更好的订单调度，本公开的一些实施方案利用时间抽象和函数逼近(function approximation)对现有的学习和规划方法进行改进。因此，本公开抓住了实时交通供需动态。本公开的其他益处包括通过降低累积的逼近误差来稳定训练过程的能力。

同样关键的是，特别是在大型的实际生产系统中，要确保平滑的函数逼近面而没有可能会在系统层面上引起异常行为不规则价值估计。本公开通过实施直接最小化函数逼近器的Lipschitz常数的规则化政策评估方案，解决了与不规则价值估计相关联的问题。最后，本公开允许训练过程在离线状态下执行，从而实现最先进的调度效率。总之，所公开的系统和方法可以扩展到现实世界中的乘车平台，这些平台在一天内为数百万的订单请求提供服务。

图1展示根据一实施方式的运输叫车平台100的方框图。运输叫车平台100包括配置为与调度系统104通信的客户端设备102。调度系统104配置为基于从一个或多个客户端设备102接收到的信息和从一个或多个运输设备112接收到的信息来生成订单列表106和驾驶员列表108。运输设备112是数字设备，配置为从调度系统104接收信息并通过通信网络112传输信息。对于一些实施方式，通信网络110和通信网络112是同一网络。该一个或多个运输设备配置为向调度系统104传输位置信息、对订单的接受以及其他信息。对于一些实施方式，运输设备112的信息传输和接收是自动的，例如通过使用遥测技术。对于其他实施方式，至少有一些信息的传输和接收是由驾驶员发起的。

调度系统104可以配置为通过带有函数逼近的政策评估来对订单调度进行优化。对于一些实施方案，调度系统104包括一个或多个系统200，诸如图2中所示。每个系统200可以包括至少一个计算设备210。在一个实施方式中，计算设备210包括至少一个中央处理单元(CPU)或处理器220，至少一个存储器230，它们通过总线240或其他数量和类型的链路耦合在一起，尽管计算设备可以包括其他配置中的其他成分和元件。计算设备210可以进一步包括至少一个输入设备250，至少一个显示器252，或至少一个通信接口系统254，或以其任何组合。计算设备210可以是或作为各种设备的一部分，如可穿戴设备、移动电话、平板电脑、本地服务器、远程服务器、计算机等。

输入设备250可以包括计算机键盘、计算机鼠标、触摸屏和/或其他输入/输出设备，尽管也考虑到其他类型和数量的输入设备。显示器252用于向用户显示数据和信息，诸如客户的信息、路线信息和/或收取的费用。显示器252可以包括计算机显示屏，诸如OLED屏，尽管也可以使用其他类型和数量的显示器。通信接口系统254用于在处理器220和其他系统、设备和成分之间通过通信网络进行操作性耦合和通信，尽管也设想了其他类型和数量的通信网络或系统与其他类型和数量的系统、设备和成分的连接和配置。仅作为示例，通信网络可以使用以太网上的TCP/IP和行业标准协议，包括SOAP、XML、LDAP和SNMP，尽管也考虑了其他类型和数量的通信网络，如直接连接、局域网、广域网、调制解调器和电话线、电子邮件和无线通信技术，每个都有自己的通信协议。

中央处理单元(CPU)或处理器220执行存储指令的程序，用于本文所述技术的一个或多个方面。存储器230存储这些编程指令，供处理器220执行，以执行本文所述技术的一个或多个方面，尽管编程指令中的部分或全部可以在其他地方存储和/或执行。存储器230可以是非暂时性的和计算机可读的。为存储器230设想了各种不同类型的存储器存储设备，例如随机存取存储器(RAM)、计算设备210中的只读存储器(ROM)、软盘、硬盘、CDROM、DVDROM或其他由耦合至处理器220的磁、光或其他读和/或写控制器/系统读取和/或写入的计算机可读介质，以及其组合。仅作为示例，存储器230可以包括远离处理器220的大容量存储器。

存储器230可以存储以下元素，或这些元素的子集或超集：操作系统、网络通信模块、客户端应用程序。操作系统包括处理各种基本系统服务的程序和执行依赖硬件的任务。网络通信模块(或指令)可以用于经由一个或多个通信接口系统254和一个或多个通信网络(诸如互联网、其他广域网、局域网、城域网和其他类型的网络)将计算设备210连接到其他计算设备、客户、对等体、系统或设备。客户端应用程序配置为接收用户输入，以便通过网络与其他计算机或设备进行通信。例如，客户端应用程序可以是移动电话应用程序，用户可以通过它输入命令和获得信息。

在另一个实施方式中，上述计算设备210的各种成分可以在多个设备上或作为多个设备的一部分实施，而不是全部集中在计算设备210内。作为一个实施例并在图3中所示，输入设备250和显示器252可以在第一设备310(诸如移动电话)上或作为第一设备实施；而处理器220和存储器230可以在第二设备320(诸如远程服务器)上或作为第二设备实施。

如图4所示，系统200可以进一步包括输入数据库270，输出数据库272，和至少一个逼近模块。这些数据库和逼近模块可以由计算设备210访问。在一些实施方案中(未示出)，数据库的至少一部分和/或该多个逼近模块的至少一部分可以作为单一设备或系统与计算设备集成。在其他一些实施方案中，数据库和逼近模块可以作为与计算设备分开的一个或多个设备来操作。输入数据库270存储输入数据。输入数据可以从不同的可能值中得出，这些值来自各输入，诸如时空状态、物理位置和尺寸、原始时间戳、驾驶速度、加速度、环境特征等。

根据本公开的一些实施方案，订单调度可以通过将调度过程建模为马尔科夫决策过程(“MPD”)来对进行优化，该过程被赋予了一组时间上的扩展行动。这样的行动也被称为选项，相应的决策过程被称为半马尔可夫决策过程，或SMDP。在示例性的实施方式中，驾驶员在某个离散的时间步长t处与环境进行偶发性的互动。时间步长t是一组时间步长

中的元素，直到到达终端时间步长T。例如，

如图5所示，与驾驶员510相关联的输入数据可以包括由驾驶员510感知到的环境520的状态530，驾驶员510可用行动的选项540，以及驾驶员在特定状态下选择特定选项而产生的奖励550。

在每个时间步长t处，驾驶员感知到环境的状态，由特征向量s_t描述。在时间步长t处的状态s_t是一组状态S中的成员，其中S描述了到当前状态s_t为止的所有过去的状态。至少部分地基于感知到的环境的状态s_t，驾驶员选择了选项o_t，其中选项o_t是一组选项

中的乘员。当环境在时间t′处(例如，

)被转换到另一个状态时s_t′时，选项o_t终止。作为回应，对于每个

在选项o_t终止之前，驾驶员收到有限的数字奖励r_w(例如，利润或损失)。因此，选项o_t的预期奖励

被定义为

其中γ是折扣因子，下面将详细说明。如图4所示，在订单调度的情境下，上述变量可以描述如下。

由s_t表示的状态530代表驾驶员510的时空状态l_t，原始时间戳μ_t，以及由v(l_t)表示的情境特征向量，使得s_t：＝(l_t，μ_t，v(l_t))。原始时间戳μ_t反映了现实世界的时间尺度，并且与上述的离散时间t无关。情境查询函数v(·)在驾驶员的时空状态l_t下获得情境特征向量v(l_t)。情境特征向量v(l_t)的一个实施例是l_t附近的供应和需求的实时特征。此外，情境特征向量v(l_t)还可以包含静态属性，诸如驾驶员服务状态，假期指标，或类似属性，或其任何组合。

由o_t表示的选项540代表驾驶员510从第一时空状态l_t过渡到未来的第二时空状态l_t′，使得o_t：＝l_t′，其中t′＞t。过渡的发生可能是由于，例如，出行任务或闲置运动。在出行任务的情况下，选择o_t是出行任务的目的地和预计到达时间，选项o_t导致非零的奖励

。相反，闲置运动导致零奖励的过渡，只有当下一个出行选项被激活时才会终止。

由

表示的奖励550代表通过执行选项o_t而从s_t过渡到s_t′的驾驶员510从出行Г_t中收取的总费用。如果出行Г_t是由闲置运动产生的，则奖励

为零。然而，如果出行Γ_t是由完成命令(例如，出行任务)产生的，则奖励

在选项o_t的持续时间中计算，使得

其中

常数γ可以包括折扣因子，用于计算基于给定利率的未来奖励的净现值，其中0≤γ≤1。

在一些实施方式中，系统200的该至少一个逼近模块包括耦合至输入数据库270的输入模块280，如图4中最佳所示。输入模块280配置为至少部分地基于来自输入数据库270的输入数据的一部分，在给定环境中执行政策，由此产生驾驶员轨迹的历史作为输出。由π(o|s)表示的政策描述与驾驶员相关联的行动方式。政策代表了不考虑时间步长t，在一状态s下采取一选项o的概率。在给定的环境中执行政策π产生由

表示的驾驶员轨迹的历史，其中

是指向驾驶员轨迹的一组索引。驾驶员轨迹的历史可以包括与驾驶员相关联的先前状态、选项和奖励的集合。驾驶员轨迹的历史

因此可以表示成

该至少一个逼近模块还可以包括耦合至输入模块280和输出数据库272的政策评估模块284。政策评估模块284可以从下面描述的价值函数中得出。输入模块280的结果由政策评估模块284用来学习用于评估的政策，这些政策将具有通过解决或估计价值函数来获得最大长期预期累积奖励的高概率。在一些实施方式中，价值函数是基于驾驶员系统从历史数据来估计的，这使得估计更加准确。在一些实施方式中，历史数据来自数周内的数千名驾驶员。政策评估模块284的输出被存储在输出数据库272中。所得数据提供了使输入数据的长期累积报酬最大化的最佳政策。

因此，为了帮助学习最佳政策，政策评估模块284配置为使用价值函数。有两种类型的价值函数是可以考虑的：状态价值函数和选项价值函数。状态价值函数描述了当遵循政策时的状态的价值。在一个实施方式中，状态价值函数是当驾驶员从一个状态开始按照政策行动时的预期累积奖励。换句话说，状态价值函数代表了驾驶员从状态s出发并遵循政策π直到事件结束将会获得的预期累积奖励V^π(s)。累积奖励V^π(s)可以表示为在政策π下的状态s随着时间的推移所累积的总奖励的总和。在政策下的总奖励的总和，使得

值得注意的是，即使对于相同的环境，价值函数也会取决于政策而改变。这是因为状态的价值取决于驾驶员的行为而改变，因为驾驶员在特定状态下的行为会影响到他/她将获得多少奖励。还要注意“预期”这个词的重要性。累积奖励之所以是“预期”累积奖励，是因为在驾驶员到达一状态后发生的事情有一定的随机性。当驾驶员在第一状态下选择一选项时，环境会返回第二状态。即使只给了一个选项，它也可能有多个状态可以返回。在某些情况下，政策可能是随机的(stochastic)。因此，状态价值函数可以作为“期望”来估计累积奖励。为了使累积奖励最大化，因此也要估计政策评估。

选项价值函数是指当遵循某种政策时在某种状态下采取选项的价值。它是给定状态和一定政策下的行动的预期回报。因此，选项价值函数代表了驾驶员在某一状态s下采取某一选项o并遵循政策π直到结束的价值Q^π(s,o)。价值Q^π(s,o)可以表示为在政策π下在状态s中的选项o在一段时间内累积的总奖励的总和，使得

与状态价值函数中的“预期”累积奖励类似，选项价值函数的价值也是“预期”的。“期望”考虑到了根据政策的未来选项的随机性，以及来自环境的返回状态的随机性。

鉴于上述价值函数和驾驶员历史轨迹

的情况下，可以估计基本政策π的价值。与标准MDP类似，一般的政策和选项可以表达为贝尔曼方程(例如参见[3])。政策评估模块284配置为利用贝尔曼方程作为逼近器，因为贝尔曼方程允许将一个变量的逼近表示为其他变量。预期累积奖励V^π(s)的贝尔曼方程为因此是：

其中变量

是由政策π在时间步长t处选择的选项o_t的持续时间，而奖励

是指在选项o_t的过程中接收到的对应累计折扣报酬。同样地，在状态s∈S下，选项o的价值Q^π(s,o)的贝尔曼方程是

其中变量k_o是确定的常数，因为在方程(2)中给出的是o_t＝o。相反，在方程(1)中，变量

是取决于政策π在时间步长t处选择的选项o_t的随机变量。

在一些实施方式中，系统200进一步配置为以信息聚合和/或机器学习的形式使用训练数据274。训练数据的加入改进了上述各段中描述的价值函数估计/逼近。回顾一下，由于与政策和状态相关联的随机性，各政策被评估为价值函数下的估计或逼近。因此，为了改进价值函数逼近的准确性，系统200配置为运行信息聚合和/或机器学习的多个迭代会话，如图6中的最佳显示。在这个实施方式中，系统200配置为接收包括训练数据274的附加输入数据。训练数据274可以向政策评估模块284提供顺序反馈，以进一步改进逼近器。附加地或备选地，在接收到实时输入数据时，可以从政策评估模块284的先前输出(例如，存储在输出数据库272中的现有输出)提供实时反馈，作为更新的训练数据274以进一步评估逼近器。这样的反馈可以被延迟，以加快处理速度。因此，该系统也可以连续运行以确定最佳政策。

当使用贝尔曼方程来在价值函数逼近下对信息进行聚合时，训练过程(例如，迭代)可能变得不稳定。部分原因是聚合的递归性质，来自函数逼近器的任何小的估计或预测错误都会迅速累积，使逼近失去作用。为了减少预测误差并获得更好的状态表示，训练数据274可以配置为利用带有嵌入的小脑模型算术控制器(“CMAC”)。因此，由于预测误差的减少，系统200具有稳定训练过程的益处。CMAC是稀疏、粗编码的函数逼近器，它将连续输入映射到高维度稀疏向量。嵌入的实施例是为每个目标对象学习向量表示的过程。

在一个实施方式中，CMAC映射使用状态空间的多个平铺。状态空间代表了上述变量“状态”所占用的存储器空间。例如，状态空间可以包括纬度、经度、时间、与驾驶员当前状态相关联的其他特征，或其任何组合。在一个实施方式中，CMAC方法可以应用于驾驶员的地理位置。地理位置可以被编码，例如，使用一对GPS坐标(纬度，经度)来编码。在这样的实施方式中，多个量化(或平铺)函数被定义为{q₁,…,q_n}。每个量化函数将状态的连续输入映射到代表状态空间的离散区域(或单元)的唯一字符串ID。

不同的量化函数将输入映射到不同的字符串ID。每个字符串ID可以用在训练期间学习的(例如经由嵌入)的向量来表示。存储嵌入矩阵所需的存储器是唯一字符串ID总数乘以嵌入矩阵的维度的大小，很多时候会过大。为了克服这一缺陷，该系统配置为使用“散列”过程来减少嵌入矩阵的尺寸。也就是说，编号功能A将每个字符串ID映射到固定的整数集

中的数字。该固定的整数集

的大小可以比唯一字符串ID的数量小得多。鉴于所有可用的唯一字符串ID，编号函数可以通过将每个字符串ID映射到从0，1，…开始的唯一整数i来定义。让A表示这样的编号函数，草书

表示包含用于索引上述离散区域的所有唯一整数的索引集，这样，对于所有唯一整数i，

此外，对于所有i≠j，q_i(l_t)≠q_j(l_t)。因此，CMAC的输出c(l_t)是正好有n个非零条目的稀疏

维度向量，其中对于所有唯一整数i，第A(q_i(l_t))个条目等于1，使得

根据一些实施方式，使用分层多边形网格系统来对地理空间进行量化。例如，可以使用多边形网格系统，如图7所示。使用基本等边的六边形作为离散区域(例如，单元)的形状是有益的，因为六边形在六边形中心点与其相邻六边形的各中心点中的每个之间只有一个距离。此外，六边形可以在一个平面内平铺，同时仍然与圆很相似。因此，本公开的分层六边形网格系统支持多种分辨率，每个较细的分辨率都有面积为较粗分辨率的七分之一的单元。分层六边形网格系统能够以不同的分辨率进行分层量化，使信息聚合(以及相应地使学习)能够在不同的抽象水平上发生。因此，分层六边形网格系统可以自动适应地理区域(例如，市中心、郊区、社区公园等)的性质。

此外，嵌入矩阵θ^M，其中

代表网格系统中每个单元，作为密实m维向量。嵌入矩阵是嵌入过程的实施方案，例如，为每个目标对象学习向量表示的过程。CMAC的输出c(l_t)乘以嵌入矩阵θ^M，得到驾驶员地理位置的最终密实表示c(l_t)^Tθ^M，其中嵌入矩阵θ^M在训练过程中被随机初始化和更新。

在现实世界的生产系统中，诸如在交通叫车平台100中，执行与驾驶员的时空状态有关的状态价值连续性是至关重要的。多种因素可能导致系统层面上的不稳定和/或异常行为。例如，长的下游任务链或简单的大规模输入可能会导致巨大的变化。在许多情况下，轻微的不规则价值估计可以由于这些因素而进一步增强，而不规则性成为灾难性的。因此，至少在某种程度上为了稳定估计，本公开从数学上考虑到对于S中的所有状态，价值函数的输出被其输入状态所约束。例如，

这里，L的值被称为Lipschitz常数，该函数被称为L-Lipschitz。直观地说，L代表函数输出相对于输入的变化率。在这种情况下，边界条件防止L在训练过程中增长过大，由此在价值函数逼近中引起更平滑的输出表面。

根据示例性实施方式，政策评估模块284配置为使用前馈神经网络作为价值函数逼近。因此，前馈神经网络被用来逼近价值函数，该价值函数估计以驾驶员的当前状态为条件的驾驶员的长期预期奖励。这个函数可以是任意复杂的，这就需要深度神经网络，它已被证明能够在给定足够数据的情况下逼近任何任意的函数。这样的网络被表示为一系列的函数组合，诸如

为了简单起见，v_i被限制为修正线性单元(“ReLU”)激活函数或线性操作。由于Lipschitz函数的组成特性，整个前馈网络的Lipschitz常数可以写成每个单独层操作的Lipschitz常数的乘积。例如，

在这种情况下。当v_i是ReLU操作时L(v_i)＝1，因为ReLU的最大绝对子梯度是1。当v_i实施通过权重矩阵θ和偏置矢量b参数化的仿生变换，例如v_i(l)＝θl+b时，其Lipschitz常数可推导如下，

这只是矩阵θ的算子规范。此外，当p＝1时，矩阵θ的算子规范是矩阵的θ的最大绝对列和。上述推导可以归纳为以下定理。

定理1对于包含h个线性层和在每个线性层之后的h个ReLU激活层的前馈神经网络，整个此类前馈网络的Lipschitz常数，在l₁规范下，通过下式给出，

其中

是第i个线性层的权重矩阵。

根据本公开的一些实施方案，贝尔曼方程(1)和(2)可以用作动态编程类规划方法中的更新规则，用于推导出价值函数。历史驾驶员轨迹被收集并被分成一组图元，每组图元代表一个驾驶员从状态s过渡到状态s′同时从一次旅行中获得总费用r。例如，这组图元是(s，r，s′)。与标准MDP过渡不同的是，本公开考虑到从状态s到状态s′的时间延伸往往包括多个时间步骤。例如，k＝μ_s′-μ_s≥1，其中k可以用来计算训练期间的折扣后的目标，并且μ_s是状态s的原始时间戳。假设由驾驶员接收到的总费用r在旅行时间方面是均匀分布的，则折扣后的累积奖励

可以表示如下：

在这种情况下，可以维持γ^π(s|θ)的函数逼近，其中θ代表神经网络中所有可训练权重。应用公式(1)，可以得到所有状态的更新目标s∈S。例如，目标可以表示为

训练稳定性可以通过使用Double-DQN结构和/或维持利用原始V^π(s|θ)定期同步的目标V型网络

来改进。这种更新可以转化为要最小化的损失

最常见的是平方损失。根据上面关于状态价值连续性的讨论，对Lipschitz常数V^π施加额外约束，以鼓励更平滑的函数逼近面。特别是，本公开在Lipschitz常数上引入惩罚参数λ＞0和惩罚项

来获得无约束问题：

根据本公开的一些实施方案，对于只有嵌入层或线性层(随后是ReLU激活)的神经网络，诸如上述的神经网络，定理1可以很容易地被应用，以使得惩罚项

计算由θ参数化的网络上的Lipschitz常数的精确值。本公开考虑到一种计算分层粗编码嵌入层的Lipschitz常数的方法，如上所述。特别是，嵌入过程可以由矢量矩阵乘积c(l_t)^TM来表示。嵌入过程的Lipschitz常数，在l₁规范下，可以从矩阵θ^M的最大绝对行和中得到。因为每一行都是对应于地理网格的嵌入向量，所以等同于对于每次梯度更新只对带有最大l₁规范的网格向量的嵌入参数进行惩罚。

图8展示子例程800的一个实施例，以实施具有分层粗编码时空嵌入的常规化价值估计，如下所示：

(810)给出：通过在环境中执行(未知)政策π来收集到的历史驾驶员轨迹

n个分层六边形量化函数{q₁，...，q_n}；常规化参数λ；最大迭代次数N；嵌入维度m；折扣系数γ；和目标更新区间C其中C＞0。

(820)从驾驶员轨迹中计算训练数据，作为(状态，奖励，下一个状态)图元的集合，例如

(830)通过将q_i应用于所有状态并收集结果来从训练数据中计算六边形区域的集合。

(840)从六边形集中计算六边形索引函数A(·)和索引集

从A和{q₁，...，q_n}获得CMAC函数c(·)。

(850)利用随机权重θ(包括嵌入权重

和线性层权重)初始化状态价值网络V。

(860)利用权重

初始化目标状态价值网络

(870)根据以下步骤来返回状态价值V：

1：for κ＝1，2，...，N do

2：对来自训练数据的随机迷你批次s_i，t，r_i，t，s_i，t+1进行采样。

3：将迷你批次转化为(特征，标签)格式，例如{(x_i，y_i)}，其中x_i通过应用CMAC x_i＝[c(l_i，t)，μ_i，t，v(l_i，t)]和

获得。

4：根据步骤(850)来计算迷你批次梯度

5：利用

在θ上执行梯度下降步骤。

6：ifκ mod C＝0then

7：

8：end if

9:end for

10:return V

在这个示例性实施方案中，步骤4和5更新由中性网络代表的价值函数的权重，直到收敛。中性网络的任何标准训练程序也是可以考虑的。

图9展示根据一实施方式的评估订单调度政策的示例性方法900的流程图。在该过程中，系统200获得(910)存储在输入数据库270中的初始输入数据集。输入模块280根据半马尔科夫决策过程对初始输入数据集进行建模。至少部分地基于所获得的初始输入数据集，输入模块280生成(920)驾驶员轨迹的历史作为输出。政策评估模块284接收输入模块280的输出，并至少部分地基于所接收的输出，确定(930)用于最大化与输入数据相关联的长期累积奖励的最佳政策。最佳政策的确定可以是根据价值函数的估计或逼近。政策评估模块284的输出被存储(940)在存储设备中的输出数据库272中。

附加地或备选地，系统200可以获得用于信息聚合和/或机器学习的训练数据274，以提高价值函数逼近(850)的准确性。至少部分地基于训练数据274，政策评估模块284更新最优政策的估计或逼近并产生更新的输出(830)。更新过程(例如，获得额外的训练数据)可以重复一次以上，以进一步改进价值函数逼近。例如，更新过程可以包括实时输入数据作为训练数据，实时输入数据从计算设备210传输。此外，为了改进由驾驶员感知的状态的连续性，训练过程可以包括更新价值函数逼近中的边界条件和/或可训练权重。政策评估模块284可以配置为运行一批训练数据274，以基于随机选择的多个权重来计算要使用的权重，与图8中展示的方法类似或相同。

上面描述的各种特征和过程可以相互独立使用，也可以以各种方式组合。所有可能的组合和子组合都是为了落在本公开的范围内。此外，在一些实施方案中可以省略某些方法或过程模块。本文描述的方法和过程也不限于任何特定的顺序，与之相关联的块或状态可以以其他适当的顺序执行。例如，所描述的区块或状态可以以具体披露的顺序以外的顺序执行，或者多个区块或状态可以结合在一个区块或状态中。示例性的块或状态可以以串行、并行或其他方式执行。块或状态可以被添加到所公开的示例性实施方式中或从其中移除。此处描述的示例性系统和成分的配置可以与描述的不同。例如，与所公开的示例性实施方式相比，可将元素添加到、移除或重新排列。

本文描述的示例性方法的各种操作可以至少部分地由算法执行。算法可以由存储在存储器(例如，上述的非暂时性计算机可读存储介质)中的程序代码或指令构成。这样的算法可以包括机器学习算法。在一些实施方式中，机器学习算法可以不明确地对计算机进行编程以执行某项功能，但可以从训练数据中学习以做出执行该功能的预测模型。

本文描述的示例性方法的各种操作可以至少部分地由一个或多个处理器执行，这些处理器被临时配置(例如，通过软件)或永久配置以执行相关操作。无论是临时配置还是永久配置，这样的处理器可以构成处理器实现的引擎，该引擎操作以执行本文所述的一个或多个操作或功能。

同样，本文所述的方法至少可以部分由处理器实现，特定的一个或多个处理器是硬件的示例。例如，方法的各操作中的至少一些可以由一个或多个处理器或处理器实现的引擎执行。此外，该一个或多个处理器也可以在“云计算”环境中或作为“软件即服务”(SaaS)操作，以支持相关操作的执行。例如，各操作中的至少一些可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以经由网络(例如，互联网)并经由一个或多个适当的接口(例如，应用程序接口(API))来访问。

某些操作的性能可以分布在各处理器之间，不仅驻留在一台机器内，而且部署在若干机器上。在一些示例性实施方式中，处理器或处理器实现的引擎可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器场内)。在其他示例性实施方式中，处理器或处理器实现的引擎可以分布在许多地理位置上。

在本说明书中，多个实例可以实现作为单一实例描述的成分、操作或结构。尽管一个或多个方法的单个操作被作为单独的操作进行说明和描述，但单个操作中的一个或多个可以同时进行，并且没有任何东西要求这些操作按照说明的顺序进行。在示例性配置中作为独立成分呈现的结构和功能可以作为组合结构或成分来实施。同样地，作为单一成分的结构和功能可以作为独立的成分来实现。这些和其他的变化、修改、补充和改进都属于本文的主题范围。

尽管已经参照具体的示例性实施方式描述了本主题的概况，但在不脱离本公开的更广泛的实施方式范围的情况下，可以对这些实施方式进行各种修改和变化。该主题的这些实施方式在这里可以单独或集体地用“发明”一词来称呼，这仅仅是为了方便，并不打算将本申请的范围自愿限制在任何单一的公开或概念上，如果事实上公开了一个以上的概念。

此处说明的实施方式已被描述得足够详细，以使本领域的技术人员能够实践所公开的教义。其他的实施方式可以被使用和衍生出来，这样的结构和逻辑上的替换和改变可以在不偏离本公开范围的情况下进行。因此，详细说明不应具有限制性意义，各种实施方式的范围仅由所附的权利要求书以及此类权利要求书所具有的全部等价物来界定。

本文描述的流程图和/或附图中描绘的任何流程描述、元素或块应理解为可能代表代码的模块、段或部分，其中包括用于实现流程中特定逻辑功能或步骤的一个或多个可执行指令。替代实施方案包括在本文所述的实施方式的范围内，其中元素或功能可以被删除，不按所示或讨论的顺序执行，包括基本上同时或以相反的顺序执行，这取决于所涉及的功能，这将被本领域的技术人员所理解。

如本文所使用的，术语“或”可以在包容或排斥的意义上解释。此外，可以为本文描述的资源、操作或结构提供复数实例，作为单一实例。此外，各种资源、操作、引擎和数据存储之间的界限在某种程度上是任意的，并且特定的操作是在特定的展示性配置的情境下展示的。其他功能的分配是可以设想的，并且可以落在本公开的各种实施方式的范围内。一般来说，在示例性配置中作为单独资源呈现的结构和功能可以作为组合结构或资源来实现。同样地，作为单一资源呈现的结构和功能可以作为单独的资源来实现。这些和其他的变化、修改、补充和改进都属于所附权利要求书所代表的本公开的实施方式的范围。因此，本说明书和附图应以说明性而非限制性的意义来看待。

条件性语言，例如，除其他外，“能够”、“可能”、“可以”或“会”，除非特别说明，或在使用的情境中以其他方式理解，一般旨在表达某些实施方式包括而其他实施方式不包括某些特征、元素和/或步骤。因此，这样的条件性语言一般不意味着特征、元素和/或步骤以任何方式是一个或多个实施方式所必需的，或一个或多个实施方式必须包括用于决定在有或没有用户输入或提示的情况下，这些特征、元素和/或步骤是否包括或在任何特定实施方式中执行的逻辑。

Claims

1.一种用于评估订单调度政策的系统，所述系统包括：

用于生成与驾驶员相关联的历史驾驶员数据的计算装置；

至少一个处理器；以及

存储指令的存储器，指令当由所述至少一个处理器执行时使所述至少一个处理器执行操作，所述操作包括：

获得所生成的与驾驶员相关联的历史驾驶员数据，

至少部分地基于所获得的历史驾驶员数据来估计与多个订单调度政策相关联的价值函数，以及

确定最佳订单调度政策，最佳订单调度政策与估计出的价值函数的最大值相关联。

2.根据权利要求1所述的系统，其中，所生成的历史驾驶员数据包括与驾驶员相关联的环境状态，环境状态包括驾驶员的时空状态和情境特征向量，情境特征向量与驾驶员的时空状态相关联。

3.根据权利要求2所述的系统，其中，情境特征向量指示出驾驶员的时空状态的附近的静态属性和供求信息。

4.根据权利要求2所述的系统，其中，所生成的历史驾驶员数据进一步包括驾驶员可用的选项，选项指示出驾驶员从第一时空状态过渡到第二时空状态，第二时空状态在时间上比第一时空状态更晚。

5.根据权利要求4所述的系统，其中，所生成的历史驾驶员数据进一步包括奖励，奖励指示出驾驶员从第一时空状态过渡到第二时空状态的持续时间内的总回报。

6.根据权利要求1所述的系统，其中，估计与多个订单调度政策相关联的价值函数进一步包括迭代地纳入训练数据并在每个迭代中更新价值函数的估计。

7.根据权利要求6所述的系统，其中，在每个迭代中更新价值函数的估计应用前馈中性网络。

8.根据权利要求7所述的系统，其中，前馈中性网络通过可训练权重矩阵进行参数化。

9.根据权利要求8所述的系统，其中，估计与多个订单调度政策相关联的价值函数进一步包括定期同步权重矩阵。

10.根据权利要求7所述的系统，其中，前馈中性网络包括惩罚参数和惩罚项。

11.一种评估订单调度政策的方法，所述方法包括：

生成与驾驶员相关联的历史驾驶员数据；

至少部分地基于所生成的历史驾驶员数据来估计与多个订单调度政策相关联的价值函数；以及

12.根据权利要求11所述的系统，其中，所生成的历史驾驶员数据包括与驾驶员相关联的环境状态，环境状态包括驾驶员的时空状态和情境特征向量，情境特征向量与驾驶员的时空状态相关联。

13.根据权利要求12所述的系统，其中，情境特征向量指示出驾驶员的时空状态的附近的静态属性和供求信息。

14.根据权利要求12所述的系统，其中，所生成的历史驾驶员数据进一步包括驾驶员可用的选项，选项指示出驾驶员从第一时空状态过渡到第二时空状态，第二时空状态在时间上比第一时空状态更晚。

15.根据权利要求14所述的系统，其中，所生成的历史驾驶员数据进一步包括奖励，奖励指示出驾驶员从第一时空状态过渡到第二时空状态的持续时间内的总回报。

16.根据权利要求11所述的系统，其中，估计与多个订单调度政策相关联的价值函数进一步包括迭代地纳入训练数据并在每个迭代中更新价值函数的估计。

17.根据权利要求16所述的系统，其中，在每个迭代中更新价值函数的估计应用前馈中性网络。

18.根据权利要求17所述的系统，其中，前馈中性网络通过可训练权重矩阵进行参数化。

19.根据权利要求18所述的系统，其中，估计与多个订单调度政策相关联的价值函数进一步包括定期同步权重矩阵。

20.根据权利要求17所述的系统，其中，前馈中性网络包括惩罚参数和惩罚项。