CN111937052B

CN111937052B - 用于车辆调度的系统和方法

Info

Publication number: CN111937052B
Application number: CN201880092272.5A
Authority: CN
Inventors: 张丁水
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2022-05-13
Anticipated expiration: 2038-04-10
Also published as: CN111937052A; US11068815B2; US20210027235A1; WO2019195996A1

Abstract

一种用于改进线上到线下服务中的调度策略的方法和系统。该方法包括获取与第一时间段相关的区域中的订单信息。该方法还包括确定与对应于第一时间段的区域中的至少两个司机相关的司机状态信息。该方法还包括基于订单信息和司机状态信息确定第一时间段中的区域中的至少两个司机的调度策略。调度策略优化线上线下服务从第一时间段开始的预估的全局收益。

Description

用于车辆调度的系统和方法

技术领域

本申请一般涉及用于线上到线下服务的系统和方法，尤其涉及用于改进基于位置的服务的系统和方法。

背景技术

利用互联网技术的线上到线下服务因其便利性而越来越受欢迎。为了优化在地区(例如，城市)的不同区域中生成的服务订单的分配，线上到线下服务平台应该将可用的司机精确且合理地从较少服务订单的区域调度到具有更多服务订单的区域。因此，应该提供一种改进基于位置的服务的系统和方法。

发明内容

本申请的一个方面，提供了一种用于确定调度策略的系统。所述系统可以包括至少一个存储介质和与该至少一个存储介质通信的至少一个处理器，所述至少一个存储介质存储有一组指令。当至少一个处理器执行该组指令时，所述至少一个处理器可以用于获取与第一时间段相关的区域中的订单信息。所述区域可包括至少两个地理网格。所述至少一个处理器还可以用于确定与第一时间段相对应的区域中的司机状态信息。司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息。所述至少一个处理器还可以用于基于司机状态信息、订单信息以及从第二时间段开始的区域内司机的期望价值，确定第一时间段中至少两个司机的调度策略。其中第二时间段可以紧接在第一时间段之后。调度策略可以优化线上线下服务从第一时间段开始的估计的全局收益。从第二时间段开始的区域中的司机的期望价值基于至少两个历史时间段得到。至少两个历史时间段可以与第二时间段相关。

本申请的另一方面，提供了一种用于确定调度策略的方法。所述方法可以包括获取与第一时间段相关的区域中的订单信息。所述区域可包括至少两个地理网格。所述方法还可以包括确定对应于第一时间段的区域中的司机状态信息。司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息。所述方法还可以包括基于司机状态信息、订单信息和从第二时间段开始的区域中的司机的期望价值来确定第一时间段中的至少两个司机的调度策略。其中第二时间可以紧接在第一时间段之后。调度策略可以优化线上线下服务从第一时间段开始的估计的全局收益。从第二时间段开始的区域中的司机的期望价值基于至少两个历史时间段得到。至少两个历史时间段可以与第二时间段相关。

本申请的又一个方面，提供了一种非暂时性计算机可读介质，其包括用于确定调度策略的至少一组指令。当至少一组指令由至少一个处理器执行时，非暂时性计算机可读介质可以使至少一个处理器实现一种方法。所述方法可以包括获取与第一时间段相关的区域中的订单信息。所述区域可包括至少两个地理网格。所述方法还可以包括确定对应于第一时间段的区域中的司机状态信息。司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息。所述方法还可以包括基于司机状态信息、订单信息和从第二时间段开始的区域中的司机的期望价值来确定第一时间段中的至少两个司机的调度策略。其中第二时间可以紧接在第一时间段之后。调度策略可以优化线上线下服务从第一时间段开始的估计的全局收益。从第二时间段开始的区域中的司机的期望价值基于至少两个历史时间段得到。至少两个历史时间段可以与第二时间段相关。

在一些实施例中，所述订单信息是基于与至少两个历史交易相关的至少两个历史订单的记录得到的。

在一些实施例中，所述订单信息包括与所述第一时间段相关的至少两个地理网格中的至少两个历史订单有关的信息，并且与所述至少两个历史订单中的每个历史订单有关的信息包括与历史订单相关的起始位置、与历史订单相关的目的地、与历史订单相关的价值。

在一些实施例中，司机状态信息可以包括指示司机是否可用的信息、司机的当前位置、与司机相关的车辆的速度、司机接受的订单的起始位置和目的地、所述至少两个地理网格的每个地理网格中的司机数量中的至少一个。

在一些实施例中，为了确定对应于第一时间段的区域中的司机状态信息，所述至少一个处理器可以用于基于司机状态信息确定第一时间段中可用的司机的数量。所述至少一个处理器还可以用于基于与对应于第一时间段的至少两个司机相关的司机状态信息来确定将在至少一个未来时间段中可用的司机的数量。其中，至少一个未来时间段可以晚于第一时间段。

在一些实施例中，可以用目标函数来确定第一时间段中区域中的至少两个司机的调度策略。所述目标函数可以基于第一收益函数和第二收益函数得到的。第一收益函数可以基于司机状态信息和订单信息得到。第二收益函数可以用于确定从第二时间段开始的所述区域内的司机的期望价值，第二收益函数可以基于订单信息、司机状态信息和至少两个价值函数得到。至少两个价值函数可以与至少两个历史时间段相关。

在一些实施例中，为了获取至少两个价值函数，所述至少一个处理器可以用于初始化所述至少两个价值函数中的每一个价值函数，并获取在所述至少两个地理网格中每一个地理网格内与所述至少两个历史时间段中每个历史时间段相关的训练数据。所述至少一个处理器还可以用于基于训练数据确定在所述至少两个地理网格的地理网格中的所述至少两个历史时间段的第一历史时间段中的第一历史订单信息和在所述地理网格中对应于所述第一历史时间段的第一历史司机状态信息。所述至少一个处理器还可以用于基于第一历史订单信息、第一历史司机状态信息和第二价值函数来更新第一价值函数。第一价值函数可以表示在所述第一历史时间段中确定的、将在至少两个历史时间段的一个或以上第三历史时间段中一个第三历史时间段内在所述地理网格中的可用的司机的价值。第二价值函数可以表示在所述至少两个历史时间段的第二历史时间段中确定的、将在所述第三历史时间段内在所述地理网格中可用的司机的价值。第三历史时间段晚于第一历史时间段。第二历史时间段可以紧接在第一历史时间段之后。

在一些实施例中，基于第一历史订单信息、第一历史司机状态信息和第二价值函数来更新第一价值函数，所述至少一个处理器可以基于第一历史司机状态信息，确定在第二历史时间段中确定的、在所述第三历史时间段内在至少两个地理网格的所述地理网格中可用的司机的第一数量。所述至少一个处理器还可以用于基于第一历史订单信息、第一历史司机状态信息和第二价值函数来生成与第一历史时间段相关的历史目标函数。所述至少一个处理器还可以用于确定关于所述司机的第一数量的历史目标函数的左梯度和右梯度。所述至少一个处理器还可以使用凹自适应值估计算法，基于左梯度、右梯度、第一司机数量和第二价值函数来更新第一价值函数。

在一些实施例中，所述至少两个价值函数中的每个价值函数可以是分段凹函数。

在一些实施例中，司机状态信息来自所述区域内与所述至少两个司机相关的终端。当执行该组指令时，所述至少一个处理器可以基于所述调度策略将消息发送到与所述至少两个司机相关的一个或以上终端上。

本申请的一部分附加特性可以在下面的描述中进行说明。通过对以下描述和相应附图的研究或者对实施例的生产或操作的了解，本申请的一部分附加特性对于本领域技术人员是明显的。本申请的特征可以通过对以下描述的具体实施例的各种方面的方法、手段和组合的实践或使用得以实现和达到。

附图说明

本申请将结合示例性实施例进行进一步描述。这些示例性实施例将结合附图进行详细描述。附图不是按比例绘制的。这些实施例是非限制性的示例性实施例，在这些实施例中，各图中相同的编号表示相似的结构，其中：

图1是根据本申请的一些实施例示出的示例性线上到线下服务系统的示意图；

图2是根据本申请的一些实施例示出的计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例示出的移动设备的示例性硬件组件和/或软件组件的示意图；

图4是根据本申请的一些实施例示出的示例性处理引擎的框图；

图5是根据本申请的一些实施例示出的用于确定调度策略的示例性流程的流程图；

图6是根据本申请的一些实施例示出的示例性训练模块的框图；

图7是根据本申请的一些实施例示出的用于训练价值函数的示例性流程的流程图；

图8是根据本申请的一些实施例示出的示例性价值函数更新单元的框图；以及

图9是根据本申请的一些实施例示出的使用凹自适应值估计(Concave AdaptiveValue Estimation，CAVE)算法更新价值函数的示例性流程的流程图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员而言，对本申请披露的实施例进行的各种修改是显而易见的，并且本申请中定义的通则在不背离本申请的精神及范围的情况下，可以适用于其他实施例及应用场景。因此，本申请不限于所示的实施例，而是符合与申请专利范围一致的最广泛范围。

本申请中所使用的术语仅用于描述特定的示例性实施例，并不限制本申请的范围。如本申请使用的单数形式“一”、“一个”及“该”可以同样包括复数形式，除非上下文明确提示例外情形。还应当理解，如在本申请说明书中，术语“包括”、“包含”仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其他特征、整体、步骤、操作、组件、部件和/或其组合的情况。

根据以下对附图的描述，本申请的这些和其他的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的系统所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

此外，尽管本申请中的系统和方法主要涉及线上到线下运输服务，但是还应该理解，这仅是一个示例性实施例。本申请的系统或方法可以应用于任何其他类型的按需服务。例如，本申请的系统和方法还可应用于包括陆地、海洋、航空太空等或其任意组合的不同运输系统。所述运输系统的交通工具可以包括出租车、私家车、顺风车、公交车、火车、动车、高铁、地铁、船舶、飞机、飞船、热气球、无人驾驶的车辆等或其任意组合。所述运输系统也可以包括管理和/或分配的任一运输系统，例如，发送和/或接收快递的系统。本申请的系统和方法的应用场景可以包括网页、浏览器插件、客户端、客户系统、内部分析系统、人工智能机器人等或其任意组合。

在本申请中，术语“乘客”、“请求者”、“服务请求者”和“客户”可互换使用，其表示可以请求或订购服务的个人、实体或工具。此外，本申请中的术语“资源”、“司机”、“提供者”、“服务提供者”和“供应者”可用于表示提供服务或协助提供服务的个人、实体或工具，并且可互换使用。本申请中的术语“用户”可以指代可以请求服务、订购服务、提供服务或促进提供服务的个体、实体或工具。例如，用户可以是乘客、司机、操作者等或其任意组合。在本申请中，“乘客”和“乘客端”可以交换使用，而且“司机”和“司机端”可以交换使用。

在本申请中，术语“服务请求”和“订单”可以交换使用，其表示由乘客、请求者、服务请求者、客户、司机、提供者、服务提供者、供应者等或上述举例的任意组合所发起的请求。所述服务请求可以由乘客、请求者、服务请求者、客户、司机、提供者、服务提供者或供应者中的任何一个接受。服务请求可以是计费的也可是免费的。

本申请中使用的定位技术可以包括全球定位系统(GPS)、全球卫星导航系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、无线保真(Wi-Fi)定位技术等或其任意组合。上述定位技术中的一种或以上可以在本申请中互换使用。

本申请的一个方面涉及用于基于订单信息和司机状态信息确定调度策略的系统和方法。根据本申请，系统可以获取在至少两个地理网格内的订单信息和在至少两个地理网格内与至少两个司机相关的司机状态信息。系统可以估计最佳的全局收益，并基于至少两个地理网格中的订单信息、至少两个地理网格中与至少两个司机相关的司机状态信息和价值函数来确定调度策略。价值函数可以被构造为分段线性近似。可以基于凹自适应值估计(CAVE)算法来求解/更新价值函数的分段线性近似。因此，它提高了线上到线下服务平台的调度策略和全局收益的准确性。

应该注意的是，总的来说基于订单信息和司机状态信息确定调度策略是一种深深植根于互联网世界的技术。如果没有实时GPS定位和终端与服务器之间的实时通信的可能性，则车辆(或司机)的分配可能是不可能的。因此，本申请中披露的技术方案也是一种深深植根于互联网时代的技术。

图1是根据本申请的一些实施例示出的示例性线上到线下服务系统100的示意图。例如，线上线下服务系统100可以是用于运输服务的在线运输服务平台，例如出租车呼叫、代驾服务、配送车辆、拼车、公交车服务、司机雇佣和班车服务。线上线下服务系统100可以是在线平台，可以包括服务器110、网络120、请求者终端130、提供者终端140和存储器150。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式的系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以通过网络120访问储存在请求者终端130、提供者终端140和/或存储器150中的信息和/或数据。又例如，服务器110可以直接连接到请求者终端130、提供者终端140和/或存储器150以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在本申请中的图2描述的包含了一个或以上组件的计算设备200上执行。

在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与司机的调度有关的信息和/或数据，以执行本申请中描述的一个或以上的功能。例如，处理引擎112可以获取订单信息和司机状态信息，并基于订单信息和司机状态信息确定调度策略。在一些实施例中，所述处理引擎112可包括一个或以上处理引擎(例如，单芯片处理引擎或多芯片处理引擎)。仅作为示例，处理引擎112可以包括一个或以上硬件处理器，例如中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可编程逻辑设备(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任意组合。

网络120可以促进信息和/或数据的交换。在一些实施例中，线上线下服务系统100中的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140、存储器150和定位系统160)可以通过网络120将信息和/或数据发送到线上线下服务系统100中的其他组件。例如，服务器110可以通过网络120从请求者终端130获取/获取服务请求。在一些实施例中，网络120可以是有线网络或无线网络等或其任意组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共开关电话网络(PSTN)、蓝牙网络、Zigbee网络、近场通信(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可包括有线或无线网络接入点，比如基站和/或互联网交换点120-1、120-2......，通过该网络接入点，线上到线下服务系统100的一个及以上组件可以连接至网络120以交换信息和/或数据。

在一些实施例中，请求者可以是请求者终端130的用户。在一些实施例中，请求者终端130的用户可以是除请求者之外的其他人。例如，请求者终端130的用户A可以通过请求者终端130为用户B发送服务请求，或从服务器110处接收服务和/或信息或指令。在一些实施例中，提供者可以是提供者终端140的用户。在一些实施例中，提供者终端140的用户可以为除该提供者之外的其他人。例如，提供者终端140的用户C可以为用户D通过提供者终端140接收服务请求和/或从服务器110处接收信息或指令。在一些实施例中，“请求者”和“请求者终端”可互换使用，“提供者”和“提供者终端”可互换使用。

在一些实施例中，请求者终端130可以包括移动设备130-1、平板电脑130-2、掌上电脑130-3、车辆内置设备130-4等或其任意组合。在一些实施例中，移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等，或其任意组合。在一些实施例中，可穿戴设备可以包括手环、鞋袜、眼镜、头盔、手表、衣物、背包、智慧配饰等或其任意组合在一些实施例中，移动设备可以包括移动电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)设备、膝上型电脑、台式机等或其任意组合。在一些实施例中，虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括Google Glass^TM、RiftCon^TM、Fragments^TM、GearVR^TM等。在一些实施例中，车辆内置设备130-4可以包括车载计算机、车载电视等。在一些实施例中，请求者终端130可以是带有定位技术的设备，用于定位请求者和/或请求者终端130的位置。

在一些实施例中，提供者终端140可以是与请求者终端130类似或相同的设备。在一些实施例中，提供者终端140可以是利用定位技术来定位提供者终端140(例如，服务提供者)和/或提供者终端140的用户的位置的设备。在一些实施例中，请求者终端130和/或提供者终端140可以与一个或以上其他定位设备通信以确定请求者、请求者终端130、提供者和/或提供者终端140的位置。在一些实施例中，请求者终端130和/或提供者终端140可以将定位信息发送至服务器110。

存储器150可以储存数据和/或指令。在一些实施例中，存储器150可以存储从请求者终端130和/或提供者终端140获取的数据。在一些实施例中，存储器150可以储存服务器110用来执行或使用以完成本申请中描述的示例性方法的数据和/或指令。在一些实施例中，存储器150可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性大容量存储器可以包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、拉链盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可包括动态随机存取存储器(DRAM)、双倍数据速率同步动态随机存取存储器(DDR SDRAM)、静态随机存取存储器(SRAM)、晶闸管随机存取存储器(T-RAM)和零电容随机存取存储器(Z-RAM)等。示例性只读存储器(ROM)可以包括掩模型只读存储器(MROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)和数字多功能磁盘只读存储器等。在一些实施例中，所述存储器150可在云平台上实现。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储器150可以连接到网络120以与线上线下服务系统100中的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140)通信。线上到线下服务系统100的一个或以上组件可以通过网络120访问存储在存储器150中的数据或指令。在一些实施例中，存储器150可以直接连接到线上线下服务系统100(例如，服务器110、请求者终端130、提供者终端140)中的一个或以上组件或与之通信。在一些实施例中，所述存储器150可以是所述服务器110的一部分。

在一些实施例中，线上线下服务系统100中的一个或以上组件(例如，服务器110、请求者终端130、提供者终端140)可以具有访问存储器150的许可。在一些实施例中，当满足一个或以上条件时，线上线下服务系统100中的一个或以上组件可以读取和/或修改与请求者、提供者和/或公众有关的信息。例如，在完成一个服务后，服务器110可以读取和/或修改一个或以上用户的信息。又例如，当从请求者终端130接收到服务请求时，提供者终端140可以访问与所述请求者相关的信息，但提供者终端140无法修改请求者的相关信息。

在一些实施例中，线上线下服务系统100中的一个或以上组件的信息交换可以通过请求服务来实现。服务请求的对象可以为任何产品。在一些实施例中，产品可以是有形产品或非物质产品。有形产品可包括食品、药品、商品、化学产品、电器、服装、汽车、房屋、奢侈品等，或其任意组合。非物质产品可以包括服务产品、金融产品、知识产品、互联网产品等，或其任意组合。互联网产品可以包括个人主机产品、网站产品、移动互联网产品、商业主机产品、嵌入式产品等或其任意组合。移动互联网产品可以用于移动终端的软件、程序、系统等或其任意组合。移动终端可以包括平板计算机、膝上型计算机、移动电话、个人数字助理(PDA)、智能手表、POS设备、车载计算机、车载电视、可穿戴设备等或其任意组合。例如，所述产品可以是在计算机或移动电话上使用的任何软件和/或应用。该软件和/或应用程序可以与社交、购物、交通、娱乐、学习、投资等，或其任意组合相关。在一些实施例中，所述与运输有关系统软件和/或应用程序可以包括出行软件和/或应用程序、车辆调度软件和/或应用程序、地图软件和/或应用程序等。在车辆调度软件和/或应用程序中，车辆可以是马、马车、人力车(例如，独轮手推车、脚踏车、三轮车等)、汽车(例如，出租车、公交车、私人汽车等)、列车、地铁、船舶、飞行器(例如，飞机、直升机、航天飞机、火箭、热气球等)或其任意组合。

本领域普通技术人员可以理解，当线上线下服务系统100的元件执行时，该元件可以通过电信号和/或电磁信号执行。例如，当请求者终端130处理诸如做出确定、识别或选择对象的任务时，请求者终端130可以在其处理器中操作逻辑电路以处理这样的任务。当请求者终端130向服务器110发出服务请求时，服务请求者终端130的处理器可以生成编码服务请求的电信号。请求者终端130的处理器然后可以将电信号发送到输出端口。如果请求者终端130经由有线网络与服务器110通信，输出端口可以物理连接到电缆，电缆还可以将电信号传输到服务器110的输入端口。如果请求者终端130经由无线网络与服务器110通信，请求者终端130的输出端口可以是一个或以上天线，其可以将电信号转换为电磁信号。类似地，提供者终端140可以通过其处理器中的逻辑电路的操作来处理任务，并且经由电信号或电磁信号从服务器110接收指令和/或服务请求。在电子设备(如请求者终端130、提供者终端140和/或服务器110)中，当其处理器处理指令、发出指令和/或执行动作时，可以通过电信号处理指令和/或执行动作。例如，当处理器从存储介质(例如，存储器150)检索或保存数据时，它可以将电信号发送到存储介质的读/写设备，其可以在存储介质中读取或写入结构化数据。该结构化数据可以电信号的形式经由电子设备的总线传输至处理器。此处，电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。

图2是根据申请的一些实施例示出的计算设备200的示例性硬件和软件组件的框图，其上可以实现本申请所述服务器110、请求者终端130和/或提供者终端140相应的功能。例如，所述处理引擎112可以在所述计算设备200上实施并执行本申请所披露的所述处理引擎112的功能。

计算设备200可用于实现如本申请所述的线上线下服务系统100的任何组件。例如，处理引擎112可以在计算设备上通过其硬件、软件程序、固件或其组合实现。尽管仅示出了一个这样的计算机，但是为了方便，与本申请所述的线上线下服务有关的计算机功能可以在多个类似平台上以分布式方式实现，以分配处理负载。

例如，计算设备200可以包括与网络连接的通信(COM)端口250，以便于数据通信。计算设备200还可以包括处理器(例如，处理器220)，其形式为一个或以上处理器(例如，逻辑电路)，用于执行程序指令。例如，处理器可以包括在其中的接口电路和处理电路。接口电路可以被配置为从总线210接收电信号，其中电信号编码用于处理电路的结构化数据和/或指令。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码为电信号。然后，接口电路可以经由总线210从处理电路发出电信号。

示例性的计算机平台可以包括内部通信总线210、程序内存和不同形式的数据存储器，例如，磁盘270、只读存储器(ROM)230或随机存取存储器(RAM)240，用于存储由计算机处理和/或传输的各种各样的数据文件。示例性的计算机平台也包括存储在ROM 230、RAM240和/或其他形式的非暂时性存储介质中的能够被处理器220执行的程序指令。本申请的方法和/或流程可以实现为程序指令。计算设备200也包括输入/输出组件260，用于支持计算机与其他组件之间的输入/输出。计算设备200也可以通过网络通信接收编程和数据。

仅仅为了说明，计算设备200中仅示例性描述了一个CPU和/或处理器。然而，需要注意的是，本申请中的计算设备200可以包括多个CPU和/或处理器，因此本申请中描述的由一个CPU和/或处理器实现的操作和/或方法也可以共同地或独立地由多个CPU和/或处理器实现。例如，如果在本申请中计算设备200的CPU和/或处理器执行步骤A和步骤B两者，则应该了解，步骤A和步骤B也可以由计算设备200的两个不同的CPU和/或处理器共同地或独立地执行(例如，第一处理器执行步骤A并且第二处理器执行步骤B，或者第一和第二处理器共同地执行步骤A和B)。

图3是根据本申请的一些实施例示出的移动设备300的示例性硬件和/或软件组件的示意图，终端130可以在移动设备300上实现。如图3所示，移动设备300可以包括通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出(I/O)350、内存360和存储器390。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。在一些实施例中，移动操作系统370(如，iOS^TM、Android^TM、Windows Phone^TM)和一个或以上应用380可以从存储器390加载到内存360中以便由CPU 340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序，用于接收及呈现与图像处理相关的信息或处理引擎112中的其他信息。用户与信息流的交互可以通过I/O 350实现，并通过网络120提供给处理引擎140和/或线上线下服务系统100的其他组件。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本申请中描述之一个或以上元件的硬件平台。具有用户接口元件的计算机可用于实施个人计算机(PC)或任何其他类型的工作站或终端设备。若程控得当，计算机亦可用作服务器。

图4是根据本申请的一些实施例示出的示例性处理引擎112的框图。处理引擎112可以包括订单信息获取模块410、司机状态信息获取模块420、调度策略确定模块430和训练模块440。

订单信息获取模块410可以获取区域中与第一时间段相关的订单信息。所述区域可以包括至少两个地理网格。在一些实施例中，处理引擎112(例如，订单信息获取模块410)可以从本申请中其他地方披露的存储设备(例如，存储器150)获取与第一时间段相关的订单信息。在一些实施例中，与第一时间段相关的订单信息可以基于与至少两个历史交易相关的至少两个历史订单的记录来估计。订单信息可以包括与历史订单的数量、历史订单的分布、与每个历史订单相关的开始时间、与每个历史订单相关的起始位置、与每个历史订单相关的目的地，以及与每个历史订单相关的价值等信息，或其任意组合。在一些实施例中，至少两个历史订单可以在至少一个历史日的历史时间段中生成。

在一些实施例中，时间段可以对应于一天的特定时间段，并且一天可以均匀地或不均匀地分成至少两个时间段。在一些实施例中，第一时间段可以对应于至少两个时间段中的一个。在一些实施例中，第一时间段可以指当前时间段。

司机状态信息获取模块420可以获取区域内对应于第一时间段的司机状态信息。在一些实施例中，司机状态信息可包括在至少两个地理网格中的与至少两个司机相关的信息。司机状态信息可以包括指示至少两个司机中的司机是否可用、至少两个司机中每个司机的当前位置、至少两个司机中每个司机的车辆的速度、至少两个司机中每个司机服务的订单的起始位置和目的地等的信息，或其任意组合。在一些实施例中，对应于第一时间段的至少两个司机可以指运输服务平台的在线的司机(这里也称为在线司机)。在线司机可在包括在第一时间段中的可用司机和不可用司机。在一些实施例中，司机状态信息获取模块420还可以基于与对应于第一时间段的至少两个司机相关的司机状态信息，确定在第一时间段的未来时间段中可用的司机的数量。

调度策略确定模块430可以基于司机状态信息、订单信息和从第二时间段开始将在区域中可用于调度的司机的期望价值，确定第一时间段中的至少两个司机的调度策略。第二时间段可以紧接在第一时间段之后。在一些实施例中，第一时间段中的至少两个司机的调度策略可以包括指示如何将在第一时间段中生成的订单分配给至少两个司机的信息。在一些实施例中，基于调度策略，第一时间段中的新订单不会分配给在第一时间段中不可用的司机。在一些实施例中，可以在有或没有可用的情况下将第一时间段中可用的司机从地理网格重新定位到另一个地理网格。

在一些实施例中，可以用目标函数确定调度策略。目标函数可以优化线上线下服务系统100的预估的全局收益，从第一时间段开始(例如，从第一时间段的开始、结束或中点开始)直到一天结束。基于目标函数确定的调度策略可以为线上线下服务系统100获得最佳的全局收益。在一些实施例中，调度策略确定模块430可以基于第一收益函数和第二收益函数来确定目标函数。第一收益函数可以指第一时间段中的调度策略可以为线上线下服务系统100在第一时间段中产生的短期收益。第二收益函数可以指第一时间段(例如，t₀)中的调度策略可以为线上线下服务系统100从第一时间段的下一个时间段(例如，t₀+1)开始直到一天结束产生的预估的长期收益。在一些实施例中，调度策略确定模块430可以基于至少两个价值函数来确定第二收益函数。

训练模块440可以基于训练数据训练价值函数。在一些实施例中，训练数据可以是与过去(例如，过去30天中的任意一天)的任意时间段(例如，在此用作示例目的的一天)相对应的数据。在一些实施例中，训练数据可以是对应于过去(例如，过去30天内的两个或以上任意天数)两个或以上任意天数的数据的统计结果(例如，平均值或中值)。在一些实施例中，训练数据可包括与任意历史时间段相关的历史订单信息和与任意历史时间段相关的历史司机状态信息。在一些实施例中，价值函数可以确定将在第一时间段和第一时间段的未来时间段中可用于调度的司机的期望价值。在一些实施例中，未来时间段可以晚于第一时间段。

应该注意的是，以上描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，订单信息获取模块410和司机状态信息获取模块420可以组合为单个模块。组合的单个模块可以被配置以获取订单信息和司机状态信息。

图5是根据本申请的一些实施例示出的用于确定调度策略的示例性流程500的流程图。流程500可以实现为存储在存储器ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220和/或图2中示出的模块可以执行该组指令，并且当执行指令时，可以将其配置为执行流程500。以下所示流程的操作仅出于说明的目的。在一些实施例中，可以利用未描述的一个或以上附加操作和/或没有讨论的一个或以上操作来完成流程500。另外，如图5所示和下面描述的流程操作的顺序不是限制性的。

在510中，处理引擎112(例如，订单信息获取模块410)可以获取在区域中与第一时间段(t₀)相关的订单信息。在一些实施例中，处理引擎112可以从本申请中其他地方披露的存储设备(例如，存储器150)获取与第一时间段相关的订单信息。

一天的时间段的数量和时间段的长度可以是预设的，并且可以是任意的。例如，时间段的数量可以包括但不限于144、288、720或任何其他值。当一天均匀划分时，时间段的长度可相应地包括但不限于10分钟、5分钟、2分钟或任何其他值。在一些实施例中，一天中的时间段可以如公式(1)所示：

T＝{t|0，1，2，...，(N-1)} (1)

其中，T指包含N个元素的集合，N指一天中时间段的总数，t指的是时间段。当t＝t₀时，t指的是第一时间段。为了说明的目的，如本申请使用的，一天可以平均分成144时间段(即，N＝144)，并且时间段的长度为10分钟。

根据公式(1)，变量t的特定值可以对应于一天的特定时间段。例如，当N＝144时，t＝0可以对应于从凌晨00：00到凌晨00：10的时间段。

在一些实施例中，可以基于与至少两个历史交易相关的至少两个历史订单的记录来预估与第一时间段相关的订单信息。历史订单可以来自与至少两个乘客相关的终端，并且可以被发送到与所述区域中的至少两个司机相关的终端。如本申请所用，术语“交易”是指车辆的司机将乘客从一个位置(与订单相关的起始位置)驾驶到另一个位置(例如，与该订单相关的目的地)的服务的交易。区域中与第一时间段相关的订单信息可以包括关于第一时间段中的历史订单的数量、第一时间段中的历史订单的分布、与历史订单相关的开始时间、与历史订单相关的起始位置、与历史订单相关的目的地，以及与历史订单相关的价值等信息，或其任意组合。与订单相关的价值可以指与订单相关的乘客在与线上线下服务平台相关的司机完成订单时支付的费用总数。在一些实施例中，至少两个历史订单可以在至少一个历史日的历史时间段中生成。在一些实施例中，历史时间段可以是与第一时间段相同的时间段。例如，第一时间段可以是拥堵时间(例如，上午7:30至约7:40)。处理引擎112可以基于在至少一个历史日的相应历史时间段(例如，上午7:30至约7:40)中生成的至少两个历史订单的记录来估计订单信息。在一些实施例中，至少一个历史日可以是过去七天、过去十天、过去一个月等中的至少一个任意日。例如，当第一时间段是工作日(例如星期一)的时间段时，处理引擎112可以基于在过去七天、过去十天、过去一个月等的相同或不同工作日中在历史时间段中生成的至少两个历史订单的记录来估计订单信息。在一些实施例中，处理引擎112可以基于在过去一周、过去两周、过去一个月、过去两个月等的两个或以上相同或不同的工作日的历史时间段中生成的至少两个历史订单的记录的平均值或中值来估计与第一时间段相关的订单信息。

在一些实施例中，订单信息可以与区域相关。在某些实施例中，所述区域可以被划分为至少两个地理网格。所述区域可以包括但不限于城市的区、城市的至少两个区、城市、至少两个城市等。区域的地理网格的数量和地理网格的直径可以是预设的，并且可以是任意的。例如，区域的地理网格的数量可以包括但不限于1000、3000、10000或任何其他值，并且地理网格的直径可以包括但不限于100m、700m、1000m或任何其他值。在一些实施例中，地理网格可以如公式(2)所示：

i，j∈J (2)

其中，i和j分别指一个特定的地理网格，并且J指的是区域的所有地理网格组。如这里所使用的，区域(例如，北京)可以被划分为3000个地理网格(即，J可以包括3000个地理网格)。公式(2)中的网格i和网格j可以表示相同或不同的地理网格。

在520中，处理引擎112(例如，司机状态信息获取模块420)可以获取区域中对应于第一时间段的与至少两个司机相关的司机状态信息。在一些实施例中，司机状态信息可以包括与至少两个地理网格中的至少两个司机有关的信息。司机状态信息可包括指示司机是否可用、司机的当前位置、司机的车辆的速度、司机所服务的订单的起始位置和目的地、至少两个地理网格中每个地理网格内的司机的数量等信息，或其任意组合。在一些实施例中，对应于第一时间段的至少两个司机可以指运输服务平台上在线的司机(这里也称为在线司机)。在线司机可以包括第一时间段中的可用司机和不可用司机。

在一些实施例中，处理引擎112可以基于区域中与第一时间段对应的至少两个司机相关的司机状态信息进一步确定在第一时间段和第一时间段的未来时间段中将首先可用的司机的数量。例如，基于对应于第一时间段的司机的当前位置、由司机驾驶的车辆的速度和由司机服务的订单的起始位置和目的地，处理引擎112可以确定司机将到达目的地的时间。类似地，对于目的地相同的至少两个订单，处理引擎112可以确定可以在第一时间段的特定未来时间段中到达相同目的地的司机的数量。可以在特定未来时间段中到达相同目的地的司机可以在特定未来时间段中可用。在一些实施例中，未来时间段可以晚于第一时间段。未来时间段和第一时间段(当τ＝0时)中可用的司机数量可以如公式(3)和(4)所示：

R_tt′＝(R_itt′)_{i∈J，t，t′∈T} (3)

t′＝t+τ，τ＝0，1，..，τ_mmax-1 (4)其中，t＝t₀，t′可以指时间段(包括第一时间段(当τ＝0)或相对于第一时间段t₀的未来时间段(当τ＝1，..，τ_max时)，并且t′∈T。τ指的是司机从一个地理网格到另一个地理网格的行驶时间，τ_max是指司机从一个地理网格到另一个地理网格的最长行驶时间。R_itt′，作为R_tt′的元素，指的是在第一时间段t₀中估计的、将在时间段t′中在地理网格i中可用的司机的数量。

根据公式(4)，当τ＝0(即，t′＝t)时，R_itt可以指在第一时间段中在地理网格i中可用的司机的数量。

在一些实施例中，司机从一个地理网格到另一个地理网格的最长行驶时间可以是预设的，并且可以是任意的。例如，对应于最长行驶时间的时间段的数量可以包括但不限于2、6、20或任何其他值。在一些实施例中，可以基于历史经验或实验数据来确定预设的最长行驶时间。例如，基于历史经验或实验数据，线上线下服务系统100可以发现当司机可以在一小时内从一个位置(例如，司机的当前位置)移动到另一个位置(例如，与调度相关的目的地)时，调度司机更实用。因此，当时间段的持续时间是十分钟时，线上线下服务系统100可以将预设值6作为最长行驶时间，即τ_max＝6。

在530中，基于订单信息、司机状态信息和从第二时间段开始将在所述区域可进行调度的司机的期望价值，处理引擎112(例如，调度策略确定模块430)可以确定第一时间段中在区域内的至少两个司机的调度策略。第二时间段可以紧接在第一时间段之后。

在一些实施例中，第一时间段中的至少两个司机的调度策略可以包括指示如何将在第一时间段中生成的订单分配给至少两个司机的信息。在一些实施例中，基于调度策略，第一时间段中的新订单不会分配给在第一时间段中不可用的司机。在一些实施例中，可以基于调度策略将第一时间段中可用的司机从一个地理网格重新定位到另一个地理网格。在一些实施例中，调度策略可以包括第一矢量和第二矢量，分别由x_t以及y_t表示。第一矢量的元素可以指示在第一时间段t₀中是否将订单分配给在地理网格内的司机。第一矢量的元素的数量可以对应于起始位置在特定地理网格处的订单的数量。在一些实施例中，第一矢量和第一矢量的元素可以如公式(5)和(6)所示：

其中，t＝t₀，l指的是要服务的订单，

是指在第一时间段t₀中起始位置在地理网格i的订单组，x_lt指的是指示在第一时间段t₀中是否将订单l分配给司机的值。

在一些实施例中，第二矢量可以包括区域内任何两个地理网格之间重新定位的司机的数量，所述重新定位在第一时间段开始。第二矢量可以包括至少两个元素。第二矢量的元素可以指示从一个地理网格重新定位到另一个地理网格的司机的数量，其中，所述重新定位在第一时间段开始。在一些实施例中，第二矢量和第二矢量的元素可以如公式(7)所示：

y_t＝(y_ijt)_i，j∈J (7)

其中，t＝t₀，y_ijt是指从地理网格i重新定位到地理网格j的司机数量，其中，重新定位从第一时间段t₀开始。在一些实施例中，从地理网格i重新定位到地理网格j的司机可以是可用的或不可用的。

当确定调度策略时，处理引擎112可以基于调度策略将消息发送到与至少两个司机相关的一个或以上终端。当司机收到消息时，他/她可以根据消息将他/她的车辆驾驶到特定的地理网格。

在一些实施例中，可以基于目标函数来确定区域内第一时间段中至少两个司机的调度策略。目标函数可以优化线上线下服务系统100的预估的全局收益，从第一时间段开始(例如，从第一时间段的开始、结束或中点开始)直到一天结束。基于目标函数确定的调度策略可以为线上线下服务系统100获得最佳的全局收益。在一些实施例中，可以基于第一收益函数和第二收益函数来确定目标函数。第一收益函数可以指第一时间段中的调度策略可以为线上线下服务系统100在第一时间段中产生的短期收益。第二收益函数可以指第一时间段(例如，t₀)中的调度策略可以为线上线下服务系统100从第一时间段的下一个时间段(例如，t₀+1)开始直到一天结束产生的预估的长期收益。在一些实施例中，目标函数可以用于确定第一时间段中制定的调度策略为线上线下服务系统100从第一时间段开始直到一天结束产生的最佳的预估的全局收益。相应地，目标函数可以如公式(8)所示：

其中，t＝t₀，g_t(x_t，y_t)指的是第一收益函数，V_t+1指的是第二收益函数。

在一些实施例中，可以基于司机状态信息和订单信息来确定第一收益函数。处理引擎112可以根据公式(9)确定第一收益函数，如下：

其中，t＝t₀，r_lt是指为服务从第一时间段t₀开始的订单

而收到的奖励，c_ij是指将司机从地理网格i重新定位到地理网格j的成本。

可以基于与第一时间段相关的订单信息、与第一时间段对应的区域中的至少两个司机相关的司机状态信息以及至少两个价值函数确定第二收益函数。在一些实施例中，可以基于训练数据(例如，与历史时间段相关的订单信息和与历史时间段相关的司机状态信息)来训练和求解价值函数。历史时间段可以对应于第一时间段。在一些实施例中，价值函数可以确定将在第一时间段和第一时间段的未来时间段中可用于调度的司机的期望价值。在一些实施例中，未来时间段可以晚于第一时间段。因为第二收益函数V_t+1和目标函数V_t可以具有相似的函数表达式并且可以以相同的方式求解，为了说明的目的，提供关于V_t的以下描述。

V_t的函数表达式可以如公式(10)所示：

其中，t＝t₀，R_itt′指的是在第一时间段t₀中估计的、将在时间段t′(包括第一时间段或未来时间段)中在地理网格i处可用的司机的数量；V_itt′(R_itt′)指的是作为R_itt′函数的价值函数，并且可以确定在第一时间段t₀中估计的、在时间段t′中可用的R_itt′数量的司机的期望价值。司机的期望价值V_itt′(R_itt′)可以指，从在时间段t制定调度策略开始，司机在时间段t′、在地理网格i内为线上到线下服务平台创造的收益。

为了确定V_t，处理引擎112可以确定所有地理网格i、所有时间段t和所有时间段t′的价值函数V_itt′(R_itt′)。在一些实施例中，通过执行结合图7描述的一个或多个操作的离线训练过程，处理引擎112可以预先确定所有地理网格i、所有时间段t和所有时间段t′的价值函数V_itt′(R_itt′)。当价值函数V_itt′(R_itt′)确定后，处理引擎112可以确定所有地理网格i、第二时间段t＝t₀+1和所有时间段t′的价值函数V_itt′(R_itt′)之和，并将该和确定为第二收益函数V_t+1(t＝t₀)。

应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述，做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，步骤510和步骤520可以组合为单个步骤，其中处理引擎112可以同时获取与第一时间段相关的订单信息和与第一时间段相对应的至少两个司机有关的司机状态信息。又例如，一个或以上其他可选操作(例如，执行操作)可以在示例性流程500中的其他地方添加。在执行操作中，处理引擎112可以执行调度策略，并基于调度策略向请求者终端130和/或提供者终端140发送信息。

图6是根据本申请的一些实施例示出的示例性训练模块的框图。训练模块440可包括参数初始化单元610、信息获取单元620和价值函数更新单元630。

参数初始化单元610可以初始化每个价值函数。在一些实施例中，参数初始化单元610可以为至少两个价值函数中所有价值函数设置初始值(例如，0)。在一些实施例中，参数初始化单元610还可以设置价值函数的其他参数的初始值，例如价值函数的断点。

信息获取单元620可以获取与历史时间段t相关的价值函数V_itt′的训练有关的信息。与价值函数V_itt′的训练有关的信息可包括但不限于与历史时间段(t+1)相关的训练的价值函数V_{i，t+1，t′}和在至少两个地理网格(i∈J)中的每一个地理网格与至少两个历史时间段(t＝0，1，2，...，(N-1))中的每一个历史时间段相关的训练数据。基于在至少两个地理网格中的每一个地理网格与至少两个历史时间段中的每一个历史时间段相关的训练数据(其中t′＝t+τ，τ＝0，1，..，τ_max-1)，信息获取单元620可以进一步确定与历史时间段t′相关的历史订单信息和与历史时间段t′相关的历史司机状态信息。

价值函数更新单元630可以基于价值函数V_{i，t+1，t′}、与历史时间段t′相关的历史订单信息、与历史时间段t′相关的历史司机状态信息，确定价值函数V_itt′。在一些实施例中，价值函数V_{i，t+1，t′}可能已经在先前的迭代期间被训练。在一些实施例中，价值函数更新单元630可以基于第二价值函数V_{i，t+1，t′}、与历史时间段t′相关的历史订单信息、与历史时间段t′相关的历史司机状态信息，采用凹自适应值估计(CAVE)算法更新价值函数V_itt′。

应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述，做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，信息获取单元620可以包括两个单元，分别用于获取价值函数V_{i，t+1，t′}和训练数据。

图7是根据本申请的一些实施例示出的用于训练价值函数的示例性流程700的流程图。流程700可以实现为存储在存储器ROM 230或RAM 240中的一组指令(例如，应用程序)。处理器220和/或图2中示出的模块可以执行该组指令，并且当执行指令时，可以将其配置为执行流程700。以下所示流程的操作仅出于说明的目的。在一些实施例中，可以利用未描述的一个或以上附加操作和/或没有讨论的一个或以上操作来完成流程700。另外，如图7所示和下面描述的过程操作的顺序不是限制性的。

在710中，处理引擎112(例如，参数初始化单元610)可初始化每个价值函数V_itt′(R_itt′)，例如，V_itt′＝0。如上所述，价值函数V_itt′可以指代司机数量的函数，并且用于确定在时间段中确定的在时间段t′中可用的司机的期望价值。在一些实施例中，价值函数可以是分段凹函数。分段凹函数的曲线可包括至少两个断点。至少两个断点可以将分段凹函数分成至少两个线性段。至少两个断点中的每一个可以对应于线性段，该线性段具有从对应于断点的司机数量投射的线性段的斜率。价值函数的线性段的斜率可以指添加的司机可以为线上线下服务系统100产生的价值。在一些实施例中，训练价值函数的过程可以指确定价值函数的至少两个断点和至少两个线性段的斜率。在一些实施例中，处理引擎112可基于凹自适应值估计(CAVE)算法确定价值函数。与基于CAVE算法确定价值函数有关的详细描述可以在本申请的其他地方找到(例如，图9及其描述)。

如公式(10)所示，为了确定第二收益函数V_t，处理引擎112可以确定至少两个价值函数V_itt′。对于特定的时间段t，为了确定第二收益函数V_t，要确定的价值函数的数量可以基于区域的地理网格的数量和司机从一个地理网格到另一个地理网格的最长行驶时间得到。对于具有N个时间段的一天，处理引擎112可以确定N个第二收益函数V_t，其中t∈T＝{0，1，2，...，(N-1)}。区域的地理网格的数量、一天的时间段的数量和司机从一个地理网格到另一个地理网格的最大行驶时间可以是预设的，并且可以是任意的。例如，当区域被划分为3000个地理网格、一天分为144(N＝144)个时间段、最长行驶时间在6个时间段内(τ_max＝6)时，在流程700中要训练的价值函数的数量可以是3000*144*6。在710中，处理引擎112可以为所有价值函数设置初始值0，如公式(11)和(12)所示：

t′＝t+τ，τ＝0，1，..，τ_max-1 (12)

其中，t指历史时间段且t∈T，i指特定的地理网格，t′指历史时间段且t′晚于或等于t，τ指的是司机从一个地理网格到另一个地理网格的行驶时间，τ_max是指司机从一个地理网格到另一个地理网格的最长行驶时间，两个地理网格可以相同或不同；R_itt′理论上指的是，根据公式(3)，在历史时间段t中估计的、在历史时间段t′中将在地理网格i处可用的司机的数量。实际上，对于作为训练数据的历史数据而言，R_itt′指的是在时间段t′在地理网格i内可用的司机数量。类似地，R_{i，t+1，t′}也指在时间段t′在地理网格i内可用的司机数量。

在一些实施例中，处理引擎112可以为时间段t(t＝N-1)设置初始值(N-1)。N可以指一天的时间段总数。在一些实施例中，处理引擎112还可以为价值函数V_itt′(R_itt′)的其他参数设置初始值。例如，处理引擎112还可以设置价值函数V_itt′(R_itt′)的断点的初始值。

在720中，处理引擎112(例如，信息获取单元620)可以获取在至少两个地理网格(i∈J)的每一个中与至少两个历史时间段(t＝0，1，2，...，(N-1))中的每一个相关的训练数据。在一些实施例中，为了确定与特定时间段相关的价值函数(例如，第二时间段t₀+1)，信息获取单元620可以获取与第二时间段t₀+1相关的至少两个历史时间段中的每个历史时间段相关的训练数据。处理引擎112可以从本申请中其他地方披露的存储设备(例如，存储器150)获取训练数据。在一些实施例中，处理引擎112可以基于与过去的任意一天(例如，过去30天中的任意一天)相对应的数据来获取训练数据。在一些实施例中，处理引擎112可以基于对应于过去两个或以上任意天数(例如，过去30天的两个或以上任意天数)的数据的统计结果(例如，平均值或中值)获取训练数据。

在一些实施例中，训练数据可包括与任意历史时间段相关的历史订单信息和与任意历史时间段相关的历史司机状态信息。在一些实施例中，历史订单信息可以包括与至少两个历史时间段相关的至少两个地理网格中的至少两个历史订单相关的信息。与至少两个历史订单中的历史订单有关的信息可以包括与至少两个历史订单中的每一个历史订单相关的起始位置、与至少两个历史订单中的每一个历史订单相关的目的地以及与至少两个历史订单中的每一个历史订单相关的价值，或其任意组合。在一些实施例中，基于历史订单信息，处理引擎112可以根据公式(9)确定在历史时间段中制定的调度策略可以为线上线下服务系统100在历史时间段中产生的短期收益。在一些实施例中，历史司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息，指示司机是否可用、司机的位置、司机车辆的速度、与司机服务的订单相关的起始位置和目的地等，或其任意组合。基于历史司机状态信息，处理引擎112可以在历史时间段中确定地理网格处的可用的司机的数量。

在730中，处理引擎112(例如，信息获取单元620)可以基于在至少两个地理网格中每个地理网格内与至少两个历史时间段相关的训练数据，确定与历史时间段t(在这里也称为第一历史时间段，并且对于每次迭代，t指的是第一历史时间段且t+1指的是紧接在第一历史时间段之后的第二历史时间段)相关的历史订单信息和与第一历史时间段t相关的历史司机状态信息。在一些实施例中，第一历史时间段t和第二历史时间段t+1可以是特定值。例如，为了在第一时间段t₀确定公式(8)示出的目标函数

可能需要训练第二收益函数

与第一历史时间段相关的历史订单信息也可以包括与第一历史时间段中的历史订单数量、历史订单在第一历史时间段中的分布、与每个历史订单有关的开始时间、与每个历史订单相关的起始位置、与每个历史订单相关的目的地以及与每个历史订单相关的价值等有关的信息，或其任意组合。

与第一历史时间段相关的历史司机状态信息可以包括指示司机在第一历史时间段中是否可用、第一历史时间段中司机的位置、第一历史时间段中司机车辆的速度、司机服务的订单的起始位置和目的地、第一历史时间段中在地理网格中的司机的数量等信息，或其任意组合。在一些实施例中，处理引擎112可以基于与第一历史时间段(t)对应的区域中的至少两个司机相关的历史司机状态信息，进一步确定在未来时间段(t′)中将首先可用的司机的数量(R_i，t，t′)。R_i，t，t′理论上指的是在历史时间段t中估计的、在历史时间段t′中将在地理网格i处可用的司机的数量。实际上，因为训练数据是历史数据，并且特定历史时间段中特定地理网格的可用司机数量是确定的，R_i，t，t′是指历史时间段t′中地理网格i处的可用的司机的数量。

为了确定与第一历史时间段t相关的价值函数V_itt′(在此也称为第一价值函数)，在740中，处理引擎112(例如，价值函数更新单元630)可以获取与历史时间段(t+1)(在此也称为第二历史时间段)相关的价值函数V_{i，t+1，t′}(在此也称为第二价值函数)。在一些实施例中，第二价值函数V_{i，t+1，t′}可能已经在先前的迭代期间训练了。当第一时间段是一天中的最后一个时间段(t＝N-1)时，处理引擎112可以指定第二价值函数V_{i，t+1，t′}＝0。

在750中，处理引擎112(例如，价值函数更新单元640)可以基于与第一历史时间段t相关的历史订单信息、与第一历史时间段t相关的历史司机状态信息以及第二价值函数V_{i，t+1，t′}，更新与第一历史时间段t相关的第一价值函数V_itt′。在一些实施例中，处理引擎112可以基于与第一历史时间段t相关的司机状态信息确定在第三历史时间段t′中可用的司机的数量，所述数量由R_{i，t+1，t′}表示。处理引擎112还可以基于与第一历史时间段t相关的历史订单信息和第二价值函数V_{i，t+1，t′}生成与第一历史时间段t相关的历史目标函数，所述历史目标函数由V_t表示。处理引擎112可以确定关于可用的司机的数量R_{i，t+1，t′}的历史目标函数V_t的左梯度和右梯度，左梯度由

表示，右梯度由

表示。处理引擎112可以基于可用的司机的数量R_{i，t+1，t′}、左梯度

右梯度

和第二价值函数V_{i，t+1，t′}，使用凹自适应值估计(CAVE)算法进一步更新第一价值函数V_itt′。与更新第一价值函数有关的详细描述可以在本申请的其他地方找到(例如，图9及其描述)。

在760中，处理引擎112(例如，价值函数更新单元640)可以确定第一价值函数V_itt′是否收敛。处理引擎112可以基于预设标准确定第一价值函数V_itt′是否收敛。例如，为了获取收敛的价值函数，与历史时间段相关的训练数据可以在训练中使用至少两次(例如，3次)。处理引擎112可以预设误差阈值。在与历史时间段相关的训练数据已经用于训练3次之后，处理引擎112可以比较3个输出的价值函数。处理引擎112可以基于输出的价值函数来确定误差。如果误差小于预设误差阈值，则处理引擎112可以确定价值函数收敛并转到步骤770。否则，处理引擎112可以返回步骤720再次训练。

在770中，处理引擎112(例如，价值函数更新单元640)可以确定t是否等于0。如果t＝0，则可能意味着已经训练了所有价值函数并且流程700结束。否则，处理引擎112可以转到步骤780以更新值t。

在780中，处理引擎112(例如，价值函数更新单元640)可以通过t＝t-1更新t。与第一历史时间段相关的第一价值函数V_itt′可以通过流程700得到很好地训练。处理引擎112可以进一步由t＝t-1更新t以获取用于训练与历史时间段t-1相关的新价值函数V_{i，t-1，t′}的新训练数据。

在一些实施例中，在通过执行流程700的一个或以上操作确定公式(10)中示出的V_t的函数表达之后，在t＝t₀+1的情况下，可以通过基于公式(10)计算V_t来确定第二收益函数V_t+1(t＝t₀)。

应当注意的是，以上描述与基于离线训练过程，为所有地理网格i、所有时间段t、所有时间段t′训练价值函数V_itt′(R_itt′)有关。在一些实施例中，当处理引擎112想要确定第一时间段t₀中的调度策略时，处理引擎112可以基于在线训练过程训练第二收益函数

在线训练过程可以与流程700类似，但是对于在线训练过程，在710中，处理引擎112可初始化价值函数V_i，t，t′(R_i，t，t′)，其中t∈[t₀+1，N-1]；在720中，处理引擎112可以获取与t₀+1到N-1时间段对应的历史时间段相关的训练数据；步骤730至760可以与流程700类似；在770中，处理引擎112可以确定t是否等于t₀+1。

应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述，做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，可以省略步骤720，处理引擎112可以直接获取与第一历史时间段相关的历史订单信息和历史司机状态信息。又例如，一个或以上其他可选操作(例如，存储操作)可以在示例性流程700中的其他地方添加。在存储操作中，处理引擎112可以将训练的价值函数存储在存储设备(例如，存储器150)中。

图8是根据本申请的一些实施例示出的示例性价值函数更新单元的框图。价值函数更新单元630可以包括司机数量确定子单元810，梯度确定子单元820和价值函数更新子单元830。

司机数量确定子单元810可以基于与第三历史时间段t′相关的历史司机状态信息，确定与第三历史时间段t′相关的可用的司机的数量R_{i，t+1，t′}(在此也称为第一司机数量)。在一些实施例中，历史司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息。历史司机状态信息可以包括指示司机是否可用、司机的位置、司机的车辆的速度、起始位置和由司机服务的订单的目的地等信息，或其任意组合。司机数量确定子单元810可以基于与特定地理网格和特定历史时间段相关的历史司机状态信息，确定特定历史时间段中特定地理网格的可用的司机数量。例如，对于特定的地理网格i，处理引擎112可以基于与第三历史时间段t′相关的历史司机状态信息，确定与第三历史时间段t′相关的可用的司机的数量R_{i，t+1，t′}。

梯度确定子单元820可以基于与第一历史时间段t相关的历史订单信息和价值函数V_{i，t+1，t′}成与第一历史时间段t相关的历史目标函数V_t。在一些实施例中，梯度确定子单元820可以进一步确定关于可用的司机的数量R_{i，t+1，t′}的历史目标函数V_t的左梯度

和右梯度

价值函数更新子单元830可以基于可用的司机的数量R_{i，t+1，t′}、左梯度

右梯度

和第二价值函数V_{i，t+1，t′}更新第一价值函数V_itt′。在一些实施例中，价值函数更新子单元830可以使用凹自适应值估计(CAVE)算法。在一些实施例中，CAVE算法可以提供用于基于不同资源点处的凹函数的梯度信息来估计/更新凹函数的分段线性近似的方法。资源点可以指可用的资源的数量(例如，司机)。如上所述，价值函数V_itt′可以是分段凹函数。处理引擎112可以可用的司机的数量R_{i，t+1，t′}、左梯度

右梯度

和第二价值函数V_{i，t+1，t′}，使用CAVE算法更新第一价值函数V_itt′。

应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述，做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，梯度确定子单元820可以包括两个单元，用于确定历史目标函数V_t以及分别确定左梯度

和右梯度

图9是根据本申请的一些实施例示出的用于基于凹适应值估计(CAVE)算法更新价值函数的示例性流程900的流程图。流程900可以实现为存储在存储器ROM 230或RAM240中的一组指令(例如，应用程序)。处理器220和/或图2中示出的模块可以执行该组指令，并且当执行指令时，可以将其配置为执行流程900。以下所示流程的操作仅出于说明的目的。在一些实施例中，可以利用未描述的一个或以上附加操作和/或没有所讨论的一个或以上操作来完成流程900。另外，如图9所示和下面描述的过程操作的顺序不是限制性的。

为了更新价值函数V_itt′，在910中，处理引擎112(例如，司机数量确定子单元810)可以基于与第三历史时间段t′相关的历史司机状态信息，确定与第三历史时间段t′相关的可用的司机的数量R_{i，t+1，t′}(在此也称为第一司机数量)。在一些实施例中，历史司机状态信息可包括与至少两个地理网格中的至少两个司机有关的信息。历史司机状态信息可包括指示司机是否可用、司机的位置、司机车辆的速度、起始位置、司机服务的订单的目的地等信息，或其任意组合。处理引擎112可以基于与特定地理网格和特定历史时间段相关的历史司机状态信息，确定特定历史时间段中特定地理网格的可用的司机数量。例如，对于特定的地理网格i，处理引擎112可以基于与第三历史时间段t′相关的历史司机状态信息，确定与第三历史时间段t′相关的可用的司机的数量R_{i，t+1，t′}。

在一些实施例中，根据公式(3)及其描述，在基于历史时期产生的训练数据训练价值函数的过程中，R_{i，t+1，t′}理论上可以指在历史时间段(t+1)中估计的、在历史时间段t′将在地理网格i处可用的司机的数量。实际上，因为训练数据是历史数据，并且特定历史时间段中地理特定网格的可用司机数量是确定的，R_{i，t+1，t′}是指历史时间段t′中地理网格i处可用的司机的数量。类似地，R_itt′也指在历史时间段t′中地理网格i处可用的司机的数量。

在920中，处理引擎112(例如，梯度确定子单元820)可以基于与第一历史时间段t相关的历史订单信息和第二价值函数V_{i，t+1，t′}，生成与第一历史时间段t相关的历史目标函数V_t。历史目标函数V_t可以优化线上线下服务系统100的预估的从历史时间段t开始直到历史日结束的全局收益。在一些实施例中，根据公式(8)，历史目标函数V_t可以基于第一历史收益函数g_t(x_t，y_t)和第二历史收益函数V_t+1来确定。第一历史收益函数g_t(x_t，y_t)可以指在历史时间段t中制定的调度策略为线上线下服务系统100在历史时间段t中产生的短期收益。根据公式(9)，第一历史收益函数g_t(x_t，y_t)可以基于与历史时间段t相关的历史订单信息来确定。在一些实施例中，第二历史收益函数V_t+1可以指在历史时间段t中制定的调度策略为线上线下服务系统100从历史时间段t的下一个历史时间段(t+1)开始到历史日结束时预估的长期收益。根据公式(12)，处理引擎112可以基于在流程700中训练的至少两个第二价值函数V_{i，t+1，t′}确定第二历史收益函数V_t+1。

在930中，处理引擎112(例如，梯度确定子单元820)可以确定关于可用的司机的数量R_{i，t+1，t′}的历史目标函数V_t的左梯度

和右梯度

在一些实施例中，处理引擎112可以通过预设的固定值改变可用的司机的数量R_{i，t+1，t′}，确定关于可用的司机的数量R_{i，t+1，t′}的历史目标函数V_t的左梯度

和右梯度

在940中，处理引擎112(例如，价值函数更新子单元830)可以基于可用的司机的数量R_{i，t+1，t′}，左梯度

右梯度

和第二价值函数V_{i，t+1，t′}，使用凹自适应值估计(CAVE)算法更新第一价值函数V_itt′。在一些实施例中，CAVE算法可以提供用于基于不同资源点处的凹函数的梯度信息来估计/更新凹函数的分段线性近似的方法。资源点可以指可用的资源的数量(例如，司机)。

在一些实施例中，基于CAVE算法估计/更新凹函数的分段线性近似的过程可以是迭代过程。在每次迭代时，CAVE算法可以基于特定资源点处的凹函数的左梯度和右梯度来估计/更新凹函数。如上所述，价值函数V_itt′可以是分段凹函数。处理引擎112可以基于可用的司机的数量R_{i，t+1，t′}、左梯度

右梯度

和第二价值函数V_{i，t+1，t′}，使用CAVE算法更新第一价值函数V_itt′。在一些实施例中，处理引擎112可以基于CAVE算法确定第一价值函数V_itt′的至少一个新断点。第一价值函数V_itt′的断点数量可以是预设的，也可以是任意的，例如2、5、10、20等。如本申请使用的，第一价值函数V_itt′的预设断点数量可以是10，即第一价值函数V_itt′的曲线可以是具有10段的分段凹函数。

应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本申请的范围。对于本领域的普通技术人员而言，可以根据本申请的描述，做出各种各样的变化和修改。然而，变化和修改不会背离本申请的范围。例如，处理引擎112可以先生成历史目标函数V_t，然后确定可用的司机的数量R_{i，t+1，t′}。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员而言，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或以上实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或以上计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

计算机可读信号介质可能包含一个内含有计算机程序代码的传播数据信号，例如在基带上或作为载波的一部分。此类传播信号可以有多种形式，包括电磁形式、光形式等或任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通信、传播或传输供使用的程序。位于计算机可读信号介质上的程序代码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF等，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或以上程序语言编写，包括面向主体编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C＃、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或以上发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所声称的待扫描对象物质需要比每个权利要求中明确记载的更多特征的意图。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种用于改进线上到线下服务中的调度策略的系统，包括：

至少一个存储介质，包括用于确定调度策略的一组指令；

至少一个处理器与所述至少一个存储介质通信，其中，当执行所述指令时，所述至少一个处理器用于：

获取与第一时间段相关的区域内的订单信息，所述区域包括至少两个地理网格；

确定对应于所述第一时间段的所述区域内的司机状态信息，所述司机状态信息包括在所述至少两个地理网格中的与至少两个司机有关的信息；以及

基于所述司机状态信息、所述订单信息和从第二时间段开始将在所述区域中可调度的司机的期望价值，确定所述第一时间段内所述区域中的至少两个司机的调度策略，其中，

所述第二时间段紧接着所述第一时间段，

所述调度策略优化所述线上到线下服务从第一时间段开始的预计的全局收益，

从所述第二时间段开始的所述区域内的司机的所述期望价值基于至少两个历史时间段得到，其中，所述至少两个历史时间段与所述第二时间段相关，以及

在所述第一时间段的所述区域内的至少两个司机的所述调度策略基于目标函数确定，其中，

所述目标函数基于第一收益函数和第二收益函数得到，

所述第一收益函数基于所述司机状态信息和所述订单信息得到，

所述第二收益函数用于确定从所述第二时间段开始的所述区域内的司机的所述期望价值，所述第二收益函数基于所述订单信息、所述司机状态信息和与所述至少两个历史时间段相关的至少两个价值函数得到，所述至少两个价值函数中的每个价值函数确定司机的期望价值，所述司机是在所述第二时间段中确定的、在所述至少两个地理网格的一个地理网格中的所述第二时间段的未来时间段中可用的，以及

为了获取所述至少两个价值函数，所述至少一个处理器还用于：

初始化所述至少两个价值函数中的每一个价值函数；

获取在所述至少两个地理网格中每一个地理网格内与所述至少两个历史时间段中每个历史时间段相关的训练数据；

基于所述训练数据，确定在所述至少两个地理网格中的其中一个地理网格中的所述至少两个历史时间段中的第一历史时间段中的第一历史订单信息和在所述地理网格中对应于所述第一历史时间段的第一历史司机状态信息；以及

基于所述第一历史订单信息、所述第一历史司机状态信息和第二价值函数更新第一价值函数，所述第一价值函数表示在所述第一历史时间段中确定的、将在所述至少两个历史时间段中的一个或以上第三历史时间段中的其中一个第三历史时间段内在所述地理网格中的可用的司机的价值，所述第二价值函数表示在所述至少两个历史时间段中的第二历史时间段中确定的、将在所述第三历史时间段内在所述地理网格中可用的司机的价值；其中，所述第三历史时间段晚于所述第一历史时间段，所述第二历史时间段紧接着所述第一历史时间段。

2.根据权利要求1所述的系统，其特征在于，所述订单信息是基于与至少两个历史交易相关的至少两个历史订单的记录得到的。

3.根据权利要求2所述的系统，其特征在于，

所述订单信息包括与所述第一时间段相关的至少两个地理网格中的至少两个历史订单有关的信息，以及

与所述至少两个历史订单中的每个历史订单有关的信息包括以下中的至少一种：与历史订单相关的起始位置、与历史订单相关的目的地或与历史订单相关的价值。

4.根据权利要求1所述的系统，其特征在于，所述司机状态信息包括以下至少一种：指示司机是否可用的信息，

司机的当前位置，

与司机相关的车辆速度，

司机接受的订单的起始位置和目的地，或

所述至少两个地理网格的每个地理网格中的司机数量。

5.根据权利要求1所述的系统，其特征在于，为了确定所述对应于第一时间段的区域内的司机状态信息，所述至少一个处理器还用于：

基于所述司机状态信息，确定所述第一时间段内可用的司机数量；以及

基于对应于所述第一时间段的与至少两个司机相关的司机状态信息，确定将在至少一个未来时间段内可用的司机数量，其中，所述至少一个未来时间段晚于所述第一时间段。

6.根据权利要求1所述的系统，其特征在于，为了基于所述第一历史订单信息、第一历史司机状态信息和第二价值函数更新第一价值函数，所述至少一个处理器还用于：

基于所述第一历史司机状态信息，确定在第二历史时间段中确定的、在所述第三历史时间段内在所述至少两个地理网格中的其中一个所述地理网格中可用的司机的第一数量；

基于所述第一历史订单信息、所述第一历史司机状态信息和所述第二价值函数，生成与所述第一历史时间段相关的历史目标函数；

确定关于所述第一数量的历史目标函数的左梯度和右梯度；以及

基于所述左梯度、所述右梯度、所述第一数量和所述第二价值函数，使用凹自适应值估计算法更新所述第一价值函数。

7.根据权利要求1所述的系统，其特征在于，所述至少两个价值函数中的每个价值函数是分段凹函数。

8.根据权利要求1所述的系统，其特征在于，

所述司机状态信息来自所述区域内与所述至少两个司机相关的终端，以及

在执行所述指令时，所述至少一个处理器还用于基于所述调度策略将消息发送到与所述至少两个司机相关的一个或以上终端上。

9.一种用于改进调度策略的方法，所述方法由计算设备实现，所述计算设备具有至少一个处理器、至少一个存储介质和连接到网络的通信平台，所述方法包括：

基于所述司机状态信息、所述订单信息和从第二时间段开始将在所述区域中可调度的司机的期望价值，确定所述第一时间段内的至少两个司机的调度策略，其中，

所述第二时间段紧接着所述第一时间段，

所述调度策略优化线上到线下服务从第一时间段开始的预计的全局收益，

从所述第二时间段开始将在所述区域内可用的司机的所述期望价值基于至少两个历史时间段得到，其中，所述至少两个历史时间段与所述第二时间段相关，以及

所述目标函数基于第一收益函数和第二收益函数得到，

所述第二收益函数用于确定从所述第二时间段开始的所述区域内的司机的所述期望价值，所述第二收益函数基于所述订单信息、所述司机状态信息和与所述至少两个历史时间段相关的至少两个价值函数得到，所述至少两个价值函数中的每个价值函数确定司机的期望价值，所述司机是在第二时间段中确定的、在所述至少两个地理网格的一个地理网格中的所述第二时间段的未来时间段中可用的，以及

获取所述至少两个价值函数包括：

初始化所述至少两个价值函数中的每一个价值函数；

10.根据权利要求9所述的方法，其特征在于，所述订单信息是基于与至少两个历史订单相关的至少两个历史订单的记录得到的。

11.根据权利要求10所述的方法，其特征在于，

12.根据权利要求9所述的方法，其特征在于，所述司机状态信息包括以下至少一种：

指示司机是否可用的信息，

司机的当前位置，

与司机相关的车辆速度，

司机接受的订单的起始位置和目的地，或

所述至少两个地理网格的每个地理网格中的司机数量。

13.根据权利要求9所述的方法，其特征在于，确定所述对应于第一时间段的区域内的司机状态信息包括：

14.根据权利要求9所述的方法，其特征在于，基于所述第一历史订单信息、第一历史司机状态信息和第二价值函数更新第一价值函数包括：

15.根据权利要求9所述的方法，其特征在于，所述至少两个价值函数中的每个价值函数是分段凹函数。

16.一种非暂时性计算机可读介质，包括至少一组用于确定调度策略的指令，当由计算机设备的至少一个处理器执行时，所述至少一组指令指示所述至少一个处理器执行：

所述第二时间段紧接着所述第一时间段，

所述目标函数基于第一收益函数和第二收益函数得到，

获取所述至少两个价值函数包括：

初始化所述至少两个价值函数中的每一个价值函数；