CN110472764B

CN110472764B - 基于强化学习使用半合作纳什平衡来协调多方服务的方法和系统

Info

Publication number: CN110472764B
Application number: CN201910378917.8A
Authority: CN
Inventors: K·桑卡尔; V·查伊奇; U·努卡拉; J·芬恩
Original assignee: Volvo Car Corp
Current assignee: Volvo Car Corp
Priority date: 2018-05-09
Filing date: 2019-05-08
Publication date: 2023-08-11
Anticipated expiration: 2039-05-08
Also published as: CN110472764A; US20190347371A1; EP3567539A1; US11610165B2

Abstract

本发明涉及在预定地理区域中分配资源的方法，其包括：检索(S102)一组度量，该度量指示与至少两方的资源的操作相关的关注因素，每一方具有多个资源；检索(S104)指示每一方的优选度量值的优化政策；检索(S106)包括用于在预定区域中分配资源的策略的至少一个模型，该至少一个模型基于从用于分配资源的一组场景中学习；从实时系统中检索(S108)至少指示当前交通状况的环境数据；在考虑到至少一个模型和环境数据的情况下，在至少两方的优化政策中的度量之间建立(S110)纳什均衡；根据已建立的纳什均衡的结果在地理区域中分配(S112)资源。

Description

基于强化学习使用半合作纳什平衡来协调多方服务的方法和系统

技术领域

本发明涉及一种用于在预定地理区域中分配资源的方法和系统。

背景技术

近年来，人工辅助自主驾驶车辆和全自动驾驶车辆已经受到更多关注。自动驾驶车辆能够在不受人类操作员的任何主动干涉的情况下通过自己导航运输自己穿过城市。

自动驾驶车辆需要相对复杂的编程和机器学习算法以能够实时地做出快速且准确的决策。在人工辅助自主驾驶车辆中，仍然存在人类操作员在某些危急情况下控制车辆。

对于一组在诸如城市的区域中行驶并且避免碰撞的自动驾驶车辆，可知它们共享诸如位置、速度和彼此之间的行进方向之类的信息。车辆还可以配备有接近传感器和摄像头，以用于识别车辆附近的障碍物和物体。因此，为了在城市中行进，车辆可以识别和避开车辆附近的物体，以及通过关于该车辆附近其它车辆的了解来规划路线。

通过引入自动驾驶车辆或人工辅助自主驾驶车辆，可以由自主驾驶车辆的车队提供人员运输和递送服务。用于特定交通状况的自动驾驶车辆的驾驶控制正在被很好地探索，然而，在诸如整个城市的这种大规模上，关注的是如何以最有效的方式在整个城市中分配车辆或其它服务单元。

因此，需要在整个区域上分配服务单元的方法，以便满足城市中的服务需求。

发明内容

鉴于上述内容，本发明的一个目的是提供一种用于在预定地理区域中分配资源的改进的方法。

根据本发明的第一方面，提供了一种用于在预定地理区域中分配资源的方法，该方法包括：检索一组度量，该度量指示与至少两方的资源的操作相关的关注因素，每一方具有多个资源；检索指示至少两方中的每一方的优选度量值的优化政策(optimizationpolicies)；检索包括用于在预定区域中分配资源的策略的至少一个模型，该至少一个模型基于从用于分配资源的一组场景中学习；从实时系统中检索至少指示当前交通状况的环境数据；在考虑到至少一个模型和环境数据的情况下，在至少两方的优化政策中的多组度量之间建立纳什均衡；根据已建立的纳什均衡的结果在地理区域上分配资源。

本发明基于以下认识：将纳什均衡应用于优化政策的度量，并且同时考虑到包括用于资源分配的策略的模型，以便在预定区域中找到此时有利的资源分配。此外，认识到的是，将纳什均衡应用于连续动态过程，例如，应用于在预定区域中移动而没有离散状态的资源，这意味着资源的状态可以改变，并且不一定以确定的方式(如在离散过程中的情况那样)改变。例如，优化政策可能突然改变，由此纳什均衡也将改变，于是本发明的构思通过使用纳什均衡确定资源的分配来考虑到这一点。

纳什均衡是在其它方维持它们的优化政策的状态下，一方将不会通过改变其优化政策来改进其位置。因此，纳什均衡可以是关于一方关注的度量的稳定状态。例如，对于一个城市来说，纳什均衡可以是最大收入、道路满载但不拥挤并且客户已享受到移动出行服务(如评级所反映的)。因此，纳什均衡的性质是参与者没有动力改变他们的参数(例如，价格、街道状况等)。

根据本发明构思的纳什均衡可以是半静态纳什均衡，其仍然可以允许多方的模型策略中的小偏差而不损害纳什均衡状态。因此，即使没有完全满足纳什均衡，但是在公差ε内，根据本发明构思的纳什均衡也可以被认为处于均衡状态。

度量是对于每一方都重要的因素。示例性度量包括等待时间、成本、收入、交通流量、递送时间、体验、探索区域、品牌价值、商业风险、留存收益率、市场份额、人气、城市总收入等。此度量列表不是详尽的。

优化政策是对于特定方而言重要的一组度量中的每一个度量的优选值。此外，优化政策中的度量可以是加权重的，例如0.75*收入+0.25*留存收益率。

模型提供了一组基于输入数据描述可能结果的算法。该模型由常数、参数、概率、行动树(action tree)、带有边缘和节点的图等组成。树和图在每个节点和边缘都有其自己的多个属性集。模型可以例如将环境数据和优化政策作为输入，以基于先前的训练和输入提供预测结果。在建立纳什均衡的过程中，不同的可能结果相互加权重，并且可能必须改变优化政策以建立纳什均衡。通过建立纳什均衡，资源可以在几何区域中以当前对于多方而言最有利的分配方式进行分配。

策略可以例如是计划、政策和行动方针。例如，每个分配状态都有一组接下来的行动和与每个行动相关的一组奖励(reward，回报)。这种奖励可以是局部的或累计的。表达政策的一种方式是提供每个行动的概率分布。例如，一个政策可以是，如果利用率低于25％则随机移动资源。另一个政策可以是，如果确定了更高的需求(例如，如果优化政策包括使收益最大化)，则使价格翻三倍。资源的分配可以是指几种资源。例如，将自动驾驶车辆移动到预定区域中关于移动出行需求或充电更有利的位置(在电动车辆的情况下，用于以安全且有效的方式利用电网)、探索城市以便针对特定自动驾驶车辆了解更多、或协调诸如清洁和维护服务的车辆相关功能。

例如，一方可以是移动出行服务提供商或包裹递送运营商、充电站运营商、或者城市。因此，可以在作为移动出行服务提供商的第一方和作为城市本身的第二方之间建立纳什均衡。因此，城市可以在其优化政策中避免某些路线上的大量交通以避免交通拥堵，并且移动出行服务提供商可以期望使利润最大化。在纳什均衡中，移动出行服务提供商可以不将其所有资源都发送到城市优化政策中所指示的路线，因为这可能导致交通拥堵，这意味着资源将遭遇交通拥堵而不提供利润。

另一种可能的情况是，电动车辆的充电站提供商可能希望仅最大数量的电动车辆同时充电。在纳什均衡中，管理电动车辆的移动出行服务提供商可能因此不会发送其所有车辆来同时充电。

另一种情况是第一方是移动出行服务提供商，并且第二方是请求移动出行服务的客户。可能还有其它若干方是竞争客户的移动出行服务提供商。

在一些实施方式中，包括接收对资源的请求，该请求包括一组优选度量，以及进一步基于该请求建立纳什均衡。该请求可能来自具有其自己的偏好的客户。例如，在周二早上出行的学生的一组优选度量可能与周六晚上高端餐馆访客的优选度量不同。然后在多方的优选度量和优化度量之间建立纳什均衡。

此外，在一些实施方式中，可以基于请求和已建立的纳什均衡的结果来提供要约(offer)、接收要约的回复、并且进一步基于回复来分配资源。因此，建立纳什均衡(或至少接近纳什均衡)可以引起向请求的来源提出要约。请求的来源可以选择接受或拒绝该要约。

可以根据强化学习算法来训练模型。因此，通过使用强化学习，可以基于优化政策并且使用纳什均衡作为强化学习的奖励函数来训练模型。强化学习算法可以是深度强化学习算法。

在一些可能的实施方式中，深度强化学习算法可以是包括可选递归或递归层的多层卷积神经网络。

根据一些可能的实施方式，该方法可以包括：至少基于关注地点的区域大小和人口密度，计算不包括在预定区域中的其它地理区域的适应因子；缩放预定区域的模型的属性以用于其它区域，从而形成适应模型；以及使用适应模型在其它区域中分配资源。因此，如果已经针对预定区域(例如洛杉矶市)开发了模型，则可以缩放这些模型以用于较小的城市，诸如拉斯维加斯，然后使用适应模型在之前没有模型化的城市中实施本发明的构思。因此，该方法可以有利地用于预定区域之外的其它区域。适应因子可以取决于城市规模、城市面积、人口统计、车辆数量等。需求模型可以是需求在预定区域上的模型化分布。

根据其它实施方式，该方法可以包括：基于需求元(demand meta)模型、环境数据和地点来构建需求模型，该需求模型适用于预测运输需求；基于需求模型、各方移动出行偏好和运输选项来构建接受模型，该接受模型适用于预测运输偏好；基于到达点和场地生成意图模型；从而进一步基于需求模型、接受模型和意图模型来建立纳什均衡。

环境可以例如是一天中的时间、桥梁开放情况、交通强度、该区域中是否发生事件(例如音乐会、比赛等)。需求模型可以提供整个城市的资源需求的分布。例如，某个子区域中可能存在高需求或低需求。接受模型可以提供资源询问者可接受哪种类型的运输。通过需求、接受和选择模型，可以关于预定区域中的需求更准确地分配资源。

接受模型还可以直接基于环境数据，而不是间接地根据需求模型。

可以基于强化学习来生成需求、接受和选择模型。因此，该方法可以包括接收实时环境数据，以及基于实时环境数据更新需求模型、接受模型和选择模型，从而进一步改进模型。

另外，为了提高预测需求的准确性，该方法可以包括基于需求模型、接受模型和选择模型以及强化学习算法来生成优化政策。

资源可以是移动出行单元，诸如货物、船、半自主驾驶车辆、自动驾驶车辆等。

强化学习机制可以例如是部分可观察的马尔可夫决策过程、策略梯度、深度Q学习、行动-评价(actor-critic)方法、蒙特卡罗树搜索和反事实遗憾最小化技术中的至少一个。

根据本发明的实施方式，当优化政策中的多组度量之间的均衡在允许偏差(ε)内时，可以满足纳什均衡。

根据本发明的第二方面，提供了一种用于在预定地理区域中分配资源的系统，该系统包括控制单元，该控制单元被构造成：检索一组度量，该度量指示与至少两方的资源的操作相关的关注因素，每一方具有多个资源；检索指示至少两方中的每一方的优选度量值的优化政策；检索包括用于在预定区域中分配资源的策略的至少一个模型，该至少一个模型基于从用于分配资源的一组场景中学习；从实时系统中检索至少指示当前交通状况的环境数据；在考虑到至少一个模型和环境数据的情况下，在至少两方的优化政策中的多组度量之间建立纳什均衡；根据已建立的纳什均衡的结果在地理区域中分配资源。

该系统可以还包括模拟器模块，该模拟器模块被构造为：基于强化学习算法生成模型策略。

在一些实施方式中，模拟器模块可以被构造为：基于需求元模型、环境和地点生成需求模型，需求模型适用于预测运输需求；基于需求模型、各方移动出行偏好和运输选项生成接受模型，该接受模型适用于预测运输偏好；基于到达坐标和场地生成意图模型，其中控制单元模块被构造为：进一步基于需求模型、接受模型和意图模型来建立纳什均衡。

控制单元和模拟器模块可以设置在服务器上。

本发明的该第二方面提供了与上面关于本发明的前一方面所讨论的类似的优点。

根据本发明的第三方面，提供了一种包括计算机可读介质的计算机程序产品，计算机可读介质上存储有用于在预定地理区域中分配资源的计算机程序模块，其中计算机程序产品包括：用于从模拟获取一组度量的代码，该度量指示与至少两方的资源的操作相关的关注因素，每一方具有多个资源；用于检索指示至少两方中的每一方的优选度量值的优化政策的代码；用于检索包括用于在预定区域分配资源的策略的至少一个模型的代码，该至少一个模型基于从用于分配资源的一组场景中学习；用于从实时系统中检索至少指示当前交通状况的环境数据的代码；用于在考虑到至少一个模型和环境数据的情况下，在至少两方的优化政策中的多组度量之间建立纳什均衡的代码；用于根据已建立的纳什均衡的结果在地理区域上分配资源的代码。

本发明的该第三方面提供了与上面关于本发明的上述方面所讨论的类似优点。

当研究随附权利要求和以下描述时，本发明的其它特征和优点将变得明显。本领域技术人员应认识到，在不脱离本发明的范围的情况下，可以组合本发明的不同特征以创建除下面描述的实施方式以外的其它实施方式。

附图说明

现在将参考示出本发明的示例性实施方式的附图更详细地描述本发明的这些和其它方面，其中：

图1概念性示出了本发明的实施方式的应用；

图2是示出了本发明的实施方式的概念性功能性流程图；

图3概念性示出了需求模型、接受模型和选择模型的生成；

图4是若干方的示例性度量的表格；

图5概念性示出了模拟器模块的操作流程；

图6示意性示出了根据本发明构思的强化学习过程；

图7示意性示出了根据本发明构思的用于构建纳什均衡的强化学习过程；以及

图8是根据本发明的实施方式的方法步骤的流程图。

具体实施方式

在本详细描述中，主要通过参考分配车辆形式的资源来描述根据本发明的系统和方法的各种实施方式。然而，本发明可以等同地与其它资源一起使用，诸如电动车辆的充电站、停车场、包裹递送系统、地铁线路规划、共享自行车分配、公共运输规划等。因此，本发明可以呈现许多不同的形式并且不应该被解释为限于本文阐述的实施方式；相反，提供这些实施方式是为了彻底性和完整性，并且这些实施方式向技术人员充分传达了本发明的范围。相同的附图标记贯穿全文指的是相同的元件。

图1概念性示出了本发明的应用。在图中1，两方各有一队自动驾驶车辆(或人工辅助自主驾驶车辆)。一方102在其车队中具有三个自动驾驶车辆103a、103b和103c，并且一方105在其车队中具有三个自动驾驶车辆106a、106b和106c。在本文中，为清楚起见，每个车队中仅示出三辆车，并且仅关于两方。尽管如此，本发明适用于在其车队中具有任何数量的资源(例如，数百辆车)的若干方。此外，一方也可以是城市本身(例如，基础设施)、充电站提供商等。

两个车队的自动驾驶车辆103a-c、106a-c在预定区域100中竞争，预定区域100包括各种对象(agent，主体)，诸如关注地点(比如体育场、博物馆、公园等)、汽车、道路、道路工程、停车空间、充电站、桥梁、隧道等(未编号)。车队的目标是在预定区域100中向其客户提供移动出行服务。在一些实施方式中，车队可以获知其客户的选择模型和接受模型，这些模型是描述其客户在当前时间和日子的运输偏好和优选活动的概率分布。将参考图3进一步描述接受模型和选择模型。

为了理解现实世界并由此在预定区域100中操作，车辆103a-c、106a-c的控制单元优选地在云104中运行模拟，这生成大量(例如，数千个或更多个)场景，使用强化学习运行数千次(或更多次)这些场景。根据模拟运行，可以得到模型的策略的值，这帮助控制单元在预定区域100中导航和操作相应车辆。各方102和105都具有其各自的给纳什均衡模拟提供策略的优化政策。接下来，在模拟中，实现其中模型策略收敛于可持续状态(纳什均衡)的纳什均衡。可以利用使用期和行为给模拟网格世界(simulated grid world)中的各种对象(例如，关注地点、汽车、道路、道路工程、停车空间、充电站、桥梁、隧道等)建模。然后，各方102、105可以在预定区域(即“现实世界”)中部署它们的模型策略，并且还从现实世界中学习以改进它们的模型。

图2示出了本发明的实施方式的功能性流程图。图2示出了用于分配资源的系统200。用于协调资源的控制单元201被构造为接收环境数据202，环境数据202包括关于当前交通状况的信息，例如，示例性交通路况、事件细节、天气、充电站状态等。控制单元201还接收对象(例如体育场、博物馆、公园、汽车、道路、道路工程、停车空间、充电站、桥梁、隧道等)的模型210，即对象在不同情况下的行为，以及用于状态转换的模型203，即停车状态转换、充电状态转换、探索转换和自动驾驶车辆的移动转换。

例如，当自动驾驶汽车不忙并且系统部署车辆探索覆盖区域时，发生探索转换。移动转换可以是基于预测的需求与车辆位置之间的差异的操作决策。例如，车辆103a-c可以位于预定区域100的郊区，但是很快就会在音乐会或球赛上投射需求。在这种情况下，为了最小化等待时间，可以控制车辆行进到预测需求增加的位置附近的位置。

此外，模拟器模块204被构造为，生成包括用于基于强化学习分配资源的策略的模型，并将模型206提供给控制单元201。此外，控制单元201检索优化政策208，优化政策208指示在预定区域100中操作的至少两方中的每一方的优选度量值。控制单元201输出命令212并进行控制以影响预定区域100中的资源。

系统200包括一组机器学习模块、神经网络及规则、监督控制模块和其它模块。系统控制单元201还将反馈回S202模拟器模块204，以用于其从实时实际事件中学习。该反馈循环利于学习，因为尽管模拟器模块204可以模拟大量情况，但它仍然不能完全理解对象在现实世界如何表现。现实世界反馈数据和模型策略将具有适当较高的权重，以影响和补充由模拟器模块204进行的模拟学习。

图3概念性示出了需求模型307、接受模型308和意图模型309的生成。模型307-309以诸如泊松分布的概率分布的形式提供。

模拟器模块(图2中的204)接收用于输入系统的各部分的数据的元模型(301、302、303、304)。元模型(301、302、303、304)可以根据不同模态的实际数据(例如，不同类型的运输、天气数据、时间、基于例如年龄的不同用户组、人口统计等)来创建，然后通过适应因子305被定制以用于特定模拟示例(例如，如果考虑不同的预定区域)，接下来通过实时环境306进行动态调整。简而言之，模型结果(307，308，309)由元模型301-304构建，由来自不同和变化的来源的实际数据训练，然后由特定因子(305)调整，然后由环境306缩放。用于训练模型的实际数据可以是来自潜在的主要城市1-2年内(包括假日、工作日、寒冷天、夏日等)的出租车数据、比赛到场情况、音乐会细节、交通状况等等。

需求预测元模型301可以是针对特定预定区域进行训练的深度学习神经网络模型，该特定预定区域通常是具有相关环境数据306的地理位置。环境数据306可以包括一天中的时间、一周中的一天、一个月中的一天、假期、关注地点、特殊事件等。模型301将在深度学习神经网络中通过许多不同数据进行训练，这些数据诸如是打车数据、来自公共交通的运输数据、政府数据(例如在各个国家中强制报告的车辆数据)。

该需求元模型301例如能够预测周一早晨(学生和工作者)的需求、感恩节(节日人群)的需求、音乐会或球类比赛的去和回的需求、周末需求、夏日的旅游需求、回家人群在雨天或下雪天晚上的需求等等。

此外，需求预测元模型301聚合所有运输模式(步行、出租车、共享乘坐、公共交通、即停即走等等)。因此，需求元模型301可以基于参数在给定时间区间(例如，纽约1月的周一上午9:00-上午10:00)提供需求的分布。通常，这种分布在范围上非常有限，并且可能以相对受限的方式使用。

针对特定环境和预定区域生成需求模型307的第一步是应用适应模型(305)，适应模型(305)将该特定模型301应用于不同的状况——例如在纽约的冬日的周二早晨的学生通勤可以缩放(不是线性地，但基于神经模型)到哥德堡1月的周二早上的交通，那里的公共交通可用性和气候相似。使模型301适用于气候和运输选项不同的洛杉矶可能需要不同的模型，其方向正确但需要额外参数。

下一步是将环境306应用到需求元模型301(即，通过将另一个参数输入到经过训练的模型中)。例如，可能发生的是，本周二在1月是当地假日，则存在交通拥堵、或桥梁关闭、或季后球赛且本地球队受欢迎，在这种情况下，可能会有一大群人，直到比赛结束。由环境数据306提供的环境缩放提供了模拟各种可能性并从中学习的有利能力。

需求元模型301在包括适应因子305和环境层306之后产生需求模型307，需求模型307提供概率分布(例如，泊松分布)，即多少人需要在这个时间从这个大概位置的运输以及起初的到达率是多少。到达一个位置可以被建模为泊松分布，并且到达率是分布的参数。

适应因子305和环境306充当预测需求的多维缩放因子。例如，需求模型307可以预测x％的人群将使用公共交通工具并且y％将使用自动驾驶车辆。基于来自不同城市的先前事件(球赛、音乐会等)的数据的需求模型307将需要针对该事件(其可能具有较少的人群数量)并且视天气(雨天或寒冷天而不是阳光明媚的下午)而进行定制。这些可能不仅是线性模型，也可能需要采用动态环境输入的多维多模态复杂模型(如深度神经网络)，换句话说，该模型可以具有带参数的多个维度，并且可以使用来自不同域的数据以及通过环境和适应因子来进行的一组丰富的定制来执行训练。因此，模拟器模块将引入不同的环境场景并运行大量模拟。

偏好元模型302提供基于角色的偏好，其是可用运输选项303上的叠加项。移动出行乘坐共享实体可以使用模拟器模块来添加更多乘坐共享选项，并且观察它如何能够增加其份额。另一个可选应用可以是，地铁运营商可以评估是否能够通过给特定路线增加更多列车或公共汽车来增加公共交通的使用。

因此，偏好模型302是基于环境和基于角色的。例如，可以通过增加公共交通的可用性来激励学生乘坐公共交通工具，但对于奥斯卡奖人群来说，拥有更高端车辆的移动出行运营商将获得更多业务；但是对于音乐节，更多共享乘坐或公共交通可能是移动出行提供商(例如多方)的有利选择。此外，移动出行服务用户的偏好也可以用于针对某一事件或某一时间临时增加自动驾驶电动车辆的范围和容量。

偏好元模型302叠加需求分布产生关于多个运输选项303的接受分布308——当需求模型分布307是单个曲线时，接受分布308是一组分布曲线。

另一模型是意图元模型304。例如，可以知道每单位时间(例如每小时)需要运输多少人以及他们将如何出行。意图模型304添加当用户到达目的地之后计划做什么。例如，用户可能在一个工作日结束时回家，或者找地方吃饭(专门地)或去听音乐会等。意图模型304通常组合来自签到、旅行日志的多模态数据，从而解决下车后的地点数据(即使用智能API来确定一个人在一个GPS坐标处下车后最可能访问的位置)。

采用意图元模型304并根据环境对其进行调整，从而基于意图产生另一组分布309(意图模型309)。分布309(例如泊松分布)将根据目的地集中或分配，例如，如果目的地是球赛或音乐会，则将有很多人去那里，但是在一个夏天晚上从球赛出去的需求会被分配到多个地方，比如汉堡店、意大利餐厅，很多人回住宅区等。

因此，模拟器模块可以，基于根据从多个来源和位置得到的多模态数据进行训练的模型，生成大量需求、运输选项、偏好和意图，并且它可以将模型应用到特定位置和特定环境。

图4是几种类型的多方的示例性度量的表。在该表中，各方类别是客户、移动出行服务运营商、包裹递送运营商、城市和充电站运营商。每个类别中可以存在多于一方。优化政策可以例如根据模拟形成，并且例如，可以针对移动出行运营商是Max($，β，ζ，R，M)，Min(ρ)：针对包裹递送运营商是Max(τ1，$，β)，Min(ρ)。

图5概念性示出了模拟器模块的操作流程。模拟器模块204将需求模型307、接受模型308和意图模型309作为输入。如上面参考图3所描述的那样给出模型307、308、309。模型307、308、309可以设置为在不同环境下关于到达率和到达量的分布(例如，泊松分布)。因此，到达率和到达量可以根据一天中的时间、一周中的一天、特殊日以及不同的环境状况(例如桥梁关闭或道路工程)而变化。此外，模拟模块204接收针对各方和地理区域的优化政策208。

模拟器模块204还可以将对象模型210和用于状态转换的模型203作为输入。

模拟器模块输出一组数据，即日志506和度量508，以及模型策略206。记录在模拟运行期间的事务(例如，由模拟器模块执行的活动)，以便以后可以重建模拟。此外，每个模拟输出一组度量508。参考图4描述了度量。当试图达到纳什均衡时，控制单元201可以使用数据和日志。此外，模型策略206包括用于强化学习的值迭代和策略声明，以及用于在由环境数据提供的不同状况下进行纳什均衡计算的策略。控制单元将使用模型策略来协调资源。

图6示意性示出了根据本发明构思的各种实施方式的强化学习过程的概述。

增强学习模块600接收需求模型307、接受模型308、意图模型309、包括来自多方(102、105)的策略的模型606、以及其它规则和约束607(诸如交通规则)、以及指示移动出行资源的状态和转换610的数据。移动出行资源的状态和转换610可以取决于并根据以下进行调整：规定、政策和法规607、以及可选地环境参数608(诸如，区域中的车辆、客户的数量等)。基于输入，强化学习模块600提供一组日志506和度量508。

强化学习模块600的奖励函数是纳什均衡计算的结果，其中强化学习模块600的目标是找到满足纳什均衡条件的度量组。纳什均衡计算模块602基于多组度量508和日志506计算纳什均衡，并且如果纳什均衡在偏差ε(ε可以作为数值提供)内接近平衡，则给控制单元201发送控制信号以用于在预定地理区域中控制移动出行资源的分配。控制单元201还可以将数据反馈回强化学习模块600中，以使其从实时实际事件中学习。该反馈循环利于学习，这是因为尽管模拟器模块204可以模拟大量状况，但它仍然不能完全理解对象在现实世界中如何表现。强化学习模块600优选地应用深度强化学习算法。

现在转向图7，图7提供了用于纳什均衡计算和评估的功能性流程图。

纳什均衡计算模块602(其可以是软件模块)充当寻求纳什均衡的控制器。纳什均衡计算模块602从强化学习模块600接收(S104、S102)日志506和度量508。此外，纳什均衡计算模块602接收(S106)包括策略的模型，该策略例如包括建立纳什均衡所需的参数、函数和奖励。纳什均衡计算模块602还可以接收与预定区域100相关的政策和其它约束和规则604。

针对由强化学习模块600提供的多个可能场景、并且基于关于各方的度量和优化政策以及关于资源(即，自动驾驶车辆103a-c，106a-c)的各个奖励函数，构建(S110)纳什均衡。如果纳什均衡没有在偏差ε内接近平衡(S603)，则将来自纳什均衡的参数612(例如，得到的度量)发送给强化学习模块600，强化学习模块600可以是模拟模块的一部分。多方之间可以存在多个纳什均衡。从多方606给强化学习模块600提供允许偏差(ε)作为多方的模型策略的一部分。

如果在S603中满足纳什均衡条件，则将控制信号发送给控制单元201，以用于在预定地理区域中控制移动资源的分配。推断、学习到的策略以及政策与模型表达一起存储在数据库624中。系统可以在实时协调期间使用该模型。

可选地，可以调整S605偏差ε并将其反馈给纳什均衡计算模块602。该动态调整提供了敏捷性和灵活性以及反映现实世界变化情景的能力。因此，预定的变化可能导致原始ε过高或过低。因此，可以基于实时反馈来动态地调整允许偏差ε。

此外，系统控制单元201还反馈回S202强化学习模块600中，以用于其从实时实际事件中学习。换句话说，如果确定S610已经发现了强化学习过程中尚未涵盖的其它场景，则该场景将被提供给模块600中的强化学习的下一次迭代。可以从控制单元201提供S203呈度量或参数或模型伪像形式的附加反馈，其可能由于从现实世界学习而已经改变。

图8是根据本发明的实施方式的方法步骤的流程图。在步骤S102中检索一组度量，该度量指示与至少两方的资源的操作相关的关注因素，每一方具有多个资源。在步骤S104中，检索指示至少两方中的每一方的优选度量值的优化政策。此外，在步骤S106中检索用于至少两方中的每一方的模型策略，该模型策略指示与优化政策的可接受偏差。在步骤S108中从实时系统检索至少指示当前交通状况的环境数据。在步骤S110中，在考虑到模型策略和环境数据的情况下，在至少两方的优化政策中的多组度量之间构建纳什均衡的模型。在步骤S112中，根据模型化的纳什均衡的结果在地理区域中分配资源。

应用强化学习机制，以根据基于分配的模拟运行来推断选择模式和需求模式。强化学习机制还用于从现实世界的反馈中学习。实施强化学习的另一个流程是找到现实世界协调流程中的有意的异常或偏差。强化学习层包括对来自有限状态自动机的状态进行编码、捕获状态转换、在我们关注的状态下获得纳什均衡、然后基于均衡值来迭代值和政策。作为环境的一部分的参数将针对每组事件而改变，并且该改变和相关值/政策将映射在增强层中。奖励和值事实上取决于环境——这种均衡寻求强化对象，使得系统能够在桥梁关闭或交通激增或事件结束时进行管理。所有这些环境、奖励在每种情况下都有所不同。此外，奖励是由优化政策决定的——例如，利润最大化政策下的奖励与市场份额最大化政策下的奖励不同。实际上，本专利中的奖励函数是多个优化政策的加权重函数——因此可以构建一个重视收益最大化但认为市场份额具有一定重要性的政策。

本公开的控制功能可以通过使用现有计算机处理器实现，或者通过用于合适系统的专用计算机处理器实现，该专用计算机处理器为此目的或另一目的并入本文，或者通过硬线系统实现。本公开范围内的实施方式包括含有机器可读介质的程序产品，该机器可读介质用于执行或具有存储在其上的机器可执行指令或数据结构。这种机器可读介质可以是能够通过通用或专用计算机或具有处理器的其它机器访问的任何可用介质。举例来说，这种机器可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、或者可用于执行或存储呈机器可执行指令或数据结构形式的所需程序代码并且能够通过通用或专用计算机或具有处理器的其它机器访问的任何其它介质。当通过网络或其它通信连接(硬连线、无线或硬连线或无线的组合)向机器传输或提供信息时，机器将连接适当地视为机器可读介质。因此，任何这种连接都被适当地称为机器可读介质。上述内容的组合也包括在机器可读介质的范围内。机器可执行指令例如包括使通用计算机、专用计算机或专用处理机器执行某功能或功能组的指令和数据。

尽管附图可以示出序列，但是步骤的顺序可以与所描绘的顺序不同。并且可以同时或部分同时地执行两个或更多个步骤。这种变化将取决于所选择的软件和硬件系统以及设计者的选择。所有这些变化都在本公开的范围内。同样地，可以利用标准编程技术、利用基于规则的逻辑和其它逻辑来完成软件实施，以完成各种连接步骤、处理步骤、比较步骤和决策步骤。

本领域技术人员应认识到，本发明决不限于上述优选实施方式。相反，在随附权利要求的范围内可以进行许多修改和变化。

在权利要求中，词语“包括”不排除其它元件或步骤，并且不定冠词“一”或“一个”不排除多个。单个处理器或其它单元可以实现权利要求中记载的若干项的功能。在相互不同的从属权利要求中陈述某些措施的仅有事实并不表示这些措施的组合不能用于获益。权利要求中的任何附图标记不应被解释为限制范围。

Claims

1.一种用于在预定地理区域中分配资源的方法，所述方法包括：

-通过作为控制单元运行的处理器执行机器可执行指令经由通信连接检索(S102)一组度量，所述度量指示与至少两方(102、105)的资源的操作相关的关注因素，所述至少两方包括移动出行服务提供商、包裹递送运营商、充电站运营商、基础设施提供商、以及它们的任意用户中的至少两者，每一方具有多个资源，

-通过所述控制单元经由所述通信连接检索(S104)指示所述至少两方中的每一方的优选度量值的优化政策，

-通过所述控制单元检索(S106)包括用于在所述预定区域中分配资源的策略的至少一个模型，所述至少一个模型基于从用于分配资源的一组场景中学习，

-通过所述控制单元经由所述通信连接从实时系统中检索(S108)至少指示当前交通状况的环境数据，

-通过所述控制单元在考虑到所述至少一个模型和所述环境数据的情况下，在所述至少两方的所述优化政策中的多组度量之间建立(S110)纳什均衡，以及

-经由所述控制单元，根据已建立的纳什均衡的结果在所述地理区域中分配(S112)所述资源，所述资源的分配在考虑到所述至少一个模型和所述环境数据的情况下，优先满足所述至少两方的优化政策中的多组度量，以及

经由所述控制单元，引导所述资源的特定移动出行单元利用接近传感器和摄像头探索所述预定区域，接收与所述特定移动出行单元相关的用于观察到的状态转换的模型，并将所述用于观察到的状态转换的模型结合到修正的纳什均衡中。

2.根据权利要求1所述的方法，其特征在于，所述至少一个模型基于使用强化学习算法的训练。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

-接收对资源的请求，所述请求包括一组优选度量，以及

-进一步基于所述请求建立所述纳什均衡。

4.根据权利要求3所述的方法，其特征在于，所述方法包括：

-基于所述请求和已建立的纳什均衡的结果提出要约，

-接收对所述要约的回复，以及

-进一步基于所述回复分配所述资源。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

-至少基于关注地点的面积大小和人口密度来计算不包含在所述预定区域内的其它地理区域的适应因子，

-将所述预定区域的模型的属性缩放到其它区域以形成适应模型，以及

-使用所述适应模型在其它区域分配资源。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

-基于需求元模型、环境和地点构建需求模型，所述需求模型适用于预测运输需求，

-基于所述需求模型、各方移动出行偏好和运输选项构建接受模型，所述接受模型适用于预测运输偏好，

-基于到达坐标和场地生成意图模型，

-进一步基于所述需求模型、所述接受模型和所述意图模型建立所述纳什均衡。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

-基于资源分配的结果和强化学习来训练模型。

8.根据权利要求1所述的方法，其特征在于，所述资源是移动出行单元。

9.根据权利要求8所述的方法，其特征在于，所述移动出行单元是自动驾驶车辆。

10.根据权利要求1所述的方法，其特征在于，当所述多组度量之间的均衡在允许偏差(ε)内时，满足所述纳什均衡。

11.一种用于在预定地理区域中分配资源的系统，所述系统包括：

计算机可读介质，其上存储有机器可执行指令，所述机器可执行指令由作为控制单元运行的处理器执行以：-经由通信连接检索一组度量，所述度量指示与至少两方的资源的操作相关的关注因素，所述至少两方包括移动出行服务提供商、包裹递送运营商、充电站运营商、基础设施提供商、以及它们的任意用户中的至少两者，每一方具有多个资源(102)，

-经由所述通信连接检索指示所述至少两方中的每一方的优选度量值的优化政策(104)，

-检索包括用于在所述预定区域中分配资源的策略的至少一个模型，所述至少一个模型基于从用于分配资源的一组场景中学习(106)，

-经由所述通信连接从实时系统中检索至少指示当前交通状况的环境数据(108)，

-在考虑到所述至少一个模型和所述环境数据的情况下，在所述至少两方的所述优化政策中的多组度量之间建立纳什均衡(110)，

-根据已建立的纳什均衡的结果在所述地理区域中分配所述资源(112)，所述资源的分配在考虑到所述至少一个模型和所述环境数据的情况下，优先满足所述至少两方的优化政策中的多组度量，以及

引导所述资源的特定移动出行单元利用接近传感器和摄像头探索所述预定区域，接收与所述特定移动出行单元相关的用于观察到的状态转换的模型，并将所述用于观察到的状态转换的模型结合到修正的纳什均衡中。

12.根据权利要求11所述的系统，其特征在于，所述系统包括模拟器模块，所述模拟器模块被构造为：

-基于强化学习算法生成模型。

13.根据权利要求12所述的系统，其特征在于，所述模拟器模块被构造为：

-基于所述需求模型、各方移动出行偏好和运输选项构建接受模型，所述接受模型适于预测运输偏好，

-基于到达坐标和场地构建意图模型，

其中所述控制单元模块被构造为：

14.根据权利要求11所述的系统，其特征在于，所述系统包括服务器，所述控制单元和所述模拟器模块设置在所述服务器上。

15.一种包括计算机可读介质的计算机程序产品，所述计算机可读介质上存储有计算机程序模块，当所述计算机程序模块在计算机上运行时执行根据权利要求1-10中任一项所述的方法的步骤。