CN117980972A

CN117980972A - 用于获取地理围栏驾驶策略的基于仿真的方法和数据中心

Info

Publication number: CN117980972A
Application number: CN202180102212.9A
Authority: CN
Inventors: 雅恩·科伯勒; 斯特凡诺·萨巴蒂尼; 德兹米特里·齐什库
Original assignee: Huawei Technologies Co Ltd
Current assignee: Shenzhen Yinwang Intelligent Technology Co ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2024-05-03
Also published as: US20240132088A1; WO2023036430A1; KR20230146076A; EP4278340A1; JP7642842B2; MX2023011958A; CA3210127A1; JP2024510880A

Abstract

本发明提供了一种用于更新目标位置处自动驾驶车辆的目标驾驶策略的方法，包括以下步骤：车辆获取目标位置处的车辆驾驶数据；车辆将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心；数据中心使用车辆驾驶数据对目标位置执行交通仿真，以获取更新的目标驾驶策略；数据中心将更新的目标驾驶策略发送到车辆。

Description

用于获取地理围栏驾驶策略的基于仿真的方法和数据中心

技术领域

本发明涉及一种用于为自动驾驶车辆提供驾驶策略的方法。

背景技术

为提高自动驾驶车辆的安全性，在现有技术中使用了仿真。这种仿真可以以在线或离线的方式执行。

为提高真实世界驾驶策略的安全性和置信度，提出了在线方案。例如，可以通过在真实驾驶实验期间在场景中插入实时虚拟对象来执行仿真，以考验自动驾驶车辆驾驶策略。这使得即使真实车辆与虚拟车辆发生碰撞，也能在无风险的环境中产生作用。但是，与虚拟车辆的交互是有限的，因为虚拟车辆根据硬编码规则做出决策。此外，真实场景中的其它车辆无法与虚拟车辆交互，这使整个实验产生偏差。因此，使用虚拟车辆进行在线测试无法应对多个真实驾驶员，这限制了可用于安全评估的场景空间。

因此，使用虚拟智能体进行在线测试不能用于安全地改进与智能体的交互，而实际上，更适合展示失效案例。

以前的其它方法已使用离线交通仿真，以测试和提高驾驶策略的安全性。

现有技术的示例使用基于真实世界中由自动驾驶车辆收集的记录数据(下文中也称为日志)的仿真。仿真是根据记录数据初始化的，但日志的某些智能体替代为在完全不同的环境中单独学习的仿真智能体。在仿真期间，目标在于分析自动驾驶车辆驾驶策略对设计为与原始智能体行为不同的仿真智能体的反应。

此过程使得能够检查驾驶策略相对于轻微场景扰动的鲁棒性。但是，交通中的原始智能体无法与仿真智能体进行现实交互，因为它们只是使用一些简单的安全规则重播日志。因此，随着仿真的进行，仿真变得越来越不现实，因为仿真智能体的行为与日志不同，这反过来又使日志智能体的行为在新的扰动情况下变得不现实。

作为结论，采用仿真智能体替代的基于日志的仿真不太能提供与目标驾驶策略的完全现实的交互，这限制了改进自动驾驶车辆驾驶策略的可能性。

此外，需要适应于特定位置的驾驶策略，尤其是可能涉及许多其它车辆和/或交通智能体之间许多不同类型的交互且因此需要能够处理这种位置特定情况(例如进入、驾驶通过和离开特定环形交叉口)的自动驾驶车辆特殊驾驶策略的位置。

发明内容

鉴于上述情况，本申请的目的在于提供一种程序，该程序使得能够利用现实交互式交通生成器在一个或多个特定目标地理位置上大量训练自动驾驶车辆驾驶策略。

上述和其它目的通过独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中是显而易见的。

根据第一方面，提供了一种用于更新目标位置处自动驾驶车辆的目标驾驶策略的方法，包括以下步骤：车辆获取目标位置处的车辆驾驶数据；车辆将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心；数据中心使用车辆驾驶数据对目标位置执行交通仿真，以获取更新的目标驾驶策略；数据中心将更新的目标驾驶策略发送到车辆。

自动驾驶车辆获取特定位置(目标位置)处的车辆驾驶数据。这些数据可以通过传感器和/或相机获取。此类记录的车辆驾驶数据发送到数据中心，该数据中心对目标位置执行离线仿真。除已经包括在记录数据中的交通智能体以外，交通仿真还例如通过使用仿真场景中包括的仿真交通智能体以及可以改变/扰动哪些交通参数来训练当前目标驾驶策略。可以在从一个或多个记录的驾驶场景生成的多个驾驶场景的仿真中训练目标驾驶策略，扰动所述一个或多个记录的驾驶场景的特征(即，初始位置、目标、生成时间)，以挑战驾驶策略。在仿真步骤之后，根据仿真结果更新当前目标驾驶策略，并将更新的目标驾驶策略传输到自动驾驶车辆。因此，通过在目标位置获取的车辆驾驶数据，改进针对特定目标位置的目标驾驶策略。因此，当车辆下次经过目标位置时，可以应用更新(改进)的目标驾驶策略。例如，智能体(交通智能体)可以指其它车辆或行人。

根据一种实现方式，获取目标位置处的车辆驾驶数据、将获取的车辆驾驶数据发送到数据中心、使用车辆驾驶数据对目标位置执行交通仿真以获取更新的目标驾驶策略、将更新的目标驾驶策略发送到车辆的步骤可以重复一次或多次。必要时可以重复整个过程，例如，直到达到足够的安全性和/或置信度度量(评分/指标)。

这样，通过获取进一步的车辆驾驶数据(真实数据)，例如当车辆下次经过目标位置时，并通过数据中心中的交通仿真器使用进一步的车辆驾驶数据执行进一步的仿真，可以以很少的真实数据和相对较大量的仿真数据以离线方式逐步更新目标驾驶策略。因此，可以进一步训练和优化目标驾驶策略，以提高自动驾驶的安全性。

根据一种实现方式，所述方法可以包括以下进一步的步骤：获取通用驾驶数据和通用交通策略；使用通用驾驶数据和车辆驾驶数据使通用交通策略适应于目标位置。

初始通用交通仿真器可以使用通用驾驶数据和通用交通策略实现。通过使用目标位置处的车辆驾驶数据，可以通过仿真(尤其是车辆与其它交通智能体的仿真交互)挑战目标位置上的目标驾驶策略，从而根据来自目标位置的(真实)车辆驾驶数据执行通用交通仿真器的微调。例如，可以收集真实的驾驶场景(记录数据)，并且场景生成器可以从这些真实的驾驶场景生成1000个新场景，以挑战当前交通策略。可以找到使失效率(例如碰撞率)最大化的驾驶场景扰动序列。失效的特征可以是安全性评分和/或置信度评分低于阈值。换句话说，可以获取使交通策略的安全性和/或置信度评分最小化的场景驾驶扰动序列。因此，可以通过使所生成场景中的驾驶策略的失效率最大化来找到最佳场景扰动。这种扰动是最具挑战性的，因此可优化学习效果。可以在这些新场景中推出交通策略，并进一步更新交通策略。

一旦交通仿真器经过微调，便可用于通过基于车辆驾驶数据中的真实场景和仿真(挑战性)场景(例如由挑战性场景生成器生成的场景)的大量合成驾驶场景的仿真交互来改进目标驾驶策略。可以在从记录的场景生成的新驾驶场景中训练目标驾驶策略，以在给定更新的交通的情况下最大限度地提高目标策略的失效率(或者使安全性和/或置信度评分最小化)。如果交通导致失效(例如碰撞)，则重复上一步骤，否则意味着目标驾驶策略导致新驾驶场景中的失效(如碰撞)，此经验可用于对目标策略进行微调。可以根据应用于原始真实记录驾驶场景的有界扰动序列来生成驾驶场景，以使所生成的新驾驶场景的序列上的碰撞率最大化。如果S₀是真实场景，则(S₁,…,S_N)可以是所生成的具有S₀的轻微增量扰动的场景的序列，即，S₁＝S₀+perturbation₁，S₂＝S₁+perturbation₂等。设c(S,Π)表示场景S中策略Π的失效指标，则优选使最大化，其中，N表示扰动序列的长度。扰动是对地图上初始位置、目标位置(目的地)、智能体生成时间的修改，或对控制交通参与者风险厌恶的比率的修改。

根据一种实现方式，对目标位置执行交通仿真的步骤可以基于适应的通用交通策略。

这具有这样的优点，即，可以使用适应的(微调的)通用交通策略更精确地执行进一步的仿真步骤。

根据一种实现方式，更新的目标驾驶策略可以包括更新的目标驾驶策略参数集。

目标驾驶策略可以通过目标驾驶策略参数描述，因此更新的目标驾驶策略可以通过一个或多个更新的目标驾驶策略参数来定义。具体而言，只有更新的参数可以发送到车辆。

根据一种实现方式，执行交通仿真的步骤可以包括训练当前目标驾驶策略，以改进置信度度量和/或安全性度量。

可以根据平均加加速度率、与邻近物体的平均最小距离、越野驾驶率或碰撞时间中的至少一个来确定安全性度量(安全性指标)。可以根据到达目的地的平均时间、平均停顿时间或与专家驾驶场景相比的平均纵向速度中的至少一个来估计置信度度量(置信度指标)。

根据一种实现方式，所述方法还可以包括通过修改从车辆驾驶数据获取的初始交通场景生成不同交通场景；其中，使用所生成的不同交通场景对目标位置执行交通仿真。例如，场景生成器可以接收真实记录驾驶场景的初始集、表示为Π的待挑战交通策略集和不打算进行具体挑战的交通策略集。可以通过生成新驾驶场景的序列(S₁,…,S_N，如前所述)扰动初始驾驶场景，使得最大化。需要说明的是，c(S_i,Π)根据安全性和置信度指标量化失效。事实上，当在S_i中使用策略Π执行仿真时，可以获取在该场景中针对策略Π的安全性指标和置信度指标。需要说明的是，Π可以只是目标策略(下面进一步描述的途径的最后一步)，或者Π可以是交通策略(途径的第二步)。

这定义了通过修改从车辆驾驶数据获取的交通场景来仿真的挑战性场景的生成。

根据一种实现方式，修改初始交通场景的步骤可以包括以下中的至少一个：(a)增加交通场景中智能体的数量；(b)修改交通场景中智能体的速度；(c)修改交通场景中智能体的初始位置和/或方向；(d)修改交通场景中智能体的轨迹。

这为生成挑战性场景提供了可能的具体方式。具体而言，可以插入额外/新的交通智能体。此外或替代地，可以例如通过将围绕来自车辆驾驶数据的智能体的测得速度或插入智能体的速度的扰动包括在内而改变交通智能体的速度。可以尤其通过围绕当前值的扰动而改变交通场景中智能体的初始位置和/或方向，和/或可以改变，特别是扰动交通智能体的轨迹/路径。具体而言，可以改变目的地，并且可以由策略在内部进行路由。此外，可以控制交通策略的行为的一些特征，例如风险厌恶比率。

根据一种实现方式，目标位置可以通过地理限制区域的地图数据来描述。

目标位置可以通过有界地图描述，尤其是可以使用路网结构进行仿真。这些地图数据还可以包括交通标志，交通标志可以在地图数据中预定义，或者可以从车辆驾驶数据中插入(例如，通过车辆的相机识别)。车辆驾驶数据中的车辆位置可以从位置确定模块(例如GPS模块)获取，并且位置可以与地图数据相关。

根据一种实现方式，目标位置处的车辆驾驶数据还可以从另外一个或多个车辆中获取。

在该实现方式中，车队的其它车辆可以参与提供车辆驾驶数据，然后车辆驾驶数据可用于仿真。这提高了有关安全性和/或置信度的仿真结果，并减少了更新目标驾驶策略的时间。

根据第二方面，提供了一种数据中心，所述数据中心包括：接收装置，用于从车辆接收目标位置处的车辆驾驶数据和所述目标位置的当前目标驾驶策略；处理电路，用于使用所述车辆驾驶数据对所述目标位置执行交通仿真，以获取更新的目标驾驶策略；发送装置，用于将更新的目标驾驶策略发送到车辆。

根据第二方面及其任意一种实现方式所述的数据中心的优点和进一步细节对应于上面结合根据第一方面及其任意一种实现方式所述的方法描述的优点和进一步细节。有鉴于此，在此及下文中，参考上文的描述。

根据一种实现方式，所述处理电路还可用于使用通用驾驶数据和车辆驾驶数据使通用交通策略适应于目标位置。

根据一种实现方式，所述处理电路还可用于根据适应的通用交通策略对目标位置执行交通仿真。

根据一种实现方式，所述处理电路还可用于训练当前目标驾驶策略，以改进置信度度量和/或安全性度量。

根据一种实现方式，所述处理电路还可用于通过修改从车辆驾驶数据获取的初始交通场景生成不同交通场景；并用于使用所生成的不同交通场景对目标位置执行交通仿真。关于生成不同交通场景(即，如何使用挑战性场景生成器)的进一步细节，参考上面结合实现方式的解释，以及下面实施例的详细描述。

根据一种实现方式，所述处理电路还可用于通过以下方式中的至少一个修改初始交通场景：(a)增加交通场景中智能体的数量；(b)修改交通场景中智能体的速度；(c)修改交通场景中智能体的初始位置和/或方向；(d)修改交通场景中智能体的轨迹。

根据一种实现方式，接收装置还可以用于从另外一个或多个车辆接收目标位置处的车辆驾驶数据。

根据第三方面，提供了一种系统。所述系统包括车辆和根据第二方面或其任意一种实现方式所述的数据中心。所述车辆用于获取目标位置处的车辆驾驶数据并用于将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心。

根据一种实现方式，所述系统可用于重复执行获取目标位置处的车辆驾驶数据、将获取的车辆驾驶数据发送到数据中心、使用车辆驾驶数据对目标位置执行交通仿真以获取更新的目标驾驶策略、将更新的目标驾驶策略发送到车辆的步骤。

根据第四方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机可读指令，所述计算机可读指令当在计算机上运行时，用于执行根据第一方面或其任意一种实现方式所述的方法的步骤。

以下附图和说明书详细阐述了一个或多个实施例。在说明书、附图以及权利要求中清楚地表明了其它特征、目的和优点。

附图说明

下文结合附图对本发明的实施例进行详细描述。在附图中：

图1示出了根据实施例的一种用于更新目标位置处自动驾驶车辆的目标驾驶策略的方法；

图2示出了根据实施例的一种包括自动驾驶车辆和数据中心的系统；

图3示出了根据实施例的一种方法；

图4示出了根据实施例的一种方法；

图5示出了根据实施例的一种方法；

图6示出了根据实施例的一种方法。

具体实施方式

图1示出了根据实施例的一种用于更新目标位置处自动驾驶车辆的目标驾驶策略的方法。所述方法包括以下步骤：

110：车辆获取目标位置处的车辆驾驶数据；

120：车辆将获取的车辆驾驶数据和目标位置的当前目标驾驶策略发送到数据中心；

130：数据中心使用车辆驾驶数据对目标位置执行交通仿真，以获取更新的目标驾驶策略；

140：数据中心将更新的目标驾驶策略发送到车辆。

自动驾驶车辆获取目标位置处的车辆驾驶数据。这些数据可以通过传感器和/或相机获取。所获取的车辆驾驶数据发送到数据中心，该数据中心对目标位置执行离线仿真。除已经包括在车辆驾驶数据中的交通智能体以外，这些交通仿真还通过使用仿真场景中包括的仿真交通智能体和/或修改速度等智能体的交通参数来训练目标驾驶策略。因此，扰动初始场景，例如，如上文所述，从初始场景生成1000个新场景。仿真后，根据仿真结果更新目标驾驶策略，并将更新的目标驾驶策略传输到自动驾驶车辆，使得车辆下次行驶通过目标位置时可以应用更新的目标驾驶策略。

图2示出了根据实施例的一种包括自动驾驶车辆和数据中心的系统。

系统200包括车辆210和数据中心250。数据中心250包括：接收装置251，用于从车辆210接收目标位置处的车辆驾驶数据和目标位置的当前目标驾驶策略；处理电路255，用于使用车辆驾驶数据对目标位置执行交通仿真，以获取更新的目标驾驶策略；发送装置252，用于将更新的目标驾驶策略发送到车辆210。

下面结合图3至图6描述本发明的进一步细节。

除其它外，本发明解决了能够对目标地理区域进行最少数据收集的情况下提高自动驾驶车辆驾驶策略的安全性和置信度的技术问题，这对于大规模部署自动驾驶车辆非常重要。

事实上，自动驾驶车辆的基本通用驾驶策略旨在在任何情况下均具有安全性，在暴露于看不见的位置时预计会过于谨慎。为了使自动驾驶车辆适应客户特定的使用情形，使自动驾驶车辆至少与人类驾驶员一样高效，必须根据特定的用户位置对目标策略进行微调。由于自动驾驶车辆驾驶公司可能在动态不断变化的不同位置拥有众多客户，因此必须自动进行目标策略微调，才能盈利。

本发明通过以最少的数据收集和最小的人为干预进行现场微调的现实且鲁棒的交通仿真，解决了以离线方式自动提高目标地理区域上驾驶策略的安全性和置信度的问题。

本发明基于特定的程序，该程序能够利用现实的交通生成器在特定目标地理位置上大量训练自动驾驶车辆驾驶策略。

通用过程：自动驾驶体验改进

在实践中，这种方法使自动驾驶车辆的终端用户能够体验到仅在现场(目标位置处)进行有限的数据收集后所关注的特定目标位置(例如每天从家到工作地的通勤)的驾驶置信度和安全性突然提高。

现在，在图3中描述如何将离线训练途径用于实际应用。根据用户的活动，考虑部署在特定位置的多辆自动驾驶车辆(self driving vehicle，SDV)210、220、230。这些车辆中的每辆车每天都在手动或自动驾驶模式下在行驶时收集日志(车辆驾驶数据)。这些日志可以远程发送到数据中心(例如在夜间)。

在数据中心，在自动驾驶策略可以经历非常多样化的情况的特定目标位置执行大量仿真。利用在仿真中收集的大量经验，训练并改进自动驾驶策略。

一旦在仿真中测得自动驾驶策略置信度和安全性的具体改进，更新的自动驾驶车辆驾驶策略则通过远程通信自动发送回车辆210、220、230。在下一次行驶时，车辆(例如汽车)能够根据更新的驾驶策略驾驶，如果用户重新到达以前见过的位置，则用户可以体验到改进情况，或者如果遇到新的位置，则用户可以继续收集经验。

本发明的一个重要部分在于仿真过程。大量的仿真并不像以前的工作那样由硬编码规则驱动，而是使用大量数据学习现实交互式交通，并在所关注的特定位置上对交通进行微调。

这种架构的主要优点是：

·自动驾驶车辆驾驶策略自动更新，仅需对目标位置的最少的数据收集和人工支持

·与交通仿真器进行大量交互，用于进行定量安全性评估

·仿真现实且高效，因为仿真是通过利用海量数据和对特定目标位置进行微调来执行的学习现实交通仿真的过程可以分为三个步骤，如图4所示。

·通用现实交通学习

·目标地理位置交通微调

·对目标位置进行的自动驾驶车辆驾驶策略学习与所学到的交通进行交互

这些步骤在下文中进一步详细描述。

(1)通用、现实且鲁棒的交通学习

第一步的主旨是利用自动驾驶公司(通过车队或众包数据收集)现有的海量数据来学习通用的现实交通。

如图5所示，给定驾驶演示的数据集，根据多智能体生成式对抗模仿学习MAIRL学习驾驶策略池及驾驶策略相应的奖励函数[如参考文献Song等人，2018年中所述]。多智能体学习使得能够学习智能体之间在根据收集的可用位置的真实众包数据生成的大量情况下的交互。在此过程结束时，获取再现可用位置的现实驾驶行为的交通策略。

(2)目标位置交通微调

此步骤的目标在于对步骤1中学习到的少量地理围栏位置(受边界限制的位置)的通用交通进行微调，这些地理围栏位置将是自动驾驶车辆用户的主要目标。

为了对特定地理位置的交通策略进行微调，应用以下程序。

首先，使用真实车辆以手动或自动驾驶模式对目标位置执行少量驾驶演示的收集。收集可以由自动驾驶公司完成，也可以由在日常生活中使用自己车辆时执行此程序的用户直接完成。日志随后发送到数据中心，直接触发交通微调阶段。与步骤1相反，对此位置只需要很少的演示。

在交通微调阶段，PU-GAIL[正标签-无标签生成式对抗模仿学习，见参考文献Xu等人，2019年]可用于使步骤1中学习到的通用交通适应于目标位置。PU-GAIL使得能够利用该区域收集的少量真实驾驶演示和目标地理区域生成的合成驾驶仿真，以适应交通策略。

可以收集一些演示，然后挑战从这些初始场景生成的场景，以最大限度地提高这些新生成的场景下当前交通策略的失效率。合成场景生成的仿真发布可以用于根据PU-GAIL程序更新交通策略。如上所述，不需要关于目标位置的大量专家数据，因为PU-GAIL公式使得能够在这种情况下学习。

在此阶段结束时，交通能够在目标位置上安全交互。

(3)目标策略微调

第三步是学习目标位置的实际自动驾驶车辆驾驶策略，如图6所示。

这是通过使自动驾驶车辆与仿真中学习的交通交互来实现的。

此过程使驾驶系统能够使用大量不同的驾驶情况学习，这些情况不需要在自动模式下进行显式记录或测试，因为它们是仿真的。

与以前以基于规则的方式进行仿真的工作相反，这里的交通是以现实的方式仿真的，因为在步骤2中使用特定目标位置的数据对交通进行了学习和微调。

这里再次使用场景生成器在实际微调交通的情况下为目标策略生成挑战性场景。一旦合成场景集的失效率足够高，就会利用这些经验更新驾驶策略。

在此步骤之后，通过远程通信将策略更新发送回真实车辆，客户驾驶员可以在下次行驶时尝试改进。

车辆210、220、230是配备远程通信和传感器的自动驾驶车辆(self-drivingvehicle，SDV)。数据中心有一个通信接口用于与SDV通信。

数据中心中使用的算法需要目标位置的高清地图和驾驶演示数据集，以及全球导航卫星系统(global navigation satellite system，GNSS)和惯性测量单元(inertialmeasuring unit，IMU)和/或具有基于高清地图的定位功能的视觉，以便进行目标车辆数据收集。

用于训练系统的数据库可能需要一个大规模的驾驶演示数据库，该数据库与多个位置的高清地图保持一致。

该系统可用于提高目标地理位置的自动驾驶策略的置信度和安全性，且现场数据收集最少。

根据本发明的方法基于主要训练程序，该主要训练程序提高用户在真实车辆上以自动驾驶模式使用的目标驾驶策略(表示为)的安全性和置信度。首先介绍一些与上面详细介绍的训练途径相关的符号和词汇，然后转向对上面详细介绍的三个主要步骤的深入描述。

训练程序基于用于生成驾驶仿真的驾驶仿真器。驾驶仿真器使用驾驶场景S和驾驶策略集Π_θ初始化。驾驶场景S＝(R,T,H)定义为特定地理区域的有界路网描述、根据R定义的交通流T和仿真范围H的组合。仿真范围确定仿真器重置为新场景之前的最大仿真步骤数。交通流以特定频率填充具有智能体的驾驶场景。此外，交通流还给每个生成的智能体分配初始物理配置、目的地、类型(即，汽车、自行车、行人)及其关联的驾驶策略π_θ∈Π_θ。每个智能体都通过表示为π_θ的驾驶策略进行动画绘制，该策略实现为神经网络，该神经网络在每个仿真步骤中根据概率分布π_θ(a|o,r)将以要遵循的路线r为条件的动作a和场景的自我观察o关联起来。仿真器根据R和目的地自动提供该路线。自我观察由仿真器从每个智能体的角度生成，主要由语义层(即，高清地图)和关于场景上下文的语义信息(即，与前面邻居的距离、车道通道多段线等)组成。动作是至少在整个仿真步骤中要遵循的理想轨迹的高级描述。需要说明的是，每个动作都由下一级控制器转换为控制序列，以满足智能体(即，汽车、卡车、行人等)的物理约束条件。基于场景S＝(R,T,H)的驾驶仿真生成多智能体轨迹Γ，多智能体轨迹由填充在时间范围[0,H]之间的所有智能体的单个智能体轨迹组成。单个智能体轨迹τ＝[(o₀,a₀),...,(o_T,a_T)]主要是在每个仿真步骤中以给定的时间长度T采样的自我智能体观察和动作的序列。将交通策略称为针对由驾驶场景的交通流填充的动画智能体学习的策略集与控制真实自动驾驶车辆的目标驾驶策略相对。需要说明的是，多个交通智能体可以由相同的驾驶策略模型控制。此外，引入来自大规模数据集的专家驾驶演示作为一组由驾驶场景和关联的多智能体专家轨迹组成的对多智能体专家轨迹包含在场景时间延伸期间中填充的每个专家智能体的轨迹。为了改进由目标位置的路网代表的目标位置的目标策略利用在目标位置逐步收集并表示为的一些用户演示。

步骤1：通用、现实且鲁棒的交通学习

第一步是通过多智能体对抗模仿学习MAIRL[Song等人，2018年]从驾驶演示中学习交通策略及其奖励函数r_i。MAIRL算法解决了以下优化问题。

这里，Ψ是正则化项。需要说明的是，中的每个交通策略都有其关联的奖励函数该奖励函数将每对观察o_t和动作a_t映射到指示智能体行为的现实性和安全性的实际值。使用PPO、SAC、TD3、D4PG等策略更新方法[参见Orsini等人，2021年]，在优化鉴别器和优化策略之间交替解决优化问题。利用r_φ(s,a)＝log(D_φ(o,a)]-log(1-D_φ(o,a))，如[Fu等人，2018年]中详细说明，从鉴别器中得出奖励函数。为了获取不同的行为，可以使用相互信息正则化Ψ[Li等人，2017年]。通过补充损失[Bhattacharyya等人，2019年]惩罚不相关的动作和状态，或通过利用任务相关特征的限制条件[等人，2019年；Wang等人，2021年]，实施领域知识是可能的。通过使用中心化评价机制(centralized critic)D_centralized代替单独的以便协调给定状态下的所有智能体动作，如[Jeon等人，2021年]所述，实现智能体的隐式协调是可能的。当智能体需要协商时，比如在十字路口处，一个智能体需要让路，而另一个智能体应走这条路时，这尤其有趣。在此过程结束时，获取通用、现实且鲁棒的交通策略

步骤2：目标位置的交通微调

一旦交通策略根据演示D_e训练出来，第二步则是对目标地理位置的交通策略进行微调，以便交通智能体可以在除用户在D_user中遇到的情况以外的不同情况下在目标位置进行安全交互。场景生成器利用用户在目标位置收集的少量用户演示为交通策略Π_θ生成越来越具有挑战性的场景在该场景中可以训练交通策略。由交通策略生成的合成演示没有关联的真实专家演示，这与之前的步骤相反，在之前的步骤中，由于(S_i,Γ_i ^e)∈D_e，交通策略在赋予专家参考轨迹Γ_i ^e的场景中生成轨迹。因此，调整交通策略的训练方法，以便根据PUGAIL[Xu等人，2019年]程序，利用无标签轨迹以及D_user中的少量带标签的轨迹，详见附加章节。

交通微调的示例原理代码如下所示为算法1。

步骤3：目标策略微调

一旦对目标位置的交通策略Π_θ进行微调，便可以通过与目标位置的交通进行大量交互来微调目标策略。使用场景生成器从用户演示D_user的场景生成针对目标策略的越来越具有挑战性的场景目标策略在挑战性场景下与交通交互生成的演示D_trials用于根据目标策略自身的训练方法(表示为Train_target)更新表示为α的目标策略参数。需要说明的是，如果交通导致失效，则仍然可以利用交通演示根据步骤2对交通进行微调，并从该处重新启动目标策略训练。

目标策略微调的示例原理代码如下所示为算法2。

下文提供了有关各个步骤的附加信息。

PUGAIL训练程序

为了对交通策略进行微调，PUGAIL训练程序利用真实用户在目标位置行驶期间收集的少量演示D_user以及交通策略在挑战性场景中生成的综合演示D^synthetic。需要说明的是，D_user的大小远小于D ^synthetic。由于D ^synthetic中的场景没有关联的专家轨迹，因此直接在D ^synthetic∪D ^user上应用MAIRL算法会导致性能较差，因为数据集高度不平衡。

此外，由于缺乏地面真值，先验地考虑交通策略不能通过分配负标签在新的合成场景中产生现实的转变(o_t,a_t,o_t+1)是不公平的，因为交通策略已预计会在MAIRL步骤之后泛化，而且我们不知道人类驾驶员在这些情况下会采取什么行动。因此，初始问题重新定义为正标签无标签学习问题，其中，主要区别在于交通智能体轨迹被视为专家和学徒演示的混合。实际上，初始问题的鉴别器的目标表示为：

其中，η表示先验的正类，且根据[Xu等人，2019年]，β>0。由于正标签集D^user仍然小于无标签D^synthetic，因此根据真实场景和合成场景之间的比率调整先验的正类η，以缓解不平衡问题。鉴于这个新目标，如同以前一样交替使用鉴别器和策略更新，并在多个步骤后获取微调的目标策略这些目标策略在基于目标位置构建的各种场景中安全交互。

安全性和置信度评分

为评估驾驶策略集相对于驾驶场景集是否具有安全性和置信度，计算仿真生成的每个事件中交通智能体或目标策略的安全性和置信度评分。最终评分是各个评分的加权总和，各个评分基于的是[Shalev-Shwartz等人，2017年]提出的驾驶轨迹的具体方面：

·安全性指标：可以根据碰撞率、交通规则违规情况、最小安全距离、加加速度率、越野驾驶率、向中心线的横向偏移等几个标准，根据驾驶场景集估计驾驶策略安全性

·置信度指标：可以通过到达目标的时间或碰撞时间等代理指标来估计驾驶策略的置信度，其中，一旦智能体的置信度提高，到达目标的时间将减少，随着智能体的置信度提高，碰撞时间也将减少

挑战性场景生成

为了在目标地理位置生成各种挑战性场景，以便在第二阶段训练交通策略Пθ或在第三阶段训练目标策略引入场景生成器模块。需要说明的是，场景生成器利用用户在目标位置逐步收集的D_user的场景作为种子来生成新的场景。事实上，这能够使场景集不断多样化，涵盖常见情况到非常不寻常的情况，并有选定的覆盖范围。需要说明的是，驾驶场景可以通过有限的参数列表来表征，并基于关联的交通流。交通流基于的是由以特定频率生成智能体的交通节点集组成的交通流图。每个生成的智能体都有自身的初始物理配置，即，初始位置、速度、目的地、驾驶策略和驾驶风格，具体取决于驾驶策略。所有这些参数都可以在保持交通一致(即，不能在同一位置和同一时间生成两个智能体)的特定简单约束条件下扰动。场景生成器寻找导致驾驶策略П安全性和置信度评分较低的场景的最小有界扰动序列。此处，驾驶策略П可以表示交通策略∏_θ或目标策略在搜索过程中，驾驶策略可训练的权重是固定的。使用基于强化学习的程序来学习场景扰动策略，该场景扰动策略表示为π_perturbation，在生成的场景序列中使平均累积安全性和置信度评分最小化。需要说明的是，每个试验只能应用有限数量的扰动，扰动表示为P。使用离线策略方法来学习DQN[参见Mnih等人，2013年]等π_perturbation，其中，采用重播缓冲区B存储以下形式(S,δ,score(∏,S′),S′)的转换，其中，S是当前场景，δ是要应用的扰动、S’是扰动后产生的场景，score(Π,S′)是在场景S′中驾驶策略Π的安全性和置信度评分：

用于生成挑战性场景的示例原理代码如下所示为算法3。

参考文献：

·[Bhattacharyya等人，2019年]通过生成式对抗模仿学习进行人类驾驶行为建模，Raunak Bhattacharyya，Blake Wulfe Derek Phillips，Alex Kuefler，Jeremy MortonRansalu Senanayake Mykel Kochenderfer，2019年

·[Wang等人，2021年]通过增强对抗逆强化学习进行自动驾驶决策，Pin Wang，Dapeng Liu，Jiayu Chen，Hanhan Li，Ching-Yao Chan，2021年

·[Jeon等人，2021年]可扩展和样本高效的多智能体模仿学习，Wonseok Jeon，Paul Barde，Joelle Pineau，Derek Nowrouzezahrai，2021年

·[等人，2019年]任务相关对抗模仿学习，Konrad Scott Reed，Alexander Novikov，Sergio Gomez Colmenarejo，David Budden，Serkan Cabi，MishaDenil，Nando de Freitas，Ziyu Wang，2019年

·[Xu等人，2019年]正标签无标签奖励学习，Danfei Xu，Misha Denil，2019年

·[Song等人，2018年]多智能体生成式对抗模仿学习，Jiaming Song，HongyuRen，Dorsa Sadigh，Stefano Ermon，2018年

·[Li等人，2017年]InfoGAIL：根据视觉演示进行可解释的模仿学习，Yunzhu Li，Jiaming Song，Stefano Ermon，2017年

·[Fu等人，2018年]通过对抗逆强化学习学习鲁棒奖励，Justin Fu，Katie Luo，Sergey Levine，2017年

·[Orsini等人，2021年]对抗模仿学习最重要的是什么？Manu Orsini，AntonRaichuk，Léonard Hussenot，Damien Vincent，Robert Dadashi，Sertan Girgin，MatthieuGeist，Olivier Bachem，Olivier Pietquin，Marcin Andrychowicz，2021年

·[Mnih等人，2013年]使用深度强化学习玩雅达利游戏，Volodymyr Mnih，KorayKavukcuoglu，David Silver，Alex Graves，Ioannis Antonoglou，Daan Wierstra，MartinRiedmiller，2013年

·[Shalev-Shwartz等人，2017年]关于安全和可扩展自动驾驶汽车的正式模型，Shai Shalev-Shwartz，Shaked Shammah，Amnon Shashua Mobileye，2017年。

Claims

1.一种用于更新目标位置处自动驾驶车辆(210、220、230)的目标驾驶策略的方法，其特征在于，包括以下步骤：

所述车辆(210)获取(110)所述目标位置处的车辆驾驶数据；

所述车辆(210、220、230)将所述获取的车辆驾驶数据和所述目标位置的当前目标驾驶策略发送(120)到数据中心(250)；

所述数据中心(250)使用所述车辆驾驶数据对所述目标位置执行(130)交通仿真，以获取更新的目标驾驶策略；

所述数据中心(250)将所述更新的目标驾驶策略发送(140)到所述车辆(210、220、230)。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标位置处的车辆驾驶数据、将所述获取的车辆驾驶数据发送到所述数据中心、使用所述车辆驾驶数据对所述目标位置执行交通仿真，以获取更新的目标驾驶策略、将所述更新的目标驾驶策略发送到所述车辆的步骤重复一次或多次。

3.根据权利要求1或2所述的方法，其特征在于，还包括以下步骤：

获取通用驾驶数据和通用交通策略；

使用所述通用驾驶数据和所述车辆驾驶数据使所述通用交通策略适应于所述目标位置。

4.根据权利要求3所述的方法，其特征在于，所述对所述目标位置执行交通仿真的步骤基于所述适应的通用交通策略。

5.根据上述权利要求中任一项所述的方法，其特征在于，所述更新的目标驾驶策略包括更新的目标驾驶策略参数集。

6.根据上述权利要求中任一项所述的方法，其特征在于，所述执行交通仿真包括训练所述当前目标驾驶策略，以改进置信度度量和/或安全性度量。

7.根据上述权利要求中任一项所述的方法，其特征在于，还包括：

通过修改从所述车辆驾驶数据获取的初始交通场景生成不同交通场景；

其中，对所述目标位置的所述交通仿真是使用所述生成的不同交通场景执行的。

8.根据权利要求7所述的方法，其特征在于，所述修改初始交通场景包括以下中的至少一个：

增加所述交通场景中智能体的数量；

修改所述交通场景中智能体的速度；

修改所述交通场景中智能体的初始位置和/或方向；

修改所述交通场景中智能体的轨迹。

9.根据上述权利要求中任一项所述的方法，其特征在于，所述目标位置通过地理限制区域的地图数据描述。

10.根据上述权利要求中任一项所述的方法，其特征在于，所述目标位置处的车辆驾驶数据还从另外一个或多个车辆中获取。

11.一种数据中心(250)，其特征在于，包括：

接收装置(251)，用于从车辆(210、220、230)接收目标位置处的车辆驾驶数据和所述目标位置的当前目标驾驶策略；

处理电路(255)，用于使用所述车辆驾驶数据对所述目标位置执行交通仿真，以获取更新的目标驾驶策略；

发送装置(252)，用于将所述更新的目标驾驶策略发送到所述车辆(210、220、230)。

12.根据权利要求11所述的数据中心，其特征在于，所述处理电路还用于使用通用驾驶数据和所述车辆驾驶数据使通用交通策略适应于所述目标位置。

13.根据权利要求11或12所述的数据中心，其特征在于，所述处理电路还用于根据所述适应的通用交通策略对所述目标位置执行交通仿真。

14.根据权利要求11至13中任一项所述的数据中心，其特征在于，所述更新的目标驾驶策略包括更新的目标驾驶策略参数集。

15.根据权利要求11至14中任一项所述的数据中心，其特征在于，所述处理电路还用于训练所述当前目标驾驶策略，以改进置信度度量和/或安全性度量。

16.根据权利要求11至15中任一项所述的数据中心，其特征在于，所述处理电路还用于通过修改从所述车辆驾驶数据获取的初始交通场景生成不同交通场景；使用所述生成的不同交通场景对所述目标位置执行所述交通仿真。

17.根据权利要求16所述的数据中心，其特征在于，所述处理电路用于通过以下中的至少一个修改所述初始交通场景：

增加所述交通场景中智能体的数量；

修改所述交通场景中智能体的速度；

修改所述交通场景中智能体的初始位置和/或方向；

修改所述交通场景中智能体的轨迹。

18.根据权利要求11至17中任一项所述的数据中心，其特征在于，所述目标位置通过地理限制区域的地图数据描述。

19.根据权利要求11至18中任一项所述的数据中心，其特征在于，所述接收装置还用于从另外一个或多个车辆接收所述目标位置处的车辆驾驶数据。

20.一种系统(200)，其特征在于，包括：

车辆(210、220、230)，用于获取目标位置处的车辆驾驶数据，并用于将所述获取的车辆驾驶数据和所述目标位置的当前目标驾驶策略发送到数据中心；

根据权利要求11至19中任一项所述的数据中心(250)。

21.根据权利要求20所述的系统，其特征在于，用于重复执行所述获取所述目标位置处的车辆驾驶数据、将所述获取的车辆驾驶数据发送到所述数据中心、使用所述车辆驾驶数据对所述目标位置执行交通仿真，以获取更新的目标驾驶策略、将所述更新的目标驾驶策略发送到所述车辆的步骤。

22.一种计算机程序产品，其特征在于，包括计算机可读指令，所述计算机可读指令当在计算机上运行时，用于执行根据权利要求1至10中任一项所述的方法的步骤。