CN117873052A

CN117873052A - 具有实时函数逼近器的自动驾驶车辆的轨迹规划系统

Info

Publication number: CN117873052A
Application number: CN202310513861.9A
Authority: CN
Inventors: D·A·马西拉克; U·P·穆德利格
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2022-10-05
Filing date: 2023-05-08
Publication date: 2024-04-12
Also published as: DE102023111706A1; US20240132103A1

Abstract

一种自动驾驶车辆的轨迹规划系统包括与一个或多个外部车辆网络电子通信的一个或多个控制器，一个或多个外部车辆网络收集关于位于自动驾驶车辆周围环境中的一个或多个移动障碍物的数据。一个或多个控制器通过函数逼近器逼近自动驾驶车辆的实时自我状态集合，其中函数逼近器已经在监督学习过程中用该离线自我状态集合根据地面真值数据集合进行了训练。一个或多个控制器计算自动驾驶车辆的多个相对状态轨迹，其中该多个相对状态轨迹避免与自动驾驶车辆的该实时自我状态集合相交。一个或多个控制器从自动驾驶车辆的多个相对状态轨迹中选择轨迹，其中自动驾驶车辆在执行机动动作时遵循该轨迹。

Description

具有实时函数逼近器的自动驾驶车辆的轨迹规划系统

技术领域

本公开涉及一种轨迹规划系统，该轨迹规划系统基于自动驾驶车辆的一组自我状态的实时近似值来确定自动驾驶车辆的轨迹。

背景技术

半自动驾驶车辆和自动驾驶车辆在道路上变得越来越普遍。自动驾驶车辆可以执行各种规划任务，例如任务规划、行为规划和局部规划。一般来说，任务规划器基于自主车辆的开始位置到结束位置来确定轨迹或路线。当车辆沿着任务规划器确定的规定路线前进时，行为规划器专注于处理移动障碍物和静态物体，同时遵守任何规定的道路规则。

行为规划器目前没有利用基于动力学的预测信息来做出关于车辆轨迹的决策。因此，在某些情况下，在极端或意外事件中车辆可能无法完成及时避开移动障碍物的机动动作。极端或意外事件的一些示例包括恶劣天气、致动器不工作时或突然不稳定的驾驶员。传统方法可以使用运动学模型结合最坏情况加速度(worst-case acceleration)来限制车辆之间的车距。然而，运动学模型没有考虑线性和非线性轮胎动力学、较高滑移驾驶条件或车辆的横向状态和纵向状态之间的耦合运动。

因此，虽然当前的自动驾驶车辆实现了其预期目的，但是本领域中仍需要一种改进的轨迹规划系统，该轨迹规划系统通过利用更高保真度动力学模型来确保规避机动动作始终存在并且在感兴趣的操作域内是可执行的。

发明内容

根据几个方面，公开了一种自动驾驶车辆的轨迹规划系统。轨迹规划系统包括与一个或多个外部车辆网络电子通信的一个或多个控制器，一个或多个外部车辆网络收集关于位于自动驾驶车辆周围环境中的一个或多个移动障碍物的数据。一个或多个控制器执行指令以基于自动驾驶车辆动力学模型来确定离散时间相对车辆状态。一个或多个控制器基于离散时间相对车辆状态来确定位置回避集合，位置回避集合表示自动驾驶车辆在执行机动动作的同时绕过一个或多个移动障碍物时所回避的相对横向位置和纵向位置。一个或多个控制器确定自动驾驶车辆在不进入位置回避集合的情况下无法执行机动动作的离线自我状态集合。一个或多个控制器通过函数逼近器实时逼近自动驾驶车辆的实时自我状态集合，其中函数逼近器已经在监督学习过程中用该离线自我状态集合根据地面真值数据集合进行了训练。一个或多个控制器计算自动驾驶车辆的多个相对状态轨迹，其中多个相对状态轨迹避免与自动驾驶车辆的该实时自我状态集合相交。一个或多个控制器从自动驾驶车辆的多个相对状态轨迹中选择轨迹，其中自动驾驶车辆在执行机动动作时遵循该轨迹。

在另一个方面，函数逼近器基于自动驾驶车辆和一个或多个移动障碍物的当前位置和当前速度、自动驾驶车辆当前在行驶的道路的速度限制、环境变量和路况实时逼近该实时自我状态集合。

在又一个方面，一个或多个控制器通过以下方式选择轨迹：基于一个或多个特性为自动驾驶车辆的每个相对状态轨迹分配分数，并且选择具有最高分数的相对状态轨迹作为轨迹。

在一个方面，一个或多个特性包括以下一项或多项：乘坐舒适性、油耗、定时和持续时间。

在另一个方面，轨迹规划系统包括与一个或多个控制器电子通信的多个传感器，其中一个或多个控制器从多个传感器接收多个动力学变量作为输入。

在又一个方面，一个或多个控制器基于多个动力学变量和车辆底盘配置信息来确定自动驾驶车辆的自动驾驶车辆动力学模型。

在一个方面，位置回避集合由下式确定：

其中是位置回避集合，e_s是自动驾驶车辆相对于障碍物的离散时间相对纵向状态，e_d是自动驾驶车辆相对于障碍物的离散时间相对横向状态，e_s,l是离散时间相对纵向状态e_s的下限，e_s,u是离散时间相对纵向状态e_s的上限，e_d,l是离散时间相对横向状态e_d的下限，并且e_d,u是位置回避集合/>的离散时间相对纵向状态e_s,的下限。

在另一个方面，一个或多个控制器基于自动驾驶车辆的初始状态、自动驾驶车辆的最终状态以及一个或多个驾驶攻击性级别来确定自动驾驶车辆的多个相对状态轨迹。

在又一个方面，一个或多个驾驶攻击性级别包括保守攻击性级别、适度攻击性级别和侵略攻击性级别。

在一个方面，一个或多个控制器在离线过程中基于模拟数据和实验数据中的一者确定该自我状态集合。

在另一个方面，一个或多个移动障碍物包括位于自动驾驶车辆正行驶的道路上的另一车辆。

在又一个方面，该自我状态集合表示自动驾驶车辆无法在时间范围内执行机动动作以避开一个或多个移动障碍物的车辆状态。

在一个方面，自动驾驶车辆动力学模型包括以下一项或多项：线性轮胎模型和非线性轮胎模型。

在另一个方面，公开了一种包括轨迹规划系统的自动驾驶车辆。自动驾驶车辆包括确定多个动力学变量的多个传感器、收集关于位于自动驾驶车辆周围环境中的一个或多个移动障碍物的数据的一个或多个外部车辆网络、以及与一个或多个外部车辆网络和多个传感器电子通信的一个或多个控制器。一个或多个控制器执行指令以基于多个动力学变量和车辆底盘配置信息来确定自动驾驶车辆的自动驾驶车辆动力学模型。一个或多个控制器基于自动驾驶车辆动力学模型来确定离散时间相对车辆状态。一个或多个控制器基于离散时间相对车辆状态来确定位置回避集合，位置回避集合表示自动驾驶车辆在执行机动动作的同时绕过一个或多个移动障碍物时所回避的相对横向位置和纵向位置。一个或多个控制器确定自动驾驶车辆在不进入位置回避集合的情况下无法执行机动动作的离线自我状态集合。一个或多个控制器通过函数逼近器实时逼近自动驾驶车辆的实时自我状态集合，其中函数逼近器已经在监督学习过程中用该离线自我状态集合根据地面真值数据集合进行了训练。一个或多个控制器计算自动驾驶车辆的多个相对状态轨迹，其中多个相对状态轨迹避免与自动驾驶车辆的该实时自我状态集合相交。一个或多个控制器从自动驾驶车辆的多个相对状态轨迹中选择轨迹，其中自动驾驶车辆在执行机动动作时遵循该轨迹。

在又一个方面，一个或多个控制器通过以下方式选择轨迹：基于一个或多个特性为自动驾驶车辆的每个相对状态轨迹分配分数，以及选择具有最高分数的相对状态轨迹作为轨迹。

在一个方面，一个或多个控制器基于自动驾驶车辆的初始状态、自动驾驶车辆的最终状态以及一个或多个驾驶攻击性级别来确定自动驾驶车辆的多个相对状态轨迹。

在另一个方面，自动驾驶车辆动力学模型包括以下一项或多项：线性轮胎模型和非线性轮胎模型。

在又一个方面，公开了一种用于选择自动驾驶车辆的轨迹的方法。该方法包括由一个或多个控制器基于自动驾驶车辆动力学模型来确定离散时间相对车辆状态，其中一个或多个控制器与一个或多个外部车辆网络电子通信，一个或多个外部车辆网络收集关于位于自动驾驶车辆周围环境中的一个或多个移动障碍物的数据。该方法包括基于离散时间相对车辆状态来确定位置回避集合，位置回避集合表示自动驾驶车辆在执行机动动作的同时绕过一个或多个移动障碍物时所回避的相对横向位置和纵向位置。该方法还包括确定自动驾驶车辆在不进入位置回避集合的情况下无法执行机动动作的离线自我状态集合。该方法还包括通过函数逼近器实时逼近自动驾驶车辆的实时自我状态集合，其中函数逼近器已经在监督学习过程中用该离线自我状态集合根据地面真值数据集合进行了训练。该方法还包括计算自动驾驶车辆的多个相对状态轨迹，其中多个相对状态轨迹避免与自动驾驶车辆的该实时自我状态集合相交。最后，该方法包括从自动驾驶车辆的多个相对状态轨迹中选择轨迹，其中自动驾驶车辆在执行机动动作时遵循该轨迹。

在另一个方面，该方法包括基于自动驾驶车辆和一个或多个移动障碍物的当前位置和当前速度、自动驾驶车辆当前在行驶的道路的速度限制、环境变量和路况实时逼近该实时自我状态集合。

根据本文提供的描述，进一步的适用领域将变得显而易见。应该理解，说明书和具体示例仅仅是为了说明的目的，而不是旨在限制本公开的范围。

附图说明

本文描述的附图仅用于说明目的，并不旨在以任何方式限制本公开的范围。

图1是根据示例性实施例的包括所公开的轨迹规划系统的自动驾驶车辆的示意图，其中轨迹规划系统包括与多个传感器电子通信的一个或多个控制器；

图2是根据示例性实施例的沿着道路行驶的自动驾驶车辆和另一车辆的图示；

图3是根据示例性实施例的图1所示的一个或多个控制器的框图；以及

图4是示出根据示例性实施例的用于图1所示的自动驾驶车辆选择轨迹的方法的过程流程图。

具体实施方式

以下描述本质上仅仅是示例性的，并不旨在限制本公开、应用或用途。

参考图1，示出了自动驾驶车辆12的示例性轨迹规划系统10。轨迹规划系统10确保自动驾驶车辆12始终存在要避开一个或多个移动障碍物的机动动作。应当理解，自动驾驶车辆12可以是任何类型的车辆，例如但不限于轿车、卡车、运动型多用途车、面包车或房车。自动驾驶车辆12可以是包括用于执行所有驾驶任务的自动驾驶系统(ADS)的全自动驾驶车辆，或者是包括用于辅助驾驶员转向、制动和/或加速的高级驾驶辅助系统(ADAS)的半自动驾驶车辆。

轨迹规划系统10包括与多个传感器22电子通信的一个或多个控制器20，多个传感器22被配置为监测指示自动驾驶车辆12的动力学状态的数据并监测指示位于自动驾驶车辆12周围的环境52(图2)中的障碍物的数据。在如图1所示的非限制性实施例中，多个传感器22包括用于测量自动驾驶车辆12的一个或多个车轮40的车轮角速度的一个或多个车轮速度传感器30、一个或多个摄像头32、惯性测量单元(IMU)34、全球定位系统(GPS)36和激光雷达38，然而，应当理解，也可以使用额外的传感器。一个或多个控制器20还与多个车辆系统24电子通信。在一个非限制性实施例中，车辆系统24包括制动系统42、转向系统44、动力总成系统46和悬架系统48，然而，应当理解，也可以包括其他车辆系统。一个或多个控制器20还与一个或多个外部车辆网络26电子通信。一个或多个外部车辆网络26可以包括但不限于蜂窝网络、专用短程通信(DSRC)网络和车辆到基础设施(V2X)网络。

图2是在自动驾驶车辆12周围的环境52中沿着道路50在行驶的自动驾驶车辆12的图示，其中环境52包括沿着道路50设置的一个或多个移动障碍物54。在如图2所示的示例中，移动障碍物54是位于自动驾驶车辆12正在行驶的道路50上的另一车辆，然而，应当理解，图2本质上只是示例性的。实际上，移动障碍物54可以是自动驾驶车辆12避免接触的任何移动物体，例如自行车、行人和动物。一个或多个控制器20(图1)可以经由一个或多个外部车辆网络26接收关于移动障碍物54的信息。如图2所示，感兴趣区域60存在于移动障碍物54和自动驾驶车辆12之间。感兴趣区域60表示沿着道路50的区域，在该区域中自动驾驶车辆12在避免与移动障碍物54接触的同时无法在时间范围内执行机动动作。在一个非限制性实施例中，机动动作是为了避免与移动障碍物54发生交通事故而执行的规避机动动作。当自动驾驶车辆12位于感兴趣区域60之外时，自动驾驶车辆12能够执行避免接触移动障碍物54的机动动作。如果自动驾驶车辆12在感兴趣区域60内，则自动驾驶车辆12将不再必定地能够执行避免与移动障碍物54接触的机动动作。这是因为一旦自动驾驶车辆12进入感兴趣区域60，现在避开障碍物的能力不再仅仅由自动驾驶车辆12所执行的规划和控制算法来确定，而是还基于移动障碍物54的动作来影响或确定。

同时参考图1和图2，轨迹规划系统10选择自动驾驶车辆12所遵循的轨迹62，其中轨迹62在时间范围内不与感兴趣区域60相交或避开感兴趣区域60。如上所述，在一些实施例中，可以执行轨迹62以故意规避或避开移动障碍物54。自动驾驶车辆12在执行机动动作时遵循轨迹62，同时避开一个或多个移动障碍物54。应当理解，在一些实施例中，轨迹62可以沿着其边界66略微侵占感兴趣区域60。在该时间范围内，移动障碍物54也移动，其中由移动障碍物54创建的移动区域由移动障碍物区域64表示。当自动驾驶车辆12避免进入感兴趣区域60时，同时自动驾驶车辆12可能避免进入移动障碍物区域64。

图3是图1所示的一个或多个控制器20的图示。一个或多个控制器20包括离线模块70、机器学习模块72、状态监测系统模块74和实时模块76，实时模块76在自动驾驶车辆12行驶时实时选择自动驾驶车辆12的轨迹62。如下所述，机器学习模块72执行一个或多个机器学习算法，一个或多个机器学习算法逼近被提供给实时模块76的多个实时占用集合和实时自我状态集合/>其中，多个实时占用集合/>对应于环境52中的一个或多个移动障碍物54，实时自我状态集合/>对应于自动驾驶车辆12，其中k表示时间指数或时间步长，并且感兴趣范围的范围是从最终时间N到当前或初始时间0，或者k＝N-1,...,0。该实时自我状态集合/>表示自动驾驶车辆12无法在时间范围内执行机动动作以避开一个或多个移动障碍物54的车辆状态。多个实时占用集合/>在从初始时间0开始前进到到最大范围时间N_f在感兴趣范围内限定位于环境52中的一个或多个移动障碍物54。

如下所述，离线模块70首先确定离线过程中的地面真值数据集合78、80，地面真值数据集合78、80分别对应于多个离线占用集合和离线自我状态集合/>应当理解，地面真值数据集合78表示针对一个或多个移动障碍物54的位置和速度的范围以及变化的环境变量(例如道路几何形状、倾斜度、基于路况的摩擦系数、车辆质量和车辆惯性矩)而确定的多个离线占用集合/>的理想值或期望值。路况的一些示例包括但不限于道路几何形状、曲率、摩擦系数和倾斜度。类似地，地面真值数据集合80表示针对自动驾驶车辆12和一个或多个移动障碍物54的位置和速度的范围、道路50(图2)的速度限制以及通过改变环境变量和路况而确定的该离线自我状态集合/>的期望值。

机器学习模块72从离线模块70接收地面真值数据集合78、80作为输入。机器学习模块72训练函数逼近器82，以在离线进行的监督学习过程中基于相应的地面真值数据集合78来计算多个离线占用集合类似地，机器学习模块72训练函数逼近器84，以在离线进行的监督学习过程中基于相应的地面真值占用集合80来计算该离线自我状态集合/>一旦函数逼近器82、84在该监督学习过程中被训练，机器学习模块72就通过相应函数逼近器82、84实时逼近该多个实时占用集合/>和该实时自我状态集合/>

离线模块70考虑对应于自动驾驶车辆12的控制输入向量和对应于位于环境52中的一个或多个移动障碍物54的控制输入向量/>基于保存在一个或多个控制器20中的数据或通过基于诸如车辆型号、车辆品牌和车辆类型的信息的推断来约束该控制输入向量其中h表示主车辆(即，自动驾驶车辆12)，并且o表示移动障碍物54。控制输入向量表示用于确定自动驾驶车辆动力学模型的输入变量的向量形式，如下所述。具体地，用于确定自动驾驶车辆动力学模型的输入变量包括自动驾驶车辆12的纵向加速度a_long和方向盘角度δ。向量形式的输入变量属于容许输入集合/>或受其约束，该容许输入集合捕获纵向加速度a_long和方向盘角度δ的上限和下限。类似地，对应于位于环境52中的一个或多个移动障碍物54的控制输入向量/>表示移动障碍物54的动力学模型的输入变量的向量形式(即，对应于移动障碍物54的纵向加速度a_long和方向盘角度δ)。移动障碍物54的输入向量属于容许输入集合/>或受其约束，该容许输入集合捕获移动障碍物54的纵向加速度a_long和方向盘角度δ的上限和下限。

参考图1-图3，离线模块70从一个或多个传感器22接收多个动力学变量90作为输入，其中动力学变量90各自表示指示自动驾驶车辆12的动力学状态和驾驶环境条件的操作参数。驾驶环境条件的一些示例包括但不限于道路类型、路面和天气状况。应当理解，动力学变量90是基于实验数据或可替代地基于模拟数据确定的。离线模块70还接收车辆底盘配置信息92作为输入，其中车辆底盘配置信息92指示以下信息，诸如但不限于车轮数量、从动轮数量和转向轮数量。离线模块70基于动力学变量90、自动驾驶车辆12的车辆底盘配置信息92和自动驾驶车辆12的控制输入向量来确定自动驾驶车辆12的自动驾驶车辆动力学模型。

离线模块70还从一个或多个外部车辆网络26接收关于位于自动驾驶车辆12周围的环境52中的一个或多个车辆的动力学变量98和车辆底盘配置信息100。离线模块70基于动力学变量98、车辆底盘配置信息100和对应于位于环境52中的一个或多个移动障碍物54的控制输入向量来确定障碍物动力学模型。应当理解，车辆动力学模型和障碍物动力学模型都以Frenet坐标系表示。自动驾驶车辆动力学模型和障碍物动力学模型都基于动力学建模方法，而不是运动学建模方法。应当理解，自动驾驶车辆动力学模型和障碍物动力学模型包括线性和/或非线性轮胎模型以及相关车辆的横向状态和纵向状态之间的耦合。

离线模块70基于自动驾驶车辆12的自动驾驶车辆动力学模型和位于环境52中的一个或多个移动障碍物54的障碍物动力学模型来确定离散时间相对车辆状态e，其中离散时间相对车辆状态e表示预测自动驾驶车辆12在下一时间步长k相对于移动障碍物54的相对状态的函数。应当理解，离散时间相对车辆状态e的横向位移和纵向位移都以Frenet坐标系表示。

离线模块70通过首先确定对应于自动驾驶车辆12的自动驾驶车辆动力学模型和位于环境52中的一个或多个移动障碍物54的障碍物动力学模型之间的位置和速度的差来确定离散时间相对车辆状态e，以确定相对非线性动力学模型。如上所述，自动驾驶车辆12的自动驾驶车辆动力学模型和位于环境52中的一个或多个移动障碍物54的障碍物动力学模型都包括线性轮胎模型或非线性轮胎模型、或同时包括线性和非线性轮胎模型两者。相应地，将相对非线性动力学模型的非线性轮胎模型关于感兴趣操作条件来线性化。该感兴趣操作条件的一个示例是沿着车道中心线的恒定速度。然而，应当理解，也可以使用其他操作条件。将非线性轮胎模型线性化导致与该相对非线性动力学模型相关联的连续的时间对象和输入矩阵。然后将线性化后的相对非线性动力学模型从连续时间模型离散化为离散时间模型。在一个实施例中，该线性化后的相对非线性动力学模型由零阶保持模型或一阶保持模型离散化，这产生了离散时间相对车辆状态e。然而，也可以使用其他离散化方法。

然后，离线模块70基于该离散时间相对车辆状态e确定位置回避集合和占用集合这两个集合都以Frenet坐标系坐标表示。位置回避集合/>表示自动驾驶车辆12在执行机动动作的同时为了绕过移动障碍物54或避免与移动障碍物54接触而回避的相对横向位置和纵向位置。在一个实施例中，位置回避集合/>由等式1表示，该等式为：

其中e_s是自动驾驶车辆12相对于障碍物的离散时间相对纵向状态，e_d是自动驾驶车辆12相对于该障碍物的离散时间相对横向状态，e_s,l是离散时间相对纵向状态e_s的下限，e_s,u是离散时间相对纵向状态e_s的上限，e_d,l是离散时间相对横向状态e_d的下限，并且e_d,u是回避集合的离散时间相对纵向状态e_s,的下限。应当理解，这些极限仅仅表征了回避集合而不是自动驾驶车辆12在行驶时的横向或纵向状态。

占用集合以移动障碍物54为中心，并表示在当前或初始时间限制位于环境52(图2)中的一个或多个移动障碍物54的横向位置和纵向位置。在一个实施例中，占用集合/>在等式2中表示为：

其中s是一个或多个车辆的纵向位置，d是该一个或多个车辆的横向位置，s_l是该纵向位置的下限，s_u是该纵向位置的上限，d_l是该横向位置的下限，并且d_u是初始占用集合的横向位置的上限。同时参考图2和图3，沿着感兴趣范围的占用集合/>的并集/>由移动障碍物区域64表示。

然后，离线模块70确定地面真值数据集合78，地面真值数据集合78表示针对一个或多个移动障碍物54的位置和速度的范围并且通过改变环境变量(例如道路几何形状、倾斜度和基于路况的摩擦系数)的从初始时间0到最大范围时间N_f的感兴趣范围内的多个离线占用集合的期望值。初始时间的占用集合/>等于占用集合/>对于每个时间步长，基于等式3确定单个占用集合/>该单个占用集合/>是地面真值数据集合78的一部分，该等式为：

其中P表示容许位置子空间(即，容许驾驶区域或道路几何形状)，表示移动障碍物54的容许状态，/>是位于环境52中的一个或多个车辆的容许输入集合，x_k+1表示移动障碍物54的状态向量，A_k是线性化后的相对动力学模型的连续时间设备矩阵，/>是自动驾驶车辆12关于时间步长k的连续时间输入矩阵，并且/>是环境52中的一个或多个移动障碍物54关于时间步长k的连续时间输入矩阵。

机器学习模块72从离线模块70接收地面真值数据集合78，该地面真值数据集合78表示针对一个或多个移动障碍物54的位置和速度的范围以及变化的环境变量，在从初始时间0到最大范围时间N_f的感兴趣范围内向前计算的多个离线占用集合的期望值。机器学习模块72训练函数逼近器82，以在离线进行的监督学习过程中基于相应的地面真值占用集合78来计算多个离线占用集合/>具体地，通过首先计算离线占用集合/>来训练机器学习模块72，该离线占用集合分别对应于一组特定环境变量的一个或多个移动障碍物54的特定位置和速度。机器学习模块72将离线占用集合/>与相应的地面真值数据值进行比较，并调整离线占用集合/>的计算值，直到离线占用集合/>的连续计算值之间的差小于占用收敛标准。该占用收敛标准表示特定离线占用集合/>的连续计算值与地面真值数据集合78的一部分的相应值之间的阈值差。一旦函数逼近器82在监督学习过程中被训练，机器学习模块72基于一个或多个移动障碍物54的当前位置和当前速度以及当前环境变量，通过相应函数逼近器82实时地逼近多个实时占用集合/>

离线模块70还针对一组给定参数确定地面真值数据集合80，该地面真值数据集合80表示从最终时间N到当前或初始时间0的感兴趣范围内(或者k＝N-1,...,0)的该离线自我状态集合的期望值。该组给定参数包括以下变量，例如自动驾驶车辆12和一个或多个移动障碍物54的各种位置和速度、速度限制、环境变量和路况。该离线自我状态集合/>表示，针对该组给定参数，自动驾驶车辆12在不进入位置回避集合/>的情况下在感兴趣范围内无法执行机动动作的状态。在最终时间N，单个自我状态集合/>等于位置回避集合/>对于每个时间步长，基于等式4来确定单个离线自我状态/>该单个离线自我状态/>是地面真值数据集合80的一部分，该等式为：

其中e_k+1是时间步长k-1处的离散时间相对车辆状态，ε是自动驾驶车辆12和移动障碍物54之间的容许相对位置和速度状态的集合，分别是自动驾驶车辆12或位于环境52中的一个或多个移动障碍物54的容许输入集合，其表示纵向加速度a_long和方向盘角度δ的组合，并且e_k是时间步长k处的离散时间相对车辆状态。

机器学习模块72从离线模块70接收地面真值数据集合80，该地面真值数据集合80表示在从最终时间N到当前或初始时间0的感兴趣范围内(或者k＝N-1,...,0)向后计算的该离线自我状态集合其中针对该离线自我状态集合，自动驾驶车辆12在不进入位置回避集合/>的情况下在感兴趣范围内无法执行机动动作。机器学习模块72训练函数逼近器84，以在离线进行的监督学习过程中基于相应的地面真值占用集合80来计算多个离线自我状态/>具体地，通过首先计算离线自我状态/>来训练机器学习模块72，离线自我状态分别对应于针对一组特定环境变量的自动驾驶车辆12和一个或多个移动障碍物54的特定位置和速度。机器学习模块72将离线自我状态/>与相应的地面真值数据值80进行比较，并调整自我状态/>的计算值，直到自我状态/>的连续计算值之间的差小于自我收敛标准。自我收敛标准表示特定离线自我状态/>的连续计算值与作为地面真值数据集合80的一部分的相应值之间的阈值差。一旦函数逼近器84在监督学习过程中被训练，机器学习模块72就通过相应函数逼近器82基于自动驾驶车辆12和一个或多个移动障碍物54的当前位置和当前速度、道路50(图2)的速度限制、环境变量和路况来实时逼近该实时自我状态集合/>

状态监测系统模块74估计车辆状态120，其中车辆状态120指示自动驾驶车辆12的当前位置和速度。状态监测系统模块74还估计障碍物状态122，其中障碍物状态122指示位于环境52中的一个或多个移动障碍物54的当前位置和速度。应当理解，车辆状态120和障碍物状态122都以Frenet坐标系表示。车辆状态120和障碍物状态122都是基于任意的估计技术来估计的，例如，线性和非线性卡尔曼滤波器或目标检测和跟踪系统。

机器学习模块72的相应函数逼近器82基于一个或多个移动障碍物54的当前位置和当前速度以及环境变量实时逼近多个实时占用集合类似地，机器学习模块72的函数逼近器84基于自动驾驶车辆12和一个或多个移动障碍物54的当前位置和当前速度、道路50(图2)的速度限制、环境变量和路况实时地逼近该实时自我状态集合/>

实时模块76基于多个实时占用集合该实时自我状态集合/>自动驾驶车辆12当前沿道路50(见图2)行驶的速度限制、环境变量和路况来确定一组轨迹约束。然后，实时模块76对自动驾驶车辆12和位于环境52中的一个或多个移动障碍物54中的每一者逐个地应用轨迹约束，以基于自动驾驶车辆12和位于环境中的一个或多个移动障碍物54的位置和速度来确定多个实时占用集合/>和该实时自我状态集合/>

实时模块76计算自动驾驶车辆12的多个相对状态轨迹p^h(t)，以确定避开感兴趣区域60(图2)的机动动作。在一个实施例中，该机动动作是为了避免与移动障碍物54发生交通事故而执行的规避机动动作，并因此避开移动障碍物区域64(图2)。在实时模块76确定避开感兴趣区域60的机动动作的情况下，基于自动驾驶车辆12的初始状态、自动驾驶车辆12的最终状态和一个或多个驾驶攻击性级别来计算自动驾驶车辆12的多个相对状态轨迹p^h(t)，其中该多个相对状态轨迹p^h(t)避免与该实时自我状态集合相交。如上所述，在实施例中，相对状态轨迹p^h(t)可以沿着其边界66(图2)稍微侵占感兴趣区域60。在另一个实施例中，如果实时模块76确定需要规避机动动作，则基于自动驾驶车辆12的初始状态、自动驾驶车辆12的最终状态和一个或多个驾驶攻击性级别来计算自动驾驶车辆12的多个相对状态轨迹p^h(t)，其中该多个相对状态轨迹p^h(t)避免与多个实时占用集合/>相交。

在一个实施例中，一个或多个驾驶攻击性级别包括三个攻击性级别：保守攻击性级别、适度攻击性级别和侵略攻击性级别。然而，应当理解，也可以使用更少或更多攻击性级别。基于自动驾驶车辆12的初始状态和自动驾驶车辆12的最终状态根据累积急动度(jerk)和驾驶攻击性之间的多目标优化来计算相对状态轨迹p^h(t)。实时模块76还基于用于线性化非线性相对动力学模型的相同条件来计算移动障碍物54的轨迹p^o(t)，其中轨迹p^o(t)表示操作点，移动障碍物54的运动围绕该操作点被线性化。

然后，实时模块76通过以下方式选择轨迹62：基于一个或多个特性为自动驾驶车辆12的每个相对状态轨迹p^h(t)分配分数，然后基于每个相对状态轨迹p^h(t)的分数来选择轨迹62。具体地，实时模块76选择具有最高分数的相对状态轨迹p^h(t)作为轨迹62。一个或多个特性表示诸如但不限于乘坐舒适性、油耗、定时和持续时间等特征。在一个实施例中，实时模块76可以丢弃落入该实时自我状态集合内的自动驾驶车辆12的任何相对状态轨迹p^h(t)。然后实时模块76可以基于分配给每个相对状态轨迹p^h(t)的分数来选择相对状态轨迹p^h(t)。同时参考图2和图3，自动驾驶车辆12在执行机动动作时遵循轨迹62，同时避开一个或多个移动障碍物54。

图4是示出用于通过轨迹规划系统10来确定自动驾驶车辆12的轨迹62的方法200的过程流程图。通常参考图1-图4，方法200可以开始于框202。在框202中，一个或多个控制器20的离线模块70基于动力学变量90和自动驾驶车辆12(图2)的车辆底盘配置信息92来确定自动驾驶车辆12的自动驾驶车辆动力学模型。方法200然后可以进行到框204。

在框204中，一个或多个控制器20的离线模块70基于自动驾驶车辆12的自动驾驶车辆动力学模型来确定离散时间相对车辆状态e。然后方法200可以进行到框206。

在框206中，一个或多个控制器20的离线模块70基于离散时间相对车辆状态e来确定位置回避集合该位置回避集合表示自动驾驶车辆12在执行机动动作的同时为了绕过移动障碍物54或避免与移动障碍物54接触而回避的相对横向位置和纵向位置。然后方法200可以进行到框208。

在框208中，一个或多个控制器20的离线模块70确定与该离线自我状态集合相对应的地面真值数据集合80，其中针对该组给定参数，自动驾驶车辆12在不进入位置回避集合/>的情况下在感兴趣范围内无法执行机动动作。然后方法200可以进行到框210。

在框210中，一个或多个控制器20的机器学习模块72训练函数逼近器84，以在监督学习过程中基于相应的地面真值占用集合80来计算多个离线自我状态应当理解，框202-框210是在离线过程中执行的。然后方法200可以进行到框212。

在框212中，一个或多个控制器20的实时模块76通过函数逼近器84实时逼近自动驾驶车辆12的该实时自我状态集合其中函数逼近器84在监督学习过程中已经用表示地面真值数据集合的该组离线自我状态集合/>进行了训练。然后方法200可以进行到框214。

在框214中，一个或多个控制器20的实时模块76计算自动驾驶车辆12的相对状态轨迹p^h(t)，其中相对状态轨迹p^h(t)避免与该实时自我状态集合相交。然后方法200可以进行到框216。

在框216中，一个或多个控制器20的实时模块76从自动驾驶车辆12的多个相对状态轨迹p^h(t)中选择轨迹62，其中自动驾驶车辆12在执行机动动作时遵循轨迹62。具体地，实时模块76在框216A-框216D中确定轨迹62。在框216A中，实时模块76基于一个或多个特性为自动驾驶车辆12的每个相对状态轨迹p^h(t)分配分数。在决策框216B中，如果特定相对状态轨迹p^h(t)具有所有相对状态轨迹p^h(t)的分数，则在框214C中，在框216C中实时模块76选择该特定相对状态轨迹p^h(t)作为轨迹62。否则，实时模块76不选择特定相对状态轨迹p^h(t)作为轨迹62。

通常参考附图，所公开的轨迹规划系统提供了各种技术效果和益处。具体地，本公开提供了一种方法和架构，该方法和架构确保机动动作总是存在并且可由自动驾驶车辆在感兴趣的操作域内执行。应当理解，可以通过应用外部车辆网络(例如V2X)来与位于自动驾驶车辆周围环境中的其他移动障碍物通信来增强轨迹规划系统。在实施例中，可以从连接到该外部网络的其他车辆向轨迹规划系统提供关于下游路况的信息。当前的方法可依赖于运动学模型来确定车辆之间的车距，然而，运动学模型不考虑线性和非线性轮胎动力学或者车辆的横向和纵向状态的运动之间的耦合。相比之下，所公开的轨迹规划系统捕获线性和非线性轮胎动力学以及车辆的耦合的横向和纵向运动。最后，应当理解，所公开的轨迹规划系统还具有以高频率周期重新规划的能力，同时还满足感兴趣的驾驶约束(即，避开沿道路设置的各种区域)，这是因为在离线过程中已经训练了的函数逼近器。

控制器可以指或者是电子电路、组合逻辑电路、现场可编程门阵列(FPGA)、执行代码的处理器(共享处理器、专用处理器或分组处理器)的一部分，或者上述的一些或全部的组合，例如在片上系统中。附加地，控制器可以是基于微处理器的，例如具有至少一个处理器、存储器(RAM和/或ROM)以及相关联的输入和输出总线的计算机。处理器可以在驻留在存储器中的操作系统的控制下运行。操作系统可以管理计算机资源，使得实例为一个或多个计算机软件应用程序(例如驻留在存储器中的应用程序)的计算机程序代码可以具有由处理器执行的指令。在替代实施例中，处理器可以直接执行应用程序，在这种情况下可以省略操作系统。

本公开的描述本质上仅仅是示例性的，并且不脱离本公开的主旨的变化旨在落入本公开的范围内。这种变化不应被视为背离本公开的精神和范围。

Claims

1.一种自动驾驶车辆的轨迹规划系统，所述轨迹规划系统包括：

与一个或多个外部车辆网络电子通信的一个或多个控制器，所述一个或多个外部车辆网络收集关于位于所述自动驾驶车辆周围的环境中的一个或多个移动障碍物的数据，所述一个或多个控制器执行指令以：

基于自动驾驶车辆动力学模型来确定离散时间相对车辆状态；

基于所述离散时间相对车辆状态来确定位置回避集合，所述位置回避集合表示所述自动驾驶车辆在执行机动动作的同时绕过所述一个或多个移动障碍物时所回避的相对横向位置和纵向位置；

确定离线自我状态集合，针对所述离线自我状态集合，所述自动驾驶车辆在不进入所述位置回避集合的情况下无法执行机动动作；

通过函数逼近器实时逼近所述自动驾驶车辆的实时自我状态集合，其中所述函数逼近器已经在监督学习过程中用所述离线自我状态集合根据地面真值数据集合进行了训练；

计算所述自动驾驶车辆的多个相对状态轨迹，其中所述多个相对状态轨迹避免与自动驾驶车辆的所述实时自我状态集合相交；以及

从所述自动驾驶车辆的所述多个相对状态轨迹中选择轨迹，其中所述自动驾驶车辆在执行所述机动动作时遵循所述轨迹。

2.根据权利要求1所述的轨迹规划系统，其中所述函数逼近器基于所述自动驾驶车辆和所述一个或多个移动障碍物的当前位置和当前速度、所述自动驾驶车辆沿当前行驶的道路的速度限制、环境变量和路况来实时逼近所述实时自我状态集合。

3.根据权利要求1所述的轨迹规划系统，其中所述一个或多个控制器通过以下方式选择所述轨迹：

基于一个或多个特性为所述自动驾驶车辆的每个相对状态轨迹分配分数；以及

选择具有最高分数的所述相对状态轨迹作为所述轨迹。

4.根据权利要求3所述的轨迹规划系统，其中所述一个或多个特性包括以下各项中的一项或多项：乘坐舒适性、油耗、定时和持续时间。

5.根据权利要求1所述的轨迹规划系统，还包括与所述一个或多个控制器电子通信的多个传感器，其中所述一个或多个控制器从所述多个传感器接收多个动力学变量作为输入。

6.根据权利要求5所述的轨迹规划系统，其中所述一个或多个控制器基于所述多个动力学变量和车辆底盘配置信息来确定所述自动驾驶车辆的所述自动驾驶车辆动力学模型。

7.根据权利要求1所述的轨迹规划系统，其中所述位置回避集合由下式确定：

其中是所述位置回避集合，e_s是所述自动驾驶车辆相对于障碍物的离散时间相对纵向状态，e_d是所述自动驾驶车辆相对于所述障碍物的离散时间相对横向状态，e_s,l是所述离散时间相对纵向状态e_s的下限，e_s,u是所述离散时间相对纵向状态e_s的上限，e_d,l是所述离散时间相对横向状态e_d的下限，并且e_d,u是所述位置回避集合/>的离散时间相对纵向状态e_s,的下限。

8.根据权利要求1所述的轨迹规划系统，其中所述一个或多个控制器基于所述自动驾驶车辆的初始状态、所述自动驾驶车辆的最终状态和一个或多个驾驶攻击性级别来确定所述自动驾驶车辆的所述多个相对状态轨迹。

9.根据权利要求8所述的轨迹规划系统，其中所述一个或多个驾驶攻击性级别包括保守攻击性级别、适度攻击性级别和侵略攻击性级别。

10.根据权利要求1所述的轨迹规划系统，其中所述一个或多个控制器在离线过程中基于模拟数据和实验数据中的一个确定所述自我状态集合。