CN115082900B

CN115082900B - 一种停车场场景下智能车辆行驶决策系统及方法

Info

Publication number: CN115082900B
Application number: CN202210851076.XA
Authority: CN
Inventors: 秦兆博; 韩沐林; 徐彪; 谢国涛; 王晓伟; 秦洪懋; 边有钢; 胡满江; 秦晓辉; 丁荣军
Original assignee: Wuxi Institute Of Intelligent Control Hunan University
Current assignee: Wuxi Institute Of Intelligent Control Hunan University
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2023-06-16
Anticipated expiration: 2042-07-19
Also published as: CN115082900A

Abstract

本发明公开了一种停车场场景下智能车辆行驶决策系统及方法，其包括：上层决策单元，用于接收周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为；下层决策单元，用于接收周围环境与自车状态的信息以及上层决策单元输出的决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度。本发明能够提高车辆行驶的安全性与效率性。

Description

一种停车场场景下智能车辆行驶决策系统及方法

技术领域

本发明涉及智能车辆驾驶技术领域，特别是关于一种停车场场景下智能车辆行驶决策系统及方法。

背景技术

目前在停车场场景下的智能车辆行驶的决策方法主要是基于规则的方法，比如：如行为树规则。行为树规则是一种基于规则的决策方法，将智能车辆在停车场场景下所遇到的不同场景进行划分，建立不同的决策规则，从而保证车辆在停车场场景下的行驶安全性。但是，只使用行为树规则进行车辆决策的方法，虽然能够保证车辆在停车场行驶过程中的安全性，但是车辆在切换不同驾驶行为时，很难保证其行驶的平顺性，从而会降低乘员乘坐的舒适性，并且不利于车辆的精准控制。

发明内容

本发明的目的在于提供一种停车场场景下智能车辆行驶决策系统及方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种停车场场景下智能车辆行驶决策系统，其包括：上层决策单元，用于接收周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为；下层决策单元，用于接收周围环境与自车状态的信息以及上层决策单元输出的决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度；其中，上层决策单元包括：停车场场景辨识子单元，其用于根据周围环境与自车状态，结合预先设置的停车场场景准入条件，确定当前的停车场场景所属场景类别，场景类别包括直线行驶场景、交叉口场景和停车位场景，每一场景类别对应的行为树包括：第一检测模块，其用于检测自车行驶方向上的障碍物；第二检测模块，其用于检测检测到的障碍物与自车在行驶方向上的距离；第三检测模块，其用于检测自车停车时间；第一决策子单元，其用于在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随；其中，第二距离阈值大于预设安全距离。

本发明还提供一种停车场场景下智能车辆行驶决策方法，其包括：步骤1，获取周围环境与自车状态的信息；步骤2，根据周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为；步骤3，结合周围环境与自车状态的信息以及决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度；其中，步骤3具体包括：步骤31，根据周围环境与自车状态，结合预先设置的停车场场景准入条件，确定当前的停车场场景所属场景类别，场景类别包括直线行驶场景、交叉口场景和停车位场景，每一场景类别对应的行为树包括：骤32，检测自车行驶方向上的障碍物、检测到的障碍物与自车在行驶方向上的距离、以及自车停车时间；步骤33，在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随；其中，第二距离阈值大于预设安全距离。

本发明由于采取以上技术方案，其具有以下优点：

本发明使用上下层相结合的方法实现自车在停车场场景下的行驶决策行为，上层使用基于规则的方法——行为树规则，用来保证自车在停车场场景下行驶的安全性，下层使用基于学习的方法——深度Q学习，用来保证自车在停车场场景下行驶的平顺性，从而实现自车在停车场场景下行驶的安全性与平顺性，给予乘员既安全又舒适的乘坐体验。相比于现有技术所建立的行为树规则相比，本发明所建立的行为树规则更加丰富，所包含的停车场场景更加全面，因此能够提高车辆行驶的安全性与效率性。

附图说明

图1为本发明实施例提供的一种停车场场景下智能车辆行驶决策方法的原理图。

图2为本发明实施例提供的一种停车场场景决策模型示意图。

图3-图5分别为本发明实施例提供的一种直线、交叉口和停车位行驶场景决策模型示意图。

图6为本发明实施例提供的一种基于停车场场景下智能车辆行驶决策系统的示意图。

具体实施方式

在附图中，使用相同或类似的标号为相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

本文涉及下列术语，为便于理解，对其含义说明如下。本领域技术人员应当理解，下列术语也可能有其它名称，但在不脱离其含义的情形下，其它任何名称都应当被认为与本文所列术语一致。

如图1所示，本发明实施例提供的停车场场景下智能车辆行驶决策系统包括上层决策单元和下层决策单元，其中：

上层决策单元用于接收周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为。决策行为包括车辆跟随、路径跟随、换道避障和车辆停车等行为。

下层决策单元用于接收周围环境与自车状态的信息以及上层决策单元输出的决策行为，使用深度Q学习方法，输出自车在当前的停车场场景下决策行为对应的加加速度和方向盘转向角角速度。

本发明实施例通过上层决策单元生成与辨识出复杂的停车场场景相对应的行为树规则，因此可以获得更加准确的的决策行为，再将决策行为输入给下层深度Q学习，因此能够为车辆输出更加精准的方向盘横摆角速度和车辆的加加速度。

在一个实施例中，上层决策单元包括停车场场景辨识子单元，停车场场景辨识子单元用于根据周围环境与自车状态，结合预先设置的停车场场景准入条件，确定当前的停车场场景所属场景类别。

如图2所示，场景类别包括直线行驶场景、交叉口场景和停车位场景。这种划分可以对行为树规则进行简化，使决策更加简单明了。

其中，直线行驶场景的准入条件为：自车即将行驶的道路段为停车场中的直行道路，且车辆位置与进入停车场中交叉口位置和目标停车位位置的距离大于第一距离阈值d₁，d₁的取值为经验值，在0-10m的范围内均可。

交叉口场景的准入条件为：自车即将行驶的道路段为停车场中的交叉口，且车辆位置与进入交叉口位置的距离小于第一距离阈值d₁且与离开交叉口位置的距离大于0。

停车位场景的准入条件为：车辆位置距离目标停车位位置的距离小于第一距离阈值d₁且大于0。

下面场景类别的不同，对其行为树进行展开说明。

1.场景类别为直线行驶场景，其行为树包括第一检测模块、第二检测模块、第三检测模块、障碍物种类检测单元、行驶方向检测模块、对向车道障碍物检测模块、障碍物速度检测模块、车道内外检测模块、障碍物方向检测模块、第一决策子单元、第二决策子单元、第三决策子单元和第四决策子单元，其中：

第一检测模块用于检测自车行驶方向上的障碍物。

第二检测模块用于检测检测到的障碍物与自车在行驶方向上的距离。

第三检测模块用于检测自车停车时间。

障碍物种类检测单元用于检测的类别，障碍物包括车辆障碍物、行人障碍物和其他静态障碍物(如锥形桶等)。

行驶方向检测模块用于检测车辆障碍物与自车的行驶方向的相对性。

对向车道障碍物检测模块用于检测自车的对向车道是否有车辆障碍物。

障碍物速度检测模块用于检测车辆障碍物的行驶速度。

车道内外检测模块用于检测障碍物与自车当前行驶车道的相对位置，相对位置可以包括车辆障碍物与自车行驶在相同车道和不同车道，也可以包括行人障碍物或其他静态障碍物在自车所行驶的车道内、外和附近。

障碍物方向检测模块用于检测障碍物的行走方向与自车的行驶方向的相对性。

如图3所示，第一决策子单元用于在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随。其中，第二距离阈值d₂大于预设安全距离。其中，由于车辆在停车场场景中行驶速度通常较慢，d₂的取值可以选择10m左右，预设安全距离的取值可以选择5m左右。

第二决策子单元用于应对障碍物类别为车辆障碍物的情形下，具体地：在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第一速度阈值v₁，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于第二速度阈值v₂与第一速度阈值v₁之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道有车辆障碍物时，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道无车辆障碍物时，则决策行为为车辆跟随；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，则决策行为为车辆停车；其中，第二速度阈值v₂大于0，且小于第一速度阈值v₁。

第三决策子单元用于应对障碍物类别为行人障碍物的情形下，具体地：在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车。其中，本文中的“内”方向可以理解为指向车道的中心线的方向，而“外”则相反。“车道内”指的是在两条车道线以内，而“车道附近”指的是在两条车道线之外预设附近距离以内，“车道附近”的判断方式是通过感知传感器检测到有行人障碍物，且障碍物距离车道线预设距离范围以内，比如预设距离范围选择但不限于为1米。

第四决策子单元用于应对障碍物类别为其他静态障碍物的情形下，具体地：在其他静态障碍物位于自车当前行驶车道内，且对向车道有其他静态障碍物的情形下，决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道内，且对向车道无其他静态障碍物的情形下，决策行为为超车避障；在其他静态障碍物位于自车当前行驶车道外，决策行为为路径跟随。

2.场景类别为交叉口行驶场景，其行为树包括第一检测模块、第二检测模块、第三检测模块、障碍物种类检测单元、行驶方向检测模块、对向车道障碍物检测模块、障碍物速度检测模块、车道内外检测模块、障碍物方向检测模块、第一决策子单元、第五决策子单元、第六决策子单元和第七决策子单元第四决策子单元，其中：

第一检测模块用于检测自车行驶方向上的障碍物。

第三检测模块用于检测自车停车时间。

障碍物速度检测模块用于检测车辆障碍物的行驶速度。

如图4所示，在交叉口行驶场景中，在障碍物方面与直线行驶场景不同的是车辆障碍物与自车行驶方向垂直的情况为障碍车辆在与自车相垂直的车道上行驶，在此场景中不考虑障碍车辆驶入/驶出停车位；车辆的行驶速度会比在直线场景下速度低。

第一决策子单元用于在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随。其中，第二距离阈值d₂大于预设安全距离。其中，由于车辆在停车场场景中行驶速度通常较慢，d₂的取值可以选择10m左右，预设安全距离的取值可以选择5m左右。

由于交叉口场景为车辆之间交互较为频繁的区域，所以该场景较容易发生交通事故。该行驶场景与直线行驶场景的区别主要在于第五决策子单元。

第五决策子单元用于应对障碍物类别为车辆障碍物的情形下，具体地：在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道有车辆障碍物时，则决策行为为车辆停车；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道无车辆障碍物时，则决策行为为避障超车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入交叉口，则决策行为为车辆停车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出交叉口，则决策行为为避障超车。

第六决策子单元用于应对障碍物类别为行人障碍物的情形下，具体地：在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车。

第七决策子单元用于应对障碍物类别为其他静态障碍物的情形下，具体地：在其他静态障碍物位于自车当前行驶车道内，且对向车道有其他静态障碍物的情形下，决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道内，且对向车道无其他静态障碍物的情形下，决策行为为超车避障；在其他静态障碍物位于自车当前行驶车道外，决策行为为路径跟随。

3.场景类别为停车位行驶场景，其行为树包括第一检测模块、第二检测模块、第三检测模块、障碍物种类检测单元、行驶方向检测模块、对向车道障碍物检测模块、障碍物速度检测模块、障碍物位置检测模块、车道内外检测模块、障碍物方向检测模块、重叠路径检测模块、第一决策子单元、第八决策子单元、第九决策子单元和第十决策子单元，其中：

第一检测模块用于检测自车行驶方向上的障碍物。

第三检测模块用于检测自车停车时间。

障碍物速度检测模块用于检测车辆障碍物的行驶速度。

障碍物位置检测模块用于检测车辆障碍物的位置。

重叠路径检测模块用于检测车辆障碍物当前所行驶的局部轨迹与停车规划车道是否重叠。

如图5所示，在停车位行驶场景中，在障碍物方面与直线行驶场景不同的是，车辆驶入目标停车位时会沿着规划好的路径行驶，当车辆、行人所在的位置与该路径相重叠时，车辆需要停车等待；车辆行驶速度会降低。

第八决策子单元用于应对障碍物类别为车辆障碍物的情形下，具体地：在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道内，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入目标停车位，则决策行为为重新选择目标停车位；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出目标停车位，则决策行为为路径跟随。

第九决策子单元用于应对障碍物类别为行人障碍物的情形下，具体地：在行人障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随。

第十决策子单元用于应对障碍物类别为其他静态障碍物的情形下，具体地：在其他静态障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道外，则决策行为为路径跟随。

上述实施例在行为树上将场景进行细分，使场景的决策更加准确；并将决策结果输入给下层深度Q学习，用来给车辆输出参考的方向盘横摆角速度和车辆的加加速度。行为树建立的更加丰富会使车辆的决策更加准确，提升车辆的安全性和效率性。

在一个实施例中，下层决策单元用于接收周围环境与自车状态的信息以及上层决策单元输出的决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度。

自车在停车场行驶过程中，为了使车辆在行为切换与执行过程中不发生速度突变和转向角突变的问题，即保证车辆行驶的平顺性，可以在每个决策行为下使用基于学习的方法——深度Q学习对上层决策出的决策行为进行建模，使其输出合理的车辆加加速度和方向盘横摆角速度。

在一个实施例中，使用深度Q学习方法对各自决策行为进行建模的模型为下式(1)示出的运动学模型：

式中，j、w分别代表自车的加加速度和方向盘横摆角速度，二者为行为空间参数，a_t、v_t、δ_t、θ_t、x_t、y_t分别代表自车在时刻t的加速度、速度、前轮转向角、横摆角、在大地坐标系中横向位移和纵向位移，a_t+1、v_t+1、δ_t+1、θ_t+1、x_t+1、y_t+1分别代表自车在时刻t+1的加速度、速度、前轮转向角、横摆角、在大地坐标系中横向位移和纵向位移，v、a、δ、θ和自车与前车(全称为“前方车辆”)的相对距离Δd均为状态空间参数，k为方向盘横摆角速度与前轮转向角速度的比例，例如8。

需要说明的是，文中有些相同物理意义的参数，有的带时间变量t，有的不带时间变量t。针对不带时间变量t的参数，可以从泛指层面理解。与此相对应地，带时间变量t的参数，可以从特指层面理解，意味着某一个特定时刻所对应的该物理量。例如，v与v_t和v_t+1均为自车速度，而v为泛指，而v_t和v_t+1意味着特定时刻对应的自车速度。

下面将对前文出现的决策行为对应的奖励函数一一展开说明，决策行为对应的奖励函数在文中的其他部分也称作为决策行为奖励函数。

2.1车辆跟随对应的行为空间参数包括自车的加加速度j和方向盘横摆角速度w。车辆跟随对应的状态空间参数包括v、a、δ、θ和自车与前车(全称为“前方车辆”)的相对距离Δd。

车辆跟随奖励函数包括安全奖励、期望速度奖励、车辆行为的选择奖励、车辆发生碰撞的惩罚、期望相对距离奖励和自车到达期望状态奖励，其中：

安全影响因素包括碰撞时间TTC、最小安全距离MSD和车辆间隔时间IVT。其中，碰撞时间TTC为如果自车与前方车辆继续以当前速度和车道行驶，碰撞所需要的时间，可以通过下式(2)计算得到。

式中，Δd为自车与前车的相对距离，v为自车速度，v_z为前车速度。

最小安全距离MSD为自车与前方车辆之间的最小安全距离。车辆间隔时间IVT为如果前方车辆停止，自车继续以当前速度和车道行驶，碰撞所需要的时间。碰撞时间TTC的风险值R_TTC、最小安全距离MSD的风险值R_MSD和车辆间隔时间IVT的风险值R_IVT可以分别由式(3)至式(5)计算得到。

式中，t₁为预设的碰撞时间阈值，比如1.5s，d_a为预设最小安全距离阈值，比如3m，t₂为预设的车辆间隔时间阈值，比如0.6s。

安全奖励函数被描述为下式(6)：

式中，r_f为预设安全惩罚系数，其数值小于0，比如-100。

期望速度奖励函数表示为下式(7)。

R_V＝r_v×|v-v_desire| (7)

式中，r_v为预设期望速度系数，其数值小于0，比如-1，v为自车速度，v_desire为自车期望速度。

车辆行为指的是车辆的加速度与车辆的方向盘横摆角速度，由此可以尽量避免频繁的加减速与横向摆动，车辆行为的选择奖励函数表示为下式(8)。

式中，r_a和r_w均为预设车辆行为系数，其数值小于0，比如-1，a为自车加速度，w为泛指层面上的自车方向盘横摆角速度。

车辆发生碰撞的惩罚函数表示为下式(9)。

式中，r_r为预设车辆发生碰撞系数，其数值小于0，比如-400。

期望相对距离奖励函数表示为下式(10)：

R_D＝r_d×|Δd-Δd_desire| (10)

式中，r_d为预设期望相对距离系数，其数值小于0，比如-1，Δd为自车与前车的相对距离，Δd_desire为期望的相对距离。

自车到达期望状态为：当自车的速度等于期望速度，自车与前车的相对距离等于期望的相对距离，自车到达期望状态奖励函数被描述为下式(11)。

式中，r_t为预设自车到达期望状态系数，其数值大于0，比如100。

综上，车辆跟随的奖励函数被描述为下式(12)。

R＝w₁R_F+w₂R_V+w₃R_A+w₄R_R+w₅R_D+w₆R_T (12)

其中，w₁～w₆为预设的各个部分奖励值对应的系数，w₁+w₂+w₃+w₄+w₅+w₆＝1，例如：w₄取值为0.25，其余系数均为0.15。

2.2超车避障对应的行为空间参数包括自车的加加速度j和方向盘横摆角速度w。超车避障对应的状态空间参数包括v、a、δ、θ和自车与其他障碍物的相对纵向距离Δd_dx、相对横向距离Δd_dy。

超车避障奖励函数包括自车与其他障碍物期望的相对横向距离奖励、期望速度奖励、车辆行为的选择奖励、车辆发生碰撞的惩罚和车辆驶出车道的惩罚，其中：

自车与其他障碍物期望的相对横向距离奖励函数被描述为下式(13)。

式中，r_d为预设自车与其他障碍物期望的相对横向距离系数，其数值小于0，比如-1，Δd_desire1为换道时的期望相对横向距离，Δd_desire2为未换道时的期望相对横向距离，d_a为预设安全距离，其数值例如取值为5m。

期望速度奖励函数可以描述成下式(7)，车辆行为的选择奖励函数表示为下式(8)，车辆发生碰撞的惩罚函数表示为下式(9)。车辆驶出车道的惩罚函数可以被描述成下式(14)。

式中，outline为车辆驶出车道，r_s为预设车辆驶出车道系数，取负数，例如取值为-100。

综上，超车避障的奖励值的奖励函数被描述为下式(15)。

R＝w₁R_D+w₂R_V+w₃R_A+w₄R_R+w₅R_S (15)

式中，w₁～w₅为预设的各个部分奖励值对应的系数，w₁+w₂+w₃+w₄+w₅＝1，例如：均为0.2。

2.3路径跟随对应的行为空间参数包括自车的加加速度j和方向盘横摆角速度w。路径跟随对应的状态空间参数包括v、a、δ、θ和自车与轨迹点的相对横向距离Δd_y。

路径跟随奖励函数包括期望速度奖励、车辆行为的选择奖励、车辆驶出车道的惩罚和车辆的期望横向距离奖励，其中：

期望速度奖励、车辆行为的选择奖励、车辆驶出车道的惩罚的值的获取方式与上述方式相同，在此不再赘述。下面重点说明车辆的期望横向距离奖励。

车辆的期望横向距离奖励函数可以被描述成下式(16)。

R_D＝r_d×Δd_y (16)

式中，r_d为预设的车辆的期望横向距离系数，取负数，例如：-1。

综上，路径跟随奖励函数可以被描述成下式(17)。

R＝w₁R_V+w₂R_A+w₃R_S+w₄R_D (17)

其中，w₁～w₄为预设的各个部分奖励值对应的系数，w₁+w₂+w₃+w₄＝1，例如：均为0.25。

本发明实施例还提供一种停车场场景下智能车辆行驶决策方法，其包括：

步骤1，获取周围环境与自车状态的信息。

步骤2，根据周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为。

步骤3，结合周围环境与自车状态的信息以及决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度。

其中，步骤3具体包括：

步骤31，根据周围环境与自车状态，结合预先设置的停车场场景准入条件，确定当前的停车场场景所属场景类别，场景类别包括直线行驶场景、交叉口场景和停车位场景，每一场景类别对应的行为树包括：

步骤32，检测自车行驶方向上的障碍物、检测到的障碍物与自车在行驶方向上的距离、以及自车停车时间。

步骤33，在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随；其中，第二距离阈值大于预设安全距离。

在一个实施例中，场景类别为直线行驶场景。

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、自车的对向车道是否有车辆障碍物、车辆障碍物的行驶速度、障碍物与自车当前行驶车道的相对位置、以及障碍物的行走方向与自车的行驶方向的相对性。

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第一速度阈值v₁，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于第二速度阈值v₂与第一速度阈值v₁之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道有车辆障碍物时，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v之间，同时对向车道无车辆障碍物时，则决策行为为车辆跟随；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，则决策行为为车辆停车；其中，第二速度阈值v₂大于0，且小于第一速度阈值v₁。

T2.在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车。

T3.在其他静态障碍物位于自车当前行驶车道内，且对向车道有其他静态障碍物的情形下，决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道内，且对向车道无其他静态障碍物的情形下，决策行为为超车避障；在其他静态障碍物位于自车当前行驶车道外，决策行为为路径跟随。

在一个实施例中，场景类别为交叉口行驶场景。

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、对向车道是否有车辆障碍物、车辆障碍物的行驶速度、障碍物与自车当前行驶车道的相对位置、障碍物的行走方向与自车的行驶方向的相对性。

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道有车辆障碍物时，则决策行为为车辆停车；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道无车辆障碍物时，则决策行为为避障超车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入交叉口，则决策行为为车辆停车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出交叉口，则决策行为为避障超车。

在一个实施例中，场景类别为停车位行驶场景。

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、自车的对向车道是否有车辆障碍物、车辆障碍物的行驶速度、车辆障碍物的位置、障碍物与自车当前行驶车道的相对位置、障碍物的行走方向与自车的行驶方向的相对性、以及车辆障碍物当前所行驶的局部轨迹与停车规划车道是否重叠。

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道内，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入目标停车位，则决策行为为重新选择目标停车位；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出目标停车位，则决策行为为路径跟随。

T2.在行人障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随。

T3.在其他静态障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道外，则决策行为为路径跟随。

式中，j、w分别代表自车的加加速度和方向盘横摆角速度，a_t、v_t、δ_t、θ_t、x_t、y_t分别代表自车在时刻t的加速度、速度、前轮转向角、横摆角、在大地坐标系中横向位移和纵向位移，a_t+1、v_t+1、δ_t+1、θ_t+1、x_t+1、y_t+1分别代表自车在时刻t+1的加速度、速度、前轮转向角、横摆角、在大地坐标系中横向位移和纵向位移，k为方向盘横摆角速度与前轮转向角速度的比例。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种停车场场景下智能车辆行驶决策系统，其特征在于，包括：

上层决策单元，用于接收周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为；

下层决策单元，用于接收周围环境与自车状态的信息以及上层决策单元输出的决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角角速度；

其中，上层决策单元包括：

停车场场景辨识子单元，其用于根据周围环境与自车状态，结合预先设置的停车场场景准入条件，确定当前的停车场场景所属场景类别，场景类别包括直线行驶场景、交叉口场景和停车位场景，每一场景类别对应的行为树包括：

第一检测模块，其用于检测自车行驶方向上的障碍物；

第二检测模块，其用于检测检测到的障碍物与自车在行驶方向上的距离；

第三检测模块，其用于检测自车停车时间；

第一决策子单元，其用于在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随；其中，第二距离阈值大于预设安全距离；

场景类别为直线行驶场景，行为树还包括：

行驶方向检测模块，用于检测车辆障碍物与自车的行驶方向的相对性；

对向车道障碍物检测模块，用于检测自车的对向车道是否有车辆障碍物；

障碍物速度检测模块，用于检测车辆障碍物的行驶速度；

车道内外检测模块，用于检测障碍物与自车当前行驶车道的相对位置；

障碍物方向检测模块，用于检测障碍物的行走方向与自车的行驶方向的相对性；

第二决策子单元，其用于在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第一速度阈值v₁，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于第二速度阈值v₂与第一速度阈值v₁之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道有车辆障碍物时，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道无车辆障碍物时，则决策行为为车辆跟随；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，则决策行为为车辆停车；其中，第二速度阈值v₂大于0，且小于第一速度阈值v₁；

第三决策子单元，其用于在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车；

第四决策子单元，其用于在其他静态障碍物位于自车当前行驶车道内，且对向车道有其他静态障碍物的情形下，决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道内，且对向车道无其他静态障碍物的情形下，决策行为为超车避障；在其他静态障碍物位于自车当前行驶车道外，决策行为为路径跟随。

2.如权利要求1所述的停车场场景下智能车辆行驶决策系统，其特征在于，场景类别为交叉口行驶场景，行为树还包括：

对向车道障碍物检测模块，用于检测对向车道是否有车辆障碍物；

障碍物速度检测模块，用于检测车辆障碍物的行驶速度；

第五决策子单元，其用于在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道有车辆障碍物时，则决策行为为车辆停车；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道无车辆障碍物时，则决策行为为避障超车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入交叉口，则决策行为为车辆停车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出交叉口，则决策行为为避障超车；

第六决策子单元，其用于在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车；

第七决策子单元，其用于在其他静态障碍物位于自车当前行驶车道内，且对向车道有其他静态障碍物的情形下，决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道内，且对向车道无其他静态障碍物的情形下，决策行为为超车避障；在其他静态障碍物位于自车当前行驶车道外，决策行为为路径跟随。

3.如权利要求1所述的停车场场景下智能车辆行驶决策系统，其特征在于，场景类别为停车位行驶场景，行为树还包括：

障碍物速度检测模块，用于检测车辆障碍物的行驶速度；

障碍物位置检测模块，用于检测车辆障碍物的位置；

重叠路径检测模块，其用于检测车辆障碍物当前所行驶的局部轨迹与停车规划车道是否重叠；

第八决策子单元，其用于在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道内，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入目标停车位，则决策行为为重新选择目标停车位；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出目标停车位，则决策行为为路径跟随；

第九决策子单元，其用于在行人障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；

第十决策子单元，其用于在其他静态障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在其他静态障碍物位于自车当前行驶车道外，则决策行为为路径跟随。

4.如权利要求1-3中任一项停车场场景下智能车辆行驶决策系统，其特征在于，使用深度Q学习方法对各自决策行为进行建模的模型为下式(1)示出的运动学模型：

5.一种停车场场景下智能车辆行驶决策方法，其特征在于，包括：

步骤1，获取周围环境与自车状态的信息；

步骤2，根据周围环境与自车状态的信息，辨识当前的停车场场景，生成与辨识出的停车场场景相对应的行为树规则，并输出自车的决策行为；

步骤3，结合周围环境与自车状态的信息以及决策行为，使用深度Q学习方法对各自决策行为进行建模，通过决策行为奖励函数输出自车在对应于停车场场景下决策行为奖励值最大时对应的加加速度和方向盘转向角速度；

其中，步骤3具体包括：

步骤32，检测自车行驶方向上的障碍物、检测到的障碍物与自车在行驶方向上的距离、以及自车停车时间；

步骤33，在自车行驶方向上的障碍物与自车在行驶方向上的距离小于预设安全距离，则进一步确定障碍物的所属类别，再做出相应的决策行为；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间大于t秒，则决策行为为路径重新规划；在自车行驶方向上的障碍物与自车在行驶方向上的距离小于第二距离阈值d₂但不小于预设安全距离，且自车停车时间不大于t秒，则决策行为为路径跟随；在自车行驶方向上无障碍物，则决策行为为路径跟随；其中，第二距离阈值大于预设安全距离；

场景类别为直线行驶场景；

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、自车的对向车道是否有车辆障碍物、车辆障碍物的行驶速度、障碍物与自车当前行驶车道的相对位置、以及障碍物的行走方向与自车的行驶方向的相对性；

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第一速度阈值v₁，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于第二速度阈值v₂与第一速度阈值v₁之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道有车辆障碍物时，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，同时对向车道无车辆障碍物时，则决策行为为车辆跟随；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，则决策行为为车辆停车；其中，第二速度阈值v₂大于0，且小于第一速度阈值v₁；

T2.在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为车辆跟随；在行人障碍物位于自车当前行驶车道内，且行人障碍物的行走方向与自车的行驶方向不同的情形下，决策行为为车辆停车；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相同的情形下，决策行为为路径跟随；在行人障碍物位于自车当前行驶车道外的附近，且行人障碍物的行走方向与自车的行驶方向相反的情形下，决策行为为车辆停车；

6.如权利要求5所述的停车场场景下智能车辆行驶决策方法，其特征在于，场景类别为交叉口行驶场景；

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、对向车道是否有车辆障碍物、车辆障碍物的行驶速度、障碍物与自车当前行驶车道的相对位置、障碍物的行走方向与自车的行驶方向的相对性；

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道有车辆障碍物时，则决策行为为车辆停车；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，同时对向车道无车辆障碍物时，则决策行为为避障超车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且自车当前行驶车道的对向车道无障碍物，则决策行为为避障超车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入交叉口，则决策行为为车辆停车；车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出交叉口，则决策行为为避障超车；

7.如权利要求5所述的停车场场景下智能车辆行驶决策方法，其特征在于，场景类别为停车位行驶场景；

步骤32还包括：

检测车辆障碍物与自车的行驶方向的相对性、自车的对向车道是否有车辆障碍物、车辆障碍物的行驶速度、车辆障碍物的位置、障碍物与自车当前行驶车道的相对位置、障碍物的行走方向与自车的行驶方向的相对性、以及车辆障碍物当前所行驶的局部轨迹与停车规划车道是否重叠；

步骤33还包括：

T1.在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度大于第二速度阈值v₂，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度介于0与第二速度阈值v₂之间，则决策行为为车辆跟随；在车辆障碍物与自车的行驶方向相同，且车辆障碍物的速度为0，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道内，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；车辆障碍物与自车的行驶方向相反，且车辆障碍物位于自车当前行驶车道的对向车道里，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶入目标停车位，则决策行为为重新选择目标停车位；在车辆障碍物与自车的行驶方向垂直，且车辆障碍物驶出目标停车位，则决策行为为路径跟随；

T2.在行人障碍物位于自车当前行驶车道内，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道重叠，则决策行为为车辆停车；在行人障碍物位于自车当前行驶车道内，且车辆障碍物当前所行驶的局部轨迹与停车规划车道无重叠，则决策行为为路径跟随；

8.如权利要求5-7中任一项停车场场景下智能车辆行驶决策方法，其特征在于，使用深度Q学习方法对各自决策行为进行建模的模型为下式(1)示出的运动学模型：