CN114407931B

CN114407931B - 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Info

Publication number: CN114407931B
Application number: CN202210158758.2A
Authority: CN
Inventors: 李旭; 胡玮明; 胡锦超; 韦坤; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2024-05-03
Anticipated expiration: 2042-02-21
Also published as: WO2023155231A1; CN114407931A; US20240375682A1

Abstract

本发明公开了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先，进行典型交通场景下驾驶行为的多源信息同步采集，构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次，综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响，利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为，分别采用近段策略优化算法和深度神经网络构建生成器和判别器，进而建立具有高度类人水平的安全驾驶决策模型。最后，对安全驾驶决策模型进行训练，得到不同行驶工况下的安全驾驶策略。本发明能够模拟人类优秀驾驶员的驾驶意图，为自动驾驶营运车辆提供更加合理、安全的驾驶策略，可以有效保障自动驾驶营运车辆的行车安全。

Description

一种高度类人的自动驾驶营运车辆安全驾驶决策方法

技术领域

本发明涉及一种营运车辆驾驶决策方法，尤其是涉及一种高度类人的自动驾驶营运车辆安全驾驶决策方法，属于汽车安全技术领域。

背景技术

营运车辆是我国道路运输的主要承担者，同时也是群死群伤事故的肇事主体。为了显著提升交通安全性及运输效率，高级驾驶辅助甚至完全实现无人驾驶的营运车辆自动驾驶技术近年来受到了高度关注和发展。

人机共驾是智能车发展的必经之路,作为实现高品质自动驾驶的关键一环，驾驶决策决定了人机共驾过程中营运车辆自动驾驶的安全性与合理性。在实际交通环境下，理想的自动驾驶决策除了具备保障规避行车危险的能力外，还需具有一定的“社会智能”属性，即理解周围人类驾驶员在不同情况下的反应并做出相应的“最优”决策。然而，现有的营运车辆自动驾驶策略忽视了驾驶逻辑中的“社会智能”，决策能力难以与人类驾驶员相媲美，导致自动驾驶汽车与人类驾驶员的不匹配，甚至可能会引发自动驾驶车辆与人类驾驶车辆之间的冲突，输出的非类人化的危险驾驶策略将造成灾难性的后果。因此，在人机共驾环境下，如何学习优秀驾驶员的驾驶行为，构建具有高度类人水平的安全驾驶决策策略，保障自动驾驶营运车辆的行车安全是当前需要解决的关键问题。

已有专利、文献对“类人”驾驶决策方法进行了研究，主要包括基于规则和基于学习的决策方法。其中，基于规则的决策方法是根据行驶规则、驾驶经验等信息建立驾驶策略规则库，根据车辆的行驶状态和规则库的策略进行驾驶决策。这类方法拥有清晰的决策意图，且具备较强的可解释性，但其难以遍历所有的交通场景和行驶工况，无法保证边缘交通场景下驾驶决策的鲁棒性和有效性。

基于学习的决策方法，是通过模拟优秀驾驶员的驾驶行为来获取某一交通场景下的最优策略，是目前应用较多的一类方法。然而，以上两类方法虽然取得了一定的进展，但其研究对象主要面向小型乘用车辆，未涉及大型营运车辆的“类人”驾驶决策研究。

不同于小型乘用车辆，大型营运车辆具有质心位置高、整车质量大、轮距窄等特点，导致其侧倾稳定性较差，若进行紧急制动、紧急变道、急转向等操作，极易失稳而发生侧翻。因此，人类驾驶员在驾驶大型营运车辆和小型乘用车辆时的驾驶行为和操作特性具有较大差异，且相比于小型乘用车辆仅关注防碰撞问题，大型营运车辆需同时兼顾碰撞防控、侧翻防控等多个方面。

总体而言，现有的针对小型乘用车辆的“类人”驾驶决策方法无法直接应用于营运车辆。针对自动驾驶营运车辆的安全驾驶决策研究相对匮乏，特别是在具有高度类人水平的车辆安全驾驶决策研究方面，目前仍处于空白状态。

发明内容

发明目的：为了实现具有高度类人水平的自动驾驶营运车辆安全驾驶决策，保障车辆行车安全，本发明针对重型货车、重型卡车等自动驾驶营运车辆，提出了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。该方法能够模拟人类优秀驾驶员的驾驶意图，为自动驾驶营运车辆提供更加合理、安全的驾驶策略，可以有效保障自动驾驶营运车辆的行车安全。同时，该方法无需考虑复杂的车辆动力学方程和车身参数，计算方法简单清晰，可以实时输出自动驾驶营运车辆的安全驾驶策略，且使用的传感器成本较低，便于大规模推广。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先，进行典型交通场景下驾驶行为的多源信息同步采集，构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次，综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响，利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为，分别采用近段策略优化算法和深度神经网络构建生成器和判别器，进而建立具有高度类人水平的安全驾驶决策模型。最后，对安全驾驶决策模型进行训练，得到不同行驶工况下的安全驾驶策略，实现了自动驾驶营运车辆的高级决策输出。具体包括以下步骤：

步骤一：构建表征优秀驾驶员驾驶行为的专家轨迹数据集

为了构建具有高度类人水平的营运车辆安全驾驶决策策略，应学习不同行驶工况下优秀驾驶员的驾驶行为。首先，在时空全局统一坐标系下，采集典型交通场景下的异源异质多传感器信息。其次，利用以上数据，构建表征优秀驾驶员驾驶行为的专家轨迹数据集。

具体而言，由十位优秀驾驶员驾驶安装多种传感器的营运车辆，其中，所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统(Global Positioning System,GPS)和毫米波雷达。

针对中国的道路行驶环境，在安全驾驶阶段，对优秀驾驶员的车道变换、车道保持、车辆跟驰、超车、加速、减速等各种典型驾驶行为进行数据采集和处理，获取各类驾驶行为的异源异质描述数据，包括：营运车辆(自车)的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度。

步骤二：建立高度类人的自动驾驶营运车辆安全决策模型

随着车载计算单元计算能力的增强，基于学习的决策方法得到广泛的关注。其中的模仿学习是以仿效专家行为方式为特征的一种学习方法，该方法目前在自动驾驶、机器人、自然语言处理等场景中均有应用。因此，本发明利用模仿学习方法学习专家轨迹数据集，即模拟优秀驾驶员的驾驶行为。

生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)将强化学习和生成对抗网络的思想进行结合，通过直接从专家经验中学习策略的方式，避免了需要人为定义一个完备的奖励函数的困难，在提高驾驶决策的有效性和可靠性方面具有一定的优势。因此，本发明利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为，并构建自动驾驶营运车辆安全驾驶决策模型，具体步骤如下：

子步骤1：建立生成器网络

为了学习不同行驶工况下的优秀驾驶行为，生成尽可能接近优秀驾驶员决策的驾驶策略，本发明利用近端策略优化算法构建生成器。

子步骤1.1：定义生成器网络的基本参数

(1)状态空间

状态空间由自车的运动状态和周围车辆的运动状态两部分组成，具体描述如下：

S_t＝[p_x,p_y,v_x,v_y,a_x,a_y,ω_s,d_{rel_j},v_{rel_j},a_{rel_j}] (1)

式中，S_t表示t时刻的状态空间，p_x,p_y分别表示自车的横向位置和纵向位置；v_x,v_y分别表示自车的横向速度和纵向速度，单位均为米每秒；a_x,a_y分别表示自车的横向加速度和纵向加速度，单位为米每二次方秒；ω_s表示自车的横摆角速度，单位为弧度每秒； d_{rel_j},v_{rel_j},a_{rel_j}分别表示自车与第j辆车的相对距离、相对速度和相对加速度，单位分别为米、米每秒、米每二次方秒，其中，j表示周围车辆的序号，且j＝1,2,3,4,5,6，分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆。

(2)动作空间

为了输出具有明确决策意图的驾驶策略，本发明将涵盖横向和纵向驾驶策略的动作空间定义为：

A_t＝[a₁,a₂,a₃,a₄,a₅,a₆] (2)

式中，A_t表示t时刻的动作空间，a₁,a₂,a₃分别表示左转、直行和右转，a₄,a₅,a₆分别表示加速、速度保持不变和减速。

(3)奖励函数

为了评价每一时刻驾驶策略的优劣，引导生成器输出更为合理、安全的驾驶策略，应构建合理、全面的奖励函数。考虑到安全驾驶决策的本质是涉及防碰撞、防侧翻、驾驶平顺性等因素的多目标优化问题，本发明将奖励函数设计为：

R_t＝r₁+r₂+r₃+r₄+r₅+r₆ (3)

式中，R_t表示t时刻的总奖励函数，r₁,r₂,r₃,r₄,r₅,r₆分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数。

首先，为了避免发生前向碰撞，自车应与同车道的前方车辆保持合理的安全间距。为此，将前向防撞奖励函数定义为：

式中，D_f表示最小前向安全间距，单位为米，α₁表示前向防撞奖励函数的权重系数。

考虑到合理的最小安全间距应同时兼顾通行效率和行车安全，本发明利用车头时距设计了动态的最小前向安全间距，即：

D_f＝v_y·β_TH+|v_y-v_{rel_1}|·T+L_min (5)

式中，β_TH为车头时距，单位为s，T为数据采样频率，单位为秒，L_min为临界距离，单位为米。

类似地，为了避免发生后向碰撞，自车应与同车道的后方车辆保持合理的安全间距。为此，将后向防撞奖励函数定义为：

式中，D_b表示最小后向安全间距，单位为米，α₂表示后向防撞奖励函数的权重系数，x_{rel_4}表示自车与当前车道的后方车辆的相对间距，单位为米。

为了避免发生侧向碰撞，自车应与左侧车道和右侧车道的车辆保持合理的安全间距。为此，将侧向防撞奖励函数定义为：

式中，D_s表示最小侧向安全间距，单位为米，且α₃表示侧向防撞奖励函数的权重系数。

其次，在弯道行驶、制动减速和车道变换过程中，自车应保持合理的侧向加速度，避免发生侧翻事故。为此，将防侧翻奖励函数定义为：

式中，a_thr表示自车的侧向加速度阈值，单位为米每二次方秒，α₄表示防侧翻奖励函数的权重系数。

再次，考虑到合理的安全驾驶决策在保证行车安全的同时，还应具有较好的驾驶平顺性和舒适性，将驾驶平顺性奖励函数定义为：

式中，分别表示自车的横向急动度和纵向急动度，单位为米每三次方秒，α₅,α₆表示驾驶平顺性奖励函数的权重系数。

最后，通过施加负反馈的方式，规避导致碰撞和侧翻事故的驾驶策略，将惩罚函数定义为：

子步骤1.2：搭建基于“演员-评论家”的生成器网络

利用“演员-评论家”框架搭建生成器网络，包括策略网络和评论网络两部分。其中，策略网络将状态空间信息作为输入，输出动作决策，即自动驾驶营运车辆的驾驶策略。评论网络将状态空间信息和动作决策作为输入，输出当前“状态-动作”的价值。具体地：

(1)设计生成器中的策略网络部分

利用多个全连接层结构的神经网络建立策略网络，首先，将归一化后的状态量S_t依次输入到输入层F₁、全连接层F₂和全连接层F₃，得到输出O₁，即动作空间A_t。

考虑到状态空间的维度为25，设置状态输入层的神经元数量为25。设置全连接层F₁和全连接层F₂层的神经元数量分别为128和64。全连接层F₁和全连接层F₂的激活函数均为S型函数，其表达式为

(2)设计生成器中的评价网络部分

利用多个全连接层结构的神经网络建立评价网络，将归一化后的状态量S_t和动作空间A_t依次输入到全连接层F₄和全连接层F₅后得到输出O₂，即Q函数值Q(S_t,A_t)。

设置全连接层F₄和全连接层F₅的神经元数量分别为128和64，各层的激活函数均为S型函数。

子步骤2：建立判别器网络

判别器将专家经验轨迹和生成器的策略轨迹作为输入，通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别，输出驾驶策略的得分P_t(τ)，从而实现对生成器的优化。考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力，本发明利用深度神经网络构建判别器。

具体而言，利用多个全连接层结构的神经网络建立判别器。判别器包含F₆、F₇和 F₈三个全连接层，每个全连接层的激励函数均采用线性整流函数，其表达式为 f(x)＝max(0,x)。

步骤三：训练自动驾驶营运车辆的安全驾驶决策模型

为了最大化与策略参数相关的累积回报，利用GAIL算法对安全驾驶决策模型的参数进行更新。策略更新过程包括两个阶段，即模仿学习阶段和强化学习阶段。

在模仿学习阶段，判别器通过打分的方式对生成器输出的驾驶策略进行优化，同时，判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化。在强化学习阶段，评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向，进而实现对生成器输出的驾驶策略的优化。具体的参数更新方法如下：

子步骤1：初始化τ_E～π_E，初始化策略参数θ₀、值函数参数φ₀和判别器参数ω₀。

其中，τ_E表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集，且τ_E＝{(S₁,A₁,R₁),(S₂,A₂,R₂),...,(S_n,A_n,R_n)}；π_E表示专家轨迹τ_E对应的驾驶策略分布。

子步骤2：进行2万次迭代求解，每一次迭代包括子步骤2.1至子步骤2.5，具体地：

子步骤2.1：利用策略网络生成驾驶轨迹τ′_E，形成的轨迹集合可表示为P_t＝{τ′_E}；

子步骤2.2：对专家轨迹进行采样，采样后的“轨迹-策略分布”可表示为

子步骤2.3：利用梯度▽_cri更新判别器的网络参数；

式中，P_t(S_t,A_t)表示判别器在t时刻的输出，即当前轨迹是专家轨迹的概率，表示生成驾驶轨迹的平均奖励，▽_t表示t时刻的梯度，/>表示专家轨迹获得的平均奖励；

子步骤2.4：更新策略网络参数；

子步骤2.5：利用式(12)更新值函数参数；

式中，φ_t+1表示t+1时刻的值函数参数，V_φ(S_t)表示状态空间为S_t时的值函数，表示t时刻待执行的奖励函数。

子步骤3：当训练迭代次数达到2万次时，结束循环。

子步骤4：利用安全驾驶决策模型输出决策策略

当安全驾驶决策模型训练完成后，将传感器采集的状态空间信息输入到安全驾驶决策模型中，可以合理、安全地输出转向、加速、减速等高级驾驶决策，实现了具有高度类人水平的车辆安全驾驶决策，可以有效保障自动驾驶营运车辆的行车安全。

有益效果：相比于一般的驾驶决策方法，本发明提出的方法具有更为有效、可靠的特点，具体体现在：

(1)本发明提出的方法能够模拟人类优秀驾驶员的驾驶意图，为自动驾驶营运车辆提供更加合理、安全的驾驶策略，实现了具有高度类人水平的自动驾驶营运车辆安全驾驶决策，可以有效保障车辆的行车安全。

(2)本发明提出的方法综合考虑了前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响，且安全距离门限在线可调，实现了不同驾驶工况下的安全驾驶决策，进一步提高了决策的有效性和可靠性。

(3)本发明提出的方法无需考虑复杂的车辆动力学方程和车身参数，计算方法简单清晰，可以实时输出自动驾驶营运车辆的安全驾驶策略，且使用的传感器成本较低，便于大规模推广。

附图说明

图1是本发明的技术路线图；

图2是本发明设计的策略网络示意图；

图3是本发明设计的评论网络示意图；

图4是本发明设计的判别器网络示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

为了解决以上问题，本发明针对重型货车、重型卡车等自动驾驶营运车辆，提出了一种具有高度类人水平的安全驾驶决策方法。首先，进行典型交通场景下驾驶行为的多源信息同步采集，构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次，综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响，利用生成对抗模仿学习算法(Generative Adversarial Imitation Learning,GAIL)模拟优秀驾驶员的驾驶行为，分别采用近段策略优化算法和深度神经网络构建生成器和判别器，进而建立具有高度类人水平的安全驾驶决策模型。最后，对安全驾驶决策模型进行训练，得到不同行驶工况下的安全驾驶策略，实现了自动驾驶营运车辆的高级决策输出。本发明提出的方法，能够模拟人类优秀驾驶员的驾驶意图，为自动驾驶营运车辆提供更加合理、安全的驾驶策略，可以有效保障自动驾驶营运车辆的行车安全。本发明的技术路线如图1所示，具体步骤如下：

步骤一：构建表征优秀驾驶员驾驶行为的专家轨迹数据集

步骤二：建立高度类人的自动驾驶营运车辆安全决策模型

模仿学习主要包括行为克隆、逆向强化学习和生成对抗模仿学习三类方法。其中，行为克隆是通过监督学习的方式，从大量样本数据中学习状态到动作的映射。这类方法较为简单并且在有些场景下很有效，但是始终受到状态漂移的影响，一旦遇到没有在专家轨迹中出现的状态将会产生很大的误差。逆向强化学习是通过从专家轨迹中学习回报函数，并利用该回报函数进行策略估计的一种方法。这类方法避免了行为克隆方法中单步决策误差累计的问题，但存在着计算成本过高、易造成过拟合等不足。

子步骤1：建立生成器网络

为了学习不同行驶工况下的优秀驾驶行为，生成尽可能接近优秀驾驶员决策的驾驶策略，本发明采用深度强化学习算法构建生成器。考虑到其中的近端策略优化算法(Proximal Policy Optimization,PPO)结合了优势动作评论算法(Advantage ActorCritic,A2C)和信赖域策略优化算法(Trust Region Policy Optimization,TRPO)的优势，并通过剪辑的方法避免过大的更新，能够有效提高生成器网络的收敛速度和稳定性。因此，本发明利用PPO算法构建生成器。

子步骤1.1：定义生成器网络的基本参数

(1)状态空间

S_t＝[p_x,p_y,v_x,v_y,a_x,a_y,ω_s,d_{rel_j},v_{rel_j},a_{rel_j}] (1)

(2)动作空间

A_t＝[a₁,a₂,a₃,a₄,a₅,a₆] (2)

(3)奖励函数

R_t＝r₁+r₂+r₃+r₄+r₅+r₆ (3)

D_f＝v_y·β_TH+|v_y-v_{rel_1}|·T+L_min (5)

子步骤1.2：搭建基于“演员-评论家”的生成器网络

(1)设计生成器中的策略网络部分

利用多个全连接层结构的神经网络建立策略网络，具体的网络架构如图2所示。首先，将归一化后的状态量S_t依次输入到输入层F₁、全连接层F₂和全连接层F₃，得到输出O₁，即动作空间A_t。

(2)设计生成器中的评价网络部分

利用多个全连接层结构的神经网络建立评价网络，具体的网络架构如图3所示。将归一化后的状态量S_t和动作空间A_t依次输入到全连接层F₄和全连接层F₅后得到输出 O₂，即Q函数值Q(S_t,A_t)。

子步骤2：建立判别器网络

具体而言，利用多个全连接层结构的神经网络建立判别器。如图4所示，判别器包含F₆、F₇和F₈三个全连接层，每个全连接层的激励函数均采用线性整流函数，其表达式为f(x)＝max(0,x)。

步骤三：训练自动驾驶营运车辆的安全驾驶决策模型

子步骤2.3：利用梯度▽_cri更新判别器的网络参数；

子步骤2.4：更新策略网络参数；

子步骤2.5：利用式(12)更新值函数参数；

子步骤3：当训练迭代次数达到2万次时，结束循环。

子步骤4：利用安全驾驶决策模型输出决策策略

Claims

1.一种高度类人的自动驾驶营运车辆安全驾驶决策方法，首先，进行典型交通场景下驾驶行为的多源信息同步采集，构建表征优秀驾驶员驾驶行为的专家轨迹数据集；其次，综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性因素对行车安全的影响，利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为，分别采用近段策略优化算法和深度神经网络构建生成器和判别器，进而建立具有高度类人水平的安全驾驶决策模型；最后，对安全驾驶决策模型进行训练，得到不同行驶工况下的安全驾驶策略，实现了自动驾驶营运车辆的高级决策输出；其特征在于：该方法具体包括如下步骤：

步骤一：构建表征优秀驾驶员驾驶行为的专家轨迹数据集

首先，在时空全局统一坐标系下，采集典型交通场景下的异源异质多传感器信息；其次，利用采集到的多传感器信息，构建表征优秀驾驶员驾驶行为的专家轨迹数据集；

具体而言，由十位优秀驾驶员驾驶安装多种传感器的营运车辆，其中，所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统和毫米波雷达；

在安全驾驶阶段，对优秀驾驶员的各种典型驾驶行为包括车道变换、车道保持、车辆跟驰、超车、加速、减速进行数据采集和处理，获取各类驾驶行为的异源异质描述数据，包括：自车车辆的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度；

步骤二：建立高度类人的自动驾驶营运车辆安全决策模型

利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为，并构建自动驾驶营运车辆安全驾驶决策模型，具体步骤如下：

子步骤1：建立生成器网络

采用近端策略优化算法构建生成器；

子步骤1.1：定义生成器网络的基本参数

(1)状态空间

S_t＝[p_x,p_y,v_x,v_y,a_x,a_y,ω_s,d_{rel_j},v_{rel_j},a_{rel_j}] (1)

式中，S_t表示t时刻的状态空间，p_x,p_y分别表示自车的横向位置和纵向位置；v_x,v_y分别表示自车的横向速度和纵向速度，单位均为米每秒；a_x,a_y分别表示自车的横向加速度和纵向加速度，单位为米每二次方秒；ω_s表示自车的横摆角速度，单位为弧度每秒；d_{rel_j},v_{rel_j},a_{rel_j}分别表示自车与第j辆车的相对距离、相对速度和相对加速度，单位分别为米、米每秒、米每二次方秒，其中，j表示周围车辆的序号，且j＝1,2,3,4,5,6，分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆；

(2)动作空间

将涵盖横向和纵向驾驶策略的动作空间定义为：

A_t＝[a₁,a₂,a₃,a₄,a₅,a₆] (2)

式中，A_t表示t时刻的动作空间，a₁,a₂,a₃分别表示左转、直行和右转，a₄,a₅,a₆分别表示加速、速度保持不变和减速；

(3)奖励函数

将奖励函数设计为：

R_t＝r₁+r₂+r₃+r₄+r₅+r₆ (3)

式中，R_t表示t时刻的总奖励函数，r₁,r₂,r₃,r₄,r₅,r₆分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数；

首先，为了避免发生前向碰撞，自车应与同车道的前方车辆保持合理的安全间距；为此，将前向防撞奖励函数r₁定义为：

式中，D_f表示最小前向安全间距，单位为米，α₁表示前向防撞奖励函数的权重系数，x_{rel_1}表示自车与当前车道前方车辆的相对间距，单位为米；

考虑到合理的最小安全间距应同时兼顾通行效率和行车安全，利用车头时距设计了动态的最小前向安全间距，即：

D_f＝v_y·β_TH+|v_y-v_{rel_1}|·T+L_min (5)

式中，β_TH为车头时距，单位为s，T为数据采样频率，单位为秒，L_min为临界距离，单位为米；

为了避免发生后向碰撞，自车应与同车道的后方车辆保持合理的安全间距；为此，将后向防撞奖励函数r₂定义为：

式中，D_b表示最小后向安全间距，单位为米，α₂表示后向防撞奖励函数的权重系数，x_{rel_2}表示自车与当前车道的后方车辆的相对间距，单位为米；

为了避免发生侧向碰撞，自车应与左侧车道和右侧车道的车辆保持合理的安全间距；为此，将侧向防撞奖励函数r₃定义为：

式中，D_s表示最小侧向安全间距，单位为米，且α₃表示侧向防撞奖励函数的权重系数；

其次，在弯道行驶、制动减速和车道变换过程中，自车应保持合理的侧向加速度，避免发生侧翻事故；为此，将防侧翻奖励函数r₄定义为：

式中，a_thr表示自车的侧向加速度阈值，单位为米每二次方秒，α₄表示防侧翻奖励函数的权重系数；

再次，考虑到合理的安全驾驶决策在保证行车安全的同时，还应具有较好的驾驶平顺性和舒适性，将驾驶平顺性奖励函数r₅定义为：

式中，分别表示自车的横向急动度和纵向急动度，单位为米每三次方秒，α₅,α₆表示驾驶平顺性奖励函数的权重系数；

最后，通过施加负反馈的方式，规避导致碰撞和侧翻事故的驾驶策略，将惩罚函数r₆定义为：

子步骤1.2：搭建基于“演员-评论家”的生成器网络

利用“演员-评论家”框架搭建生成器网络，包括策略网络和评论网络两部分；其中，策略网络将状态空间信息作为输入，输出动作决策，即自动驾驶营运车辆的驾驶策略；评论网络将状态空间信息和动作决策作为输入，输出当前“状态-动作”的价值；具体地：

(1)设计生成器中的策略网络部分

利用多个全连接层结构的神经网络建立策略网络，首先，将归一化后的状态量S_t依次输入到全连接层F₁、全连接层F₂和全连接层F₃，得到输出O₁，即动作空间A_t；

考虑到状态空间的维度为25，设置状态输入层的神经元数量为25；设置全连接层F₁和全连接层F₂的神经元数量分别为128和64；全连接层F₁和全连接层F₂的激活函数均为S型函数，其表达式为

(2)设计生成器中的评价网络部分

利用多个全连接层结构的神经网络建立评价网络，将归一化后的状态量S_t和动作空间A_t依次输入到全连接层F₄和全连接层F₅后得到输出O₂，即Q函数值Q(S_t,A_t)；

设置全连接层F₄和全连接层F₅的神经元数量分别为128和64，各层的激活函数均为S型函数；

子步骤2：建立判别器网络

判别器将专家经验轨迹和生成器的策略轨迹作为输入，通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别，输出驾驶策略的得分P_t(τ)，从而实现对生成器的优化；考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力，利用深度神经网络构建判别器；

具体而言，利用多个全连接层结构的神经网络建立判别器；判别器包含F₆、F₇和F₈三个全连接层，每个全连接层的激励函数均采用线性整流函数，其表达式为f(x)＝max(0,x)；

步骤三：训练自动驾驶营运车辆的安全驾驶决策模型

为了最大化与策略参数相关的累积回报，利用GAIL算法对安全驾驶决策模型的参数进行更新；策略更新过程包括两个阶段，即模仿学习阶段和强化学习阶段；

在模仿学习阶段，判别器通过打分的方式对生成器输出的驾驶策略进行优化，同时，判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化；在强化学习阶段，评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向，进而实现对生成器输出的驾驶策略的优化；具体的参数更新方法如下：

子步骤1：初始化τ_E:π_E，初始化策略参数θ₀、值函数参数φ₀和判别器参数ω₀；

其中，τ_E表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集，且τ_E＝{(S₁,A₁,R₁),(S₂,A₂,R₂),...,(S_n,A_n,R_n)}，n表示专家轨迹的数量；π_E表示专家轨迹τ_E对应的驾驶策略分布；

子步骤2.1：利用策略网络生成驾驶轨迹τ′_E，形成的轨迹集合P_t表示为P_t＝{τ′_E}；

子步骤2.2：对专家轨迹进行采样，采样后的“轨迹-策略分布”表示为τ_i:其中，τ_i表示i时刻采样的专家轨迹，/>表示i时刻采样的专家轨迹对应的策略；

子步骤2.3：利用梯度更新判别器的网络参数；

式中，P_t(S_t,A_t)表示判别器在t时刻的输出，即当前轨迹是专家轨迹的概率，表示生成驾驶轨迹的平均奖励，/>表示t时刻的梯度，/>表示专家轨迹获得的平均奖励；

子步骤2.4：更新策略网络参数；

子步骤2.5：利用式(12)更新值函数参数；

式中，φ_t+1表示t+1时刻的值函数参数，V_φ(S_t)表示状态空间为S_t时的值函数，表示t时刻待执行的奖励函数；

子步骤3：当训练迭代次数达到2万次时，结束循环；

子步骤4：利用安全驾驶决策模型输出决策策略

当安全驾驶决策模型训练完成后，将传感器采集的状态空间信息输入到安全驾驶决策模型中，合理、安全地输出包括转向、加速、减速的高级驾驶决策，实现了具有高度类人水平的车辆安全驾驶决策，保障自动驾驶营运车辆的行车安全。