CN112580148B

CN112580148B - 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

Info

Publication number: CN112580148B
Application number: CN202011512718.0A
Authority: CN
Inventors: 李旭; 胡玮明; 胡锦超; 祝雪芬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-20
Filing date: 2020-12-20
Publication date: 2022-11-18
Anticipated expiration: 2040-12-20
Also published as: CN112580148A

Abstract

本发明公开了一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法。首先，面向高等级公路，建立包含直道和弯道的三车道虚拟环境模型。其次，采集道路状态信息和车辆运动信息。最后，将防侧翻驾驶决策问题建模为马尔科夫决策过程，利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型，得到不同交通环境和行驶工况下的防侧翻驾驶决策策略，实现对重型营运车辆侧翻主动防控的最优决策。本发明提出的决策方法，克服了现有方法缺乏有效性、环境适应性等不足，为驾驶员提供制动踏板开度、方向盘转角控制量等精确量化的驾驶建议，从而实现有效、可靠、自适应的防侧翻驾驶决策。

Description

基于深度强化学习的重型营运车辆防侧翻驾驶决策方法

技术领域

本发明涉及一种防侧翻驾驶决策方法，尤其是涉及一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法，属于汽车安全技术领域。

背景技术

重型营运车辆作为我国道路运输的主要承担者，其安全状况直接影响我国道路交通运输安全。运输过程中一旦发生交通事故，易导致群死群伤、货物脱落、燃烧、爆炸等严重后果，造成财产损失、环境污染、生态破坏等恶劣影响，且极易诱发大型、特大型安全事故，严重威胁我国社会公共安全。

美国公路交通安全管理局的相关数据表明，在所有营运车辆交通事故中，侧翻事故的危害程度仅次于碰撞事故，位居第2位。因此，侧翻主动防控对于保障道路交通安全，提升道路运输重特大事故防控能力具有重要意义。防侧翻驾驶决策作为侧翻主动防控的重要一环，如果能够在侧翻事故发生前，确定合理的防侧翻干预策略，为驾驶员提供准确、可靠的制动减速、转向等驾驶决策，可以大幅度降低因侧翻造成的交通事故发生频率。

目前防侧翻驾驶决策主要采用基于动力学模型的决策方法。首先，建立车辆的动力学模型；其次，利用横向载荷转移率等参数识别车辆侧翻危险；最后，以制动压力、车轮制动力或转向角作为控制量，利用PID控制、模糊控制等控制算法建立防侧翻控制策略。目前的决策方法虽然可以起到一定的作用，但仍然存在以下问题：1、在进行防侧翻驾驶决策时，未考虑驾驶员的操作，决策策略可能与驾驶员的操作发生冲突，影响防侧翻的有效性；2、大多数的方法仅输出车轮制动力或转向角等单一控制量，未综合考虑横向和纵向控制对防侧翻的影响，防侧翻效果有限；3、不同车辆的动力学模型具有差异性，使得防侧翻驾驶决策策略的适应性较差。总体而言，现有的重型营运车辆防侧翻驾驶决策方法，在有效性、可靠性和自适应性方面仍存在不足。

发明内容

发明目的：针对重型营运车辆防侧翻驾驶决策方法有效性、可靠性和自适应性低的问题，本发明公开了一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法。该方法能够适应不同的交通环境和行驶工况，输出的驾驶策略能够根据驾驶员操作和交通环境自适应调整，并以数值的形式将制动减速、转向等驾驶策略精确量化，提高了重型营运车辆防侧翻驾驶决策的有效性、可靠性和自适应性。

技术方案：本发明针对重型营运车辆，如半挂罐车、半挂列车，提出了一种基于深度强化学习的防侧翻驾驶决策方法。首先，面向高等级公路，建立包含直道和弯道的三车道虚拟环境模型。其次，采集道路状态信息和车辆运动信息。最后，将防侧翻驾驶决策问题建模为马尔科夫决策过程，利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型，得到不同交通环境和行驶工况下的防侧翻驾驶决策策略，实现了有效、可靠、自适应的防侧翻驾驶决策。包括以下步骤：

步骤一：构建虚拟环境模型

面向高等级公路，构建包含直道和弯道的三车道环境模型。在行驶过程中，重型营运车辆通过车路通信接收路侧单元发布的道路弯度、坡度信息。当车辆进行制动、变道或经过弯道时，为了避免发生侧翻，应有效、及时地为驾驶员提供制动减速、转向等决策策略，以避免侧翻事故的发生。

步骤二：采集道路状态信息和车辆运动信息

在重型营运车辆行驶过程中，位置、加速度、横纵向速度等车辆运动状态信息和道路坡度等道路状态信息对于行车安全具有较大影响，因此实时获取以上信息是建立防侧翻驾驶决策策略的基础。

本发明利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息，将厘米级高精度组合导航系统的天线固定在车顶中心位置，可以实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息；将MEMS陀螺仪固定于车辆的底盘质心处，可以实时输出横摆角速度、侧倾角信息；将压力传感器安装在空气悬架气囊通气阀处，可以实时输出车轴钢板弹簧所受压力；利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度；利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息。

其中，厘米级高精度组合导航系统、MEMS陀螺仪、压力传感器、CAN总线的信息采集频率和路侧单元的输出频率均为20Hz。

步骤三：建立重型营运车辆防侧翻驾驶决策模型

针对重型营运车辆防侧翻驾驶决策方法有效性、可靠性和自适应性低的问题，本发明综合考虑驾驶员操作、行驶工况和交通环境对驾驶决策的影响，建立有效、可靠、具有自适应性的防侧翻驾驶决策模型。

道路状态和驾驶员行为的复杂性和不确定性是影响防侧翻驾驶决策的重要因素，考虑到深度强化学习对不确定性的适应性特点，以及对道路状态等高维特征的充分挖掘和表征能力，本发明采用深度强化学习算法建立防侧翻驾驶决策模型。

基于深度强化学习的决策方法主要包括：基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。基于值的深度强化学习算法不能处理连续输出的问题，无法满足防侧翻决策中连续输出驾驶策略的需求。相比于基于策略搜索的方法，基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索，具有较快的更新速度，其中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法借鉴了深度Q网络(Deep Q Network,DQN)经验回放的思路，在输出连续动作空间方面取得了较好的效果。因此，本发明采用DDPG算法，并基于步骤一构建的虚拟环境模型、步骤二获取的车辆运动信息和道路状态信息，建立防侧翻驾驶决策模型，研究不同行驶工况、道路状态下的自适应驾驶策略。具体包括以下4个子步骤：

子步骤1：定义防侧翻驾驶决策模型的基础参数

考虑到重型营运车辆的未来运动状态同时受当前运动状态和当前动作影响，本发明将防侧翻驾驶决策问题建模为马尔科夫决策过程，并对模型的基础参数进行定义：虚拟环境模型(由步骤一输出)中t时刻的状态s_t、虚拟环境模型中t+1时刻的状态s_t+1、t时刻的动作a_t以及动作a_t对应的回报值r_t。具体地：

(1)定义状态空间

重型营运车辆的侧倾稳定性不仅与车辆自身的运动状态有关，还与道路状态有关。因此，本发明利用步骤二获取的车辆运动状态参数和道路状态信息定义状态空间，即t时刻的状态空间s_t＝[v_lon,v_hor,a_lon,a_hor,ω_yaw,θ_roll,θ_swa,δ_brake,δ_thr,L_f,R_road,θ_s]。

其中，v_lon,v_hor分别表示重型营运车辆的纵向、横向速度，单位均为米每秒；a_lon,a_hor分别表示纵向、侧向加速度，单位均为米每二次方秒，可通过厘米级高精度组合导航系统测量获得；ω_yaw,θ_roll分别表示横摆角速度和侧倾角，单位分别为弧度每秒、度，可通过MEMS陀螺仪测量获得；θ_swa为车辆的方向盘转角，单位为度，δ_brake,δ_thr分别表示制动踏板开度和节气门开度，单位均为百分数，可通过读取车身CAN总线信息获得；L_f为板簧压力横向转移率，可通过压力传感器测量的车轴钢板弹簧所受压力计算获得。R_road,θ_s分别表示道路曲率半径、坡度，单位分别为米、度，可通过接收路侧单元发布的信息获得。

(2)定义动作空间

为了综合考虑横向和纵向控制对防侧翻的影响，合理、有效地输出防侧翻驾驶决策策略，本发明将方向盘转角和制动踏板开度作为控制量，定义决策模型输出的驾驶策略，即t时刻的动作空间a_t＝[θ_{swa_out},δ_brake]。

其中，θ_{swa_out}表示归一化后的方向盘转角控制量，δ_brake表示归一化后的制动踏板开度，范围均为[0,1]。当δ_brake＝0时，表示重型营运车辆未进行制动，当δ_brake＝1时，表示车辆以最大制动减速度进行制动。

(3)定义回报函数

为了实现对动作空间a_t优劣的定量评价，通过建立回报函数的方式，将评价具体化和数值化。若执行动作a_t之后能够使重型营运车辆的运行状态更加安全，则回报值为奖赏，否则，回报值为惩罚，使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断。

考虑到利用单个侧翻表征参数估计侧翻风险缺乏准确性的问题，本发明综合考虑侧倾角、侧向加速度和板簧压力横向载荷转移率3个表征参数对侧翻的影响，建立回报函数：

式(1)中，r_t为t时刻的回报函数，r₁,r₂,r₃分别表示根据侧向加速度、侧倾角和板簧压力横向载荷转移率变化建立的回报值，且

其中，a_thr,θ_thr,L_thr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值，S_pen为惩罚值，在本发明中，取S_pen＝50，表示若重型营运车辆发生侧翻，决策模型会得到-50的惩罚。

子步骤2：设计防侧翻驾驶决策模型的网络架构

利用Actor-Critic网络框架搭建防侧翻驾驶决策网络，包括策略网络和评价网络两部分。其中，策略网络用于对状态s_t的特征提取，并对特征向量进行回归，从而输出连续动作a_t；评价网络用于接收状态s_t和动作a_t，从而评估当前“状态-动作”的价值。具体地：

(1)设计策略网络

利用多个隐藏层结构的神经网络建立策略网络。首先，将归一化后的状态量s_t依次输入到隐藏层M₁、隐藏层M₂中。其次，与全连接层F₁、全连接层F₂依次连接。最后，得到输出O₁，即动作a_t。

考虑到状态空间的维度为12，设置状态输入层的神经元数量为12。设置M₁、M₂、F₁、F₂层的神经元数量分别为400，300，200，200。全连接层F₁、F₂的激活函数分别为Tanh函数和Sigmoid函数，其他各层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)。

(2)设计评价网络

利用多个隐藏层结构的神经网络建立策略网络。首先，将归一化后的状态量s_t和动作a_t输入到隐藏层S₁中，并与隐藏层S₂相连；同时，将动作量a_t输入到隐藏层A₁中。其次，隐藏层S₂与隐藏层A₁通过张量相加的方式进行合并。最后，依次通过全连接层H₁、全连接层H₂后得到输出O₂，即Q函数值Q(s,a)。设置S₁层的神经元数量为400，其余隐藏层的神经元数量均为200，各层的激活函数均为ReLU。

子步骤3：训练策略网络和评价网络

策略网络和评价网络均存在各自的网络参数，在训练迭代时更新这两部分的网络参数，使得网络收敛以得到更佳的结果。

首先，将虚拟环境模型的当前状态s_t作为策略网络的输入，并在策略网络上加高斯扰动，策略网络输出一个动作a_t。其次，在接收到动作a_t后，评价网络生成对动作a_t评价的回报值r_t，同时获得下一时刻状态s_t+1。最后，根据回报值r_t更新评价网络的参数，并沿评价网络建议的方向更新策略网络的参数。具体训练更新步骤包括：

子步骤3.1：利用权重θ^Q和θ^μ随机初始化评价网络参数Q(s,a|θ^Q)和策略网络参数μ(s,a|θ^μ)；

子步骤3.2：初始化目标评价网络参数Q′和μ′；

子步骤3.3：建立经验回放存储空间R，初始化第1时刻的状态S₁；

子步骤3.4：进行迭代求解，每一次迭代包括子步骤3.41至子步骤3.43，具体地：

子步骤3.41：在当前策略网络中输入高斯噪声N_t，执行动作at＝μ(s|θ^μ)+N_t；

子步骤3.42：接收初始的观测状态s₁；

子步骤3.43：对当前策略网络参数θ^μ、目标策略网络参数θ^μ′、当前评价网络参数θ^Q和目标评价网络参数θ^Q′进行迭代更新，每一次迭代包括子步骤3.431至子步骤3.438，具体地：

子步骤3.431：接收子步骤3.41输出的动作a_t，生成对动作a_t评价的回报值r_t和下一时刻状态s_t+1；根据获得的回报值r_t，更新当前评价网络参数θ^Q；

子步骤3.432：将形成的元组(s_t,a_t,r_t,s_t+1)存储到经验回放存储空间R中；

子步骤3.433：当前评价网络通过Q函数计算得到Q函数值：Q(s_t,a_t|θ^Q)；

子步骤3.434：从经验回放存储空间R中随机选择N个元组数据(s_i,a_i,r_i,s_i+1)，其中i＝0,1,...,N；

子步骤3.435：设计目标值y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|Q^μ′)|Q^Q′)；

其中，y_i,r_i分别表示第i个元组的Q函数值和回报值；γ为折扣因子；s_i+1为第i+1时刻的状态；μ′(s_i+1|Q^μ′)为目标策略网络根据输入的状态s_i+1得到的动作；Q′(s_i+1,μ′(s_i+1|Q^μ′)|Q^Q′)为目标评价网络根据输入的s_i+1和动作μ′(s_i+1|Q^μ′)而计算得到的Q函数值。

子步骤3.436：利用最小化损失函数L更新评价网络参数θ^Q：

子步骤3.437：基于更新后的评价网络参数θ^Q，利用梯度上升方法更新策略梯度，以获得最大化期望回报值。同时，利用策略梯度更新策略网络参数θ^Q：

其中，

为策略梯度，a_i表示i时刻的动作，s_i表示i时刻的状态，μ(·)为策略。

子步骤3.438：根据更新后的评价网络参数θ^Q和策略网络参数θ^μ，更新目标评价网络参数θ^Q′和目标策略网络参数θ^μ′：

式(5)中，τ为权重，在本发明中，取τ＝0.95。

子步骤3.5：按照子步骤3.4提供的方法进行迭代更新，使策略网络和评价网络逐渐收敛。在训练过程中，若车辆发生侧翻，则终止当前回合并开始新的回合进行训练。当迭代达到最大次数或重型营运车辆利用模型输出的决策策略稳定有效地实现防侧翻时，表示迭代完成。

子步骤4：利用防侧翻驾驶决策模型输出驾驶策略

将路侧单元发布的信息以及厘米级高精度组合导航系统、CAN总线、MEMS陀螺仪、压力传感器采集的信息输入到已训练的防侧翻驾驶决策模型中，可以在线输出防侧翻驾驶决策策略，为驾驶员提供方向盘转角控制量、制动踏板开度等精确量化的驾驶建议，从而实现有效、可靠、自适应的防侧翻驾驶决策。

有益效果：相比于一般的防侧翻驾驶决策方法，本发明提出的方法具有更为有效、可靠、自适应的特点，具体体现在：

(1)本发明提出的方法能够适应不同的行驶工况和交通环境，输出的决策策略能够根据驾驶员操作、行驶工况和交通环境自适应调整，解决了现有的重型营运车辆防侧翻驾驶决策方法缺乏适应性的问题；

(2)本发明提出的方法综合考虑横向和纵向控制对防侧翻的影响，并以数值的形式将制动减速、转向等驾驶策略精确量化，进一步提高了防侧翻驾驶决策的有效性和可靠性；

(3)本发明提出的方法无需进行复杂的动力学建模，计算方法简单清晰。

附图说明

图1是本发明的技术路线示意图；

图2是本发明建立的防侧翻驾驶决策模型的网络架构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。

为了实现有效、可靠、具有自适应性的防侧翻驾驶决策，本发明针对重型营运车辆，如半挂罐车、半挂列车，提出了一种基于深度强化学习的防侧翻驾驶决策方法。首先，面向高等级公路，建立包含直道和弯道的三车道虚拟环境模型。其次，采集道路状态信息和车辆运动信息。最后，将防侧翻驾驶决策问题建模为马尔科夫决策过程，利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型，得到不同交通环境和行驶工况下的防侧翻驾驶决策策略，实现了有效、可靠、自适应的防侧翻驾驶决策。本发明的技术路线如图1所示，具体步骤如下：

步骤一：构建虚拟环境模型

步骤二：采集道路状态信息和车辆运动信息

本发明利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息。将厘米级高精度组合导航系统的天线固定在车顶中心位置，可以实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息；将MEMS陀螺仪固定于车辆的底盘质心处，可以实时输出横摆角速度、侧倾角信息；将压力传感器安装在空气悬架气囊通气阀处，可以实时输出车轴钢板弹簧所受压力；利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度；利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息。

步骤三：建立重型营运车辆防侧翻驾驶决策模型

子步骤1：定义防侧翻驾驶决策模型的基础参数

(1)定义状态空间

(2)定义动作空间

为了综合考虑横向和纵向控制对防侧翻的影响，合理、有效地输出防侧翻驾驶决策策略，本发明将方向盘转角和制动踏板开度作为控制量，定义决策模型输出的驾驶策略，即t时刻的动作空间a_t＝[θ_{swa_out},δ_{brake_out}]。

其中，θ_{swa_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，δ_{brake_out}表示归一化后的制动踏板开度，范围为[0,1]。当δ_brake＝0时，表示车辆未进行制动，当δ_brake＝1时，表示车辆以最大制动减速度进行制动。

(3)定义回报函数

为了实现对动作空间a_t优劣的定量评价，通过建立回报函数的方式，将评价具体化和数值化。若执行动作a_t之后能够使车辆的运行状态更加安全，则回报值为奖赏，否则，回报值为惩罚，使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断。

其中，a_thr,θ_thr,L_thr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值，S_pen为惩罚值，在本发明中，取S_pen＝50，表示若车辆发生侧翻，决策模型会得到-50的惩罚。

子步骤2：设计防侧翻驾驶决策模型的网络架构

利用“策略-评价”网络框架搭建防侧翻驾驶决策网络，包括策略网络和评价网络两部分。其中，策略网络用于对状态s_t的特征提取，并对特征向量进行回归，从而输出连续动作a_t；评价网络用于接收状态s_t和动作a_t，从而评估当前“状态-动作”的价值。网络架构如图2所示，具体地：

(1)设计策略网络

(2)设计评价网络

子步骤3：训练策略网络和评价网络

首先，将虚拟环境模型的当前状态s_t作为策略网络的输入，并在策略网络上加高斯扰动，策略网络输出一个动作a_t。其次，评价网络接收到动作a_t，生成对动作a_t评价的回报值r_t，同时获得下一时刻状态s_t+1。最后，根据回报值r_t更新评价网络的参数，并沿评价网络建议的方向更新策略网络的参数。具体训练更新步骤包括：

子步骤3.2：初始化目标评价网络参数Q′和μ′；

子步骤3.41：在当前策略网络中输入高斯噪声N_t，执行动作a_t＝μ(s|θ^μ)+N_t；

子步骤3.42：接收初始的观测状态s₁；

子步骤3.436：利用最小化损失函数L更新评价网络参数θ^Q：

子步骤3.437：基于更新后的评价网络参数θ^Q，利用梯度上升方法更新策略梯度，以获得最大化期望回报值。同时，利用策略梯度更新策略网络参数θ^μ：

其中，

式(5)中，τ为权重，在本发明中，取τ＝0.95。

子步骤4：利用防侧翻驾驶决策模型输出驾驶策略

Claims

1.一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法，其特征在于：该方法包括如下步骤：

步骤一：构建虚拟环境模型：面向高等级公路，构建包含直道和弯道的三车道环境模型；在行驶过程中，重型营运车辆通过车路通信接收路侧单元发布的道路弯度、坡度信息；当车辆进行制动、变道或经过弯道时，为驾驶员提供制动减速、转向等决策策略；

步骤二：采集道路状态信息和车辆运动信息：在重型营运车辆行驶过程中，实时获取车辆运动状态信息和道路状态信息；

所述采集道路状态信息和车辆运动信息的过程中，利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息，将厘米级高精度组合导航系统的天线固定在车顶中心位置，实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息；将MEMS陀螺仪固定于车辆的底盘质心处，实时输出横摆角速度、侧倾角信息；将压力传感器安装在空气悬架气囊通气阀处，实时输出车轴钢板弹簧所受压力；利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度；利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息；

所述厘米级高精度组合导航系统、MEMS陀螺仪、压力传感器、CAN总线的信息采集频率和路侧单元的输出频率均为20Hz；

步骤三：建立重型营运车辆防侧翻驾驶决策模型：采用DDPG算法，并基于步骤一构建的虚拟环境模型、步骤二获取的车辆运动信息和道路状态信息，建立防侧翻驾驶决策模型，研究不同行驶工况、道路状态下的自适应驾驶策略，具体包括以下4个子步骤：

子步骤1：定义防侧翻驾驶决策模型的基础参数

将防侧翻驾驶决策问题建模为马尔科夫决策过程，并对模型的基础参数进行定义：步骤一输出的虚拟环境模型中t时刻的状态s_t、虚拟环境模型中t+1时刻的状态s_t+1、t时刻的动作a_t以及动作a_t对应的回报值r_t；具体地：

(1)定义状态空间

利用步骤二获取的车辆运动状态参数和道路状态信息定义状态空间，即t时刻的状态空间s_t＝[v_lon,v_hor,a_lon,a_hor,ω_yaw,θ_roll,θ_swa,δ_brake,δ_thr,L_f,R_road,θ_s]；

其中，v_lon,v_hor分别表示重型营运车辆的纵向、横向速度，单位均为米每秒；a_lon,a_hor分别表示纵向、侧向加速度，单位均为米每二次方秒，可通过厘米级高精度组合导航系统测量获得；ω_yaw,θ_roll分别表示横摆角速度和侧倾角，单位分别为弧度每秒、度，可通过MEMS陀螺仪测量获得；θ_swa为车辆的方向盘转角，单位为度，δ_brake,δ_thr分别表示制动踏板开度和节气门开度，单位均为百分数，可通过读取车身CAN总线信息获得；L_f为板簧压力横向转移率，可通过压力传感器测量的车轴钢板弹簧所受压力计算获得；R_road,θ_s分别表示道路曲率半径、坡度，单位分别为米、度，可通过接收路侧单元发布的信息获得；

(2)定义动作空间

将方向盘转角和制动踏板开度作为控制量，定义决策模型输出的驾驶策略，即t时刻的动作空间a_t＝[θ_{swa_out},δ_brake]；

其中，θ_{swa_out}表示归一化后的方向盘转角控制量，δ_brake表示归一化后的制动踏板开度，范围均为[0,1]；当δ_brake＝0时，表示重型营运车辆未进行制动，当δ_brake＝1时，表示车辆以最大制动减速度进行制动；

(3)定义回报函数

为了实现对动作空间a_t优劣的定量评价，通过建立回报函数的方式，将评价具体化和数值化；若执行动作a_t之后能够使重型营运车辆的运行状态更加安全，则回报值为奖赏，否则，回报值为惩罚，使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断；

综合考虑侧倾角、侧向加速度和板簧压力横向载荷转移率3个表征参数对侧翻的影响，建立回报函数：

其中，a_thr,θ_thr,L_thr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值，S_pen为惩罚值；

子步骤2：设计防侧翻驾驶决策模型的网络架构

利用Actor-Critic网络框架搭建防侧翻驾驶决策网络，包括策略网络和评价网络两部分；其中，策略网络用于对状态s_t的特征提取，并对特征向量进行回归，从而输出连续动作a_t；评价网络用于接收状态s_t和动作a_t，从而评估当前“状态-动作”的价值；具体地：

(1)设计策略网络

利用多个隐藏层结构的神经网络建立策略网络；首先，将归一化后的状态量s_t依次输入到隐藏层M₁、隐藏层M₂中；其次，与全连接层F₁、全连接层F₂依次连接；最后，得到输出O₁，即动作a_t；

考虑到状态空间的维度为12，设置状态输入层的神经元数量为12；设置M₁、M₂、F₁、F₂层的神经元数量分别为400，300，200，200；全连接层F₁、F₂的激活函数分别为Tanh函数和Sigmoid函数，其他各层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)；

(2)设计评价网络

利用多个隐藏层结构的神经网络建立策略网络；首先，将归一化后的状态量s_t和动作a_t输入到隐藏层S₁中，并与隐藏层S₂相连；同时，将动作量a_t输入到隐藏层A₁中；其次，隐藏层S₂与隐藏层A₁通过张量相加的方式进行合并；最后，依次通过全连接层H₁、全连接层H₂后得到输出O₂，即Q函数值Q(s,a)；设置S₁层的神经元数量为400，其余隐藏层的神经元数量均为200，各层的激活函数均为ReLU；

子步骤3：训练策略网络和评价网络

策略网络和评价网络均存在各自的网络参数，在训练迭代时更新这两部分的网络参数，使得网络收敛以得到更佳的结果；

首先，将虚拟环境模型的当前状态s_t作为策略网络的输入，并在策略网络上加高斯扰动，策略网络输出一个动作a_t；其次，在接收到动作a_t后，评价网络生成对动作a_t评价的回报值r_t，同时获得下一时刻状态s_t+1；最后，根据回报值r_t更新评价网络的参数，并沿评价网络建议的方向更新策略网络的参数；具体训练更新步骤包括：

子步骤3.2：初始化目标评价网络参数Q′和μ′；

子步骤3.42：接收初始的观测状态s₁；

其中，y_i,r_i分别表示第i个元组的Q函数值和回报值；γ为折扣因子；s_i+1为第i+1时刻的状态；μ′(s_i+1|Q^μ′)为目标策略网络根据输入的状态s_i+1得到的动作；Q′(s_i+1,μ′(s_i+1|Q^μ′)|Q^Q′)为目标评价网络根据输入的s_i+1和动作μ′(s_i+1|Q^μ′)而计算得到的Q函数值；

子步骤3.436：利用最小化损失函数L更新评价网络参数θ^Q：

子步骤3.437：基于更新后的评价网络参数θ^Q，利用梯度上升方法更新策略梯度，以获得最大化期望回报值；同时，利用策略梯度更新策略网络参数θ^Q：

其中，

为策略梯度，a_i表示i时刻的动作，s_i表示i时刻的状态，μ(·)为策略；

式(5)中，τ为权重，在本发明中，取τ＝0.95；

子步骤3.5：按照子步骤3.4提供的方法进行迭代更新，使策略网络和评价网络逐渐收敛，在训练过程中，若车辆发生侧翻，则终止当前回合并开始新的回合进行训练；当迭代达到最大次数或重型营运车辆利用模型输出的决策策略稳定有效地实现防侧翻时，表示迭代完成；

子步骤4：利用防侧翻驾驶决策模型输出驾驶策略