CN113460090B

CN113460090B - 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备

Info

Publication number: CN113460090B
Application number: CN202110948176.XA
Authority: CN
Inventors: 侯晓慧; 张俊智; 何承坤
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-09-12
Anticipated expiration: 2041-08-18
Also published as: CN113460090A

Abstract

本发明涉及一种自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备，其包括：根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；满足第二设定条件时，基于TD3的Actor‑Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。本发明能最大限度地发挥自动驾驶车辆的避撞潜能，提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。本发明能在自动驾驶汽车主动安全控制技术领域中广泛应用。

Description

自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备

技术领域

本发明涉及一种自动驾驶汽车主动安全控制技术领域，特别是关于一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备。

背景技术

随着汽车行业的快速发展，汽车的主动安全性受到越来越严峻的挑战，同时国内外各大厂商也开发并应用了多种车辆主动安全系统，包括制动防抱死系统(Anti-lockBraking System)、驱动防滑系统(Acceleration Slip Regulation)、电子稳定性系统(Electronic Stability Program)等。目前，这些主动安全系统主要通过将车辆的行驶状态限制在一个线性、稳定的范围内，来帮助驾驶员避免由于车辆的非线性动力学特征导致的“异常”驾驶场景，如打滑、过度转向、不足转向等。然而从车辆可控性的角度来看，这种提高稳定性的方法过于保守，主要适用于常规工况，无法应对突发场景以及极端行驶工况，如T型碰撞。同时这些主动安全系统也没有考虑当碰撞无法避免时，如何控制车辆来减小碰撞损失。

T型碰撞是指一辆车撞上另一辆车的侧面。当一辆车违反红灯或停止标志进入十字路口，与另一辆与之垂直行驶的车辆相撞时，经常会发生T型碰撞。这种碰撞可能是由于机械故障(油门卡住/刹车失灵)、制动力不足(路面潮湿/结冰)、驾驶员注意力不集中等原因造成的。由于汽车侧面结构缺乏能量吸收装置，与其他碰撞方式相比T型碰撞在交通事故中造成的伤亡和损失更大。相关数据表明T型碰撞事故中司机往往采取制动措施，而这种操作并非最佳避撞或减轻碰撞损失的选择。在这种紧急工况下，需要充分利用轮胎的附着能力，尽可能地扩大车辆的行驶极限来避免碰撞或减轻碰撞损失。常规的车辆避撞策略一般采用路径规划-跟踪的分层架构，在路径规划过程中会基于车辆动力学特性加入一定的限制条件，而这种限制条件可能会导致车辆无法充分发挥其动力潜能或无法跟踪该规划路径导致失稳。而在专业驾驶比赛中，驾驶员通常会有意识地控制车轮抱死或打滑以减少圈时或躲避障碍物，这种操作被称为“漂移”。漂移的本质，是通过精确控制使车辆处于转向过度状态下的临界稳定平衡工况，此时后轮达到附着极限。专业驾驶员在漂移中可以同时实现对车辆侧滑和行驶路径两者的精确控制，尽管是完全在车辆稳定性极限范围外操纵的。

附着极限工况下，车辆是一个复杂的非线性系统，制动、驱动、转向系统控制高度耦合，协调控制算法更复杂。

发明内容

针对上述问题，本发明的目的是提供一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备，其能最大限度地发挥自动驾驶车辆的避撞潜能，提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。

为实现上述目的，本发明采取以下技术方案：一种自动驾驶车辆T型紧急避撞控制方法，其包括：根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。

进一步，还包括：预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间；

所述状态空间包含自动驾驶车辆T型紧急避撞所需的全部信息，包括自车状态信息以及周围环境信息；

所述动作空间包括自车的前轮转向角、自车左后轮和右后轮的纵向滑移率。

进一步，所述奖励函数的设置，包括：由第一种奖励与第二种奖励叠加后构成；

所述第一种奖励是在避撞过程中每个决策后给予的即时奖励；

所述第二种奖励是在每个训练回合结束后，基于自车不同的状态模式给予的终止状态奖励；所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻。

进一步，所述计算基于规则的最优控制问题的控制输入量，包括：

所述基于规则的最优控制问题为自车首先全力制动，在设定时间之后全力进行转向使车辆最大程度进行横摆运动；

所述控制输入向量由当前轮胎的横向力和纵向力构成；

所述基于规则的最优控制问题的目标函数设置为终止状态奖励。

进一步，所述第一设定条件为：episode≤i_control；

所述第二设定条件为：episode>i_control；

所述第三设定条件为：episode＝i_max；

episode为当前训练的序列次数，i_control为学习最优控制的序列次数；i_max为设定的最大训练回合次数。

进一步，所述基于控制输入量对强化学习的网络参数进行更新，包括：

基于控制输入量得到新的测量值和当前奖励值，由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素，并存于经验池；

在经验池内进行随机采样，计算TD3的Actor-Critic框架中两个评价网络的目标值，并取最小值；

通过最小化损失函数更新评价网络参数；

通过最小化最优控制输入量和动作网络控制量的差异更新动作网络，然后更新目标评价网络和目标动作网络。

进一步，所述基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，包括：

选择控制输入量，根据控制输入量得到新的测量值和当前奖励值，将由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素，并存于经验池；

在经验池内随机采样，计算TD3的Actor-Critic框架中两个评价网络的目标值，并取最小值；

通过最小化损失函数更新评价网络参数：

通过策略梯度方法更新更新动作网络，然后更新目标评价网络和目标动作网络。

一种自动驾驶车辆T型紧急避撞控制系统，其包括：计算模块、第一更新模块和第二更新模块；所述计算模块，根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；所述第一更新模块，满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；所述第二更新模块，满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，输出最优控制量。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明采用结合先验知识的深度强化学习，对自动驾驶车辆T型紧急避撞的决策控制进行一体化设计，相较于路径规划-跟踪的分层控制架构，该控制架构能够最大限度地发挥自动驾驶车辆的避撞潜能，即使在碰撞不可避免的极端情况下，也要实现尽可能减小碰撞损失的控制规划，提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。

2、本发明结合先验知识的深度强化学习算法，针对分布式后驱车型自动驾驶车辆设置的T型紧急避撞的控制系统，结合最优控制的双延迟深度确定性策略梯度(TwinDelayed Deep Deterministic policy gradient algorithm，TD3)算法，使得车辆在T型紧急避撞场景下可以实现避撞或最大程度的减轻碰撞损失。

附图说明

图1是本发明一实施例中基于TD3算法的车辆T型避障学习过程示意图；

图2是本发明一实施例中车辆动力学模型示意图；

图3是本发明一实施例中碰撞位置和碰撞角度的组合方式示意图；

图4是本发明一实施例中TD3动作网络的网络结构示意图；

图5是本发明一实施例中TD3评价网络的网络结构示意图；

图6是本发明一实施例中T型避撞初始状态示意图；

图7是本发明一实施例中TD3的回合奖励示意图；

图8是本发明一实施例中T型避撞轨迹示意图；

图9是本发明一实施例中计算设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

目前应用的车辆主动安全系统及避撞策略无法适用于极端T型碰撞工况。在这种紧急工况下，需要借鉴专业驾驶比赛中漂移操作，尽可能地扩大车辆的行驶极限来避免碰撞或减轻碰撞损失。本发明公开了一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制系统，结合最优控制的双延迟深度确定性策略梯度算法，针对分布式后驱车型的T型避撞决策控制系统进行了一体化设计，最大限度地发挥自动驾驶车辆的避撞潜能，即使在碰撞不可避免的极端情况下，也要实现尽可能减小碰撞损失的控制规划，提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。训练测试结果证明了本发明所提出方案的可行性，将为自动驾驶车辆T型紧急避撞控制提供新的方案。

在本发明的一个实施例中，如图1所示，提供一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法，本实施例以采用6个深度神经网络进行举例说明，,包含1个动作网络π(s∣θ^π)，1个目标动作网络π^′(s∣θ^π′)，2个评价网络和2个目标评价网络/>由于T型紧急避撞场景较为危险，控制模型训练过程均在仿真环境MATLAB/Simulink中完成。本实施例中，该方法包括以下步骤：

步骤1、根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；

步骤2、满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；

步骤3、满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。

本实施例中的控制方法还包括预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间的步骤。

具体为：构造基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间S，动作空间A和奖励函数R。其中：

(1)状态空间S

状态空间中包含自动驾驶车辆T型紧急避撞所需的全部信息，包括自车状态信息以及周围环境信息，如下式所示：

S＝[x_e,x_r]^T

x_r＝[X_r,Y_r,c_eX,c_eY,c_rX,c_eY]^T

式中，x_e和x_r分别为自车状态信息和周围环境信息。V_x，V_y和分别为车辆坐标系下自车的纵向速度、横向速度和横摆角速度，V_e,Y_e和ψ分别为大地坐标系下自车的质心位置和横摆角。M为当前自车状态模式，包括：1-尚未碰撞、2-发生碰撞、3-完成避撞、4-避撞过程中发生侧翻等四种模式。X_r,Y_r为大地坐标系下他车的质心位置。(c_eX,c_eY)和(c_rX,c_rY)分别为大地坐标系下自车和他车上的某一点坐标，使得两点连线为两车的最小距离，仅非碰撞状态下存在。本实施例中以他车静止的避撞场景为例介绍该T型避撞策略。

(2)动作空间A

动作空间包含以下三个元素：

A＝[δ,λ₃,λ₄]^T

其中，δ为自车的前轮转向角，λ₃和λ₄分别为自车左后轮和右后轮的纵向滑移率。其范围为δ∈[-30°,30°]，λ₃∈[-1,1]，λ₄∈[-1,1]。

本实施例中针对分布式后驱的自车车型进行T型避撞策略设置。为了使车辆更容易发生侧滑从而在极限工况下实现避撞或减轻避撞损失，前后轮的制动力分配系数为0:1，即只产生后轮制动力，模拟了真实驾驶环境中专业驾驶员利用手刹完成漂移的策略。基于控制量[δ,λ₃,λ₄]^T，结合车辆动力学模型以及轮胎模型，可以得到相应的各个轮胎的纵横向力以及当前车辆的运动状态。

在本实施例中，采用双轨三自由度车辆动力学模型，如图2所示。

其中，系数矩阵B为：

式中，ψ为车辆的横摆角，为车辆的横摆角加速度，/>为纵向加速度，/>为横向加速度，m为车辆质量，I_z为车辆横摆转动惯量，L_a和L_b分别为质心与前轴/后轴之间的直线距离，L_w为二分之一轮距，F_xj和F_yj分别表示车轮切向及横向轮胎地面力，其中j＝1,2,3,4分别表示左前轮、右前轮、左后轮和右后轮，F_roll和F_air分别为车辆的滚动阻力和空气阻力：

F_roll＝fmg

式中，f为滚动阻力系数，g为重力加速度系数，ρ为空气密度，C_d为空气阻力系数，A为车辆横截面积。

轮胎模型采取基于实验数据的查表法。轮胎实验数据是针对纯滑移率或纯侧偏情况下采集的。而实际上轮胎力为侧向力和牵引力的合力，彼此是有影响的。因此该模型采用考虑纵横向耦合特性的Pacejka轮胎模型对实验数据两个分力进行椭圆化，修正查表数据。最终根据各轮胎的纵向滑移率λ_i、侧偏角α_i以及垂向力F_zi，可以通过查表得到当前该轮胎的纵向力F_xi以及横向力F_yi(i＝1,2,3,4)，即

F_xi＝T₁(λ_i,α_i,F_zi)

F_yi＝T₂(λ_i,α_i,F_zi)

T₁、T₂分别表示轮胎的纵向力F_xi以及横向力F_yi与纵向滑移率λ_i、侧偏角α_i以及垂向力F_zi的对应关系函数。

其中，各轮的侧偏角为：

式中，为车辆的总速度，β＝arctan(V_x/V_y)为车辆的质心侧偏角。

各轮的垂直载荷为：

式中，h_g为车辆的质心高度。

(3)奖励函数R

奖励函数的设置，包括：由第一种奖励与第二种奖励叠加后构成；第一种奖励是在避撞过程中每个决策后给予的即时奖励；第二种奖励是在每个训练回合结束后，基于自车不同的状态模式给予的终止状态奖励；所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻。

具体为：在TD3框架下，智能体只根据奖励函数的定义来学习如何与环境的交互，从而实现奖励函数的最大化，因此奖励函数的设计直接决定了智能体的控制效果。奖励函数需要定义在不同驾驶状态下相应动作的奖惩，如果定义不明容易导致模型不收敛或模型收敛于局部最优解。针对自动驾驶车辆的T型紧急避撞问题中存在两种类型的奖励，分别用R_i和R_t表示。第一种奖励R_i是在避撞过程中每个决策步骤后给予的即时奖励，其目的是克服强化学习过程中奖励的稀疏性，加快智能体的学习速度。第二种奖励R_t是在每个训练回合结束后，基于自车不同的状态模式给予的终止状态奖励。其共有三种结局模式，分别为发生碰撞、完成避撞以及避撞过程中发生侧翻。下面将具体介绍各奖励项的定义。

(31)即时奖励R_i

即时奖励的设置可以帮助智能体的学习速度更快、收敛更稳定。即时奖励主要考虑以下几个方面：

(311)相对速度项R_i1

相对速度项R_i1用于鼓励自车相对于他车的相对速度尽可能小，从而减小潜在碰撞可能或碰撞损失，R_i1定义为

其中，D为自车与他车的相对最小距离，ΔV为自车与他车的相对速度沿D方向的分量大小。k₁为负常数，用于调整相对速度项的奖励权重。

(312)相对航向角项R_i2

相关事故研究报告表明，碰撞时当两车车身相对平行时，冲击能量通过将剩余动能分布在更大的表面积上减轻了碰撞的影响。因此R_i2定义为

其中k为任意整数，k₂为负常数，用于调整相对航向角项的奖励权重。ψ为自车横摆角，他车在本示例中处于静止状态，其横摆角恒为π/2。

(313)输入大小及变化率项R_i3

智能系统的输入为动作空间的三个元素：

A＝[δ,λ₃,λ₄]^T

其中，δ为自车的前轮转向角，λ₃和λ₄自车左后轮和右后轮的纵向滑移率。其范围为δ∈[-30°,30°]，λ₃∈[-1,1]，λ₄∈[-1,1]。输入项及其变化率的大小与奖励之间的关系呈负相关。输入项及其变化率越小，车辆越容易保持在一个线性稳定的区域，不易失稳。R_i1定义为

其中，k₃、k₄为负常数，分别用于调整输入项及其变化率大小的奖励权重。

(32)终止状态奖励R_t

当T型紧急避撞处于终止状态时，该训练回合结束，将基于自车不同的状态模式给予终止状态奖励。该终止状态共有三种结局模式，分别为完成避撞、发生碰撞以及避撞过程中发生侧翻。

其中，k₅为正常数，当车辆完成T型避撞而没有发生碰撞以及侧翻时，则给予较大的奖励；k₆为负常数，当车辆避撞过程中发生侧翻，则给予较大的惩罚；R_tc为自车与他车最终发生碰撞时给予的奖励，奖励大小反映了发生碰撞的严重程度，其取决于多种因素的组合，包括碰撞速度、碰撞位置及角度，R_tc表示为

R_tc＝k₇+R_tc1+R_tc2

其中，k₇为负常数，为发生碰撞的基础惩罚；R_tc1为碰撞速度相关项，R_tc2为碰撞位置及角度相关项。下面将描述R_tc的具体定义。

(321)碰撞速度项R_tc1

本实施例中假设他车静止，因此自车碰撞前的速度越大，其携带的动能越大，碰撞损失越严重。因此R_tc1表示为

其中k₈为负常数，用于调整相对碰撞速度项的奖励权重。

(322)碰撞位置及角度项R_tc2

碰撞位置及角度即碰撞车辆之间相互作用力的区域及方向，其直接影响了碰撞能量的转移程度，是影响碰撞严重程度的重要因素。

碰撞位置往往是车身受损最严重的区域，由于车辆不同部位的结构、材料以及碰撞变形程度不同，碰撞位置会对碰撞损失产生很大影响，根据车辆碰撞事故统计分析，车辆碰撞的部位I_p可分为以下区域：

碰撞角度是指发碰撞时两车长轴的夹角。根据车辆碰撞事故统计分析，碰撞角度I_a的范围由0°至180°划分为6个区域：0±5°(180±5°)、20±15°、50±15°、90±25°、130±15°、160±15°。根据作用效果对这6个区域进行合并：

碰撞位置和碰撞角度这两个因素交互耦合，对于不同组合的碰撞状态，其碰撞严重程度也各不相同。碰撞位置和碰撞角度的不同组合方式如图3所示，不同碰撞状态对应的奖励函数值R_tc2表示为：

其中，k₉为负常数，用于调整碰撞位置及角度项的奖励权重，β_i为图3中碰撞位置和碰撞角度的不同组合方式对应的系数。

综合上述所有的因素，最终得到智能体奖励函数R为

R＝R_i+R_t。

上述实施例中，在对强化学习的网络参数进行更新之前，初始化TD3的网络参数。具体如下：

随机初始化动作网络的参数θ^π及评价网络的参数初始化目标动作网络和目标评价网络的参数赋值,/>同时构建经验池D。

其中，动作网络的网络结构如图4所示，由一个输入层、两个隐藏层和一个输出层组成。其中，输入状态为13维，第一隐藏层由400个神经元组成，第二隐藏层由300个神经元组成，控制输出层为3维。各隐藏层的激活函数为线性修正单元(ReLU)，为限制控制量的幅值,控制输出层的激活函数为双曲正切函数(Tanh)。

评价网络的网络结构如图5所示，由两个输入层、三个隐藏层和一个输出层组成。其中，状态输入为13维，控制输入为3维，第一隐藏层由400个神经元组成，第二隐藏层由300个神经元组成，输出为1维的动作值函数。状态输入层与控制输入层跳过第一隐藏层，与第二隐藏层直接相连。各隐藏层的激活函数为线性修正单元(ReLU)，输出层的激活函数为恒等变换(dentity)。

上述实施例中，第一设定条件为：episode≤i_control；第二设定条件为：episode>i_control；第三设定条件为：episode＝i_max；其中，episode为当前训练的序列次数，i_control为学习最优控制的序列次数；i_max为设定的最大训练回合次数。

上述实施例中，预先设置的初始状态如图6所示。

在本实施例中，设置的初始状态测量值s₀为：

初始动作如下：

[δ,λ₃,λ₄]^T＝[0,0,0]^T

自车及他车的总车长、总车宽分别设置为

[L_e,W_e,L_r,W_r]^T＝[3.5m,1.66m,8m,3m]^T

上述实施例中，步骤1中，基于规则的最优控制问题为自车首先全力制动，在设定时间之后全力进行转向使车辆最大程度进行横摆运动；控制输入向量由当前轮胎的横向力和纵向力构成；基于规则的最优控制问题的目标函数设置为终止状态奖励。

在本实施例中，对于将T型紧急避撞问题转化为基于规则的最优控制问题，根据驾驶员执行紧急避撞的操纵经验设定基于规则的避撞行为策略。假设T型避撞过程中，自车首先全力制动，在设定时间t₀之后全力进行转向使车辆最大程度进行横摆运动，从而使得车辆在T型紧急避撞场景下可以实现避撞或最大程度的减轻碰撞损失。该控制优化模型描述如下：

当t≤t₀，车辆后轴两轮全力制动(假设驱制动力仅由后轮提供)，根据本实施例中采用的车辆模型，此时控制输入向量u^control为：

u^control＝[F_y1,F_y2,F_y3,F_y4,F_x3,F_x4]^T＝[0,0,0,0,μF_z3,μF_z4]^T

其中，μ为路面附着系数，F_zi(i＝1,2,3,4)可由车辆模型的轮胎垂向力公式求得，μF_zi为附着条件限制下所能提供的最大轮胎力。

当t>t₀，车辆全力转向，根据图6所示的初始状态及碰撞位置及角度项对应的奖励函数可知，自车应采取左转且最终Y轴位移尽可能大，才能实现避撞或最大程度的减少碰撞损失。此时：

δ＝δ_max＝30°

由车辆模型描述的轮胎侧偏角公式可求得前轴两轮的侧偏角α₁和α₂，再由查表法求得前轴两轮的侧向力(前轴两轮纵向滑移率假设为0):

后轴两轮分别提供相反方向的最大纵向力，使得车辆在该力矩及转向作用下最大程度地进行横摆运动。此时控制输入向量u^control为：

u^control＝[F_y1,F_y2,F_y3,F_y4,F_x3,F_x4]^T＝[T₂(0,α₁,F_z1),T₂(0,α₂,F_z2),0,0,-μF_z3,μF_z4]^T

目标函数J设置为终止状态奖励R_t：

J＝R_t

该优化问题中唯一的变量是t₀，当t₀确定时，车辆整个避撞过程的实时控制输入u^control及运动状态也是确定的。因此在MATLAB/Simulink仿真软件中通过迭代可求解出使得目标函数J最大化的t₀。

上述实施例中，步骤2中当满足第一设定条件episode≤i_control，基于最优控制输入对强化学习的网络参数进行更新。具体包括以下步骤：

步骤21、基于控制输入量得到新的测量值和当前奖励值，由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素，并存于经验池；

具体为：结合车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入u_t。在强化学习训练过程中，执行控制量得到新的测量值s_t+1和当前奖励值r_t，将状态转移四元素/>存于经验池D。

步骤22、在经验池内进行随机采样，计算TD3的Actor-Critic框架中两个评价网络的目标值，并取最小值；

具体为：在经验池D内随机采样N组数据，计算两个评价网络的目标值，并取最小值：

步骤23、通过最小化损失函数更新评价网络参数：

步骤24、通过最小化最优控制输入量和动作网络控制量的差异更新动作网络，然后更新目标评价网络和目标动作网络。

具体为：每隔d轮，通过最小化最优控制输入量和动作网络控制量的差异更新动作网络：

/>

其中f(·)为当前动作网络的输出量π(s_t∣θ^π)＝[δ,λ₃,λ₄]^T到最优控制问题求得的控制输入的映射函数，可通过车辆动力学方程及查表法确定；

然后更新目标评价网络和目标动作网络：

θ^π′←τθ^π+(1-τ)θ^π′。

上述实施例中，步骤3中的当满足第二设定条件episode>i_control，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，包括以下步骤：

步骤31、选择控制输入量，根据控制输入量得到新的测量值和当前奖励值，将由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素，并存于经验池；

具体为：根据动作网络策略和探索策略选择控制量u_t＝π(s_t∣θ^π)+∈,∈为噪声，

根据控制量u_t得到新的测量值s_t+1和当前奖励值r_t，将状态转移四元素(s_t,u_t,r_t,s_t+1)存于经验池D；

步骤32、在经验池内随机采样，计算TD3的Actor-Critic框架中两个评价网络的目标值，并取最小值；

具体为：在经验池D内随机采样N组数据，计算评价网络的目标值，并取最小值：

步骤33、通过最小化损失函数更新评价网络参数：

步骤34、通过策略梯度方法更新更新动作网络，然后更新目标评价网络和目标动作网络；

具体为：每隔d轮，通过策略梯度算法更新动作网络:

并更新目标评价网络和目标动作网络：

θ^π′←τθ^π+(1-τ)θ^π′

直至满足第三设定条件episode＝i_max。

综上，如图7和图8所示，为利用本发明提供的基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法在仿真环境下进行训练及测试后的效果示意图。

图7为TD3算法在学习过程中的回合奖励训练情况，图中灰色曲线为每个回合的实际奖励，深色曲线每200回合的平均奖励。由图7可知，随着回合数的增加，前8000回合获得的回报值呈总体提升的趋势，这说明算法的控制能力从交互过程中得到了提高。8000-12000回合获得的回报值逐渐趋于平稳，这说明算法在训练的后期得到的策略已经接近最优。

图8为T型避撞轨迹示意图，基于设置的初始状态条件，虽然在该极端工况下无法避免碰撞，但自车通过转向横摆运动，最终与他车碰撞时两车的车身基本平行，从而增大了碰撞接触面积，减小了碰撞损失。

在本发明的一个实施例中，提供一种自动驾驶车辆T型紧急避撞控制系统，其包括：计算模块、第一更新模块和第二更新模块；

计算模块，根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；

第一更新模块，满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；

第二更新模块，满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，输出最优控制量。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

如图9所示，为本发明一实施例中提供的计算设备结构示意图，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种控制方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：

根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自动驾驶车辆T型紧急避撞控制方法，其特征在于，包括：

根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；

满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；

满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，并输出最优控制量；

所述奖励函数的设置，包括：由第一种奖励与第二种奖励叠加后构成；

所述第二种奖励是在每个训练回合结束后，基于自车不同的状态模式给予的终止状态奖励；所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻；

所述计算基于规则的最优控制问题的控制输入量，包括：

所述控制输入量由当前轮胎的横向力和纵向力构成；

所述基于规则的最优控制问题的目标函数设置为终止状态奖励；

所述第一设定条件为：episode≤i_control；

所述第二设定条件为：episode>i_control；

所述第三设定条件为：episode＝i_max；

2.如权利要求1所述控制方法，其特征在于，还包括：预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间；

3.如权利要求1所述控制方法，其特征在于，所述基于控制输入量对强化学习的网络参数进行更新，包括：

通过最小化损失函数更新评价网络参数；

4.如权利要求1所述控制方法，其特征在于，所述基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，包括：

通过最小化损失函数更新评价网络参数：

通过策略梯度方法更新动作网络，然后更新目标评价网络和目标动作网络。

5.一种自动驾驶车辆T型紧急避撞控制系统，其特征在于，包括：计算模块、第一更新模块和第二更新模块；

所述计算模块，根据预先设置的车辆模型、奖励函数和初始状态，计算基于规则的最优控制问题的控制输入量；

所述第一更新模块，满足第一设定条件时，基于控制输入量对强化学习的网络参数进行更新，直到满足第二设定条件；

所述第二更新模块，满足第二设定条件时，基于TD3的Actor-Critic框架对强化学习的网络参数进行更新，直到满足第三设定条件，输出最优控制量；

所述计算基于规则的最优控制问题的控制输入量，包括：

所述控制输入量由当前轮胎的横向力和纵向力构成；

所述第一设定条件为：episode≤i_control；

所述第二设定条件为：episode>i_control；

所述第三设定条件为：episode＝i_max；

6.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至4所述方法中的任一方法。

7.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至4所述方法中的任一方法的指令。