CN109976340A

CN109976340A - 一种基于深度增强学习的人机协同动态避障方法及系统

Info

Publication number: CN109976340A
Application number: CN201910208033.8A
Authority: CN
Inventors: 徐昕; 姚亮; 程榜; 尹昕
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-05
Anticipated expiration: 2039-03-19
Also published as: CN109976340B

Abstract

本发明提供一种基于深度增强学习方法的智能车动态避障方法及系统，包括S1、获取智能车在t时刻的图像；S2、将图像输入神经网络模型，输出智能车的执行各个动作对应的概率；S3、选择智能车在t时刻的执行动作；S4、记录智能车在t时刻的仿真数据；S5、令t＝t+1，重复S1‑S4直至仿真结束，将仿真数据存档；S6、从正样本经验池或负样本经验池中抽调仿真数据对神经网络模型进行训练的同时循环S1‑S6连续训练至仿真过程中智能车的动态避障策略能完全进行动态避障；后利用训练出的动态避障策略应用到人机协同机制下的动态避障，互补人类驾驶员与智能机器在智能车的应急避让的行为决策上各自优势，达到统一极优的决策方法。本发明应用于智能车的智能决策领域。

Description

一种基于深度增强学习的人机协同动态避障方法及系统

技术领域

本发明涉及智能车的环境感知领域，尤其涉及一种人机协同机制下的基于深度增强学习方法的智能车动态避障方法。

背景技术

在自动驾驶领域的研究中，首要考虑的就是安全问题，只有达到安全的要求下各方面的研究才有意义。为了实现安全的自动驾驶，智能车通过传感器来感知周围的环境然后做出决策、规划，再控制车辆在不发生交通事故的情况下达到期望的目的地。近年来，为了提高智能车的安全性，有些安全系统已被大家所提出来，比如碰撞避免系统、行人检测系统及前方障碍警告系统。

在复杂的交通系统中，实现智能车安全自动驾驶的重要且关键的一点是如何较好的避让行人，行人可以视为动态的障碍物，目前智能车在遇到有威胁的障碍物时，采用的是自动制动方法，然而大多数的传统的自动制动系统的实现的都是基于规则的，很难让其适应真实道路上的复杂不同的场景，因此针对不同的情景下需要设定不同的规则进行调整。特别是当驾驶员出现失误操作时，智能车如何决策动作以使得道路上行人等物体及车内驾驶员及乘客等的安全是一个亟待解决的问题。

发明内容

针对现有技术中的智能车动态避障方法难以适应真实道路上的复杂不同的场景等问题，本发明的目的是提供一种人机协同机制下基于深度增强学习方法的智能车动态避障方法及系统，有效避免传统避障方法的逻辑复杂，程序实现较难的缺点，并利用人机协同机理解决当驾驶员出现失误操作时，智能车系统在合适时间选择合适决策动作以保证智能车内驾驶员和乘客和道路上乘客及其他动态物体安全。

为了实现上述发明目的，本发明提供一种基于深度增强学习方法的智能车动态避障方法，并利用人机协同机理，当驾驶员出现失误将对行人等动态障碍物发生碰撞时，接管驾驶员中的驾驶权，协助驾驶员进行动态障碍物避障。其采用的技术方案是：

一种基于深度增强学习方法的智能车动态避障方法，包括以下步骤：

S1、获取智能车在t时刻的仿真感知图像I_t；

S2、将仿真感知图像I_t输入神经网络模型，神经网络模型输出智能车在t时刻的状态特征s_t以及执行各个动作对应的概率；

S3、根据各个动作对应的概率的分布选择智能车在t时刻的执行动作a_t并输出；

S4、将t时刻的动作a_t输入马尔可夫决策环境模型，观测并记录t时刻的状态s_t到t+1 时刻的状态s_t+1存储状态转移(s_t,s_t+1)同时计算t时刻到t+1时刻的回报值rt，记录智能车在t 时刻的仿真数据(s_t、a_t、r_t、s_t+1)；

S5、令t＝t+1，重复步骤S1-S4直至该组仿真结束，并根据仿真结果将该组仿真的所有仿真数据{(s_t、a_t、r_t、s_t+1)丨t＝1，2，3，···}存档至正样本经验池或负样本经验池；

S6、从正样本经验池或负样本经验池中抽调仿真数据对神经网络模型进行训练优化同时循环步骤S1-S5连续训练直至仿真过程中智能车的动态避障策略能完全进行动态避障，进而完成智能车动态避障模型的构建，其中，智能车的动态避障策略能完全进行动态避障的表征即为损失函数的值达到收敛值，Q值也收敛在一个较小范围之内，Q值即为神经网络模型的输出值。

S7、将步骤S6构建的智能车动态避障模型装载在智能车上，当智能车行驶过程中前方出现动态障碍物时，智能车依据人机协同策略的决策将驾驶权在驾驶员与智能车动态避障模型之间进行切换，以协助驾驶员动态避障。

作为上述技术方案的进一步改进，所述神经网络模型包括第一神经网络与第二神经网络，所述第一神经网络参数步骤S2的运算过程，所述第二神经网络参与步骤S6的训练优化过程，所述训练优化过程采取随机梯度下降的方法以最小化损失函数为目标来更新网络参数，第二神经网络隔固定步长将训练优化得到的神经网络参数直接赋予第一神经网络，由其不断与环境进行交互以更新训练数据。

作为上述技术方案的进一步改进，步骤S3中，根据ε-贪婪策略从各个动作确定智能车在t时刻的执行动作a_t，具体的：

以(1-ε)的比例按照神经网络模型输出的动作来选智能车的动作从而与环境交互，以ε的比例随机选取智能车的动作，此时不按照神经网络模型的输出选取动作。

作为上述技术方案的进一步改进，步骤S4中，所述t时刻到t+1时刻的回报值rt的计算过程为：

式中Δx,Δy分别是智能车与动态障碍物在x、y方向上的位移差值；Δv是智能车t时刻的速度与t+1时刻的速度的差值；vt是智能车在t时刻的速度；st＝bump表示智能车发生碰撞的情况；st！＝bump表示智能未发生碰撞的情况；x_veh和x_ped分别表示智能车、行人在x轴方向上的位移坐标；α,δ,β,η,λ均为常数参数。

作为上述技术方案的进一步改进，步骤S5中，所述正样本经验池用于存储仿真结果为智能车与动态障碍物未发生碰撞时的仿真数据，所述负样本经验池用于存储仿真结果为智能车与动态障碍物发生碰撞时的仿真数据。

作为上述技术方案的进一步改进，所述正样本经验池的大小为1000，所述负样本经验池的大小为100。

作为上述技术方案的进一步改进，所述正样本经验池的批处理大小为32，所述负样本经验池的批处理大小为8。

作为上述技术方案的进一步改进，步骤S7中，所述人机协同策略的决策过程具体为：

S71、实时获取智能车当前的速度v_veh、动态障碍物的移动速度v_ped、动态障碍物与行人的纵向间距d以及动态障碍物与行人的横向间距d_t；

S72、计算动态障碍物离开危险区的最长时间t_max：t_max＝d/(2×v_ped)；

S73、计算动态障碍物与智能车的最大安全距离d_safe：d_safe＝v_veh×t_max；

S74、判断d_t<d_safe是否成立，若成立则智能车将驾驶权切换至智能车动态避障模型直至智能车超越动态障碍物，若不成立则保持驾驶员的驾驶权并循环步骤S71-S74直至智能车超越动态障碍物。

为了实现上述发明目的，本发明还提供一种基于深度增强学习方法的智能车动态避障系统，其采用的技术方案是：

一种基于深度增强学习方法的智能车动态避障系统，包括处理器与存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的有益技术效果：

本发明通过根据仿真结果将仿真数据存档至正样本经验池或负样本经验池，并在连续仿真的同时利用正样本经验池或负样本经验池中随机抽取数据对神经网络模型进行优化训练，双经验池的仿真数据可重复利用，保证训练出的避让策略的稳定性更高，有效的加速神经网络模型的收敛，同时有效避免传统避障方法的逻辑复杂，程序实现较难的缺点，同时能协助驾驶员处理由于驾驶员误操作等造成的动态障碍物如行人等碰撞危险，保护驾驶员及道路行人等的安全。

附图说明

图1是基于深度增强学习方法的智能车动态避障方法的框架图；

图2是行人应急避让场景示意图；

图3是设计的动作Action示意图:

图4是Prescan软件搭建的场景图；

图5是训练过程图；

图6是深度神经网络的结构示意图:

图7是Prescan中训练算法过程中的四个观察视角图:

图8是最后1000轮训练中统计的Loss值的示意图；

图9是测试过程中统计的Reward回报值的示意图:

图10是智能车在v＝11m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆与行人的轨迹图:

图11是智能车在v＝11m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆行驶过程中采取的动作图；

图12是智能车在v＝11m/s的情况下采用所学策略的实验结果中车辆行驶过程中速度变化图:

图13是智能车在v＝13m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆与行人的轨迹图:

图14是智能车在v＝13m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆行驶过程中采取的动作图；

图15是智能车在v＝13m/s的情况下采用所学策略的实验结果中车辆行驶过程中速度变化图；

图16是智能车在v＝16m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆与行人的轨迹图:

图17是智能车在v＝16m/s的情况下采用所学策略的实验结果中车辆行驶过程中车辆行驶过程中采取的动作图；

图18是智能车在v＝16m/s的情况下采用所学策略的实验结果中车辆行驶过程中速度变化图。

图19是人机协同机制下的行人应急避让示意图；

图20是人机协同机制切换控制车辆的流程图；

图21是智能车策略训练达标后控制车辆的结果；

图22是人类驾驶员控制车辆的结果；

图23是人机协同机制下智能车在低速(不到11m/s)下的应急避让车辆与行人的轨迹图；

图24是人机协同机制下智能车在低速(不到11m/s)下的应急避让车辆行驶过程中速度变化图；

图25是人机协同机制下智能车在低速(不到11m/s)下的应急避让车辆行驶过程中采取的动作图；

图26人机协同机制下智能车在较高速(近15m/s)下的应急避让车辆与行人的轨迹图；

图27人机协同机制下智能车在较高速(近15m/s)下的应急避让车辆行驶过程中速度变化图；

图28人机协同机制下智能车在较高速(近15m/s)下的应急避让车辆行驶过程中采取的动作图。

具体实施方式

如图1-28所示的一种基于深度增强学习方法的智能车动态避障方法，包括以下步骤：

S1、获取智能车在t时刻的仿真感知图像I_t；

S3、根据各个动作对应的概率的分布选择智能车在t时刻的执行动作a_t并输出，其中，根据ε-贪婪策略从各个动作确定智能车在t时刻的执行动作a_t，具体的：

以(1-ε)的比例按照神经网络模型输出的动作来选智能车的动作从而与环境交互，以ε的比例随机选取智能车的动作，此时不按照神经网络模型的输出选取动作；

S5、令t＝t+1，重复步骤S1-S4直至该组仿真结束，并根据仿真结果将该组仿真的所有仿真数据{(s_t、a_t、r_t、s_t+1)丨t＝1，2，3，···}存档至正样本经验池或负样本经验池，正样本经验池用于存储仿真结果为智能车与动态障碍物未发生碰撞时的仿真数据，负样本经验池用于存储仿真结果为智能车与动态障碍物发生碰撞时的仿真数据，其中，正样本经验池的大小为1000，负样本经验池的大小为100。t时刻到t+1时刻的回报值r_t的计算过程为：

式中Δx,Δy分别是智能车与动态障碍物在x、y方向上的位移差值；Δv是智能车t时刻的速度与t+1时刻的速度的差值；vt是智能车在t时刻的速度；st＝bump表示智能车发生碰撞的情况；st！＝bump表示智能未发生碰撞的情况；x_veh和x_ped分别表示智能车、行人在x轴方向上的位移坐标；α,δ,β,η,λ均为常数参数；

S6、从正样本经验池或负样本经验池中抽调仿真数据对神经网络模型进行训练优化同时循环步骤S1-S5连续连续训练直至仿真过程中智能车的动态避障策略能完全进行动态避障，进而完成智能车动态避障模型的构建，智能车的动态避障策略能完全进行动态避障的表征即为损失函数的值达到收敛值，Q值也收敛在一个较小范围之内，Q值即为神经网络模型的输出值。其中，正样本经验池的批处理大小为32，负样本经验池的批处理大小为8。

其中，神经网络模型包括第一神经网络与第二神经网络，第一神经网络参数步骤S2的运算过程，第二神经网络参与步骤S6的训练优化过程，所述训练优化过程采取随机梯度下降的方法以最小化损失函数为目标来更新网络参数，第二神经网络隔固定步长将训练优化得到的神经网络参数直接赋予第一神经网络，由其不断与环境进行交互以更新训练数据。

S7、利用以上步骤训练出来的稳定动态避障策略，当车辆由驾驶员操作时出现失误操作将对行人等动态障碍物发生碰撞时，智能车系统依据人机协同策略将驾驶员的驾驶权切换至智能车，以协助驾驶员动态避障。

人机协同策略的决策过程具体为：

为了便于本发明的实施，下面结合具体实例作进一步的说明。

一.建模

如图2所示的场景，在拥有两车道的结构化道路上，车辆为智能车，动态障碍物为路边一个行人，行人可能是沿着路边站着或将要过马路，我们要解决的问题就是实现智能车避让行人的策略，保证智能车与行人之间不发生碰撞，因此将该问题建模为一个马尔科夫决策过程，定义的状态、动作及回报函数如下：

1.状态(State)

解决该智能车的行人避让问题时，我们假设行人是被已经检测到的基础上，即能获取到当前时刻t行人的位置坐标(x^t _ped,y_ped ^t)，同时智能车能获取到自身的位置坐标(x^t _veh,y_veh ^t)及行驶的速度v_veh ^t，因此我们将智能车与行人的相对位置及车辆当前的速度作为当前的状态，即：

st＝(xtped-xtveh,ypedt-yveht,vveht)

采用连续3个时刻的状态作为马尔可夫决策过程中的状态，即增强学习中的状态定义state，如下式所示：

state＝{s_t,s_t+1,s_t+2}

2.动作(Action)

考虑到智能车在避让行人的过程中，应该包括对车辆纵向、横向的控制，因此定义了3 个离散的动作，如图3所示。

actions＝{0,1,2}

其中0-表示智能车保持当前速度和方向行驶，1-表示智能车从左侧或右侧进行避让，由于本实施例针对实际问题是在城市道路的双车道上，因此假如智能车在左侧车道，此时的动作1 表示从行人的右侧进行避让决策，如果此时智能车在右侧车道，此时的动作1表示从行人的左侧进行避让决策，2-表示智能车保持当前的行驶方向，但是以0.5*brakemax进行刹车控制，相当于此时只进行纵向速度的控制。

3.回报函数(RewardFunction)

不像视频游戏或围棋，回报函数可以直接通过得分来设计。而针对该实际问题，我们需要重新设计回报函数，回报函数在增强学习中可以理解为类似监督学习中的标签(label)值，直接影响智能车训练后采取的动作。在行人的应急避让问题中，我们需要考虑到两方面，一是不管在什么情况下都不能使智能车与行人发生碰撞，另一方面就是智能车应该尽可能较早的脱离这个行人的威胁；因此需要衡量该两方面，考虑到上述问题，我们设计的回报函数如下：

式中Δx,Δy分别是智能车与行人在x、y方向上的位移差值，Δv是智能车当前速度与上一时刻速度的差值，v_t是智能车在当前时刻t的速度，S_t＝bump表示智能车发生碰撞的情况，S_t！＝bump 表示智能未发生碰撞的情况，x_veh和x_ped分别表示智能车、行人在x轴方向上的位移坐标。另外α,δ,β,η,λ均为常数参数。

回报函数中第一项-(ηv_t ²+λ)表示当智能车与行人发生碰撞时，将给予很大的惩罚值，同时如果速度越大，惩罚力度也越大。第二项-(α(Δx)²+β)×Δv-(3-δ(Δy)²)一方面是防止智能车过早的执行避让的动作，即车辆离行人还较远的时候，另一方面通过计算侧向(即y轴方向)的位移差，使车辆行驶过程中尽量在横向上与行人的距离越大越好；第三项是0常数回报值，主要是指当智能车已经通过了行人时，并且没有发生碰撞，算是给予一个奖励，所示设置为0。

在建模为马尔可夫决策过程的问题中，一般包括增强学习和近似动态规划两种方法。在对该问题的建模中，我们并不能知道状态之间的转移概率函数，因此本实施例采用了无模型的增强学习RL方法，而增强学习方法又主要分为三类：基于值函数的方法、基于策略函数的方法及基于Actor-Critic的方法。这里采用的就是基于值函数的Q-Learning方法，然后结合深度神经网络，被称为深度增强学习Deep Q-Learning。

Q-Learning方法是通过值迭代的方法来寻找一个最优策略解。一般情况下，迭代的Q 值也就是指状态动作值Q^π(s,a)，定义为：

式中s表示当前的状态，a表示在当前状态s下采取的动作，r_t表示在时刻t时获取到的即时回报值，π表示当前采取的策略，λ表示折扣率，时间越久，影响越小。因此，状态动作值Q^π(s,a) 表示在当前状态s下，用策略π选择了执行动作a时，未来累积回报值的期望值。

对于上式中的策略π，定义如下：

又根据Bellman方程的基本形态：

因此状态动作值Q^π(s,a)为：

在实际过程中，因为很难能获得真实的状态动作值Q^π(s,a)来满足Bellman方程，在 Q-Learning中采用了如下的更新状态动作Q值的方法：

式中S_t表示t时刻时的状态，A_t表示在t时刻的状态下采取的动作，r_t+1,S_t+1表示在t时刻的状态下采取动作A_t获取的回报值及转移到的下一个状态。

由上式知，Q-Learning中更新Q值时，并不是将其估计值直接赋值给新的Q值，而是采用的是渐进的方式进行更新，朝目标值不断的逼近，类似于梯度下降的思想，最后使其收敛到最优的Q值。

针对该行人避让问题，对其进行马尔可夫决策过程建模的过程中，可以得知模型中的状态空间时连续的，因此，不可能对每一个状态都能找到该状态下的最优的状态动作值Q(s,a)，于是采用了深度增强学习DeepQ-Learning方法，该方法采用深度神经网络来求取近似值函数，即：

Q(s,a)≈Q(s,a,ω)

式中ω表示深度神经网络的参数。

在优化深度神经网络的参数ω时，定义其计算误差δ_t为：

为了使DeepQ-Learning方法能更好的收敛，在上式中，分别采用Q值网络和目标网络来近似Q(S_t,A_t)和Q(S_t+1,a′)，两个网络的参数分别定义为ω和ω-。其中两个网络的结构一致，在不断更新的Q网络时，隔一个固定的步长在将

Q网络的参数ω赋值给目标网络的参数ω-。因此：

在深度神经网络的参数更新中，将r_t+1+λmax_a′Q(S_t+1,a′,ω-)看作目标值，Q(S_t,A_t,ω)看作是当前值，因此可以构建目标函数，即损失函数，如下式：

为了加速收敛过程，我们采用了经验池操作，在训练过程中先存储一定数量的Transition，每个Transition包含一个四元组(S_t,A_t,r_t,S_t+1)，然后在从经验池中提出批处理大小的Transitions进行训练网络，因此其损失函数可以定义为：

式中B_replay指从经验池中提出出来的一个批处理大小的Transitions。然后通过随机梯度下降(Stochastic Gradient Decent,SGD)的方法最小化损失函数来更新参数。

然而在针对该实际问题中发现在构建经验池时，经验池中包含的发生碰撞的Transition 的数量较小，因此在训练过程中从经验池中随机提出数据进行训练时，可能导致训练出来的避让策略不稳定，于是单独构建一个负样本经验池，即该负样本经验池中所有的Transition 均是发生碰撞的情况下的。在训练过程中随机提出的批处理大小的数据中，包含从经验池中提取的数据和一定数量从负样本经验池中提取的数据，再一起用于训练，因此损失函数重新定义为：

式中B_negative表示从负样本经验池中提取出来的固定数量的Transitions数据。

负样本经验池中的数据能更好的保证训练过程中智能车针对行人应急避让问题时的不碰撞。

二.智能车动态避障策略训练

在实验过程中，应用Prescan车辆智能驾驶仿真软件搭建了一个场景，如图4所示，在一个两车道的道路上，仿真车辆使用的是Prescan自带的AudiA8，另外由于在定制好场景后车辆的状态数据在后续训练过程中将进行随机初始化，由于行人在场景中只能定义一下，因此在训练过程中，在实际道路所在的坐标系，虚拟一个行人，每一轮训练时都是随机初始化其状态数据，场景图，如图5所示。在场景图中，定义行人的状态主要有两种情况，一种情况是行人站着马路边上并不会过马路，而是在原地；另一种情况初始化行人在马路边位置，然后会在某个时刻开始移动过马路。在训练的过程中该两种情况随机出现的概率相等，为的就是提高训练过程的鲁棒性。结合现实城市场景，我们设置车辆的初始化速度范围为[10km/h,60km/h]，行人过马路时的速度设置为[0.6m/s,1.4m/s]。在每轮训练中，训练终止情况我们分为如下四种情况，任何一种情况发生时，该轮训练结束。

·智能车停止状态(Stopping)：智能车速度减为0；

·与行人发生碰撞(Bumping)：设定一个安全距离，计算包括智能车与行人在纵向、侧向上的位移差值，小于安全值即视为智能车与行人发生了碰撞。

·智能车穿过行人(Passing)：在智能车未与行人发生碰撞的情况下，智能车已经穿过了行人，或许智能车仍保持一定的速度。

·行人已到达马路另一边(Crossing)：在智能车未与行人发生碰撞的情况下，行人已经安全抵达马路的另一边。

由于本实施例对该行人应急避让问题构建的马尔可夫决策过程模型中，状态的维数为9，因此采用的深度神经网络的隐含层数为5，输入的状态维度不算太高，5层隐含层均为全连接层，输出维数为3，即控制车辆的离散动作的个数，网络的结构示意图如图6所示。在训练过程中，设置的学习率为0.0005，构建的经验池的大小为1000，负样本经验池的大小为100，在进行批处理提取样本时，两个经验池所对应的批处理的大小为32和8，即batch_size大小，网络中采用的激活函数为ReLU函数。

在Prescan车辆仿真软件中训练算法时，通过设置的四个视角图对智能驾驶车辆及行人的状态进行观察，如图7所示。左上角图为全局视角，左下角图以车辆为中心的正上方视角，右上角图为以驾驶员身份的第一视角，右下角图为从车辆的右侧观察的视角。

在训练的过程中，开始的近几百轮训练基本上是在通过随机选择的动作，来生成相应的状态转移过程Transition四元组(s_t,a_t,r_t,s_t+1)，构建好两个经验池后，然后通过∈贪婪算法，以一定的概率选择Q-Network计算出来的最大Q值对应的动作。本章通过对循序渐进的方式进行训练，为了保证基本的在应急避让的过程中不发生碰撞，测试统计了训练不同轮数对应的智能车与行人的碰撞发生率，如表3.1所示，由表的结果对比可知，随着训练次数的增加，智能车在应急避让中逐渐达到了100％的与行人不发生碰撞。

在训练过程中统计了最后1000个Episodes中每步Step更新Q网络权值时的损失函数的值，如图8所示。由图可知，最后训练的过程中损失函数的值基本收敛到0值。

在最后训练完5000个Episodes后，统计每个Episode的累积回报值，如图9所示，Reward 值基本在-10到0之间。

在训练好策略后，实验测试时，分别在智能车速度v＝11m/s、v＝13m/s、v＝16m/s的情况下，记录并分析其实验结果。在智能车初始速度为v＝11m/s的情况下的实验结果，从图10 中车辆和行人的轨迹图得知，行人以一定的速度从道路的下方穿过马路到达道路的上方的过程，车辆为了与行人在侧向(y轴)上保持尽量较大的位移差，因此采取了一个向左避让的动作，然后随着行人的不断行走，位置不断改变，大概过了道路中间位置时，智能车在根据此时的状态选择了再次向右避让，图10中轨迹点从棕色逐渐变色，相同颜色的点为同一时刻的车辆和行人所在的位置。在整个决策过程中，车辆采取的动作如图11所示，首先采取动作 1向左避让，再采取动作0来保持当前速度，接着采取动作2保持行驶方向以一定的刹车强度减速，然后采取动作1向右避让，最后又再减速，车辆对应的速度变化图如图12所示，在执行避让动作的过程中，速度一般先有一定的减少，然后再恢复到当前的速度。

在智能车速度为v＝13m/s的情况下，当车辆向左避让后，此时的速度仍保持在12m/s时，智能体已判断来不及向右避让行人了，因此智能车直接采取了动作2让智能车减速到停车，直到行人通过马路，整个过程中车辆与行人的轨迹如图13，采取的动作如图14所示，车辆的速度变化如图15所示。

在智能车速度为v＝16m/s的情况下，行人以一定的速度从道路的上方穿过马路到达道路的下方的过程，由于开始在初始状态时，车与行人在侧向(y轴)的位移差较大，因此车辆采取动作0保持当前速度和行驶方向行驶，随着行人的移动，为了避让行人，采取动作2来使速度减少，直到停止让行人通过，其轨迹如图16，采取的动作及车的速度变化分别如图17 和图18所示。

三、人机协同机制下的智能车动态避障

人机协同机制就是指人的作用和行为认知模型中加入了机器的智能系统的参与，一起共同完成某项任务。在智能驾驶领域中，可以简单的理解为人类驾驶员在对车辆进行驾驶的过程中，车辆的智能辅助系统(Advanced Driver Assist System，ADAS)可以根据当前感知的环境及车辆自身的状态随时参与到对车辆的控制中，共同完成车辆驾驶的任务。根据目前对智能驾驶车辆研究与试验，同时与人类驾驶员进行对比，我们能清楚的了解到，人类驾驶员在积累了丰富的驾驶经验后，对环境感知、预测等方面能有较强的体现，但是人类会受到身体、心里等状态的影响，相比较而言，智能驾驶辅助系统却能在长时间的运作中仍能达到对环境及车辆状态的高精度测控，并能很精准的检测车辆是否会遇到危险，因此在人机协同的机制下，人类驾驶员与车辆智能辅助系统进行交互，两者能够相互弥补在智能车辆的环境感知、决策规划及控制等方面功能，达到最大化车辆驾驶的性能，也能提高车辆的主动安全性。

以行人作为对象的动态避障为例，在人机协同机制下，主要是找到车辆在行驶过程中的触发点P，即前方道路上出现行人时，能由人类驾驶员切换到智能驾驶辅助系统上的触发点。因此，该问题可以描述为如图19所示，在场景中触发点P之间完全由人类驾驶员驾驶车辆的情况下，之后在前方有行人时有一定的危险情况下，人类驾驶员并不能做出合理的车辆决策控制操作，于是在该触发点P后切换到智能驾驶辅助系统学习到的行人应急避让策略，进而控制车辆的行驶避免发生碰撞。

这里根据智能车辆的侧向安全距离，即设置车辆的侧向危险距离为D，当行人在前方时，首先需要考虑行人此时与车辆的侧向位移差，如果智能车与行人的侧向位移差满足如下条件：

即行人在图19中虚线之间时，算是在危险区，此时车辆要么减速到让行人摆脱该区域，或者向左或向右绕开来避让。

考虑实际车辆的宽度大约2m，行人离车辆两边的安全距离设置为1.5m，因此上图19中虚线之间的距离D＝5m，假设行人穿过马路的速度大约为v_ped≈1.0m/s，在虚线区域，行人在虚线区域中点时，逃离虚线区域所需时间最长，根据上述假设，可以计算得到行人逃离危险区的最长时间t_max为：

因此，考虑到行人需尽快的逃离危险区域，智能车以当前速度v_veh行驶时，必须保证与行人的安全距离为d_safe：

d_safe＝v_veh×t_max

由上分析可知，当车辆行驶到距离小于dsafe时，此时直接由人类驾驶员切换到训练好的Agent进行接管车辆的控制，也就是当人类驾驶员控制车辆时，其速度如果没有减下来，存在的安全风险就会较大，如果在靠近行人时，速度在不断的减少，其安全距离dsafe也会逐渐减小，人类驾驶员也不一定需要切换到智能体Agent来控制车。

整个人机协同机制下，控制车辆行为的过程如图20所示，每个时刻均计算出车辆与行人当前的纵向位移差，然后进行判断，如果小于安全距离d_safe，随时进行切换智能体进行自动驾驶，即满足下式条件：

dt<dsafe＝vveh×tmax

同一个场景，车辆和行人基本相同的初始状态，对比人类驾驶员与训练出来的智能体 Agent在一定紧急情况下避让行人的车辆驾驶行为与车辆的轨迹，实验中首先进行车辆的人为驾驶，然后获取行人与智能车的行驶轨迹图，再与智能体根据所学策略采取的动作得到车辆的行驶轨迹图进行对比。如图21和图22所示，轨迹图中轨迹点的颜色随着时间的变化由深色逐渐变为浅色，同一种颜色的点代表相同一时刻，由实验对比可以看出，在一个两车道的实验环境下，人类驾驶员控制车辆避让行人的过程中(图22)，侧向的坐标超过了-4m，相当于已经越过了道路边沿。从整个车辆的行驶轨迹上看，如果针对一个并没有很好经验的人类驾驶员，在对避让行人的决策中很难做出很好的避让决策行为，而本发明所训练的动态避障策略则可以进行安全的动作以保证安全。

根据上述人机协同机制构建的模型，设计了测试场景进行测试，车辆在人类驾驶员控制行驶的过程中，时刻计算车辆与行人之间的距离，然后计算是否满足条件d_t<d_safe＝v_veh×t_max，如果满足随即切换到训练好的避让策略来控制车辆。

在两种场景下进行了测试，一种人类驾驶员控制车辆的过程中，并没有使车辆的速度达到很大，也就不到11m/s的速度，实验结果如图23所示，由轨迹图23知，轨迹图中轨迹点的颜色随着时间的变化由深色逐渐变为浅色，同一种颜色的点代表相同一时刻，前面近33m 之前，车辆由人类驾驶员进行控制，此时车辆的速度并没有出现较小，此时智能辅助系统中根据上述的判断条件，意识到此时将需要由智能辅助系统中我们训练好的避让策略来接管控制车辆，根据当前的状态，智能辅助系统连续采取了5个动作2，即以0.5倍的最大刹车强度来控制车辆，最后使车辆的速度减为0，使行人通过，其采取的动作如图25，对应的车辆的速度的变化如图24所示。

另一种测试场景是此时使车辆的速度达到较大的情况，近15m/s的速度，实验结果如图 26、图27和图28所示，整个车辆行驶过程中，车辆和行人的轨迹如图26所示，当车辆行驶到近18m的位置时，速度近15m/s，根据前面分析的设定的限制条件，其实智能车与行人发生碰撞可能增大，切换到智能辅助系统控制车辆的安全限制距离对比第一种测试场景(图23)，显然有所增大，即提前车辆将切换到智能辅助系统来控制，此时车辆采取了我们训练好的智能体输出的动作序列：动作1-动作0-动作0，即先车辆向左避让行人，然后保持当前速度行驶，采取的动作如图28，对应的车辆的速度的变化如图27所示。

由两个场景的测试结果所知，根据我们建立的人机协同机制模型，能较好的使智能车在遇到前方行人的情况时，更好互补人类驾驶员与智能机器在智能车的应急避让的行为决策上各自优势，达到统一极优的决策方法。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非由实施例的具体描述所界定。

Claims

1.一种人机协同机制下的基于深度增强学习方法的智能车动态避障方法，其特征在于，包括以下步骤：

S1、获取智能车在t时刻的仿真感知图像I_t；

S4、将t时刻的动作a_t输入马尔可夫决策环境模型，观测并记录t时刻的状态s_t到t+1时刻的状态s_t+1存储状态转移(s_t,s_t+1)同时计算t时刻到t+1时刻的回报值rt，记录智能车在t时刻的仿真数据(s_t、a_t、r_t、s_t+1)；

S6、从正样本经验池或负样本经验池中抽调仿真数据对神经网络模型进行训练优化同时循环步骤S1-S5连续训练直至仿真过程中智能车的动态避障策略能完全进行动态避障，进而完成智能车动态避障模型的构建；

2.根据权利要求1所述基于深度增强学习方法的智能车动态避障方法，其特征在于，所述神经网络模型包括第一神经网络与第二神经网络，所述第一神经网络参数步骤S2的运算过程，所述第二神经网络参与步骤S6的训练优化过程，所述训练优化过程采取随机梯度下降的方法以最小化损失函数为目标来更新网络参数，第二神经网络隔固定步长将训练优化得到的神经网络参数直接赋予第一神经网络，由其不断与环境进行交互以更新训练数据。

3.根据权利要求1所述基于深度增强学习方法的智能车动态避障方法，其特征在于，步骤S3中，根据ε-贪婪策略从各个动作确定智能车在t时刻的执行动作a_t，具体的：

4.根据权利要求1所述基于深度增强学习方法的智能车动态避障方法，其特征在于，步骤S4中，所述t时刻到t+1时刻的回报值rt的计算过程为：

5.根据权利要求1至4任一项所述基于深度增强学习方法的智能车动态避障方法，其特征在于，步骤S5中，所述正样本经验池用于存储仿真结果为智能车与动态障碍物未发生碰撞时的仿真数据，所述负样本经验池用于存储仿真结果为智能车与动态障碍物发生碰撞时的仿真数据。

6.根据权利要求5所述基于深度增强学习方法的智能车动态避障方法，其特征在于，所述正样本经验池的大小为1000，所述负样本经验池的大小为100。

7.根据权利要求6所述基于深度增强学习方法的智能车动态避障方法，其特征在于，所述正样本经验池的批处理大小为32，所述负样本经验池的批处理大小为8。

8.根据权利要求1至4任一项所述基于深度增强学习方法的智能车动态避障方法，其特征在于，步骤S7中，所述人机协同策略的决策过程具体为：

9.一种基于深度增强学习方法的智能车动态避障系统，包括处理器与存储器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。