CN111625989B

CN111625989B - 一种基于a3c-sru的智能车汇入车流方法及系统

Info

Publication number: CN111625989B
Application number: CN202010193244.1A
Authority: CN
Inventors: 杜煜; 吴思凡; 徐世杰; 鹿鑫
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2024-02-13
Anticipated expiration: 2040-03-18
Also published as: CN111625989A

Abstract

本发明公开了一种基于A3C‑SRU的智能车汇入车流方法及系统，实施方法包括下述步骤：步骤一：由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置采取环境参数和车辆参数。步骤二：根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台。步骤三：根据步骤二中的仿真环境设置强化学习算法的参数以及约束条件。步骤四：根据步骤二搭建的仿真环境利用A3C‑SRU算法训练，以获得汇入车流场景的决策。步骤五：根据步骤四中的模型获得步骤二中的获得步骤二中的最优动作序列，保存训练后的模型，并将模型输入到智能车，实现汇入车流任务。本发明基于A3C‑SRU的智能车汇入车流算法根据步骤一到步骤五的设置，能够有效的实现实时地汇入车流任务。

Description

一种基于A3C-SRU的智能车汇入车流方法及系统

技术领域

本发明公开了一种基于A3C-SRU的智能车汇入车流算法及系统，属于自动驾驶领域。

技术背景

在无人驾驶车的整个决策系统中，汇入车流问题一直是一个难点问题，同时也是一个不得不解决的关键问题，对于人类驾驶员而言，大约20％的交通事故都发生在匝道口，汇入车流主要需要考虑在复杂的交通汇流场景中，主路车流量的情况，以及在交叉路口周围环境发生的变化，通常情况下，一个汇入行为涉及到一系列复杂的决策行为，在汇入过程中的决策行为往往会对交通流量效率和汇入的安全性产生极大的影响。但如今面对汇入车流场景时，无人车决策系统并不能智能地汇入到主路车流中，无人驾驶系统面对复杂的环境场景时还不能给出一个完善的汇入车流策略解决办法，目前智能车对复杂环境场景的处理情况研究还处于起步阶段，如何让智能车的行为决策像机动车驾驶员的决策行为一样，学习周围复杂环境、采取适当决策并及时做出控制一直是研究的重点问题。

目前现有技术包括公开的专利主要采用的汇入车流方法有车辆协同控制方法、车辆汇入引导方法、基于碰撞时间(Time-to-Collision)模型的汇入方法和基于机器学习的汇入车流方法等方法。然而采用车辆协同控制方法和车辆汇入引导方法汇入车流虽然能达到高效的汇入效果，但很明显需要消耗大量的外界力量与资源，不能自主学习适应外界多变的环境。而传统的汇入车流方法和基于机器学习的汇入车流方法通常来说采用保守的汇入策略，且不能有效地预测将来即将发生的变化，同时，不能很好地与代理环境进行交互。目前无人驾驶汽车的决策水平总体来说还不能完全达到人类驾驶员的决策水平，人类驾驶员的决策能力通过长时间不断的学习从而达到趋于成熟的决策，而强化学习是目前最接近人类学习方式的算法，将强化学习与汇入车流场景相结合将有效增加无人驾驶技术水平。

目前提出的强化学习的汇入车流方法主要基于简单环境场景下的汇入车流任务，当前强化学习汇入车流算法应用于复杂场景下收敛速度和训练时间会大量增加，且根据当前的强化学习算法设计，应用在复杂场景下汇入效果并不理想，综合考虑以上因素，迫切需要提出一种在复杂环境下的新的强化学习算法，改进现有方案的不足。因此研究基于A3C-SRU的智能车汇入车流算法具有重要的理论和现实意义。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于A3C-SRU的智能车汇入车流算法及系统，目的在于解决智能车在多复杂环境中的汇入车流问题，同时，在现有算法的基础上实现更好的汇入性能，并有效缩短训练时间。

为实现上述目的，本发明提供如下技术方案：一种基于A3C-SRU智能车汇入车流算法，包括如下步骤：

步骤一，由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置采取环境参数和车辆参数。

步骤二，根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台。

步骤三，根据步骤二中的仿真环境设置汇入车流的约束条件及强化学习算法的参数。

步骤四，根据步骤二搭建的仿真环境利用深度强化学习A3C-SRU算法进行多回合训练，以获得汇入车辆的决策过程。

步骤五，根据步骤四中训练后的决策过程获得步骤二中的最优动作序列，保存训练后的模型，并将模型输入到智能车，实现汇入车流任务。

进一步地，所述步骤一中采集的环境参数、车辆参数：环境中的车道的宽度d；环境中主路车道数n；环境中主路的长度L₁以及汇入匝道的长度L₂；环境中主路车辆的限速v_主以及环境中匝道车辆限速v_匝；主路的车流量N、加速度a_c、速度v_c、初速度v_init；车辆的长度l_c和宽度w_c。

进一步地，所述步骤二中具体的环境汇入场景构建如下：

步骤二一，利用仿真软件根据实际场景的车道的宽度d、环境中主路车道数n、环境中主路的长度L₁以及汇入匝道的长度L₂、环境中主路车辆的限速v_主以及环境中匝道车辆限速v_匝搭建实际场景的汇入车流环境。

步骤二二，输入所采集实际场景的主路的车辆量N、车辆加速度a_c、车辆速度v_c、初速度v_init、车辆长度l_c和宽度数据w_c。

步骤二三，根据步骤二一、步骤二二代建实际场景仿真平台，根据实际汇入车辆的设置汇入车辆信息。

进一步地，所述的汇入车流的约束条件及强化学习算法的参数具体包括四元组空间(s_t,a_t,r_t,s_t+1)。其中s_t为当前状态，a_t为当前状态所执行的动作值，r_t为当前状态获得的奖惩函数值，s_t+1为下一个状态值。

其中，s_t为当前状态，a_t为当前状态所执行的动作值，r_t为当前状态获得的奖惩函数值，s_t+1为下一个状态值。

进一步地，所述的s_t为强化学习的状态空间，状态空间由5元组表示为：

s_t＝(d₁,d₂,v_h,v_t1,v_t2)；

式中，d₁为与汇入车辆相邻车道相邻最近的主路的后车距离，d₂为与汇入车辆相邻车道相邻最近的主路的前车距离，v_h为汇入车辆的车速，v_t1为与汇入车辆相邻车道相邻最近的主路的前车速度，v_t2为与汇入车辆相邻车道相邻最近的主路的前车速度。

进一步地，所述的a_t为强化学习的动作空间，动作空间由两元组表示为：

a_t＝(a_v,w_v)

式中，a_v表示汇入车辆的加速度变化(变化范围由无人驾驶车的自身特性所决定)，w_v为汇入车辆方向盘转角(变化范围由无人驾驶车的自身特性所决定)。

进一步地，所述的r_t为强化学习中的奖惩函数，其具体描述如下：

(1)当车辆在单回合发生碰撞时，给予惩罚r₁,其中，r₁<0。

当汇入车辆成功汇入车流时，给于奖励r₁,其中，r₁>0。

(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d₁和与汇入车辆相邻车道相邻最近的主路的前车距离d₂同时达到一定距离L时，在单回合每步中，给予奖励r₂,其中，r₂>0。

当不符合(2)的条件时，在单回合每步中，给予惩罚r₂,其中，r₂<0。

(3)设置单回合每步的惩罚函数，给予每步的惩罚函数r₃,其中，r₃<0,当汇入时间步数越久，r₃越大。

进一步地，所述的强化学习中总奖励函数表示为：

R＝r₁+r₂+r₃

进一步地，所述的所有仿真数据由仿真中搭建的传感器装置获得，实际场景数据由车身安装的传感器装置获得。

进一步地，所述的所述步骤四中A3C-SRU算法的结构，在强化学习异步优势动作评判算法(A3C)的评判网络(critic)结合简单循环单元(SRU)神经网络，根据SRU神经网络的记忆性,预测状态-动作值，使actor网络中的动作值朝着最大奖励值函数的方向提升。

进一步地，所述步骤四中，强化学习决策模块训练过程如下：

步骤四一，初始化A3C-SRU总网络策略π(a_t|s_t；θ)参数θ、值函数V(s_t；θ_v)参数θ_v以及每个局部网络策略π(a_t|s_t；θ')参数θ'和值函数V(s_t；θ_v')的参数θ_v'。

步骤四二，每个局部网络对各自所搭建的仿真环境进行训练，评判网络(critic)通过更新V(s_t；θ_v')的参数θ_v'，使动作网络(actor)朝获得单步最大奖励函数的方向提高π(a_t|s_t；θ')中的参数θ'，动作网络通过π(a_t|s_t；θ')选择a_t,得到奖励r_t和下一个状态s_t+1，评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升。

步骤四三，局部网络达到一定设定步数或完成一个回合，局部网路推送各自的参数θ'和θ_v'发送至总网络，总网络更新接受到的所有参数，并发送提升后的参数θ、θ_v推送至各个局部网络，每个局部网络继续进行训练。

步骤四四，发送更新后的整体网络参数到各局部网络，直到训练回合结束。

本发明还发明了一种系统，包括：

1.环境参数采集模块，采集实际场景的环境数据以及车辆参数数据应用于仿真场景搭建模块的输入。

2.仿真场景搭建模块，环境参数采集模块的参数输入到仿真场景代建模块，为强化学习决策模块做准备。

3.强化学习决策模块，强化学习决策模块应用于仿真场景搭建模块。

4.模型输出控制模块，模型输出控制模块接收强化学习决策模块的模型，应用于无人驾驶汽车。

本发明的优势在于

1.本发明针对强化学习解决多复杂情况下的汇入车流任务提供了一种新的解决方案。

2.本发明使用A3C-SRU算法改善了之前强化学习汇入车流算法的性能，同时，解决强化学习算法基于杂场景训练时间过长的问题，有效的缩短训练时间。

3.本发明针对强化学习汇入车流任务发明了一个完善的系统，并针对场景具有泛化能力。

附图说明

图1为系统的工作流程图。

图2为仿真道路场景示意图。

图3为算法的执行示意图图。

具体实施方式

结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

结合图1至3所示，本实例基于A3C-SRU智能车汇入车流算法，其具体实施步骤包括如下步骤：

步骤1,使用数码摄像头、多线激光雷达、毫米波雷达、gps定位系统等装置获取汇入车辆所需汇入场景的环境数据、车辆参数数据，其中包括：环境中的车道的宽度d；环境中主路车道数n；环境中主路的长度L₁以及汇入匝道的长度L₂；环境中主路车辆的限速v_主以及环境中匝道车辆限速v_匝；主路的车流量N、加速度a_c、速度v_c、初速度v_init；车辆的长度c_v和宽度w_c。采集频率默认为10HZ,通过视频提取软件获取所需要的数据，采集的时间可根据强化学习算法单回合的训练时间自行设定。

步骤2，利用上述所得到的环境参数及车辆参数输入到Simulation of UrbanMobility(SUMO)仿真软件中，通过软件中路网文件和交通流描述模拟搭建真实的仿真环境(见图1)，其中车辆的坐标系以前保险杠的中点位置为车辆的坐标原点，软件中设置采样频率与采集数据的采样频率相同，频率为10HZ。

步骤3，根据上述仿真环境设置汇入车流的约束条件及强化学习算法的参数,强化学习中速度条件如下，定义四元组状态空间(s_t,a_t,r_t,s_t+1)。

s_t为当前状态，状态空间中包含5元组状态，s_t＝(d₁,d₂,v_h,v_t1,v_t2),式中，d₁为与汇入车辆相邻车道相邻最近的主路的后车距离，d₂为与汇入车辆相邻车道相邻最近的主路的前车距离，v_h为汇入车辆的车速，v_t1为与汇入车辆相邻车道相邻最近的主路的前车速度，v_t2为与汇入车辆相邻车道相邻最近的主路的前车速度。当强化学习算法应用在搭建的仿真场景，状态空间从仿真场景获得，当强化学习算法应用在实际汇入车流场景，状态空间从实际场景获得。

a_t为当前时刻动作值，动作空间由二元组组成，a_t＝(a_v,w_v)，a_v表示汇入车辆的加速度变化(变化范围由无人驾驶车的自身特性所决定)，w_v为汇入车辆方向盘转角(变化范围由无人驾驶车的自身特性所决定)，考虑到保持汇入车辆的舒适性和安全性，加速度a_v每个采样周期变化范围建议为[-3.4m/s²,3.4m/s²],方向盘转角w_v每个采样周期变化范围建议为[-90°，90°]。

r_t为执行当前动作a_t后的奖惩函数，具体为：当车辆在单回合发生碰撞时，给予惩罚r₁,其中，r₁<0，当汇入车辆当前步数S_c超过最大汇入步数S_max时，当作碰撞处理。当汇入车辆成功汇入车流时，给于奖励r₁,其中，r₁>0。发生碰撞时，建议r₁取值为-25，成功汇入时，建议r₁取值为20。(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d₁和与汇入车辆相邻车道相邻最近的主路的前车距离d₂同时达到一定距离L时，在单回合每步中，给予奖励r₂,其中，r₂>0。当不符合(2)的条件时，在单回合每步中，给予惩罚r₂,其中，r₂<0。建议符合条件(2)时，给予每步奖励r₂＝0.5，不符合条件(2)时，给予每步惩罚r₂＝-1。(3)设置单回合每步的惩罚函数，给予每步的惩罚函数r₃,其中，r₃<0,当汇入时间步数越久，r₃越大。

r₃定义如下：

r₃＝|S_max-S_c|*ω

式中，S_max为设定的最大汇入步数，Sc为当前时刻的步数，ω为权重，建议权重取0.2。

执行完一个回合时总奖励函数定义为:R＝r₁+r₂+r₃。

设置强化学习算法的参数见表1所示

表1

建议参数参考值：动作网络学习率为1^e-⁴，评判网络学习率为2^e-⁴，折扣因子为0.9，全局更新率视最大汇入步数而定，熵为0.01，SRU细胞单元个数、训练最大回合数、单回合最大汇入步数视具体汇入场景而定。

步骤4，利用深度强化学习算法A3C-SRU对仿真汇入场景进行多回合训练，构成强化学习决策模块，从而进行训练,网络分为总体网络和局部网络，过程具体如下：

根据训练强化学习A3C-SRU算法的PC机核数分为不同线程的汇入车流环境进行训练，其中，每一个线程执行一个单独的汇入车流环境。A3C-SRU将相同的汇入车流任务分发给不同的线程执行，每一个执行的线程中包含一个局部的A3C-SRU网络。

步骤四一，初始化A3C-SRU总网络策略π(a_t|s_t；θ)参数θ、值函数V(s_t；θ_v)参数θ_v以及每个局部网络策略π(a_t|s_t；θ')参数θ'和值函数V(s_t；θ_v')的参数θ_v'和每个代理环境初始化状态s_t。

步骤四二，每个局部网络对各自所搭建的仿真环境进行训练，评判网络(critic)通过更新V(s_t；θ_v')的参数θ_v'，使动作网络(actor)朝获得单步最大奖励函数的方向提高π(a_t|s_t；θ')中的参数θ'，动作网络通过π(a_t|s_t；θ')选择a_t,得到奖励r_t和下一个状态s_t+1，评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升，具体更新操作如下：

局部网络中的动作网络通过最小化损失函数损失(a_loss)的方式更新动作网络。

式中，A(s_t,a_t；θ',θ_V')被称作优势函数，用于计算总汇报R与期望回报R’的差值：

式中，γ是汇报衰减因子，γ∈(0,1]，k的最大上限是S_max(最大汇入步数),其中为最大总回报R，当一个回合结束后，最后一个动作的预期回报R’为0，或者当网络达到全局更新率时,最后一个状态动作的预期回报为R’＝V(s_t；θ_v')，。

在算法网络中，为了使网络提高搜索范围，搜索最优的动作值，在网络中加入了策略π(a_t|s_t；θ')的熵：

其中，c是熵系数，H是策略π的熵。

在局部网络中的评判网络结合SRU神经网络通过TD-error的方式更新评判网络。

式中，V(s_t；θ')为t时刻的动作-状态值。

V(s_i；θ')通过SRU神经网络进行更新，具体更新过程如下：

1.将强化学习初始状态s作为SRU中的输入x，设置SRU细胞单元数量cell_size，初始化细胞内部状态c_init。

2.整个SRU神经网络通过遗忘门门与重置门控制之前状态和当前状态的遗忘程度，对网络进行更新。

式中,W为神经网络权重，x_t为t时刻的输入。

f_t＝σ(W_fx_t+b_f)

式中，f表示遗忘门(forget gate)，σ为激活函数，W_f为遗忘门权重，b_f为遗忘门偏置。

r_t＝σ(W_rx_t+b_r)

式中，r表示重置门(reset gate),σ为激活函数,W_r为重置门权重，b_r为权重门偏置。

式中，c_t表示t时刻的细胞内部状态。

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t

式中，h_t表示t时刻的输出，g为神经网络激活函数，默认为tanh。

3.将当前时刻SRU神经网络网络输出状态应用于评判神经网络用来预测V(s_i；θ')。

在局部网络提升网络参数，网络采用RMSProp方法对局部网络梯度进行提升，具体如下：

步骤四三，局部网络达到全局更新率或完成一个回合，局部网路推送各自的参数θ'和θ_v'发送至总网络，总网络更新接受到的所有参数，具体如下：

θ＝θ-αdθ

dθ_v＝θ_v-βdθ_v

式中，α，β为网络步长。

步骤五，利用深度强化学习A3C-SRU算法训练完成后可得最优汇入策略，将训练后的模型保存后输入到实际汇入车辆中，实际汇入车辆根据实际环境变化由车身所安装传感器数据获得外部环境信息，从而利用深度强化学习算法A3C-SRU根据实际环境和强化学习决策模块输入到车辆中的模型获得最优的汇入车流决策，最终实现汇入车流任务。

上述实施例为本发明较佳的实施方式，并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于A3C-SRU的智能车汇入车流方法，其特征在于：该方法包括如下步骤，

步骤一：由数码摄像头、多线激光雷达、毫米波雷达、gps定位系统装置提取环境参数和车辆参数；

步骤二：根据步骤一中提取的环境参数和车辆参数利用仿真软件搭建仿真环境平台；

步骤三：在步骤二中的仿真环境平台中设置汇入车流的约束条件及强化学习方法的参数；

步骤四：根据步骤二搭建的仿真环境利用深度强化学习A3C-SRU算法进行多回合训练，以获得汇入车辆的决策过程；

步骤五：根据步骤四中训练后的决策过程获得步骤二中的最优动作序列，保存训练后的模型，并将训练后的模型输入到智能车，实现汇入车流任务；

所述步骤一中的环境参数和车辆参数包括：环境中的车道的宽度d；环境中主路车道数n；环境中主路的长度L₁以及汇入匝道的长度L₂；环境中主路车辆的限速v_主以及环境中匝道车辆限速v_匝；主路的车流量N、加速度a_c、速度v_c、初速度v_init；车辆的长度c_v和宽度w_c；

所述步骤二中具体的环境汇入场景构建如下：

步骤21，利用仿真软件根据实际场景的车道的宽度d、环境中主路车道数n、环境中主路的长度L₁以及汇入匝道的长度L₂、环境中主路车辆的限速v_主以及环境中匝道车辆限速v_匝搭建实际场景的汇入车流环境；

步骤22，输入所采集实际场景的主路的车辆量、车辆加速度、车辆速度、初速度、车辆长度和宽度数据；

步骤23，根据步骤21、步骤22代建实际场景仿真平台，根据实际汇入车辆的设置汇入车辆信息；

汇入车流的约束条件及强化学习算法的参数具体包括四元组空间(s_t,a_t,r_t,s_t+1),其中s_t为当前状态，a_t为当前状态所执行的动作值，r_t为当前状态获得的奖惩函数值，s_t+1为下一个状态值；

s_t为强化学习的状态空间，状态空间由5元组表示为：

s_t＝(d₁,d₂,v_h,v_t1,v_t2)；

式中，d₁为与汇入车辆相邻车道相邻最近的主路的后车距离，d₂为与汇入车辆相邻车道相邻最近的主路的前车距离，v_h为汇入车辆的车速，v_t1为与汇入车辆相邻车道相邻最近的主路的前车速度，v_t2为与汇入车辆相邻车道相邻最近的主路的前车速度；

a_t为强化学习的动作空间，动作空间由两元组表示为：

a_t＝(a_v,w_v)

式中，a_v表示汇入车辆的加速度变化，w_v为汇入车辆方向盘转角；

r_t为强化学习中的奖惩函数，具体描述如下：

(1)当车辆在单回合发生碰撞时，给予惩罚r₁,其中，r₁<0；当汇入车辆成功汇入车流时，给于奖励r₁,其中，r₁>0；

(2)当车辆与汇入车辆相邻车道相邻最近的主路的前车距离d₁和与汇入车辆相邻车道相邻最近的主路的前车距离d₂同时达到一定距离L时，在单回合每步中，给予奖励r₂,其中，r₂>0；当不符合(2)的条件时，在单回合每步中，给予惩罚r₂,其中，r₂<0；

2.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法，其特征在于，强化学习中总奖励函数表示为：

R＝r₁+r₂+r₃。

3.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法，其特征在于，所有仿真数据由仿真中搭建的传感器装置获得，实际场景数据由车身安装的传感器装置获得。

4.根据权利要求1所述的一种基于A3C-SRU的智能车汇入车流方法，其特征在于，步骤四中A3C-SRU算法的结构，在强化学习异步优势动作评判算法的评判网络结合简单循环单元神经网络；

强化学习决策模块训练过程如下：

步骤41，初始化A3C-SRU总网络策略π(a_t|s_t；θ)参数θ、值函数V(s_t；θ_v)参数θ_v以及每个局部网络策略π(a_t|s_t；θ')参数θ'和值函数V(s_t；θ_v')的参数θ_v'；

步骤42，每个局部网络对各自所搭建的仿真环境进行训练，评判网络通过更新V(s_t；θ_v')的参数θ_v'，使动作网络朝获得单步最大奖励函数的方向提高π(a_t|s_t；θ')中的参数θ'，动作网络通过π(a_t|s_t；θ')选择a_t,得到奖励r_t和下一个状态s_t+1，评判网络中SRU神经网络通过记忆长时间的状态s对动作a进行提升；

步骤43，局部网络达到全局更新率或完成一个回合，局部网路推送各自的参数θ'和θ_v'发送至总网络，总网络更新接受到的所有参数；

步骤44，发送更新后的整体网络参数到各局部网络，直到训练回合结束。

5.利用权利要求1所述一种基于A3C-SRU的智能车汇入车流方法的系统，其特征在于，该系统包括：环境参数采集模块，采集实际场景的环境数据以及车辆参数数据应用于仿真场景搭建模块的输入；仿真场景搭建模块，环境参数采集模块的参数输入到仿真场景代建模块，为强化学习决策模块做准备；强化学习决策模块，强化学习决策模块应用于仿真场景搭建模块；模型输出控制模块，模型输出控制模块接收强化学习决策模块的模型，应用于无人驾驶汽车。