CN114919581B

CN114919581B - 智能车辆无序交叉路口的行为决策方法、计算机装置

Info

Publication number: CN114919581B
Application number: CN202210509160.3A
Authority: CN
Inventors: 余伶俐; 李科艺; 赵于前; 陈白帆; 周开军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2024-04-26
Anticipated expiration: 2042-05-11
Also published as: CN114919581A

Abstract

本发明公开了一种智能车辆无序交叉路口的行为决策方法、计算机装置，根据马尔可夫决策过程，并结合现实世界中车辆在无序交叉路口中的行驶交通规则，设计动作空间A和奖励函数R；智能车辆从仿真环境中实时获取激光雷达传感器信息和无序交叉路口的鸟瞰图信息，构建状态空间S；构建包含多层感知机，卷积神经网络和竞争神经网络的竞争双重Q网络，将处理的激光雷达传感器信息和经由空间注意力提取特征的无序交叉路口的鸟瞰图信息编码融合后，解码输入竞争神经网络计算Q值进行决策。模型评估阶段中，智能车辆以Q值最大为原则进行决策，顺利通过无序交叉路口。本发明可有效提高智能车辆在无序交叉路口中的自主决策能力。

Description

智能车辆无序交叉路口的行为决策方法、计算机装置

技术领域

本发明涉及深度强化学习技术领域，特别是一种智能车辆无序交叉路口的行为决策方法、计算机装置。

背景技术

随着汽车的大众化和科技的发展，智能车辆成为发展的趋势。在结构化道路，智能车辆可以通过网联信息在行驶过程中很好地做出决策，但对于非结构化道路或半结构化道路，智能车辆决策过程中对传感器获取的信息有很强的依赖性，但传感器的精度很容易受到环境等多种因素影响，导致智能车辆获取的信息具有感知置信度波动，传统的决策方法容易造成决策错误。利用人工智能技术，可以有效提高智能车辆在无序交叉路口的决策成功率。

近年来，随着深度学习的快速发展，深度强化学习作为一种新兴技术应用于智能车辆的决策中，可以通过智能体和环境交互总结经验，不断学习以在不同的交通场景中做出更好的决策。但是对于传统的深度Q学习算法来说，虽然它可以利用神经网络去感知和学习环境中有用的特征，不需要人为提取特征，提升了状态表示的准确度，也解决了传统强化学习算法输入维度爆炸的问题，但是在现实场景中，仍然有以下问题制约智能车辆领域深度强化学习在无序交叉路口决策的应用。

发明专利申请《基于双阶段注意力机制和深度强化学习的信号灯控制方法》(申请号：202111214138.8)公开了一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，该方法采用双阶段注意力机制对当前交通网络状态预处理，具有更强的提取交通状态的细节信息和应对变化的交通状态能力。但该发明获取的状态信息包括了整个交通道路中每条车道每个时间步的单独特征，输入维度较高，信息提取复杂；同时该发明基于A2C建立交叉口信号控制神经网络模型，运用PPO算法训练模型，输出为连续动作，相较于输出离散动作控制智能车辆短时加减速，连续动作不适合智能车辆在无序交叉路口行驶过程中的决策控制。

发明专利申请《一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法》(201910011893.2)公开了一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，该方法考虑多个交叉路口的路况，协同控制信号灯，提升区域路网的交通流量，但对于无序交叉路口，智能车辆无法获取交通信号灯信息，只能针对实时交通情况进行实时决策。

论文《A Collision Relationship-Based Driving Behavior Decision-MakingMethod for an Intelligent Land Vehicle at a Disorderly Intersection via DRQN》公开了一种基于DRQN的智能车辆无序交叉路口决策方法，该方法简化了智能车辆在路口中的碰撞状态，并采用长短时记忆网络记忆过去的状态对未来进行决策，并以此来减弱传感器误差带来的影响。但是通过长短时记忆网络减弱传感器误差仍然有限，不能排除长时间传感器获取信息存在误差的可能，而简化的碰撞状态十分依赖于传感器的精确度，导致算法泛化能力差，当环境随机性较大时效果差，并且DRQN存在过估计的问题。该方案的状态空间采用简化的碰撞状态，但是碰撞状态十分依赖传感器精度，虽然长短时记忆网络能弥补一段时间内的误差，但是如果长时间传感器测量不准，就会导致很严重的问题，当环境十分随机，即这一次的仿真跟上一次的仿真完全不一样的时候，效果很差，很容易发生碰撞，导致智能车辆在随机性较强的无序交叉路口的实时自主决策能力差。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种智能车辆无序交叉路口的行为决策方法、计算机装置，提高智能车辆在无序交叉路口的实时自主决策能力。

一种智能车辆无序交叉路口的行为决策方法，包括以下步骤：

S1、实时获取激光雷达传感器信息和无序交叉路口的鸟瞰图信息，构建状态空间S；

S2、将所述状态空间S中的激光雷达传感器信息作为多层感知机的输入，得到第一输出；将所述无序交叉路口的鸟瞰图信息作为卷积神经网络的输入，得到第二输出；

S3、融合所述第一输出和第二输出，得到融合信息，解码所述融合信息，将解码后的融合信息作为竞争神经网络的输入，得到竞争神经网络的输出，即Q值；

S4、从动作空间中选择Q值最大的动作或随机从动作空间中选取动作，获得当前状态s对应的动作a，将当前状态s对应的动作a、下一状态s`以及根据奖励函数R在当前环境获得的奖励值r以及是否结束标识done存入经验回放池；构建主网络和目标网络，所述主网络和目标网络结构相同；所述主网络包括多层感知机、卷积神经网络；所述多层感知机、卷积神经网络的输出侧均与融合层连接；所述融合层与解码层连接；所述解码层连接竞争神经网络；

S5、将当前状态s作为所述主网络的输入，获得主网络的输出Q值；将当前状态s的下一状态s`作为目标网络的输入，获得目标网络在下一状态为s`、主网络Q值最大时的动作对应的Q值并利用下式计算目标网络的输出y_t：/>γ为折扣因子，当智能车辆顺利通过无序交叉路口或发生碰撞时，done＝1，否则，done＝0；

S6、将主网络的输出Q值、目标网络的输出作为SmoothL1Loss损失函数的输入，计算所述损失函数的梯度，利用所述梯度调整主网络的参数，每隔步长t，对目标网络的参数进行软更新，本发明中步长t＝1，利用主网络参数与目标网络参数的组合来更新目标网络的参数：ω_t←μω_e+(1-μ)ω_t,μ＝0.005，其中ω_t为目标网络参数，ω_e为主网络参数。更新结束后，得到的目标网络即为决策模型。

本发明针对无序交叉路口中周围车辆行为随机性大，智能车辆上的传感器信息可能受环境等其他因素产生感知偏差的问题，采用多模态融合信息决策，即将激光雷达传感器信息和无序交叉路口的鸟瞰图信息同时作为状态空间输入，分别进行数据特征提取后融合，将融合信息解码后作为竞争神经网络的输入，多模态融合信息决策结合了激光雷达传感器信息实时性强和无序交叉路口的鸟瞰图信息准确度高的优点，提高了智能车辆在无序交叉路口的感知能力，能更好的根据当前环境做出决策；竞争双重Q网络将融合信息先分流到状态值分支和优势函数分支，状态值分支关注道路上其他车辆的存在，优势函数关注可能会导致智能车辆发生碰撞的车辆，以及选择某个动作额外带来的价值，经过两条分支后得到的Q值能更好的适应无序交叉路口环境的随机性；同时在网络训练过程中采用SmoothL1Loss损失函数的梯度更新网络参数，该损失函数鲁棒性更强，针对周围车辆行为随机性大使得智能车辆发生一些异常行为所记录的异常数据不敏感，网络训练更稳定。本发明状态空间采用鸟瞰图信息来矫正传感器精度，鸟瞰图信息是绝对准确的，因此本发明的方案不会过于依赖传感器精度，泛化能力好，极大地提高了智能车辆在随机性较强的无序交叉路口的实时自主决策能力。本发明的网络结构引入了状态值分支和优势函数分支，可以较好的解决过估计问题。

所述动作空间A表示为：A＝(SLOW_ACC,FAST_ACC,MAINTAIN,SLOW_DEC,FAST_DEC)；SLOW_ACC表示慢加速，加速度为a_SA＝+1m/s²；FAST_ACC表示快加速，加速度为a_FA＝+3m/s²；MAINTAIN表示速度不变，加速度为a_MT＝0；SLOW_DEC表示慢减速，加速度为a_SD＝-1m/s²；FAST_DEC表示快减速，加速度为a_FD＝-3m/s²。在动作空间中设置快加速、快减速和慢加速、慢减速，可以让智能车辆在面对不同的周围环境选择更符合当前环境的加速度，更具鲁棒性。

所述奖励函数R的计算公式为：R＝α₁R_efficient+α₂R_safe+α₃R_comfort；其中，

α₁,α₂,α₃分别表示三种决策影响因素的影响因子，v为智能车辆的速度，Δa表示智能车辆加速度的变化量，δ表示加速度变化阈值。奖励函数R的设计包括智能车辆在无序交叉路口中的行驶效率，行驶安全和行驶舒适性，避免了稀疏奖励，即在智能车辆从当前车道进入无序交叉路口左转弯的整个过程的每一时刻都能获得相对应的奖励，智能车辆能更好的学习在整个过程中使得奖励值更大的动作，从而顺利通过无序交叉路口。行驶效率奖励函数的设置使得智能车辆的行驶过程更符合现实世界中车辆的行驶，不会因速度过慢通过交叉路口而造成交通堵塞；行驶安全奖励函数的设置可以避免智能车辆在通过无序交叉路口的过程中长时间停车，或车速高于现实世界交通规则限速，并对顺利通过无序交叉路口给予较大奖励，鼓励智能车辆学会顺利通过无序交叉路口，对发生碰撞给予较大惩罚，让智能车辆学会在行驶过程中避免发生碰撞；行驶舒适性奖励函数的设置针对智能车辆较大的加速度改变给予惩罚，即避免当智能车辆快加速后突然快减速等类似行为造成的车辆损伤和舒适性差的情况。

状态空间S为：所述状态空间S中的激光雷达传感器信息i＝0表示智能车辆的状态信息，i∈[1,N]表示智能车辆通过激光雷达所能获取到的其他车辆的状态信息，其中N为激光雷达传感器感知到的周围车辆的数量；x_i,y_i分别表示第i辆车辆在无序交叉路口环境中的相对位置的横坐标和纵坐标；/>分别表示第i辆车辆在x方向和y方向的速度；/>分别表示第i辆车辆航向角的余弦值和正弦值；s₂为无序交叉路口的鸟瞰图信息。将激光雷达传感器信息和无序交叉路口的鸟瞰图信息同时作为状态输入，可以有效结合激光雷达传感器信息实时性强和无序交叉路口的鸟瞰图信息准确度高的优点。

所述多层感知机包括两个级联的全连接层；两个所述全连接层的激活函数均为ReLU函数。

所述卷积神经网络包括三个级联的卷积层，空间注意力(Spatial-Attention)模块和解码卷积层。三个级联的卷积层中第一个卷积层的输入为所述无序交叉路口的鸟瞰图信息，最后一个卷积层与空间注意力模块连接；所述空间注意力模块与解码卷积层连接；三个所述卷积层和解码卷积层的激活函数均为ReLU函数。

多层感知机可以学习非线性模型，并且实时性高，能有效获取激光雷达传感器中的特征信息。卷积神经网络适用于处理图像中相互位置具有一定关系的数据，并采用空间注意力模块，能更好的提取无序交叉路口的鸟瞰图信息中智能车辆和其他车辆的位置关系，提高智能车辆在无序交叉路口中的感知能力。

本发明的方法还包括：S7、在随机生成的无序交叉路口环境中，加载训练好的决策模型，智能车辆通过激光雷达信息和无序交叉路口的鸟瞰图实时获取无序交叉路口环境中智能车辆和其他车辆的状态，将得到的状态输入到所述决策模型中，以Q值最大为原则进行实时决策，确定智能车辆的动作。

作为一个发明构思，本发明还提供了一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；所述处理器执行所述计算机程序，以实现本发明上述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机程序产品，包括计算机程序/指令；该计算机程序/指令被处理器执行时实现本发明上述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序/指令；所述计算机程序/指令被处理器执行时实现本发明所述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

(1)针对传统的深度Q学习算法面临着过估计的问题，本发明采用了竞争双重Q网络，将经过多层感知机和卷积神经网络分别提取的抽象特征结合后，分流进入两个分支，即状态值分支和优势函数分支，最后再将两个分支聚合一起得到每个动作的Q值。状态值分支关注道路上其他车辆的存在，优势函数关注可能会导致智能车辆发生碰撞的车辆，以及选择某个动作额外带来的价值，从而有效解决了某个次优的动作过估计，导致无法找到最优策略的问题，且经过两条分支后得到的Q值能更好的适应无序交叉路口环境的随机性；

(2)针对传感器精度很容易受到环境等多种因素影响，从而导致智能车辆感知到的状态和真实状态不一致的问题，将实时获取得到的激光雷达传感器信息和无序交叉路口的鸟瞰图信息相应处理后融合，激光雷达传感器信息感知智能车辆周围特定范围内的其他车辆，确定自车和他车的状态信息，无序交叉路口的鸟瞰图信息可以直接将路口中的所有车辆和道路结构一起作为输入，并从鸟瞰图信息中获得无序交叉路口区域内所有车辆的位置和方向信息，帮助提取不同车辆之间的位置关系，从而大大提高了智能车辆感知信息的精确度。

(3)针对无序交叉路口的鸟瞰图中道路结构信息和车辆之间的空间关系信息存在优先级关系的情况，引入Spatial-Attention机制，智能车辆在无序交叉路口左转弯时，Spatial-Attention能够提取距离智能车辆较近或是可能对智能车辆决策更有影响的车辆信息，使得智能车辆更关注可能存在碰撞风险的其他车辆，提前做出决策，有效减少碰撞。

(4)本发明采用多模态融合信息决策，使得智能车辆更关注道路中具有碰撞风险的其他车辆，增强了智能车辆在无序交叉路口中的感知能力，可有效提高智能车辆在无序交叉路口中的自主决策能力，解决了因感知状态误差导致决策失误、决策速度慢、难以处理路口拥堵决策的问题，具有较高的应用价值。

附图说明

图1是本发明基于多模态融合信息深度强化学习的智能车辆无序交叉路口的行为决策方法；

图2是本发明智能车辆在无序交叉路口中获取的状态感知信息示意图；

图3是本发明基于竞争双重Q网络的无序交叉路口的决策模型网络结构示意图；

图4是本发明基于竞争双重Q网络的无序交叉路口的决策模型网络结构训练优化示意图。

图5(a)～图5(f)为实施例1的模型评估阶段智能车辆运用该决策模型通过无序交叉路口的行驶过程；

图6(a)～图6(i)为实施例2智能车辆在随机新生成无序交叉路口环境中运用该决策模型通过无序交叉路口的行驶过程；

图7(a)～图7(i)为实施例3智能车辆在随机新生成无序交叉路口环境中运用该决策模型通过无序交叉路口的行驶过程；

具体实施方式

本发明考虑现实世界中车辆通过无序交叉路口需要减速慢行，设计了8.3m/s为车辆在无序交叉路口行驶的上限速度。通过智能车辆在无序交叉路口中获取激光雷达传感器实时信息和无序交叉路口的鸟瞰图信息，对状态空间S、动作空间A和奖励函数R进行设计，并构建竞争双重Q网络进行训练和优化，为了更好的提取状态空间信息，引入Spatial-Attention机制对无序交叉路口的鸟瞰图信息编码和特征提取，并将此信息与激光雷达传感器信息融合解码后分别输入状态值分支和优势函数分支，计算得到Q值；训练过程中以奖励值最大为引导，通过动作和策略不断学习改进，最终训练得到基于深度强化学习的融合信息的无序交叉路口决策模型。

下面结合附图对本发明做进一步说明：

实施例1：

本实施例是基于多模态融合信息深度强化学习的智能车辆无序交叉路口的行为决策方法，如图1所示，包括以下步骤：

步骤一：网络训练阶段

步骤1，根据马尔可夫决策过程，并结合现实世界中车辆通过无序交叉路口需要减速慢行，设计动作空间A和奖励函数R，离散动作空间A用于智能车辆的决策，奖励函数R用于指导智能车辆学习如何顺利通过无序交叉路口。智能车辆从仿真环境中实时获取激光雷达传感器信息和无序交叉路口的鸟瞰图信息，构建状态空间S。

在智能车辆在无序交叉路口中左转弯的情景中，智能车辆可能面临着在驶入交叉路口前同一条车道前方有正在行驶的其他车辆，或是在智能车辆进入交叉路口即将左转时有其他车辆进入交叉路口，此时智能车辆要根据当前的感知环境，做出相应的速度变化，避免与其他车辆发生碰撞，使其能够顺利实现左转弯通过无序交叉路口。

当智能车辆能够根据感知信息提前对其他车辆的动向进行判断，则可提前进行速度变化，即慢减速或慢加速；当面临突发状况或智能车辆感知信息受到干扰有延迟时，需要及时做出反应，即快减速或快加速。当智能车辆受到前车速度限制或达到设计的车辆通过无序交叉路口的上限速度时，智能车辆保持当前速度。

马尔可夫决策过程由元组(S,A,P,R,γ)描述，其中S为有限的状态空间S＝{s₁,s₂,...,s_m}，其中m是根据训练环境设置的智能车辆的状态数。A为有限的动作空间A＝(a₁,a₂,...,a_n)，其中n是智能车辆可以选择的动作的数量。P为状态转移概率其中A_t和S_t分别为第t时刻的动作空间和状态空间，s`表示下一时刻的状态，s表示当前状态，a表示的是在当前状态下选择动作集中的动作。R为奖励函数，γ为折扣因子，用来计算累计回报，在本发明中，γ＝0.99。结合现实世界中车辆在无序交叉路口中的行驶交通规则，设计动作空间A控制智能车辆在无序交叉路口中行驶的决策，设计奖励函数R用于指导智能车辆学习如何顺利通过无序交叉路口。

为了减少传感器因受环境等其他因素影响而造成的感知误差，将实时获取的激光雷达传感器信息和无序交叉路口的鸟瞰图信息结合构建状态空间S，利用无序交叉路口的鸟瞰图中的道路结构信息和车辆位置信息辅助矫正智能车辆通过激光雷达信息得到的感知环境状态信息，提高感知精确度。智能车辆在无序交叉路口中获取的状态感知信息如图2所示。

状态空间S为：

S＝(s₁,s₂)

其中，s₁为激光雷达信息，s₂为无序交叉路口的鸟瞰图信息。

其中i＝0时表示智能车辆的状态信息，i∈[1,N]表示智能车辆通过激光雷达所能获取到其他车辆的状态信息，其中N为激光雷达传感器感知到周围车辆的数量。x_i,y_i表示第i辆车辆在无序交叉路口环境中的相对位置的横坐标和纵坐标；表示第i辆车辆分别在x和y方向的速度；/>表示第i辆车辆航向角的余弦值和正弦值。

s₂为无序交叉路口的鸟瞰图信息。无序交叉路口的鸟瞰图获取到的是无序交叉路口区域4×128×64的图像信息，图像的中心位置是交叉路口，并对实时获取得到的RGB图像加权，其中权值设置为[0.2989,0.5870,0.1140]。

动作空间A为：

A＝(SLOW_ACC,FAST_ACC,MAINTAIN,SLOW_DEC,FAST_DEC)

其中，SLOW_ACC表示慢加速，加速度为a_SA＝+1m/s²；FAST_ACC表示快加速，加速度为a_FA＝+3m/s²；MAINTAIN表示速度不变，加速度为a_MT＝0；SLOW_DEC表示慢减速，加速度为a_SD＝-1m/s²；FAST_DEC表示快减速，加速度为a_FD＝-3m/s²。

奖励函数R的设计包括智能车辆在无序交叉路口中的行驶效率，行驶安全和行驶舒适性。行驶效率奖励函数的设置使得智能车辆的行驶过程更符合现实世界中车辆的行驶，不会因速度过慢通过交叉路口而造成交通堵塞；行驶安全奖励函数的设置可以避免智能车辆在通过无序交叉路口的过程中长时间停车，或车速高于现实世界交通规则限速，并对顺利通过无序交叉路口给予较大奖励，鼓励智能车辆学会顺利通过无序交叉路口，对发生碰撞给予较大惩罚，让智能车辆学会在行驶过程中避免发生碰撞；行驶舒适性奖励函数的设置针对智能车辆较大的加速度改变给予惩罚，即避免当智能车辆快加速后突然快减速等类似行为造成的车辆损伤和舒适性差的情况。

奖励函数R的计算公式为：R＝α₁R_efficient+α₂R_safe+α₃R_comfort；其中，

α₁,α₂,α₃分别表示三种决策影响因素的影响因子，其值分别为α₁＝1,α₂＝1,α₃＝0.2，v为智能车辆的速度，Δa表示智能车辆加速度的变化量，δ表示加速度变化阈值，δ＝1.5。奖励函数R的设计避免了稀疏奖励，即在智能车辆从当前车道进入无序交叉路口左转弯整个过程的每一时刻都能获得相对应的奖励，智能车辆能更好的学习在整个过程中使得奖励值更大的动作，从而顺利通过无序交叉路口。

步骤2，融合信息。针对激光雷达传感器信息，智能车辆采用的是16线的激光雷达，360°测距，范围设置为30米。能够观察得到探测范围内其他车辆的位置和速度。本发明采用了多层感知机对激光雷达传感器输入的信息编码处理。多层感知机包括两层全连接层，神经元的个数分别是256和512，激活函数均为ReLU函数。

针对无序交叉路口的鸟瞰图信息，本发明引入了Spatial-Attention机制。无序交叉路口的鸟瞰图信息包括交叉路口区域所有车辆和道路结构信息，将实时获取得到的鸟瞰图信息输入三层卷积神经网络编码，第一层是输入通道为4，输出通道为32，卷积核为8，步长为4的卷积神经网络；第二层是输入通道为32，输出通道为64，卷积核为4，步长为2的卷积神经网络；第三层是输入通道为64，输出通道为64，卷积核为3，步长为1的卷积神经网络，三层卷积神经网络的激活函数均采用了ReLU函数。将输入的鸟瞰图编码后输入Spatial-Attention模块，以提取距离智能车辆较近或是可能对智能车辆决策更有影响的车辆信息。Spatial-Attention首先将编码后图像的64个通道的同一个位置求平均值和最大值，并将其张量拼接在一起；然后将处理后的图像输入卷积核为7，步长为1，填充为3的卷积层中，以Sigmoid函数为激活函数。紧接着，将图像输入一层卷积神经网络(Conv4)解码后展平输出，该层卷积神经网络输入通道数为1，输出通道数为64，卷积核为3，步长为1，激活函数为ReLU函数。

将处理后的激光雷达传感器信息和无序交叉路口的鸟瞰图信息拼接后经过一层全连接层融合(对应图3中的Concatenate)，并通过一层全连接层解码(对应图3中的Decoder)，全连接层的神经元个数分别为256和512。

步骤3，构建包括多层感知机，卷积神经网络和竞争神经网络的竞争双重Q网络，并随机初始化网络参数。将所述状态空间S中的激光雷达传感器信息作为多层感知机的输入，得到第一输出；将所述无序交叉路口的鸟瞰图信息作为卷积神经网络的输入，得到第二输出。融合所述第一输出和第二输出，得到融合信息，解码所述融合信息，将融合信息输入竞争神经网络，竞争神经网络包含状态值分支和优势函数分支。两个分支均包含两个级联的全连接层，激活函数均为ReLU函数。状态值分支的两层全连接层的神经元数目分别是512和256，第二层全连接层的输出是当前状态的值函数，输出维度为1；优势函数分支所述的两层全连接层的神经元数目是512和256，第二层全连接层的输出是当前状态下动作空间A中待选动作的优势函数，输出维度为5，经过状态值分支和优势函数分支后得到网络的输出Q值。基于竞争双重Q网络的无序交叉路口的决策模型网络结构示意图如图3所示。

步骤4，网络采用经验回放技术采样数据离线训练，当经验回放池中的数据量小于batch size的大小时，网络不训练，这里batch size设置为256。智能车辆在无序交叉路口仿真环境中运行，智能车辆根据当前状态，采用1-ε策略进行动作选择，并将当前状态s选择的动作a得到的下一个状态s'，根据奖励函数R在当前环境获得的奖励值r以及是否结束标识done存入经验回放池，当智能车辆顺利通过无序交叉路口或发生碰撞时，done＝1，其他情况done＝0。在整个迭代过程中，ε初始值为1，并随着迭代次数的增加不断减少，ε＝0.9995ε，最终保持在0.001不变，ε值的改变是为了平衡强化学习中的探索和利用，在训练前期应尽可能的探索，在训练后期应减少探索，使得智能体能更好的在环境中学习。

步骤5，训练网络。当经验回放池中的数据量大于batch size时，每个仿真时间实时执行和训练网络同时进行。从经验回放池中随机采样大小为256的采样数据量，每个采样数据为(s,a,r,s',done)。训练优化方式如图4所示，构建了主网络和目标网络，主网络和目标网络结构与图3所示结构相同。主网络从数据中获取当前状态s，计算主网络的Q值为Q(s,a；ω_e)，其中a为采样数据(s,a,r,s',done)中的动作a，ω_e为主网络的参数，Q(s,a；ω_e)即主网络参数为ω_e，状态s下动作为a时的Q值；目标网络从数据中获取当前状态的下一时刻状态s`，计算目标网络的Q值为其中argmax_aQ(s`,a；ω_e)的值表示在下一状态s`选择的Q值最大的动作，ω_t为目标网络的参数，/>表示目标网络的参数为ω_t，状态s`下动作为argmax_aQ(s`,a；ω_e)时的Q值。最终目标网络的输出值的计算公式如下所示：

其中r为采样数据(s,a,r,s`,done)中的奖励值，γ为折扣因子，γ＝0.99，done为是否结束标识，当智能车辆顺利通过无序交叉路口或发生碰撞时，done＝1，其他情况done＝0。

将Q(s,a；ω_e)和y_t输入损失函数，损失函数采用的是SmoothL1Loss，优化器是Adam算法，对损失函数计算梯度，利用梯度信息动态调整主网络的每个参数，采用固定步长软更新参数的方法，每隔步长t，对目标网络的参数进行更新，本发明中步长为1，利用主网络参数与目标网络参数的组合来更新目标网络的参数：ω_t←μω_e+(1-μ)ω_t,μ＝0.005。

本发明实施例中，其中n表示数据的维度大小，这里n＝256。

整个迭代过程的上限回合次数为5000，每个迭代过程的仿真时间上限是10s。考虑每次重置环境的随机性，以每10个回合的平均奖励画出奖励变化曲线，奖励引导智能车辆学习优化，随着迭代回合增加，奖励值收敛。迭代5000个回合后停止并保存此时竞争双重Q网络的模型参数。

步骤二、模型评估阶段。

在随机新生成的无序交叉路口环境中，加载训练好的决策模型，智能车辆通过激光雷达和无序交叉路口的鸟瞰图获取仿真环境中智能车辆和其他车辆的状态，以Q值最大为原则进行决策，评估决策模型的有效性。

随机新生成无序交叉路口环境，如图5(a)，此时智能车辆速度为4m/s，加载训练好的决策模型，智能车辆通过激光雷达和无序交叉路口的鸟瞰图获取仿真环境中智能车辆和其他车辆的状态。初始状态下，智能车辆的激光雷达未感知到周围存在车辆，无序交叉路口的鸟瞰图中可以看到路口自东向西有一其他车辆行驶进入无序交叉路口，此时智能车辆选择动作“快加速”，当车速达到7m/s后维持不变，仿真过程中，当智能车辆即将进入无序交叉路口，激光雷达传感器感知到路口中存在两辆其他车辆，智能车辆首先选择动作“慢减速”，在感知到路口中两辆车辆发生了碰撞，如图5(e)，选择动作“快减速”直至速度为0后保持不变，如图5(f)，智能车辆停车等待持续到仿真时间上限10s，此次仿真结束。

实施例2：

随机新生成无序交叉路口环境，如图6(a)，此时智能车辆速度为5m/s，加载训练好的决策模型，智能车辆通过激光雷达和无序交叉路口的鸟瞰图获取仿真环境中智能车辆和其他车辆的状态。初始状态下，智能车辆的激光雷达未感知到周围存在车辆，无序交叉路口的鸟瞰图中可以看到路口与智能车辆同车道自南向北有一其他车辆行驶进入无序交叉路口，此时智能车辆选择动作“慢加速”，当车速达到7m/s后维持不变。当智能车辆的激光雷达感知到无序交叉路口有其他车辆，如图6(d)，智能车辆选择动作“慢减速”，车速达到5m/s时，智能车辆通过融合信息感知到自北向南行驶的其他车辆即将左转弯，选择动作“快减速”，缓慢向前行驶，直至该车辆通过无序交叉路口后，如图6(g)，选择动作“慢加速”，逐渐加速通过无序交叉路口，此时仿真时间达到10s上限，智能车辆刚好通过无序交叉路口进入车道，如图6(i)。

实施例3：

随机新生成无序交叉路口环境，如图7(a)，此时智能车辆速度为7m/s，加载训练好的决策模型，智能车辆通过激光雷达和无序交叉路口的鸟瞰图获取仿真环境中智能车辆和其他车辆的状态。初始状态下，智能车辆的激光雷达感知到同车道的其他车辆的车速为6m/s，无序交叉路口的鸟瞰图中可以看到除了同车道的一辆其他车辆外，路口自东向西有一其他车辆行驶进入无序交叉路口，此时智能车辆选择动作“慢减速”，直至车速达到5m/s后维持不变。当智能车辆通过融合信息感知到自东向西有一其他车辆直行通过无序交叉路口，如图7(d)，智能车辆选择动作“快减速”。此时，智能车辆通过融合信息感知到自西向东有一其他车辆即将右转弯(如图7(f))，因此智能车辆以2m/s的车速缓慢行驶跟随自东向西的直行车辆，左转弯顺利通过无序交叉路口进入车道，并继续向前行驶直至达到仿真时间上限，如图7(i)。

本发明所提供的基于多模态融合信息深度强化学习的智能车辆无序交叉路口的行为决策方法，在现实世界无序交叉路口行驶交通规则的限制下，采用多层感知机对激光雷达传感器信息特征提取，卷积神经网络对无序交叉路口鸟瞰图信息编码，并引入Spatial-Attention模块提取距离智能车辆较近或是可能对智能车辆决策造成影响的其他车辆信息，将两个信息融合后解码输入竞争双重Q网络的竞争神经网络的状态值分支和优势函数分支计算Q值进行决策，有效减少了传感器因受环境等其他因素影响导致的感知误差，且智能车辆能更关注道路上可能与其发生碰撞的其他车辆，增强了智能车辆的感知能力，有效提高了决策成功率，体现出了较高的智能化和自动化水平。

本发明可有效提高智能车辆在无序交叉路口中的自主决策能力，解决了因感知状态误差导致决策失误、决策速度慢、难以处理路口拥堵决策等问题，具有较高的应用价值。

Claims

1.一种智能车辆无序交叉路口的行为决策方法，其特征在于，包括以下步骤：

S4、从动作空间中选择Q值最大的动作或随机从动作空间中选取动作，获得当前状态s对应的动作a，将当前状态s对应的动作a、下一状态s`以及根据奖励函数R在当前环境获得的奖励值r以及是否结束标识done存入经验回放池；构建主网络和目标网络，所述主网络和目标网络结构相同；所述主网络包括多层感知机、卷积神经网络和竞争神经网络；所述多层感知机、卷积神经网络的输出侧均与融合层连接；所述融合层与解码层连接；所述解码层连接竞争神经网络；

S6、将主网络的输出Q值、目标网络的输出作为SmoothL1Loss损失函数的输入，计算所述损失函数的梯度，利用所述梯度调整主网络的参数，每隔步长t，对目标网络的参数进行软更新，软更新结束后，得到的目标网络即为决策模型。

2.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，所述损失函数表达式为：n表示数据的维度大小，Q(s,a；ω_e)表示主网络参数为ω_e，状态s下动作为a时的Q值，y_t表示目标网络的最终输出。

3.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，所述动作空间A表示为：A＝(SLOW_ACC,FAST_ACC,MAINTAIN,SLOW_DEC,FAST_DEC)；SLOW_ACC表示慢加速，加速度为a_SA＝+1m/s²；FAST_ACC表示快加速，加速度为a_FA＝+3m/s²；MAINTAIN表示速度不变，加速度为a_MT＝0；SLOW_DEC表示慢减速，加速度为a_SD＝-1m/s²；FAST_DEC表示快减速，加速度为a_FD＝-3m/s²。

4.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，所述奖励函数R的表达式为：R＝α₁R_efficient+α₂R_safe+α₃R_comfort；其中， α₁,α₂,α₃分别表示三种决策影响因素的影响因子，v为智能车辆的速度，Δa表示智能车辆加速度的变化量，δ表示加速度变化阈值。

5.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，状态空间S为：所述状态空间S表示为：S＝(s₁,s₂)，s₁为激光雷达传感器信息，i＝0表示智能车辆的状态信息，i∈[1,N]表示智能车辆通过激光雷达所能获取到的其他车辆的状态信息，N为激光雷达传感器感知到的周围车辆的数量；x_i,y_i分别表示第i辆车辆在无序交叉路口环境中的相对位置的横坐标和纵坐标；/>分别表示第i辆车辆在x方向和y方向的速度；/>分别表示第i辆车辆航向角的余弦值和正弦值；s₂为无序交叉路口的鸟瞰图信息。

6.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，所述多层感知机包括两个级联的全连接层；两个所述全连接层的激活函数均为ReLU函数。

7.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，所述卷积神经网络包括三个级联的卷积层，空间注意力模块和解码卷积层；三个级联的卷积层中第一个卷积层的输入为所述无序交叉路口的鸟瞰图信息，最后一个卷积层与空间注意力模块连接；所述空间注意力模块与解码卷积层连接；三个所述卷积层和解码卷积层的激活函数均为ReLU函数。

8.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，步骤S4中，采用1-ε策略进行动作选择。

9.根据权利要求1所述的智能车辆无序交叉路口的行为决策方法，其特征在于，还包括：

S7、在随机生成的无序交叉路口环境中，加载训练好的决策模型，智能车辆通过激光雷达信息和无序交叉路口的鸟瞰图实时获取无序交叉路口环境中智能车辆和其他车辆的状态，将得到的状态输入到所述决策模型中，以Q值最大为原则进行实时决策，确定智能车辆的动作。

10.一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；其特征在于，所述处理器执行所述计算机程序，以实现权利要求1～9之一所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序/指令；其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1～9之一所述方法的步骤。