CN112965499B

CN112965499B - 基于注意力模型和深度强化学习的无人车行驶决策方法

Info

Publication number: CN112965499B
Application number: CN202110251268.2A
Authority: CN
Inventors: 陈美玲; 李衍杰; 刘奇; 吕少华; 许运鸿; 刘悦丞
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-11-01
Anticipated expiration: 2041-03-08
Also published as: CN112965499A

Abstract

本发明公开了一种基于注意力模型和深度强化学习的无人车行驶决策方法通过构建感知模块和决策模块完成无人车行驶决策任务，具体为：通过搭建自注意力模型和长短时记忆网络对感知模块进行建模，然后通过自动编码器模型对感知模块进行训练；利用卷积网络和全连接网络搭建决策模块，所述决策模块基于深度确定性策略算法。利用感知模块对观测数据进行降维，再利用深度强化学习决策模块进行策略学习，并通过引入优先经验回放的方法，提高数据样本的利用率，从而提高算法的训练速度。本发明方法通过在自动驾驶环境中进行模型训练后，可以在复杂的道路环境中安全行驶，并根据环境的变化制定合理的驾驶策略。

Description

基于注意力模型和深度强化学习的无人车行驶决策方法

技术领域

本发明涉及自动驾驶技术领域，特别涉及一种基于注意力模型和深度强化学习的无人车行驶决策方法。

背景技术

自动驾驶系统大体可以分为“感知-决策-控制”三个部分，而由于实际驾驶环境的复杂多变性，智能车需要充分考虑周围其他车辆的情况才能做出合理的决策，因而如何在复杂的道路环境中完成自动驾驶决策，是自动驾驶技术领域的关键研究难点。

目前的无人车行驶决策方法大体分成两类，一种是传统的基于规则的方法；另一种是基于学习的端到端方法。而通过基于学习的方法，能够随环境的变化做出正确的决策，实现自动驾驶技术的关键研究方向。基于学习的端到端方法，近些年机器学习及计算机技术的快速发展为实现端到端的自动驾驶决策提供了可能性。目前利用基于深度学习的方法和基于模仿学习的方法进行自动驾驶策略的研究都依赖于大量的数据以及相应的数据标签，且数据的质量极大的限制了自动驾驶策略的好坏，并不能满足自动驾驶任务的需求。而基于深度强化学习的无人车行驶决策方法，通过与环境的实时交互获得数据即环境的反馈，克服了数据集的限制；但是，由于驾驶环境的状态和动作空间庞大，利用深度强化学习算法完成无人车行驶决策任务时由于探索空间大，使得算法收敛慢，难以取得最优决策等问题。

例如中国专利公开号为CN110850877A的发明专利公开了一种基于虚拟环境和深度双Q网络的自动驾驶小车训练方法。该发明通过深度双Q网络模型在虚拟环境Unity中完成自动驾驶任务，但是该发明中使用的深度双Q网络对自动驾驶任务中的动作空间做了离散化操作，将原来的连续动作空间问题转换为了离散动作空间问题；虽然有效降低了动作空间的复杂度，减少了策略学习时动作空间的搜索范围，使得模型的训练难度得到降低；但是基于离散化的动作空间实现自动驾驶任务，仍具有一定的局限性，并不能充分的满足人类对自动驾驶汽车的要求。

在自动驾驶领域中，通过基于视觉的方法获取车辆周围道路情况是目前主要的方式之一；利用车辆中搭载的RGB摄像头获取的图像中具有丰富的道路信息，因而基于视觉的端到端自动驾驶决策方法得到广泛的研究；但是通过车辆前摄像头获得的图像信息属于高维数据，直接将这类高维数据作为状态输入到网络中，利用深度强化学习算法进行策略学习时，会存在模型训练效率低，难以快速收敛得到比较好的策略等问题。

例如中国专利公开号为CN112201069A的发明专利公开了一种基于深度强化学习的驾驶员纵向跟车行为模型构建方法。该发明以激光雷达、CCD摄像机和采集驾驶员驾驶车辆行驶过程中的速度、加速度、加速踏板开度信号等车辆状态信息以及天气、道路类型、信号灯、标志牌等环境信息作为网络的输入状态；其中，激光雷达和CCD摄像机输出的都是高维数据，在该发明中直接将这些高维数据输入到网络当中进行自动驾驶决策训练，会使得模型的训练难度大大增加。此外，中国专利公开号为CN111605565A的发明专利公开了一种基于深度强化学习的自动驾驶行为决策方法，同样是直接以RGB摄像头、红外摄像头和固态激光雷达等传感器获取的高维数据作为状态输入到网络中进行训练。上述两种发明专利都忽略了高维数据对于网络训练难度的影响，忽视了训练效率问题；此外，以大量的高维数据作为网络输入，对于计算机资源也会造成比较大的消耗。

以上这些问题都导致了基于现有的算法框架很难得到准确、快速、高效的自动驾驶策略。

发明内容

本发明针对上述问题，提供了一种基于注意力模型和深度强化学习的无人车行驶决策方法，可以加快算法的收敛速度，并提供可靠的驾驶决策方案。通过搭建基于自主注意力模型和长短时记忆网络的感知模块，对高维数据进行有效降维，获取图像中的障碍物等关键信息，有效加快算法的收敛速度，提高训练效率；利用深度确定性策略梯度算法搭建决策模块，完成连续动作空间下的无人车行驶决策任务，并通过引入优先经验回放的方法，提高数据样本的利用率，从而提高算法的训练速度；通过在自动驾驶环境中进行模型训练后，可以在复杂的道路环境中安全行驶，并根据环境的变化制定合理的驾驶策略。

本发明的技术方案是：将无人车行驶决策方法分解为两个模块：感知模块和决策模块，感知模块由自注意力模型和长短时记忆网络组成，车辆原始高维的观测数据x经过感知模块后得到有效的降维，最终保留道路上的障碍物等低维的特征信息，降低了后续进行策略学习的难度，可以有效提高算法的学习效率；决策模块通过深度确定性策略梯度算法构建动作网络Actor和值网络Critic进行策略学习，最终输出车辆的控制动作，完成自动驾驶决策任务。

本发明提供一种基于注意力模型和深度强化学习算法的无人车行驶决策方法，包括如下步骤：

步骤1，初始化自动驾驶环境，通过驾驶环境获取车辆前摄像头的观测序列；

步骤2，通过搭建自注意力模型和长短时记忆网络对感知模块进行建模，然后通过自动编码器模型对感知模块进行训练，利用训练好的感知模块提取出步骤1所述观测序列中的低维数据特征；

步骤3，利用卷积网络和全连接网络搭建决策模块，所述决策模块基于深度确定性策略算法，将步骤2得到的低维数据特征作为当前状态输入到决策模块中，决策模块根据输入的状态做出决策，并且得到当前最大概率执行的驾驶动作；

步骤4，车辆在自动驾驶环境中执行驾驶动作后，自动驾驶环境向决策模块反馈相应的奖励和下一时刻的状态，决策模块判断自动驾驶终止条件done是否被触发，同时将决策模块与自动驾驶环境交互的数据作为经验存入经验池D中；

步骤5，利用优先经验回放方法，从经验池D中按照经验优先级顺序抽取数据并进行训练；

步骤6，根据深度确定性策略算法计算决策模块的Q值，利用Q值对决策模块中的网络参数进行更新，以实现系统最大化奖励为目标；

步骤7，更新当前状态，同时对自动驾驶终止条件done进行判断，若done为假则将当前状态输入到决策模块得到更新后的当前最大概率执行的驾驶动作，然后重复步骤4至步骤6，若done为真则返回步骤1开始新一轮的策略学习。

本发明的进一步技术方案是：步骤2中，提取出步骤1所述观测序列中的低维特征，具体包括：

步骤21，从步骤1所述观测序列中提取长度为l的连续序列，利用自注意力模型提取连续序列的全局特征序列；

步骤22，将步骤21得到的全局特征序列输入到长短时记忆网络中获得数据的时序特征，最终得到同时具有全局性和时序性的低维数据特征。

本发明的进一步技术方案是：步骤21中，感知模块利用自注意力模型提取连续序列X_t＝{x_t-l+1,...,x_t-1,x_t}的全局特征序列S_t＝{s_t-l+1,...,s_t-1,s_t}的计算公式为：

其中，s为全局特征序列S_t＝{s_t-l+1,...,s_t-1,s_t}的任一特征值，x为连续序列X_t＝{x_t-l+1,...,x_t-1,x_t}的任一观测值，

均为自注意力模型中的网络参数，经过矩阵相乘后得到三种特征矩阵为：

H、W分别表示特征矩阵的高和宽，d_k表示特征矩阵K的通道数，T表示矩阵转置，Softmax函数表示将自注意力模型的输出结果映射到(0,1)之间。

本发明的进一步技术方案是：步骤22中所述长短时记忆网络的计算公式为:

其中，W_f,W_i,W_c,W_o,b_f,b_i,b_c,b_o均为网络参数；σ,tanh为长短时记忆网络中使用的激活函数。

本发明的进一步技术方案是：步骤21还包括在自注意力模型中引入卷积网络，所述自注意力模型通过相对位置编码的方法，对连续序列中的观测数据进行位置编码，得到全局注意力特征，所述卷积网络对连续序列中的观测数据进行卷积运算后得到局部特征，将所述全局注意力特征和所述局部特征相结合，得到所述全局特征序列，其中，所述全局注意力特征的运算公式为：

其中，S^sa为所述全局注意力特征，

表示相对位置编码矩阵，A^K的上标K表示相对位置编码是针对特征矩阵K。

本发明的进一步技术方案是：步骤2中所述自动编码器模型包括编码过程和解码过程，所述编码过程对观测序列进行编码，得到低维数据特征，所述解码过程将所述低维数据特征利用反卷积网络进行解码，输出的数据序列为反向观测序列，步骤2中所述对感知模块进行训练，是利用均方差判断观测序列与解码输出的反向观测序列之间的误差关系，损失函数L_AE表达式为:

其中，x_i分别表示观测序列的值，x′表示反向观测序列中与x_i相对应的值，N表示从数据池中抽取的N个数据样本，AE表示自动编码器。

本发明的进一步技术方案是：所述决策模块包括动作网络Actor和值网络Critic，其中，所述动作网络Actor包括评估动作网络和目标动作网络，所述值网络Critic包括评估值网络和目标值网络，所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互，实现评估动作网络和评估值网络参数训练，并在固定间隔时间内，通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。

本发明的进一步技术方案是：步骤3具体还包括：将由感知模块获得的当前低维数据特征作为当前状态输入到评估动作网络中，得到自动驾驶车辆控制策略，根据自动驾驶车辆控制策略得到当前执行的驾驶动作，所述驾驶动作的表达式为：a_t＝μ_w(S_t)+N，其中，μ_w表示自动驾驶车辆控制策略，S_t表示当前状态，N为高斯噪声。

本发明的进一步技术方案是：步骤5具体包括：

步骤51：将经验池D中的数据(S_t,a_t,r_t,S_t+1,done)存入求和树Sumtree中，初始化数据的优先级为p_t＝1，其中，S_t、S_t+1分别表示当前状态和下一时刻状态，a_t表示当前执行的驾驶动作，r_t表示执行动作a_t的奖励，done表示自动驾驶终止条件；

步骤51：从经验池D中根据优先级抽取N个数据样本

{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m，并将N个数据样本输入到目标值网络中，得到：

其中，y_j表示在状态S_j和动作a_j条件下的目标Q值，可通过Bellman方程得到，r_j表示执行动作a_j的奖励，Q′(S′_j,μ′(S′_j|w′)|θ′)表示在状态S′_j和动作a′_j＝μ′(S′_j|w′)条件下的目标值网络输出的Q值，其中μ′(S′_j|w′)表示目标动作网络的输出结果，w′、θ′分别表示目标动作网络和目标值网络的参数，γ为折扣因子；

步骤52：将从经验池D中抽取的N个样本：{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m输入评估值网络中，得到评估值网络的输出结果为Q(S_j,a_j|θ)，其中θ为评估值网络的参数；

步骤53：计算数据的TD损失，计算公式如下:

TD_error(S_j,a_j)＝y_j-Q(S_j,a_j|θ)

步骤54：根据计算得到的TD损失更新求和树Sumtree中数据的优先级p_j＝TD_error(S_j,a_j)，并进行归一化处理作为数据抽取的概率，即

本发明的进一步技术方案是：步骤6具体包括：

步骤61：通过计算y_j和评估值网络的输出结果Q(S_j,a_j|θ)之间的平方差对评估值网络的参数θ进行更新，评估值网络的学习目标是使得评估值网络的输出结果Q(S_j,a_j|θ)逼近于y_j，更新网络参数θ的损失公式为：

步骤62：通过计算评估值网络的输出结果Q(S_j,a_j|θ)对评估动作网络的参数w进行更新，评估动作网络的学习目标是生成的驾驶动作使得Q(S_j,a_j|θ)最大，更新网络参数w的损失公式为：

步骤63：在固定的时间间隔内将评估值网络与评估动作网络的参数(θ,w)利用软更新的方法更新到目标动作网络与目标值网络的参数(θ′,w′)，参数更新公式如下：

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，τ为更新权重因子。

本发明提供的一种基于注意力模型和深度强化学习的无人车行驶决策方法，其有益效果是：

1、在感知模块中将自注意力模型和长短时记忆网络做了有效结合，且相对于原始的自注意力模型，本发明将卷积网络嵌入到了自注意力模型中，并引入相对位置编码的方法，构建了本发明所使用的自注意力模型；通过本发明所设计的自注意力模型可以从车辆原始观测图像中提取出道路中其他车辆的位置信息，并通过增加车辆在图像中像素位置的权重实现障碍物特征提取。相对于原始的自注意力模型，本发明所使用的模型在保持原自注意力模型的特征提取的全局性的基础上，通过引入卷积网络对图像的局部特征进行提取，强化了近邻像素之间的关联性，以达到强化注意力特征提取的目的。

2、除了考虑图像像素内部之间的关联性，本发明通过引入长短时记忆网络，考虑图像在时间序列上的关联性，使得最终提取出的注意力特征兼具全局性和时序性。

3、本发明决策模块通过深度确定性策略梯度算法实现，直接以感知模块的输出特征作为输入，经过深度确定性策略梯度算法后得到目标动作和值函数；确定性策略相对于随机策略的优势在于，对于自动驾驶等具有高维动作空间的任务，通过深度确定性策略梯度算法可以直接得到最大概率执行的动作，而不需通过大量样本计算出所有动作的概率再进行选择，可以有效提高算法效率。

4、通过利用优先经验回放的方法，从经验池D中按照优先级顺序抽取数据进行训练，加快算法收敛。

综上所述，本发明通过多种方法的结合，有效的提高了算法的效率，能够在复杂的驾驶环境中做出安全合理的行为决策，实现安全行车。

附图说明

图1为本发明基于注意力模型和深度强化学习的无人车行驶决策方法结构示意图；

图2为本发明基于自注意力模型和长短时记忆网络实现的感知模块示意图；

图3为本发明基于深度确定性策略梯度算法实现的决策模块示意图；

图4为本发明中自注意力模型示意图；

图5为本发明中感知模块所使用的自动编码器模型示意图；

图6为本发明系统的动作网络结构示意图；

图7为本发明系统的值网络结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

如图1所示，基于注意力模型和深度强化学习的无人车行驶决策方法包含感知模块和决策模块以及经验池D等部分。通过从驾驶环境中获得观测数据输入到感知模块中，得到低维的特征信息；然后将低维特征信息输入到决策模块中得到动作策略，同时从环境中返回下一时刻的状态和奖励，并将获得数据存入经验池中；通过决策模块做出的动作决策越好，则从环境中反馈的奖励越大；否则，奖励越小；决策模块利用深度确定性策略梯度算法进行策略学习，目标是使得累计奖励最大。本发明中，需要完成的自动驾驶任务是尽可能以目标速度安全的在道路上行驶尽可能远的距离。

本发明需要完成的自动驾驶任务是尽可能以目标速度安全的在道路上行驶尽可能远的距离，在本发明的一个实施例中，自动驾驶车辆设置的目标速度为V_desired，车辆真实速度为V，设置车辆偏移当前车道距离为D，设置偏移距离的阈值D_thred＝2.0，判断车辆是否发生碰撞，若发生碰撞R_collision＝-1，否则为0，通过距离传感器获得自动驾驶车辆前方与障碍物的距离，设为D_obstacle，根据任务需求，设置各部分奖励函数公式如下：

根据公式(1)到公式(4)得到总的奖励函数r为:

在本发明的一个实施例中，基于注意力模型和深度强化学习的无人车行驶决策方法的实施过程包括以下步骤：

S1、初始化自动驾驶环境，并从自动驾驶环境中收集观测数据集Dataset，观测数据集Dataset中的数据由车辆前摄像头获取的图像组成，包含训练集和测试集，其中训练集为36k张图像，测试集为10k张图像。

S2、对获得的观测数据集Dataset进行预处理，将数据集中的图像通过下采样的方式统一为64*64*3大小的RGB图像。

S3、通过搭建自注意力模型和长短时记忆网络对感知模块进行建模，构建的感知模块如图2所示，感知模块由自注意力模型和长短时记忆网络组成，利用自注意力模型可以有效的提取出观测数据中道路上的其他车辆的位置信息，即障碍物信息，有效提高自动驾驶决策过程的安全性；同时，由于自动驾驶环境是动态变化的，通过长短时记忆网络获取观测序列在时间上的关联性，可以有效提取道路中障碍物的位置变化信息，进一步提高自动驾驶决策的准确性和可靠性。

S3.1、构建自注意力模型，如图4所示，分别构建三个卷积核大小为1*1的卷积网络，对应的网络参数分别为(w^Q,w^K,w^V)，经过三个卷积网络后，观测序列X＝{x₁,x₂,...,x_t}中的观测数据x被编码为Q＝xw^Q,K＝xw^K,V＝xw^V三种特征矩阵，其中

H、W分别表示特征矩阵的高和宽，d_k表示特征矩阵K的通道数，利用相对位置编码的方法，得到特征矩阵K中像素j相对于像素i的相对位置编码如下：

由公式(6)计算任意两个像素之间的相对位置关系，最终得到相对位置编码矩阵

且公式(6)中通过网络训练可得到

的取值，并限制相对距离的最大值为k,即考虑像素j与像素i之间的距离在范围k内是有意义的，此外，

A^K的上标K表示特征矩阵K的相对位置编码，因而相对位置编码矩阵A^K的维度为特征矩阵K的长和宽的乘积。

引入相对位置编码后，进行自注意力特征计算，计算公式如下:

其中，T表示转置，d_k为特征矩阵K的通道数；

本发明在自注意力模型中另外添加一个卷积核大小为1*1的卷积层，观测序列X＝{x₁,x₂,...,x_t}经过该卷积层后得到图像的局部特征，表示为：S^conv＝Conv(X)。

将由自注意力模型得到的全局特征S^sa和由卷积网络得到的局部特征S^conv沿着通道的维度进行合并，得到增强后的注意力特征S＝Concat[S^sa,S^conv]。

S3.2、构建长短时记忆网络，设置长短时记忆网络LSTM中输入序列长度l＝5，设置隐藏层数目为1，输出通道数为128，在本发明的一个实施例中，如图2所示，构建5个如S3.1所述的并行自注意力模型对输入长度为l＝5的观测序列X_l＝5＝{x_t-l+1,...,x_t-1,x_t}进行处理，得到自注意力特征序列S_t＝{s_t-l+1,...,s_t-1,s_t}，将自注意力特征序列S_t输入到长短时记忆网络LSTM中，最终得到t时刻的输出的低维数据特征o_t。长短时记忆网络LSTM内部工作过程大体可以分为四个部分:遗忘门、输入门、细胞状态更新、输出门，具体实现步骤如下:

S3.2.1、遗忘门：控制LSTM网络以一定概率选择是否遗忘掉上一层细胞状态C_t-1；通过输入上一序列的隐藏状态h_t-1和当前序列数据s_t，经过激活函数σ之后，得到遗忘门的输出f_t，具体计算公式如下:

f_t＝σ(W_f·[h_t-1,s_t]+b_f)

其中，W_f,b_f为遗忘门的网络参数。

S3.2.2、输入门：对当前序列位置的输入s_t进行处理，本发明将自注意力模型的输出序列注意力特征S＝Concat[S^sa,S^conv]作为LSTM网络的输入，LSTM网络中，输入门的数据包括两个部分：一部分是利用σ激活函数得到输出i_t；另一部分是利用tanh激活函数得到输出

具体实现方式如下:

其中，W_i,W_c,b_i,b_c均为输入门的网络参数。

S3.2.3、细胞状态更新：更新当前序列位置下的细胞状态C_t，通过遗忘门和输入门的输出更新细胞状态，具体计算公式如下:

S3.2.4、输出门:输入序列S经过LSTM网络的内部计算后，最终通过输出门输出包含两个部分：一部分是得到当前时刻t的隐藏状态h_t，用于作为上一序列的隐藏状态进行下一次的序列计算；另一部分是经过激活函数σ后得到最终的输出结果o_t，o_t即为本发明中感知模块提取到的低维数据特征，具体计算公式如下:

其中，W_o,b_o为输出门的参数。

S3.3、利用自动编码器对感知模块进行训练，构建如图5所示的自动编码器模型，自动编码器包含编码过程和解码过程，其中编码部分为本发明所使用的感知模块，编码器输出的特征即为感知模块的输出低维数据特征o_t；解码器由反卷积网络组成，输出结果为反向观测序列数值x′_t，模型训练输入长度为5的观测序列X_l＝5＝{x_t-l+1,...,x_t-1,x_t}，训练所使用的数据标签为t时刻的观测数据x_t；通过计算由解码器复原的x′_t和观测数据x_t之间的误差关系，对自动编码器模型进行训练，损失函数如下所示:

S3.4、利用观测数据集Dataset对自动编码器模型进行训练，输入数据为64*64*3大小的RGB图像，数据集包含36k张图像，设置训练回合为100。

S3.5、通过测试集对训练得到的自动编码器模型进行评估，保存训练好的自动编码器模型的参数，最终训练的得到的编码过程即为感知模块，用于自动驾驶决策系统中对观测数据进行特征提取，并将提取的特征o_t作为决策模块的输入。

S4、利用卷积网络和全连接网络搭建决策模块，所述决策模块基于深度确定性策略算法，如图3所示，通过构建动作网络Actor获得驾驶策略，通过值网络Critic获得Q值，利用深度确定性策略算法以最大化环境中获得的奖励为目标，进行策略学习。所述决策模块包括动作网络Actor和值网络Critic，其中，所述动作网络Actor包括评估动作网络(evalActor)和目标动作网络(targetActor)，所述评估动作网络的输出结果表示为μ(s|w)，网络参数为w，所述目标动作网络的输出结果表示为μ′(s|w′)，网络参数为w′；所述值网络Critic包括评估值网络(eval Critic)和目标值网络(target Critic)，所述评估值网络的输出结果表示为Q(s,a|θ)，网络参数为θ；所述目标值网络的输出结果表示为Q′(s,a|θ′)，网络参数为θ′。所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互，实现评估动作网络和评估值网络参数训练，并在固定间隔时间内，通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。四个网络的具体功能分别是：(1)evalActor：负责根据当前状态S_t选择当前动作a_t，用于与环境交互产生下一时刻的状态S_t+1和对应奖励r_t；同时更新evalActor的网络参数w；(2)targetActor：从经验池D中采样下一时刻状态，然后得到下一时刻的最优动作；同时，每隔一定时间利用软更新的方法从evalActor中复制网络参数给自身w′；(3)eval Critic：通过当前状态和当前动作计算评估Q值，同时负责更新eval Critic的网络参数θ；(4)targetCritic：通过下一时刻的状态和下一时刻的动作计算目标Q值，同时每隔一定时间利用软更新的方法从eval Critic中复制网络参数给自身θ′。

S4.1、如图6所示，evalActor和target Critic网络结构相同，通过三层卷积之后，再经过两层全连接层后再经过tanh激活函数后，输出维度为3的动作a，每个维度分别表示方向盘转角(steer)、油门(accelerator)、刹车(brake)。

S4.2、如图7所示，eval Critic和target Critic网络结构相同，输入状态经过三层卷积后，数据展开后和输入动作a拼接后输入到两层全连接层最终输出维度为1的Q值。

S5、初始化evalActor、eval Critic、targetActor和target Critic网络，并设置为训练模式。

S6、初始化自动编码器模型，并将S3.5保存的训练模型导入到自动编码器模型中，并只使用编码器部分，并设置为评估模式。

S7、初始化经验池D和求和树Sumtree。

S8、初始化自动驾驶环境，设置观测序列为X＝{x₁,x₂,...,x_t}.

S9、从自动驾驶环境中获得观测序列X＝{x₁,x₂,...,x_t}输入到训练好的感知模块中，得到当前时刻的低维数据特征o_t。

S10、将当前时刻的o_t作为当前状态S_t＝o_t输入到evalActor网络中，得到当前最大概率执行的驾驶动作a_t，同时为了增加车辆的探索能力，对生成的动作加入高斯噪声，即a_t＝μ_w(S_t)+N，其中，N表示高斯噪声，实施例中可设置为均值为0，方差为0.1的高斯噪声，μ_w表示自动驾驶车辆控制策略。

S11、在自动驾驶环境中执行由evalActor网络估计得到的动作驾驶a_t，从驾驶环境中反馈得到下一时刻的状态S_t+1和根据公式(5)计算得到的奖励r_t，同时判断此时是否终止自动驾驶，终止驾驶，则done为真，否则为假。

S12、将数据(S_t,a_t,r_t,S_t+1,done)存入经验池D中，同时初始化Sumtree中数据的优先级为p_t＝1。

S13、从经验池D中根据优先级抽取N个数据样本{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m，将N个样本输入到targetCritic网络中，得到y_j为:

其中，y_j表示在状态S_j和动作a_j条件下的目标Q值，可通过Bellman方程得到，r_j表示执行动作a_j的奖励，Q′(S′_j,μ′(S′_j|w′)|θ′)表示在状态S′_j和动作a′_j＝μ′(S′_j|w′)条件下的目标值网络输出的Q值，其中μ′(S′_j|w′)表示目标动作网络的输出结果，w′、θ′分别表示目标动作网络和目标值网络的参数，γ为折扣因子，反应对未来奖励的关注程度，本实例中，设置γ＝0.95。

S14、将从经验池D中抽取的N个样本{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m输入evalCritic网络中，得到评估值网络的输出结果为Q(S_j,a_j|θ)。

S15、更新eval Critic网络，eval Critic网络的学习目标是使得评估Q值Q(S_j,a_j|θ)逼近于y_j，则更新eval Critic网络参数θ的损失公式为：

通过对损失函数L(θ)求导，利用梯度下降的方法对eval Critic网络进行方向传播，更新参数θ。

S16、更新evalActor网络，evalActor网络的学习目标是生成的动作策略使得评估值网络的输出结果Q(S_j,a_j|θ)最大，则更新evalActor网络参数w的损失公式为:

通过对损失函数L(w)求导，利用梯度下降的方法对evalActor网络进行反向传播，更新参数w。

S17、计算TD损失，TD_error(S_j,a_j)＝y_j-Q(S_j,a_j|θ)，根据计算得到的TD损失更新Sumtree中数据的优先级p_j＝TD_error(S_j,a_j)，并进行归一化处理作为数据抽取的概率，即

S18、在固定的时间间隔内将评估值网络与评估动作网络的参数(θ,w)利用软更新的方法更新到目标动作网络与目标值网络的参数(θ′,w′)，本发明实施例中设置每隔2步，更新一次目标网络，设置更新权重因子τ＝0.001，更新公式如下:

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，(w,θ)分别表示evalActor和eval Critic网络参数，(w′,θ′)分别表示targetActor和target Critic网络参数。

S19、更新当前状态为S_t＝S_t+1,并判断done是否为真，为真则返回S8，重新初始化自动驾驶环境，进行新一轮的策略学习；为假则继续当前回合的学习，返回S10，将当前状态输入到evalActor中，进行下一步的策略学习。

循环S8到S19，设置训练10000回合，每间隔500回合保存一次evalActor、evalCritic、targetActor和target Critic的网络参数。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的步骤、方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种步骤、方法所固有的要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于注意力模型和深度强化学习的无人车行驶决策方法，其特征在于，该方法包括如下步骤：

步骤6，根据深度确定性策略算法计算决策模块的Q值，利用Q值对决策模块中的网络参数进行更新；

2.根据权利要求1所述的无人车行驶决策方法，其特征在于，步骤2中，提取出步骤1所述观测序列中的低维数据特征，具体包括：

3.根据权利要求2所述的无人车行驶决策方法，其特征在于，步骤21中，感知模块利用自注意力模型提取连续序列X_t＝{x_t-l+1,...,x_t-1,x_t}的全局特征序列S_t＝{s_t-l+1,...,s_t-1,s_t}的计算公式为：

4.根据权利要求2所述的无人车行驶决策方法，其特征在于，步骤22中所述长短时记忆网络的计算公式为:

5.根据权利要求3所述的无人车行驶决策方法，其特征在于，步骤21还包括在自注意力模型中引入卷积网络，所述自注意力模型通过相对位置编码的方法，对连续序列中的观测数据进行位置编码，得到全局注意力特征，所述卷积网络对连续序列中的观测数据进行卷积运算后得到局部特征，将所述全局注意力特征和所述局部特征相结合，得到所述全局特征序列，其中，所述全局注意力特征的运算公式为：

其中，S^sa为所述全局注意力特征，

6.根据权利要求2所述的无人车行驶决策方法，其特征在于，步骤2中所述自动编码器模型包括编码过程和解码过程，所述编码过程对观测序列进行编码，得到低维数据特征，所述解码过程将所述低维数据特征利用反卷积网络进行解码，输出的数据序列为反向观测序列，步骤2中所述对感知模块进行训练，是利用均方差判断观测序列与解码输出的反向观测序列之间的误差关系，损失函数L_AE表达式为:

其中，x_i分别表示观测序列的值，x'_i表示反向观测序列中与x_i相对应的值，N表示从数据池中抽取的N个数据样本，AE表示自动编码器。

7.根据权利要求1所述的无人车行驶决策方法，其特征在于，所述决策模块包括动作网络Actor和值网络Critic，其中，所述动作网络Actor包括评估动作网络和目标动作网络，所述值网络Critic包括评估值网络和目标值网络，所述评估动作网络和评估值网络通过与自动驾驶环境进行实时交互，实现评估动作网络和评估值网络参数训练，并在固定间隔时间内，通过软更新的方法将所述评估动作网络和评估值网络参数更新至所述目标动作网络和目标值网络参数中。

8.根据权利要求7所述的无人车行驶决策方法，其特征在于，步骤3具体还包括：将由感知模块获得的当前低维数据特征作为当前状态输入到评估动作网络中，得到自动驾驶车辆控制策略，根据自动驾驶车辆控制策略得到当前执行的驾驶动作，所述驾驶动作的表达式为：a_t＝μ_w(S_t)+N，其中，μ_w表示自动驾驶车辆控制策略，S_t表示当前状态，N为高斯噪声。

9.根据权利要求7所述的无人车行驶决策方法，其特征在于，步骤5具体包括：

步骤52：从经验池D中根据优先级抽取N个数据样本{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m，并将N个数据样本输入到目标值网络中，得到：

其中，y_j表示在状态S_j和动作a_j条件下通过Bellman方程得到的目标Q值，r_j表示执行动作a_j的奖励，Q′(S′_j,μ′(S′_j|w′)|θ′)表示在状态S′_j和动作a′_j＝μ′(S′_j|w′)条件下的目标值网络输出的Q值，其中μ′(S′_j|w′)表示目标动作网络的输出结果，w′、θ′分别表示目标动作网络和目标值网络的参数，γ为折扣因子；

步骤53：将从经验池D中抽取的N个样本{S_j,a_j,r_j,S′_j,done_j},j＝1,2,...,m输入评估值网络中，得到评估值网络输出的Q值Q(S_j,a_j|θ)，其中θ为评估值网络的参数；

步骤54：计算数据的TD损失，计算公式如下:

TD_error(S_j,a_j)＝y_j-Q(S_j,a_j|θ)

步骤55：根据计算得到的TD损失更新求和树Sumtree中数据的优先级p_j＝TD_error(S_j,a_j)，并进行归一化处理作为数据抽取的概率，即

10.根据权利要求9所述的无人车行驶决策方法，其特征在于，步骤6具体包括：

步骤61：通过计算y_j和Q(S_j,a_j|θ)之间的平方差对评估值网络的参数θ进行更新，评估值网络的学习目标是使得评估值网络的输出结果Q(S_j,a_j|θ)逼近于y_j，更新网络参数θ的损失公式为：

步骤62：通过计算评估值网络的输出结果Q(S_j,a_j|θ)对评估动作网络的参数w进行更新，评估动作网络的学习目标是生成的动作策略使得评估值网络的输出结果最大，更新网络参数w的损失公式为：

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，τ为更新权重因子。