CN113657292A

CN113657292A - 一种基于深度强化学习的车辆自动循迹驾驶方法

Info

Publication number: CN113657292A
Application number: CN202110954229.9A
Authority: CN
Inventors: 胡静; 宋铁成; 刘智聪; 夏玮玮; 燕锋; 沈连丰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-16

Abstract

本发明公开了一种基于深度强化学习的车辆自动循迹驾驶方法，包括如下步骤：步骤1、构建双重深度Q网络进行图像特征提取；步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练；步骤3、采用RMSprop算法优化网络的训练过程；步骤4、采用训练完毕的双重深度网络进行预测，进而实现自动循迹驾驶。本发明采取深度强化学习方法，直接实现从图像采集到车辆控制的端到端网络建立，避免了传统方法中复杂的PID控制环节，并且采用双重深度网络进行动作预测，可以有效减少单一深度强化学习网络中最大化偏差带来的性能损失。

Description

一种基于深度强化学习的车辆自动循迹驾驶方法

技术领域

本发明属于人工智能与自动驾驶技术领域，尤其涉及一种基于深度强化学习的车辆自动循迹驾驶方法。

背景技术

近些年来自动驾驶高速发展，交通在可预测的未来即将进入自动驾驶汽车与传统汽车交融的特殊境况。由此，如何使自动驾驶汽车更好的遵守现有的交通法规是一个日益凸显的交通问题。

本发明主要关注自动驾驶车辆的循迹驾驶，如果不能解决这一问题，可能会造成交通秩序的紊乱甚至引发交通安全事故。

国内外针对车辆自动循迹驾驶的研究目前主要涉及有监督学习领域，其研究目的是使车辆对于输入的即时图像能够复现出人类驾驶员的操作控制动作，该方法涉及复杂的道路提取、中线预测、PID参数整合以及车辆状态机设计等多个环节，而采用深度强化学习可以实现从车辆摄像头输入到转向舵机的端到端的控制。

深度强化学习是强化学习与深度学习结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力以及强化学习的决策能力，实现了端到端的学习。

目前深度强化学习已经走向使用，能够解决很多现实场景中的复杂问题，最著名的实例为采用深度强化学习的AlphaGo击败世界围棋冠军李世石。除此之外也广泛应用于机器人控制、实时对战博弈等。

而现有的车辆自动循迹驾驶方法大多基于车道线提取、行驶区域预测以及车辆的决策控制等多个环节，而基于深度强化学习的方法实现了从输入图像到转向舵机的端到端控制，打破了现有方法的控制思路；并且传统的人工智能方法也涉及到大量数据标注工作，面对复杂的道路交通环境，标注工作不可避免地带来巨大的时间和成本的耗费。

发明内容

本发明目的在于提供一种基于深度强化学习的车辆自动循迹驾驶方法,以解决传统方法过于冗杂效率较低以及大量数据标注工作带来的成本问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于深度强化学习的车辆自动循迹驾驶方法，具体包括如下步骤：

步骤1、构建双重深度Q网络进行图像特征提取；

步骤2、采用经验回放方案进行环境交互训练样本采集和双重网络训练；

步骤3、采用RMSprop算法优化网络的训练过程；

步骤4、采用训练完毕的双重深度Q网络进行预测，进而实现自动循迹驾驶。

进一步的，所述步骤1中：

所述双重深度Q网络的输入像素尺寸接受大小为224*224的RGB彩色图片作为网络的输入，即输入数据的结构为3*224*224；

所述双重深度Q网络通过全连接层，得到19*1*1的网络输出。

进一步的，所述输入数据的结构第一层使用7*7卷积操作，得到的特征维度输出为64*112*112，再进行最大池化操作，得到的输出特征为64*56*56；

所述输入数据结构的第二层进行残差模块特征提取，提取得到的图像特征维度为64*56*56；

所述输入数据结构的第三层进行残差模块特征提取，得到的特征维度输出为128*28*28；

所述输入数据结构的第四层进行残差模块特征提取，得到的特征输出维度为256*14*14；

所述输入数据结构的第五层进行残差模块特征提取，得到的输出维度为512*7*7；

所述输入数据结构的第六层进行平均池化操作，得到最终的特征向量512*1*1。

进一步的，所述步骤2中：所述经验回放方案能够在网络的训练过程中同步产生相应的训练数据并得到训练数据序列，且每个训练数据序列都存放在存储空间中并在双重网络训练过程中等概率地抽取训练数据序列进行双重网络训练；

进一步的，所述训练数据序列标记为(P₁，A，P₂，R)；

其中：P₁代表当前车辆前置摄像头获取的图像，A代表根据双重网络预测执行的动作，P₂代表执行动作后下一时刻车辆前置摄像头获取的图像，R代表当前动作执行后车辆驾驶环境的效果反馈。

进一步的，所述步骤2中，在进行双重网络训练时：每次只对两个网络中的一个网络进行权重系数更新，并以等概率随机选取其中的一个作为待更新网络Q_π，则另一个作为辅助更新网络

进一步的，对待更新网络进行参数更新的目标函数为：

其中：α代表学习率，γ代表折扣率，Q_π(P₁，A)为待更新网络对应当前图片P₁和和执行动作A得到的价值回报输出，R为当前动作的即时收益，

表示使用辅助更新网络针对下一时刻接收图像P₂以及相应动作得到的价值回报输出进行对待更新网络的参数调整，其中argmax_a(Q_π(P₂，A))表示选取使得待更新网络针对图像P₂得到的动作价值序列中取得最大值的相应动作作为辅助更新网络动作选取的参考。

进一步的，所述步骤3中，在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整，训练过程中算法的目标函数为：

其中：Q_π和

依照训练过程中的等概率选取准则代表两个深度神经网络Q₁、Q₂，r_t代表t时刻的动作即时收益，P_t+1代表t+1时刻的接收图像，a为所选取的动作，θ为网络中待训练的参数。

进一步的，所述步骤3中，在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整，训练过程中自适应调整学习率的目标函数为：

其中：θ_t代表第t次调整后得到的网络参数，ρ代表梯度的权重系数，α代表初始学习率，ε代表一个任意小的正数，G_t代表当前目标函数的梯度，δ_t为自适应学习率调整参数。

进一步的，所述步骤4中，使用训练完毕的双重深度Q网络进行实时图像预测时：

分别将图像输入两个网络中，得到两个网络输出的对应动作价值函数值；

将得到的两组的函数值向量相加，取其中最大的向量分量作为当前输入图像对应的动作输出，进而实现自动循迹驾驶。

本发明的一种基于深度强化学习的车辆自动循迹驾驶方法，具有以下优点：

1、本发明采取深度强化学习方法，直接实现从图像采集到车辆控制的端到端网络建立，避免了传统方法中复杂的PID控制环节；

2、本发明采用了改进的残差网络结构进行图像特征的提取，兼顾了网络复杂度和特征有效性的平衡；

3、本发明采用经验回放方法，避免了传统有监督学习的大量数据样本标注的环节，有效提升了发明的便捷性和通用性；

4、本发明采用双重深度网络进行动作预测，可以有效减少单一深度强化学习网络中最大化偏差带来的性能损失；

5、本发明采用RMSprop算法进行网络学习率的自适应调整，能够加快训练过程的收敛速度，提高训练效率。

附图说明

图1为本发明的基于深度强化学习的车辆自动循迹驾驶方法的原理图；

图2为本发明的本发明所采用的神经网络结构示意图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于深度强化学习的车辆自动循迹驾驶方法做进一步详细的描述。

本发明提供了如图1-2中所示的一种基于深度强化学习的车辆自动循迹驾驶方法，其中：具体包括如下步骤：

步骤1、构建双重深度Q网络进行图像特征提取；

在本实施例中采取双重深度Q网络结构构建深度神经网络，兼顾了网络的复杂性和输出特征有效性的均衡。双重深度Q网络用于多维向量数值回归的预测。采用双重深度Q网络很好的解决了网络训练过程中出现的梯度弥散，梯度爆炸以及网络退化问题。

双重深度Q网络的具体操作为一方面对输入的特征数据进行下采样保留其原有的低维度特征，另一方面进行步长为二的多核卷积进一步提取低维特征，在一定程度上兼顾了低维特征与高维特征的融合。

所述输入数据结构第一层使用7*7卷积操作，得到的特征维度输出为64*112*112，再进行最大池化操作，得到的输出特征为64*56*56；

所述输入数据结构第二层进行残差模块特征提取，提取得到的图像特征维度为64*56*56；

所述输入数据结构第三层进行残差模块特征提取，得到的特征维度输出为128*28*28；

所述输入数据结构第四层进行残差模块特征提取，得到的特征输出维度为256*14*14；

所述输入数据结构第五层进行残差模块特征提取，得到的输出维度为512*7*7；

所述输入数据结构第六层进行平均池化操作，得到最终的特征向量512*1*1，之后，通过全连接层，得到最后需要的19*1*1的网络输出。

网络的输出代表采取不同动作预期得到的价值回报。双重网络的结构完全相同，均采用上述网络结构，区别在于训练过程中权重参数调整的差异。

采用的经验回放训练方案要点为在训练的过程中自动产生相应的训练数据。

训练阶段分为两步分，训练数据序列的获取与网络的训练。

训练数据序列记录了当前的车前置摄像头获取的图像P₁，根据双重网络预测执行的动作A，执行动作之后下一时刻车辆前置摄像头获取的图像P₂，以及当前动作执行之后车辆驾驶环境的效果反馈R，则约定训练数据样本序列标记为(P₁，A，P₂，R)。

训练数据的获取的流程为将车辆前置摄像头的图像P₁输入训练中的神经网络，获得即时的网络预测结果，根据网络的预测结果按照ε-贪心策略确定最后的执行动作A，其中ε是提前设定的柔性指标，|A|为既定动作总数，π(a|P)为根据当前图像选取某一动作的概率，则

其中q_π(P|a)代表待更新网络根据当前图像输入和动作得到的动作价值；

代表辅助更新网络根据当前图像输入和动作得到的动作价值，之后记录下动作执行后下一时刻的车辆前置摄像头的实时数据P₂，以及当前动作执行后得到的即使回报R。由此得到了一次的训练数据序列(P₁，A，P₂，R)。

将每次得到的训练数据序列存储在存储空间中以用于后续阶段的网络训练。

训练过程中采用经验回放方案进行训练数据的选择，即在存储空间中等概率地随机选择一条训练数据序列进行网络训练。这样做的原因是神经网络训练时要求各个数据样本之间相互独立，但是由上述方法获取的训练样本序列之间有着较强的关联性，采用经验回放方案可以很大程度上保证样本之间的独立性。

如果训练过程中出现了约定的终止状态，则将车辆模拟环境重置继续进行训练样本序列的采集。

在本实施例中，初始化两个结构完全相同的深度神经网络，这样避免了采用单一深度神经网络进行动作价值预测时产生的最大化偏差，能够获得更加准确的预测结果

对于一条选中的训练样本序列(P₁，A，P₂，R)网络更新的目标函数为：

其中：α代表学习率，γ代表折扣率，Q_π(P₁，A)为待更新网络对应当前图片P₁和执行动作A得到的价值回报输出，R为当前动作的即时收益，

在进行双重网络训练时，每次只对两个网络中的一个网络进行权重系数更新，并以等概率随机选取其中的一个作为待更新网络Q_π，则另一个作为辅助更新网络

待更新网络的选取是完全随机的，即两个网络都有0.5的概率被指定为待更新网络。

根据在训练样本存储空间中随机选取的训练序列对待更新网络进行参数更新，即，以0.5的概率执行，则，

Q₁(P₁，A)←Q₁(P₁，A)+α[R+γQ₂(P₂，argmax_a(Q₁(P₂，A)))-Q₁(P₁，A)]

其中：α代表学习率，γ代表回报折扣率，Q(P，A)为网络对应当前图片和执行动作得到的价值回报输出。

步骤3、采用RMSprop算法优化网络的训练过程；

具体的，所述步骤3中：

在本实施例中，在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整，训练过程中算法的目标函数为：

其中：Q_π和

依照传统的固定学习率的梯度下降法可以表示为θ_t+1＝θ_t-aG_t，

其中θ_t+1＝θ_t-aG_t为当前目标函数的梯度，但本方法中采取RMSprop算法进行网络学习率的自适应调整，训练过程中自适应调整学习率的目标函数为：

其中：θ_t代表第t次调整后得到的网络参数，ρ代表梯度的权重系数，α代表初始学习率，ε代表一个任意小的正数以确保分母不为零，G_t代表当前目标函数的梯度，δ_t为自适应学习率调整参数。

步骤4、采用训练完毕的双重深度网络进行预测，进而实现自动循迹驾驶。

使用训练完毕的双重深度网络进行实时图像预测时：

在本实施例中，分别将图像输入两个网络中，得到两个网络输出的对应动作价值函数值，将得到的两组的函数值向量相加，取其中最大的向量分量作为当前输入图像对应的动作输出，进而实现自动循迹驾驶。

双重深度神经网络进行最终的车辆的舵机转向控制，将根据图像输入得到的两个神经网络的19维输出

进行相加，选取得到的新向量的最大分量对应的动作作为最终确定的转向舵机执行的操作。

深度强化学习相比于传统的有监督学习没有标注数据的需求，在目标与环境的不断交互的过程之中完成了目标网络的训练，由此本发明能够适用于繁杂的道路环境，具有更好的适用性以及更高的训练效率。

工作原理：该基于深度强化学习的车辆自动循迹驾驶方法，是从车辆前置摄像头的实施输入到车辆转向舵机执行动作得到的价值函数之间的端到端的网络预测，根据最后的网络预测结果选择相应的执行动作。

基于双重深度神经网络对道路时实输入图像数据的联合预测结果对车辆的转向舵机进行动作指令操控，并在训练过程中采用强化学习的训练理念使得模拟车辆与环境进行自主交互产生训练样本序列，从而达到车辆自动循迹驾驶从训练到应用的自主化实现。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，具体包括如下步骤：

步骤1、构建双重深度Q网络进行图像特征提取；

步骤3、采用RMSprop算法优化网络的训练过程；

2.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤1中：

所述双重深度Q网络通过全连接层，得到19*1*1的网络输出。

3.根据权利要求2所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述输入数据的结构第一层使用7*7卷积操作，得到的特征维度输出为64*112*112，再进行最大池化操作，得到的输出特征为64*56*56；

4.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤2中：所述经验回放方案能够在网络的训练过程中同步产生相应的训练数据并得到训练数据序列，且每个训练数据序列都存放在存储空间中并在双重网络训练过程中等概率地抽取训练数据序列进行双重网络训练。

5.根据权利要求4所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述训练数据序列标记为(P₁，A，P₂，R)；

6.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤2中，在进行双重网络训练时：每次只对两个网络中的一个网络进行权重系数更新，并以等概率随机选取其中的一个作为待更新网络Q_π，则另一个作为辅助更新网络

7.根据权利要求6所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，对待更新网络进行参数更新的目标函数为：

表示使用辅助更新网络针对下一时刻接收图像P₂以及相应动作得到的价值回报输出进行对待更新网络的参数调整，其中arg max_a(Q_π(P₂，A))表示选取使得待更新网络针对图像P₂得到的动作价值序列中取得最大值的相应动作作为辅助更新网络动作选取的参考。

8.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤3中，在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整，训练过程中算法的目标函数为：

其中：Q_π和

9.根据权利要求1所述的基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤3中，在双重网络的训练拟合过程中采用RMSprop算法进行网络学习率的自适应调整，训练过程中自适应调整学习率的目标函数为：

10.根据权利要求1所述的一种基于深度强化学习的车辆自动循迹驾驶方法，其特征在于，所述步骤4中，使用训练完毕的双重深度Q网络进行实时图像预测时：