CN113255054A

CN113255054A - 一种基于异构融合特征的强化学习自动驾驶方法

Info

Publication number: CN113255054A
Application number: CN202110273101.6A
Authority: CN
Inventors: 王燕清; 石朝侠
Original assignee: Nanjing Xiaozhuang University
Current assignee: Nanjing Xiaozhuang University
Priority date: 2021-03-14
Filing date: 2021-03-14
Publication date: 2021-08-13

Abstract

本发明针对传统强化学习方法在自动驾驶这种连续状态空间和动作空间的任务所需探索量庞大的问题，通过搭建基于异构融合特征的深度确定性策略梯度强化学习方法来完成自动驾驶任务，设计了先模仿后强化，异构融合精简状态的学习思路。在模仿学习阶段，利用从驾驶数据中将高维信息降维为低维特征，连同从仿真环境中获得的几个描述环境的关键参数构成车辆状态特征，采用分级整合连接的方式异构融合这些特征。在强化学习阶段，采用深度确定性策略梯度算法并为自动驾驶量身定制了奖励函数，有效地引导了学习过程。经验证，该系统设计可以有效习得驾驶技能，基于异构融合特征的设计可以有效加速训练进程，完成驾驶任务且具备针对动态物体的响应能力。

Description

一种基于异构融合特征的强化学习自动驾驶方法

技术领域

本发明涉及自动驾驶技术领域，具体为一种基于异构融合特征的强化学习自动驾驶方法。

背景技术

自动驾驶技术虽然已经经历了很长时间的研究，但在复杂城市环境下的自动驾驶技术仍存在未解决的问题。现阶段尚不存在一个理想的系统，能够完整解决所有自动驾驶的视觉感知任务（例如物体和车道定位，驾驶路径规划）并提供完备的驾驶策略。尽管已经存在一些通过对大规模数据集进行提炼抽象的方法，这些方法已经很好地研究了视觉感知任务，但是通过模块化方法人工设计规则实现的驾驶策略还远远不足以处理各种真实驾驶场景中的情况。仅仅依靠模仿人类驾驶员的驾驶数据得到的方法还不够完备，在复杂环境中的自动驾驶需要了解道路中其他动态物体的意图，了解交通规则，了解非结构化道路的信息，这样复杂的需求可以使用深度学习技术来完成驾驶策略。

已经存在一些基于端到端监督学习的研究方法，这些研究通过对大量人类驾驶数据的监督训练将传感器输入的信息直接映射为车辆控制指令，取得了一定的成果。然而，对于人类驾驶数据中没有涉及的场景和任务，这些方法表现得无能为力。此外，由于自动驾驶的车辆需要与其他车辆，行人等动态因素进行频繁交互，因此难以将监督学习方法作为自动驾驶的长期策略。

深度强化学习（Deep Reinforce Learning）作为一种以环境交互为主要学习手段的方法，有望另辟蹊径，探索出另一类驾驶策略。强化学习主要面临的问题是，连续状态空间和动作空间所需的探测量过于庞大，传统的强化学习效果不佳，难以令人满意地完成任务。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提出一种基于异构融合特征的强化学习自动驾驶方法，通过基于异构融合特征的强化学习方法来完成自动驾驶任务，该方法使用设置在车辆顶部正前方的照相机作为传感器，首先利用从人类驾驶数据中学到的知识来将高维图像信息降维为低维图像特征，从仿真环境中获得的几个描述环境的关键参数完善车辆状态信息，并采用分级整合连接的方式异构融合这些特征。然后，采用深度确定性策略梯度算法（DDPG）这种基于策略回放-演员-评论者架构的强化学习算法结合为自动驾驶量身定制的奖惩函数有效引导学习过程，完成了自动驾驶任务。

（二）技术方案

整个异构融合特征的强化学习系统的训练分为模仿学习、强化学习两个阶段，在模仿学习阶段中，本发明使用在仿真实验平台收集的优秀驾驶数据通过监督学习的形式对图像降维网络进行预训练，然后共享此网络的权值至强化学习阶段。这种方法可以高效的得到图像降维网络，降低输入状态的维度，加速整个学习的过程。在强化学习阶段，采用深度确定性策略梯度强化学习算法，让车辆在仿真环境中自主探索学习，以完善在各种复杂交通场景中的策略。

1 对图像降维处理网络

强化学习难以在高输入维度且动作空间连续的情况下有效学习，为了降低输入状态维度，使用模仿学习方法预先学习驾驶数据，训练图像降维网络F。

记给定N段驾驶记录序列v_i，i属于(1,...,N),其中输入图像记为I_i，t，对应时刻t对车辆的控制分别记为方向盘控制量S_i，t ，加减速控制量a_i，t，通过降维网络F在驾驶数据的每一帧中，以模仿学习的方式最小化网络控制输出与对应真值之间的差距，记降维网络F网络的参数为θ^I，模仿学习目标是最小化策略网络的参数θ^I，其中L表示两个参数方向盘控制量S_i，t ，加减速控制量a_i，t的差距。

降维网络F的输入为来自驾驶车辆顶部面向正前方的照相机，可以获得采样分辨率为88×200的RGB图像image，降维网络结构设计为8层卷积网络和2层全连接网络，最终输出2维车辆控制信号：方向盘控制量s_t、加减速控制量a_t，整个图像降维网络F的结构如图2所示。网络的损失函数LSE1定义为两个输出结果（方向盘控制量s和加减速控制量a）的损失，即最小平方误差（LSE1）。

LSE1 =║s-s_gt║²+║a-a_gt║²

s_gt为t时刻方向盘控制量真值，a_gt为t时刻加减速控制量真值，待训练结束后保留网络的参数并去掉网络的全连接层，这样得到了从88×200×3维的高维输入图像image映射为512维度图像特征f^img的降维网络，此图像降维网络将保存至强化学习阶段使用。

2 异构融合特征设计

选择使用深度确定性策略梯度（DDPG）方法作为强化学习的框架，记环境融合状态s^t，相应的动作为a^t，网络相关参数为θ^u，分别使用策略网络和价值Q网络来模拟策略函数u(s^t|θ^u)和价值Q(s^t，a^t|θ^u)函数，两者均使用多层全连接网络来模拟。

仅使用前置照相机获得的图像特征不能完整描述车辆所处状态信息，为了在不大量增加输入数据的基础上提高系统对整体环境的感知，将对车辆状态描述的5维状态特征：当前方向盘控制量s、当前加减速控制量a、归一化速度v、人行道跨越惩罚r_r，车道跨越惩罚r_o，整合记录为车辆状态特征f^agt，车辆状态特征高度描述了车辆的时空状态信息，为了确保特征信息能发挥作用，不被512维图像状态f^img所淹没，采用分级整合连接的方式异构融合这些特征。将车辆状态特征f^agt通过两层128单元的全连接网络映射为128维特征后，再与512维图像状态f^img相拼接，以增强其效果。

策略网络为也多层全连接结构，以512+128的融合状态s^t为输入，输出为2维车辆控制信号，方向盘控制量和加减速控制量。使用蒙特卡罗采样对策略网络的梯度做无偏估计，如图3所示。

价值Q网络为了更好的融合不同描述角度的特征信息，采用分级设计的多层全连接结构，以512+128的融合状态s^t为输入，单层全连接映射为200维，然后拼接从策略网络得到2维输出映射的100维特征，再经多层全连接得到输出Q(s^t，a^t)，如图4所示。

3 奖惩函数设计

奖惩函数作为引导强化学习进行的重要模块，其设计直接影响强化学习的进行。针对自动驾驶场景量身定制了奖惩函数。奖励函数分为6个部分：速度奖励r_a(v)，方向盘约束惩罚r_s(s)，人行道跨越惩罚r_r，车道跨越惩罚r_o，碰撞惩罚r_d以及静态惩罚r_c，最终结果为这6个部分的数值总和；

r=r_a(v)+ r_s(s)+ r_r+r_o+ r_d+r_c

速度奖励 r_a(v)定义为：

其中v的单位为km/h，此奖励项为强化学习过程中最主要的正值奖励项，本实验环境下v_max取值为10 km/h。

方向盘约束惩罚定义为：

r_s(s)= - λ_s|s|

其中s为方向盘控制量，取值空间为[-1,1]，r_s(s)是为了减少驾驶学习过程中方向盘不必要的抖动，使得驾驶过程更加平稳，本实验环境下λ_s取值为30。

人行道跨越惩罚r_r和车道跨越惩罚r_o均为条件触发的二值量，未触发时，其值为0。触发条件分别为当发生人行道跨越、发生车道跨越时，触发后奖励数值均定义为-100。

碰撞惩罚r_d也为条件触发的二值量，未触发时，其值为0。触发条件为当发生任何碰撞时，触发后奖励数值定义为-100，并且会终止此次实验场景。

静态惩罚r_c也为条件触发的二值量，未触发时，其值为0。触发条件为当速度小于0.1m/s时，触发后奖励数值定义为-5，若连续2秒内持续处于此状态下，则也会终止此次实验场景。

4 系统框架和算法流程

首先预训练图像降维网络，然后通过降维的图像特征和车辆状态特征异构融合作为输入状态，经验回放池采样更新网络，方法整体架构如图5所示。

基于异构融合特征的强化学习自动驾驶算法流程如下：

（1）根据LSE1=║s-s_gt║²+║a-a_gt║²训练图像降维网络F；

（2）初始化在线演员网络，在线评论家网络的参数；

（3）将在线网络的参数拷贝到对应目标网络中；

（4）初始化经验回放池D；

（5）for 场景片断帧加载1…M do；

（6）初始化UO噪声随机过程；

（7）for t = 1…T do；

（8）根据当前状态获得动作a^t=μ(s^t|θ^μ)+N_t，其中N_t代表OU噪声；

（9）执行动作a^t并得到t时刻的奖励r_t和将仿真环境中得到图像Image通过图像降维网络

得到图像特征

，连同从仿真环境中获得的车辆状态特征

异构融合为状态s^t+1；

（10）将这个状态转换过程(s^t，a^t，r_t，s^t+1)存入经验回放池D中；

（11）从经验回放池D随机采样N条数据，作为在线策略网络、在线Q网络的训练数据；

（12）计算Q网络的损失函数并更新在线Q网络参数；

（13）计算策略网络的梯度并更新在线策略网络参数；

（14）软更新目标网络参数；

（15）结束时间步长；

（16）结束场景帧。

（三）有益效果

本发明提供了一种基于异构融合特征的强化学习。通过搭建基于异构融合特征的深度确定性策略梯度强化学习方法来完成自动驾驶任务，该方法通过设置在车辆顶部正前方的照相机作为传感器，在模仿学习阶段，利用从人类驾驶数据中学到的知识来将高维图像信息降维为低维图像特征，连同从仿真环境中获得的几个描述环境的关键参数补全车辆状态信息，采用分级整合连接的方式异构融合这些特征。在强化学习阶段，采用深度确定性策略梯度算法并设计了为自动驾驶量身定制的奖励函数有效引导学习过程。系统设计可以有效学习驾驶技能，基于异构融合特征的设计可以有效加速训练进程。该系统可以完成简单的驾驶任务，且具备针对动态特征的响应能力。

本方法的特点：

1）使用新的模仿结构构建图像降维网络，有效降低强化学习的输入维度。

2）选择精简而具有高概括性的状态特征构建异构融合特征设计，提高强化学习效果。

3）引入奖励函数，更高效地引导强化学习过程。

附图说明

图1为基于异构融合特征的强化学习系统结构图；

图2为图像降维网络F结构图；

图3为策略网络结构图；

图4为价值Q网络结构图；

图5为基于异构融合特征的深度强化学习自动驾驶结构图；

图6 为异构网络训练超参数设置图；

图7 为异构融合特征和直接输入特征方法训练信息对比图；

图8为异构融合特征方法评估指标图。

具体实施方式

为了更好的训练并测试自动驾驶决策方法，本发明选择了CARLA开源自动驾驶仿真环境。CARLA是一款新颖的自动驾驶仿真软件，其基于Unreal Engine 4引擎提供了三维可视画面，城市环境资源（包含城市地图和符合动力学的汽车与行人），多种类的传感器，高仿真的光照与天气以及符合物理动力学规律的车辆模型。

CARLA采用了服务器-客户端架构，服务器负责仿真相关内容：传感器渲染、物理计算、世界状态及其车辆的更新等等，客户端由一组客户端模块组成，控制场景中车辆的逻辑，服务器与客户端之间的联系通过CARLA API实现。

在本实验中，CARLA仿真平台的时间步长设置为0.1s，训练天气设置为干净的中午、有积水的中午、下雨的中午、干净的黄昏、下雨的黄昏5种天气随机选择，设置仿真环境中其他动态车辆数为20，动态行人数为40。训练过程中，车辆会从83个起初坐标中随机选择，持续行进直到达到终止条件。

1实验参数设置

训练过程中，模型输入都进行归一化，方向盘控制量s属于[-1，1]，加减速控制量a属于[-1，1]，其他训练参数设置如图6所示。

2结果及分析

为了公平的评估异构融合特征方法，选择将相同的输入信息不经过异构融合，直接输入强化学习网络以便对比。图7记录了两种方法达到稳定所需要的迭代次数，所需的时间以及稳定后的平均奖励值。

为了进一步衡量和比较不同驾驶方法的性能，本发明使用了这样的评估标准，自动驾驶车辆将采用漫游的方式在未经训练过的地图上行驶。本发明定义了三个评价指标：1）道路外时间：统计车辆进入道路外的时间，以秒为单位。2）车道外时间：统计车辆进入其他车道的时间，以秒为单位。3）碰撞次数：统计车辆发生碰撞的次数。由上述可知，异构融合特征方法的学习速度较快，可以很快地学习并稳定至较优的奖励值，所需时间也有所减少，具体数据如图8所示。

需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于异构融合特征的强化学习自动驾驶方法，其特征在于：整个异构融合特征的强化学习系统的训练分为模仿学习、强化学习两个阶段；模仿学习阶段包含：输入图像，真值输入，降维网络，预测输出；强化学习阶段：包含输入图像，演员网络，环境特征，评论家网络，奖励模块，仿真环境。

2.根据权利要求1所述的一种基于异构融合特征的强化学习自动驾驶方法，其特征在于：在模仿学习阶段中，通过真值输入模块，使用在仿真实验平台收集的驾驶数据通过监督学习的形式对图像降维网络进行预训练，然后共享此网络的权值至强化学习阶段，这种方法得到图像降维网络，降低输入状态的维度，加速整个学习的过程；在强化学习阶段，采用深度确定性策略梯度强化学习算法，让车辆在仿真环境中自主探索学习，以完善在各种复杂交通场景中的策略。

3.根据权利要求1所述的一种基于异构融合特征的强化学习自动驾驶方法，其特征在于：奖励模块包含奖惩函数，奖惩函数作为引导强化学习重要模块，其设计直接影响强化学习的效果，针对自动驾驶场景设计了奖惩函数，奖惩函数分为6个部分：速度奖励r_a(v)，方向盘约束惩罚r_s(s)，人行道跨越惩罚r_r，车道跨越惩罚r_o，碰撞惩罚r_d以及静态惩罚r_c，最终结果为这6个部分的数值总和；

r=r_a(v)+ r_s(s)+ r_r+r_o+ r_d+r_c

速度奖励 r_a(v)定义为：

其中速度v的单位为km/h，v_max为速度最大值；速度奖励r_a(v)为强化学习过程中重要的正值奖励项；

方向盘约束惩罚r_s(s)定义为：

r_s(s)= - λ_s|s|

其中s为方向盘控制量，取值空间为[-1,1]，r_s(s)是为了减少驾驶学习过程中方向盘不必要的抖动，使得驾驶过程更加平稳；人行道跨越惩罚r_r和车道跨越惩罚r_o均为条件触发的二值量，未触发时，其值为0；触发条件分别为当发生人行道跨越、发生车道跨越时，触发后奖励数值均定义为-100；碰撞惩罚r_d也为条件触发的二值量，未触发时，其值为0；触发条件为当发生任何碰撞时，触发后奖励数值定义为-100，并且会终止此次实验场景；静态惩罚r_c也为条件触发的二值量，未触发时，其值为0；触发条件为当速度小于0.1m/s时，触发后奖励数值定义为-5，若连续2秒内持续处于此状态下，则会终止此次实验场景。