CN114282433A

CN114282433A - 基于模仿学习与强化学习结合的自动驾驶训练方法及系统

Info

Publication number: CN114282433A
Application number: CN202111532390.3A
Authority: CN
Inventors: 黄乐雄; 王洋; 须成忠; 叶可江
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-05

Abstract

本发明涉及模型学习领域，具体涉及一种基于模仿学习与强化学习结合的自动驾驶训练方法及系统。该方法及系统将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络，强化学习网络与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。本发明的结合训练方法针对自动驾驶的特点进行了优化，使得它在自动驾驶的仿真环境中性能良好。

Description

基于模仿学习与强化学习结合的自动驾驶训练方法及系统

技术领域

本发明属于模型学习领域，尤其涉及一种基于模仿学习与强化学习结合的自动驾驶训练方法及系统。

背景技术

随着汽车智能化与电动化的不断升级，自动驾驶汽车成为汽车产业变革的一大趋势。自动驾驶汽车发展潜力巨大，自动驾驶技术已成为战略性新兴产业的重要组成部分，其快速发展将深刻影响人、资源和产品的流动方式，颠覆性地改变人类的生活方式。自动驾驶是通过人工智能辅助或代替人进行汽车驾驶的行为，是移动智能计算水平的重要体现，其主要包括网络导航、自主驾驶和人工干预三个环节。自动驾驶的网络导航，解决的是在哪里、到哪里以及走哪条道路等问题；自主驾驶则是在智能系统控制下，完成车道保持、超车、并道、红灯停绿灯行、行人避让等驾驶行为；人工干预则指驾驶员在智能系统的一系列提示下，对实际的道路情况做出相应的反应及操作。

目前，对自动驾驶的研究较多集中在环境感知和车辆行为决策两个方面。环境感知技术使汽车能够获得道路、车辆位置和障碍物的信息，并将这些信息传输给车载中心电脑，从而使汽车根据行驶目标及途中情况，规划、修改行车路线。车辆行为决策则是在环境感知技术基础之上，通过自动转向控制系统的配合使汽车能够按照规定路线准确稳定行驶，同时使汽车在行驶过程中能够实现车速调节、车距保持、换道、超车、避障等各种必要基本操作。针对这几方面的研究，基于机器学习的方法均得到了广泛应用。

模仿学习是指让智能体学习人类的做法，来使得智能体达到人类的近似水平。假定在拥有大量的专家数据，其由一系列的状态-动作映射对组成，使用神经网络去学习这之间的逻辑映射关系，使得智能体在接受一个状态时，能够输出一个人类希望的指令。模仿学习的优点是训练简单且迅速，在一些固定场景表现良好。缺点是需要大量的专家数据训练，专家数据对于训练出的智能体的水平有很大影响，若采取偏差较大的专家数据，智能体的识别能力会差很多。而且智能体只能处理经验中出现过的训练场景，无法应对新的环境。并且智能体只能无限逼近专家水平，并不能获得超出专家水平之外的智能。

强化学习是不需要专家数据的一种机器学习方法。在强化学习中，智能体与环境进行互动，环境会根据智能体的动作对应地改变到新的状态，并给予智能体相应的奖励或惩罚。智能体可以通过不断与环境互动试错来积累新的经验，并在奖励函数的指导下学习正确的行为决策。强化学习的优点是不需要专家数据，且能够通过反复学习获得较高的智能，上限较高。强化学习的缺点是在智能体刚开始训练时，探索花费的时间较长，且训练达到收敛整体所需的时间也较长。

发明内容

本发明实施例提供了一种基于模仿学习与强化学习结合的自动驾驶训练方法及系统，以至少解决现有强化学习存在训练慢、收敛难的技术问题。

根据本发明的一实施例，提供了一种基于模仿学习与强化学习结合的自动驾驶训练方法，包括以下步骤：

将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络；

强化学习网络与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。

进一步地，该方法还包括：

经验回放池中的数据达到容量上限需要删除时，通过算法计算模型获取这些数据的训练程度，选取训练分数高的数据删除。

进一步地，在经验回放池中的数据达到容量上限需要删除一部分时，通过算法计算模型获取这些数据的训练程度，选取训练分数高、模型训练更熟悉的数据删除，对于训练分数低、模型仍未完全掌握的经验，会继续留在经验回放池中，供模型后续采样训练。

进一步地，在仿真环境Carla采集训练数据。

进一步地，在Carla仿真器中，预先设置waypoint路标点格式，每一条路线都由若干路标点组成，每个路标点标明了当前的坐标信息、转向角，获取到路标点列表及每个路标点的信息；

在Carla仿真器中设置有路径规划函数，通过向路径规划函数提供出发点与目标点，路径规划函数自动计算出最优的行驶路线并返回该路线的路标点列表；

根据输入的偏差值，按照比例、积分、微分的函数关系进行运算，通过当前路标点的的坐标与下一个路标点的坐标间的差值、当前速度信息进行积分计算，得到输出的速度信息；通过当前的转向值与下一个路标点的转向值的差值，计算转向值的增减幅度。

进一步地，预选择的训练网络中输入为160*80的图片，输出的激活函数为Sigmoid函数和Tanh激活函数，Sigmoid激活函数输出在(0,1)之间，Tanh激活函数取值范围在[-1,1]之间；其中Sigmoid函数用于输出油门值，控制在(0,1)之间；Tanh激活函数用于输出转向值，控制在[-1,1]之间；

将收集的数据集取出一部分用作模仿学习的训练，将这些训练数据按照3:1比例用作训练集和测试集，训练集是供网络进行训练使用，网络会智能调整自己的参数，去拟合数据的输入与输出，每段时间的训练后，网络会在测试集中验证自己的训练结果并调整改进。

进一步地，强化学习网络与环境继续互动学习，环境会传递观测给强化学习网络，强化学习网络会根据观测输出动作，之后环境根据动作更新到新的观测，并给予强化学习网络奖励值；其中观测、动作、新观测、奖励四个动作为一组数据，会被存入经验回放池，每隔一段时间，强化学习网络会从经验回放池中采集部分数据，通过迭代更新自己的网络参数。

进一步地，奖励函数分为三部分：平稳行驶的速度奖励、碰撞惩罚、跨越人行道惩罚；平稳行驶的速度奖励r(v)定义为:

r(v)＝1-‖v-v_des‖

v_des为期望的行驶速度，越接近期望速度，模型能得到的奖励就越大，最大为1；碰撞惩罚和跨越人行道惩罚都是-50。

进一步地，根据强化学习网络对于数据的掌握程度去淘汰更新经验回放池；

强化学习的每一轮更新，会从经验回放池中采样一部分数据，该数据会用来计算目标函数，其中目标函数为：

L(ω)＝E[(r+γ*max_aQ(s`,a`,ω)-Q(s,a,ω))²]

损失使当前的Q值更加接近目标Q值，对于每一次计算的损失，使用时把它作为标签与训练的这一组数据匹配，记录到经验回放池中，当经验回放池达到储存上限时，遍历经验回放池中的所有数据，选取损失最低的10％数据进行舍弃。

根据本发明的另一实施例，提供了一种基于模仿学习与强化学习结合的自动驾驶训练系统，包括：

模仿学习网络，用于将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络；

强化学习网络，用于与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。

本发明实施例中的基于模仿学习与强化学习结合的自动驾驶训练方法及系统中，将采集到的训练数据输入至模仿学习网络进行预训练，将预训练后模仿学习网络的卷积层拷贝给强化学习网络，强化学习网络与环境继续互动学习，获得环境中新的训练数据加入经验回放池，强化学习网络从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。本发明的结合训练方法针对自动驾驶的特点进行了优化，使得它在自动驾驶的仿真环境中性能良好。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于模仿学习与强化学习结合的自动驾驶训练方法及系统的流程示意图；

图2为原版的神经网络结构图；

图3为本发明基于模仿学习与强化学习结合的自动驾驶训练方法及系统中改进的神经网络结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

OpenAI实验室与DeepMind实验室均探索过人工智能方面的模型融合。具体来讲，他们在Atari环境中由人类专家玩游戏采集专家经验，利用这些数据去预训练一个卷积网络的隐藏层部分，并将隐藏层的参数拷贝给强化学习网络的隐藏层，强化学习便能够减少大量的初始化探索时间，用更快的速度达到收敛状态。本发明考虑到了这种模型融合方法在自动驾驶领域的局限性，优化了数据采集方法以及模型融合中的训练方法。

因为仿真游戏的状态空间较为简单，智能体能够执行的操作也比较有限，适合用来验证强化学习算法的性能与改进。因此人工智能领域先进的算法与技术往往都是在仿真游戏中首先进行实验的。这些先进算法若要迁移到其他使用场景，需要在输入层、输出层、训练损失函数上等进行针对性地修改。现有的模型融合方法，往往是在仿真游戏中如Atari进行测试，而在自动驾驶任务中，真实场景的数据复杂而多样，车辆能够执行的动作也非常复杂，所以将仿真游戏环境的模型融合的方法迁移到自动驾驶中需要在数据采集、模型训练等方面进行针对性地优化与适配。

相对于已有的技术，本发明提出了在自动驾驶中进行模型融合的技术，根据自动驾驶中常用的传感器、路径规划等方法，综合使用模仿学习训练快速和强化学习泛用性强的优势，使得自动驾驶的数据能够更快地在模型中进行训练，使网络更快地达到收敛，促进智能体拥有更好的表现。

本发明设计了一种仿真环境下基于模仿学习与强化学习结合的自动驾驶训练方法及系统，以解决目前的模仿学习与强化学习方法各自存在的一些问题。目前常用的强化学习的自动驾驶算法可以通过智能体与环境的互动来学习到任务目标与执行方法，并通过反复地学习与迭代更新自身策略，最终生成有一定智能反应能力、能够完成任务的智能体。但是强化学习存在着训练慢、收敛难的问题。模仿学习则是将一定量的专家经验给到神经网络进行训练，让神经网络能够学习到输入-输出间的映射关系。模仿学习虽然训练速度快，但泛用性差、鲁棒性弱。

本发明的基于模仿学习与强化学习结合的自动驾驶训练方法及系统，使用专家经验预训练模仿学习网络，并将网络迁移到强化学习架构中继续训练提高性能。这种结合训练方法针对自动驾驶的特点进行了优化，使得它在自动驾驶的仿真环境中性能良好。

本发明在Carla环境下可以实现自动驾驶中的避障、车道保持、转向等基础任务。本发明利用Carla环境中提供的多种仿真传感器如RGB摄像头、深度摄像头、激光雷达等采集数据，并交给模仿学习网络进行预训练；将预训练的模仿学习网络的卷积层拷贝给强化学习网络，强化学习网络与环境继续互动学习，获得环境中新的训练数据加入算法计算模型中的经验回放池，算法计算模型从经验回放池中随机采样数据进行训练，对强化学习网络进行更新。在经验回放池中的数据达到容量上限需要删除一部分时，通过算法计算模型获取这些数据的训练程度，选取训练分数高即模型训练更熟悉的数据删除，对于训练分数低、模型仍未完全掌握的经验，会继续留在经验回放池中，供模型后续采样训练。

图1展示的是本发明的流程示意图。该方法及系统基于仿真环境Carla开发，主要包括采集数据、模仿学习训练、强化学习训练、经验回放池更新。其中Carla是英特尔实验室联合丰田研究院和巴塞罗那计算机视觉中心于2017年发布的基于虚幻引擎的开源自动驾驶仿真模拟器，该仿真模拟器支持极为逼真的世界构建与符合现实的物理动力学。用户可以自由设计各类高精度场景如城市、乡村、田野，并随意改变环境条件如行人、路况、光线等，并通过各类函数接口轻松获取到模拟器中的数据以训练各类智能体。通过Carla仿真模拟器，可以进行更为安全的自动驾驶实验，不用担心实验设备损坏问题，也能更为方便地调整实验条件。使用Carla，本发明能够便捷地获取到RGB图片数据与车辆的转向角、油门等数据，同时轻松地通过输出数值等方式控制车辆运动。

接下来具体地说明本发明涉及的系统模块与功能的设计实现细节。

1.采集数据

自动驾驶常用到的传感器数据有RGB摄像头、深度摄像头、雷达、激光雷达等。使用RGB摄像头可以获取到车身周围的物体的视觉信息，从中可以提取出语义信息、物体交互信息等等。深度摄像头可以获取到视野内所有点的深度数据构成的矩阵，以此建构深度图，可以查询到其他物体的距离信息。激光雷达通过测定传感器发射器与目标物体之间的传播距离，分析目标物体表面的反射能量大小、反射波谱的幅度、频率和相位等信息，从而呈现出目标物精确的三维结构信息。更多的传感器能够带给系统更丰富的信息，使系统对周围环境的判断更为准确，但是多传感器间的数据处理与融合相对地也会变得更为复杂，让智能模型难以训练。作为优选，本发明选择RGB摄像头作为主要传感器，使用彩色RGB图片作为数据来源更符合人类的驾驶习惯。

在Carla仿真器中，系统内预先设置好了waypoint格式，即路标点。每一条路线都由许多的路标点组成，每个路标点标明了当前的坐标信息、转向角等，本发明可以通过系统接口来获取到路标点列表及每个路标点的信息。此外Carla提供了路径规划函数，通过向路径规划函数提供出发点与目标点，路径规划函数可以自动计算出最优的行驶路线并返回该路线的路标点列表。

本发明准备了PID驾驶控制算法，根据输入的偏差值，按照比例、积分、微分的函数关系进行运算，运算结果用以控制输出。它可以通过当前路标点的的坐标与下一个路标点的坐标间的差值、当前速度信息进行积分计算，得到应该输出的速度信息。同理，可以通过当前的转向值与下一个路标点的转向值的差值，去计算转向值的增减幅度。通过PID驾驶控制算法，车辆仅依靠路标点就可以实现平稳合理的自动驾驶，沿着最优路线驶达目的地。

本发明给定了几组不同的出发点、目标点交给路径规划算法，由它规划出最优路线。在车辆的行驶过程中，本发明记录下车身摄像头获取到的每一帧图片，并记录对应的速度、转向值，它们间的对应关系就是一组数据。车辆行驶完成后，本发明便可以得到自动驾驶的数据集。

2.模仿学习训练

得到了数据集之后，本发明要先对数据进行一遍筛选，为了保证模仿学习效果的最大化，最好保证数据的各种风格的数量保持在差不多的数量级。即，左转、右转、直行，不同天气等的数据尽量维持在相似的规模。之后对图片进行裁剪和下采样，使每张图片的尺寸都达到160*80，便于网络计算。

本发明预选择的训练网络是比较经典的神经网络结构，即DeepMind团队在Deep QNetwork中使用的网络结构。图2是原版的神经网络结构，输入会经过三层卷积层和两层全连接层，最后得到输出(共有18个动作)。本发明保留中间的网络结构，将输入改为采集的160*80的图片，输出的激活函数改为Sigmoid和Tanh激活函数，如图3所示。Sigmoid激活函数也叫Logistic(逻辑回归)函数，输出在(0,1)之间；Tanh激活函数也称为双曲正切函数，取值范围在[-1,1]之间。逻辑回归函数用于输出油门值，控制在(0,1)之间。双曲正切函数用于输出转向值，控制在[-1,1]之间。通过这两个激活函数，本发明能够将卷积层的输出展平为两个控制变量。

本发明将前面收集的数据集取出一部分用作模仿学习的训练，将这些训练数据按照3:1用作训练集和测试集，训练集是供网络进行训练使用，网络会智能调整自己的参数，去拟合数据的输入与输出，每段时间的训练后，网络会在测试集中验证自己的训练结果并调整改进。经过一段时间的迭代，网络将近达到收敛，本发明可以认为卷积层已经能够从输入的图片当中提取出重要的高维信息。

3.强化学习训练

本发明将前面预训练出的模仿学习网络的三层隐藏层的参数拷贝给强化学习网络。通过参数拷贝，强化学习网络可以节省大量从互动中探索环境的时间，在初始状态就具有从观测中提取出高维特征与重要信息的能力。

本发明将该模型(强化学习网络)与环境互动，环境会传递观测给模型，模型会根据观测输出动作，之后环境根据动作更新到新的观测，并给予模型奖励值。观测、动作、新观测、奖励四个动作为一组数据，会被存入经验回放池。每隔一段时间，模型会从经验回放池中采集部分数据，通过迭代更新自己的网络参数。依靠环境给予的奖励的指导，模型能够逐渐学习到需要完成的目标，进化自己的智能。

由于强化学习网络使用了模仿学习网络的经验，因此对模仿学习本身掌握的车道保持、左转、右转等技能，强化学习网络都有初步掌握。在模仿学习网络收集数据的环境中，并没有障碍物存在，但在强化学习训练的真实环境中，道路上可能会有行人等动态障碍物。刚开始时对于这部分新出现的环境观测，模型由于经验不足会发生碰撞，环境会给予它一个很大的负奖励值。但是当碰撞的经验积累足够多时，模型能够迭代更新懂得避障。这就完成了一个模仿学习与强化学习自动结合更新的过程。

本发明设定的奖励函数分为三部分：平稳行驶的速度奖励、碰撞惩罚、跨越人行道惩罚。平稳行驶的速度奖励r(v)定义为:

r(v)＝1-‖v-v_des‖

v_des为本发明期望的行驶速度，越接近期望速度，模型能得到的奖励就越大，最大为1。碰撞惩罚和跨越人行道惩罚都是-50。

4.经验回放池更新

模型与环境互动的数据都会存入经验回放池中，每隔一段时间，模型会从经验回放池采样一部分数据以迭代更新网络。通过经验回放池，模型的经验便有了存放和回溯的机制，大大提高了数据的使用效率，让模型的训练变得更加简单。

常规的经验回放池更新是当经验回放池达到储存上限时，选择较早期的一部分数据淘汰掉，给新的数据腾出空间。本发明认为直接选择时间上早期的数据淘汰掉过于草率，网络对于这些数据的学习并不以时间为尺度，也即是，在经验回放池中储存较久的数据未必网络就拟合地很好，经验回放池中较新的数据未必网络就需要学习。一些重要的数据即使过了很久也存在学习的价值，而某些简单的场景可能会重复出现，但它对于网络就没有太多的学习价值。因此本发明创新性地提出了一种新的迭代方式，即根据网络对于数据的掌握程度去淘汰更新经验回放池。

强化学习的每一轮更新，都会从经验回放池中采样一部分数据，这些数据会用来计算目标函数也就是loss function(损失函数)。在本发明使用的DQN网络结构中，目标函数是这样的：

L(ω)＝E[(r+γ*max_aQ(s`,a`,ω)-Q(s,a,ω))²]

损失是为了使当前的Q值更加接近目标Q值，对损失计算梯度下降可以使得网络参数更新。对于每一次计算的损失，本发明会把它作为标签与训练的这一组数据匹配，记录到经验回放池中。当经验回放池达到储存上限时，本发明会遍历经验回放池中的所有数据，选取损失最低的10％数据进行舍弃。损失可以用来反映模型对这批数据的掌握程度，模型对这些数据越拟合，损失就会越低，因此本发明选择把损失最低的一批数据移除。

本发明的关键点和欲保护点至少在于：

1.采用PID控制的数据收集方法

本发明充分利用了Carla仿真器逼真的现实环境及其内置的路标点，通过传统的PID控制规划方法来控制车辆沿着指定路径行驶，可以得到非常接近人类驾驶员的手动驾驶数据，大大减轻了收集数据的难度。

2.结合模仿学习与强化学习的训练方法

为了能够缓解模仿学习的鲁棒性及泛用性差、强化学习的训练及收敛缓慢的缺点，本发明提出了一种结合模仿学习与强化学习的训练方法。本发明首先将PID控制采集来的数据交给模仿学习的神经网络进行学习，再将网络的隐藏层参数拷贝给强化学习的网络初始化。

3.经验回放池的更新方法

为了能够充分发挥经验回放池的效用，促进模型能够对经验有更多的学习和利用，本发明提出了以训练程度为标准的更新方法。每一次从经验回放池中采样数据学习时，会记录下这个数据的损失，当经验回放时达到上限需要删除一部分数据时，优先选择损失程度较低、拟合较好的数据删除，留下拟合程度较差的数据供以后继续学习。

现有技术对于模仿学习与强化学习的结合在自动驾驶上的探索还不够充分，没有针对强化学习的特点进行考虑。本发明充分利用了自动驾驶仿真器中提供的各种功能，以更全面、更便捷地获取到模仿学习所需要的数据。本发明还针对经验回放池进行了特别设计，根据经验的学习程度来进行迭代，从而加速强化学习的训练，帮助模型更好地收敛。

经实验证明本发明高效可行。

本发明所采用的神经网络结构是Deep Q Network的经典网络结构，但该网络结构并不是必需的，使用其他类型的网络结构也可以适用于该方法，关键点在于模仿学习与强化学习使用同一个网络结构，将训练网络的隐藏层参数拷贝给强化学习网络来实现学习方法的结合。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在经验回放池中的数据达到容量上限需要删除一部分时，通过算法计算模型获取这些数据的训练程度，选取训练分数高、模型训练更熟悉的数据删除，对于训练分数低、模型仍未完全掌握的经验，会继续留在经验回放池中，供模型后续采样训练。

4.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在仿真环境Carla采集训练数据。

5.根据权利要求4所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，在Carla仿真器中，预先设置waypoint路标点格式，每一条路线都由若干路标点组成，每个路标点标明了当前的坐标信息、转向角，获取到路标点列表及每个路标点的信息；

6.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，预选择的训练网络中输入为160*80的图片，输出的激活函数为Sigmoid函数和Tanh激活函数，Sigmoid激活函数输出在(0,1)之间，Tanh激活函数取值范围在[-1,1]之间；其中Sigmoid函数用于输出油门值，控制在(0,1)之间；Tanh激活函数用于输出转向值，控制在[-1,1]之间；

7.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，强化学习网络与环境继续互动学习，环境会传递观测给强化学习网络，强化学习网络会根据观测输出动作，之后环境根据动作更新到新的观测，并给予强化学习网络奖励值；其中观测、动作、新观测、奖励四个动作为一组数据，会被存入经验回放池，每隔一段时间，强化学习网络会从经验回放池中采集部分数据，通过迭代更新自己的网络参数。

8.根据权利要求7所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，奖励函数分为三部分：平稳行驶的速度奖励、碰撞惩罚、跨越人行道惩罚；平稳行驶的速度奖励r(v)定义为:

r(v)＝1-‖v-v_des‖

9.根据权利要求1所述的基于模仿学习与强化学习结合的自动驾驶训练方法，其特征在于，根据强化学习网络对于数据的掌握程度去淘汰更新经验回放池；

L(ω)＝E[(r+γ*max_aQ(s`,a`,ω)-Q(s,a,ω))²]

10.一种基于模仿学习与强化学习结合的自动驾驶训练系统，其特征在于，包括：