CN113359771A

CN113359771A - 一种基于强化学习的智能自动驾驶控制方法

Info

Publication number: CN113359771A
Application number: CN202110763054.3A
Authority: CN
Inventors: 颜宇; 王广玮
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-07
Anticipated expiration: 2041-07-06
Also published as: CN113359771B

Abstract

本发明属于自动驾驶控制方法技术领域，具体涉及一种基于强化学习的智能自动驾驶控制方法，通过使用开源的物理引擎PyBullet建立模拟环境，设计以圈速为评价标准的自动驾驶赛车任务，完成一圈赛道的自动驾驶，并且不发生任何碰撞，建立一个基于URDF模型的刚体汽车模型，并利用汽车模型模拟激光雷达的输入；将设计的任务转化为一个部分可观测的马尔可夫决策过程；基于python语言，利用Tensorflow框架，建立Dreamer算法模型；对输入的激光雷达信息进行预处理等处理过程，实现自动驾驶算法的快速训练，不需要设计复杂的控制策略和调试控制参数，且具有良好的泛化性和迁移性，可以适应不同的模拟与现实环境，有良好的自动驾驶效果。

Description

一种基于强化学习的智能自动驾驶控制方法

技术领域

本发明涉及自动驾驶控制方法技术领域，具体领域为一种基于强化学习的智能自动驾驶控制方法。

背景技术

汽车工业朝着共享化、电动化、网联化、智能化的方向快速发展，人工智能技术在智能驾驶方向表现出了极大的价值与潜力，其中，深度强化学习(deep reinforcementlearning,DRL)算法可以使智能体不断学习和表示环境的状态，并在每个给定的时刻给出当前最佳的行动方案，这也促使了智能自动驾驶汽车技术的发展，自动驾驶汽车又称无人驾驶汽车，是一种通过自动驾驶系统实现无人驾驶的智能汽车，在21世纪初已经呈现出接近实用化的趋势。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让汽车可以在没有任何人类主动的操作下，自动安全地操作机动车辆。然而现有的自动驾驶控制方法具有策略制定复杂、控制参数调试繁琐及环境适应性差的问题，为此提出一种基于强化学习的智能自动驾驶控制方法。

发明内容

本发明的目的在于提供一种基于强化学习的智能自动驾驶控制方法以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于强化学习的智能自动驾驶控制方法，其方法包括如下步骤：

S1：使用开源的物理引擎PyBullet建立模拟环境，设计以圈速为评价标准的自动驾驶赛车任务，完成一圈赛道的自动驾驶，并且不发生任何碰撞，建立一个基于URDF模型的刚体汽车模型，并利用汽车模型模拟激光雷达的输入；

S2：将设计的任务转化为一个部分可观测的马尔可夫决策过程；

S3：基于python语言，利用Tensorflow框架，建立Dreamer算法模型；

S4：对输入的激光雷达信息进行预处理，使用处理后的激光雷达点云距离信息作为观测模型，观测模型使用多层感知器，计算每条激光射线高斯分布的平均值和标准差，通过观测模型学习基于潜在想象空间的状态序列的策略，进而利用演员-评论家算法训练智能体，其中，动作模型用来综合每个潜在状态对应的最佳动作，价值模型则用来评估每个潜在状态对应的价值:

动作模型：q_φ(a_t|s_t)

价值模型：q_ψ(v_t|s_t)

S5：对地图做预处理，首先将地图栅格化，接着将地图上各个位置与起点之间距离标准化，每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值，设计如下奖励函数：

c*|s_t-s_t-1|＝c*Δs_t

其中，s_t代表在t时刻车辆行驶的进度，c是常数；如果车辆与赛道边缘或障碍物发生碰撞，会得到-1的惩罚值，同时当前回合也会终止；

S6：在智能体每个训练回合的开始阶段，将赛车随机放置在赛道上，将每个动作都会被重复数次，训练结束后，将赛车放在赛道的起点位置，进行算法的评估，上述过程多次循环后，有效提高评估潜在环境和提高动作的有效性训练结束，得到最终的训练结果；

S7:将模拟环境的训练结果迁移到现实环境中，利用智能车硬件平台，驱动电机前进的命令经过积分器处理，从而得到期望的前进速度，转向的命令通过一个自适应低通滤波器进行滤波，以避免高频率的转向动作，开启激光雷达ROS节点，运行Dreamer算法启动命令，即可实现智能车自动驾驶。

优选的，S1中，任务的目标是以高维的激光雷达数据为输入。

优选的，S2中，一个部分可观测的马尔可夫决策过程是由

构成的一个元组，

其中，S，A，Ω分别是状态、动作、观测值的集合；

和

分别是预测的观测值和状态转移函数；

是确定性的奖励函数；

状态转移函数

是系统及其不确定性的模型，定义为：

其输出的值为在执行一个动作后两个状态之间转移的概率；

观测函数

是系统对环境的感知及其不确定性的模型，定义为：

其输出的值为在一个给定的状态下感知到一个观测值的概率；

奖励函数的定义为

输出的值为状态转移的可信度。

优选的，S3中，环境模型以循环状态空间模型的形式表示，而环境模型分为四部分,每部分都以深度神经网络的形式表示：

表示模型：p_θ(s_t|s_t-1，a_t-1，o_t)

观测模型：q_θ(o_t|s_t)

奖励模型：q_θ(r_t|s_t)

转移模型：q_θ(s_t|s_t-1，a_t-1)

其中，p表示与环境交互的神经网络，q为在潜在想象空间中应用的神经网络；这四部分模型被联合优化，以使以下四个变量的下界最大化：

其中，D_KL(P||Q)是P，Q两个概率分布的相对熵。

本发明的有益效果是：

1.本发明可实现自动驾驶算法的快速训练，不需要设计复杂的控制策略和调试控制参数。

2.本发明具有良好的泛化性和迁移性，可以适应不同的模拟与现实环境，有良好的自动驾驶效果。

附图说明

图1为本发明基于强化学习的智能车自动驾驶控制方法的智能车基本设置图；

图2为本发明基于强化学习的智能车自动驾驶控制方法的模拟环境中四个赛道示意图；

图3为本发明基于强化学习的智能车自动驾驶控制方法的在Austria地图训练的进度值曲线示意图；

图4为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR硬件结构图；

图5为本发明基于强化学习的智能车自动驾驶控制方法的RACECAR软件结构图。

具体实施方式

下面将结合本发明实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅图1-5

S1：使用开源的物理引擎PyBullet建立模拟环境，使用如图2所示的Austria赛道，设计以圈速为评价标准的自动驾驶赛车任务，任务的目标是以高维的激光雷达数据为输入，完成一圈赛道的自动驾驶，并且不发生任何碰撞，建立一个基于URDF(Unified RobotDescription Format)模型的刚体汽车模型，并利用汽车模型模拟激光雷达的输入；

S3：基于python语言，利用Tensorflow框架，建立Dreamer算法模型；

S4：对输入的激光雷达信息进行预处理，选取面向车辆前方180°的720个采样点，因此，观测空间设置为{[0.0，25.0]m}⁷²⁰，使用处理后的激光雷达点云距离信息作为观测模型，观测模型使用多层感知器，计算每条激光射线高斯分布的平均值和标准差。通过观测模型学习基于潜在想象空间的状态序列的策略，进而利用演员-评论家算法训练智能体。其中，动作模型输出如下：电机动力的输出范围为[-0.5，0.5]N，转向角度输出范围为[-0.42，0.42]rad；

S5：对Austria地图做预处理，首先将地图栅格化，接着将地图上各个位置与起点之间距离标准化，这样每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值，基于上述处理，设计c*|s_t-s_t-1|＝c*Δs_t奖励函数；

S6：在训练开始之前，使用Follow-the-Gap方法对训练数据初始化，初始的数据集大小为5000步，在智能体每个训练回合的开始阶段，将赛车随机放置在赛道上，每个训练回合的时间步长上限为2000步，即20秒，为了评估潜在环境和提高动作的有效性，每个动作都会被重复8次，每训练100步，更新一次训练网络的权重，批数据的大小设置为50，环境模型的学习率设为0.0006，行为模型和价值模型的学习率为0.00008，奖励衰减率为0.99，训练结束后，将赛车放在赛道的起点位置，并且用智能体控制赛车行驶4000个时间步长的距离(即40秒)，重复五次，将五次的进度值平均化，得到评价指标，共训练2×10⁶个时间步长，得到最终的训练结果，如图3所示，Dreamer算法可以快速收敛并且完成单圈的自动驾驶任务；

S7:将模拟环境的训练结果迁移到现实环境中，采用RACECAR智能车硬件平台，如图4所示，底盘采用Traxxas Slash 4x4 Premium Edition，其中搭载了Traxxas Velineon3351R无刷DC电机，电机由VESC 6MkIV电子调速器控制，思岚的Rplidar A3激光雷达负责感知周围的环境，而算法运行在一个NVIDIA Jetson TX2边缘计算盒中，NVIDIA Jetson TX2搭载Ubuntu 18.04操作系统，其中的ROS(Robot Operating System)系统用于硬件信息的接收与发送。Dreamer算法运行在一个Docker容器中，软件结构如图5所示，驱动电机前进的命令经过积分器处理，从而得到期望的前进速度，转向的命令通过一个自适应低通滤波器进行滤波，以避免高频率的转向动作，将模拟环境中训练完成的模型文件放入ROS环境中，打开稳压器电源开关与电子调速器电源开关，开启激光雷达ROS节点，运行Dreamer算法启动命令，即可实现智能车自动驾驶。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于强化学习的智能自动驾驶控制方法，其特征在于：其方法包括如下步骤：

S3：基于python语言，利用Tensorflow框架，建立Dreamer算法模型；

S4：对输入的激光雷达信息进行预处理，使用处理后的激光雷达点云距离信息作为观测模型，观测模型使用多层感知器，计算每条激光射线高斯分布的平均值和标准差，通过观测模型学习基于潜在想象空间的状态序列的策略，进而利用演员-评论家算法训练智能体，其中，动作模型用来综合每个潜在状态对应的最佳动作，价值模型则用来评估每个潜在状态对应的价值：

动作模型：q_φ(a_t|s_t)

价值模型：q_ψ(v_t|s_t)

c*|s_t-s_t-1|＝c*Δs_t

S6：在智能体每个训练回合的开始阶段，将赛车随机放置在赛道上，将每个动作都会被重复数次，训练结束后，将赛车放在赛道的起点位置，进行算法的评估，上述过程多次循环后，训练结束，得到最终的训练结果；

S7：将模拟环境的训练结果迁移到现实环境中，利用智能车硬件平台，驱动电机前进的命令经过积分器处理，从而得到期望的前进速度，转向的命令通过一个自适应低通滤波器进行滤波，以避免高频率的转向动作，开启激光雷达ROS节点，运行Dreamer算法启动命令，即可实现智能车自动驾驶。

2.根据权利要求1所述的一种基于强化学习的智能自动驾驶控制方法，其特征在于：S1中，任务的目标是以高维的激光雷达数据为输入。

3.根据权利要求2所述的一种基于强化学习的智能自动驾驶控制方法，其特征在于：S2中，一个部分可观测的马尔可夫决策过程是由