CN110320883A

CN110320883A - 一种基于强化学习算法的车辆自动驾驶控制方法及装置

Info

Publication number: CN110320883A
Application number: CN201810264905.8A
Authority: CN
Inventors: �田润; 刘志峰; 卢远志; 肖骁; 李勇
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-10-11

Abstract

本申请公开一种基于强化学习算法的车辆自动驾驶控制方法及装置，方法包括对从真实传感器获取的采集数据进行数据分布处理，得到与训练目标数据的数据分布一致的真实目标数据，训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；在强化学习模型训练时采用训练目标数据，而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致，因此，可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶，提高了自动驾驶的安全性。

Description

一种基于强化学习算法的车辆自动驾驶控制方法及装置

技术领域

本发明涉及自动驾驶技术领域，更具体地说，涉及一种基于强化学习算法的车辆自动驾驶控制方法及装置。

背景技术

目前，自动驾驶领域的研究工作呈现爆发式增长。传统的基于规则的决策规划方法存在一些无法避免的问题；人类无法在算法中覆盖所有驾驶场景，而车辆在规则没有覆盖的环境下时，决策规划算法就会失效，所以，目前的基于规则决策的智能汽车只能在简单的、限定的场景下进行自动驾驶。

AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。AlphaGo为了应对围棋的复杂性，结合了监督学习和强化学习的优势。AlphaGO在较短时间内的围棋训练成果可完胜人类，让人们注意到强化学习在决策领域的强大之处。目前，强化学习已经应用到了端对端游戏控制、机器人手臂控制、推荐系统、自然语言对话系统等多个领域。

基于大量的驾驶场景数据利用强化学习算法让车辆自己进行决策、规划的学习是一种很好的解决基于规则算法缺陷的方法。目前，可以在模型器环境下让车辆与虚拟环境进行交互，从而进行强化学习模型的训练；但是，将模拟器环境下训练好的强化学习模型直接应用到真实车辆上进行自动驾驶安全性较差。主要原因是现有的模拟器环境中传感器数据分布和真实环境的传感器数据分布有很大差别。以图片举例，相同的物体在模拟器环境和真实环境下图像像素值的均值、方差的差异较大，造成训练好的模型不适用于真实环境。

发明内容

有鉴于此，本发明提出一种基于强化学习算法的车辆自动驾驶控制方法及装置，欲解决模拟器环境中传感器数据分布和真实环境的传感器数据分布有很大差别的技术问题。

为了解决上述技术问题，现提出的方案如下：

一种基于强化学习算法的车辆自动驾驶控制方法，包括：

获取真实传感器的采集数据和车辆的行驶状态信息；

对所述采集数据进行数据分布处理，得到真实目标数据；

将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型，得到所述强化学习模型输出的车辆的控制信号，在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致，所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；

根据所述控制信号控制车辆自动行驶。

优选的，所述强化学习模型的预先训练过程，包括：

获取模拟器环境中的传感器数据和行驶状态信息；

对所述传感器数据进行数据分布处理，得到训练目标数据；

利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。

优选的，从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像；

对从所述模拟器环境获取的视觉传感器原始图像进行数据分布处理，得到训练目标数据的过程，具体包括：将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型，得到所述第一深度学习模型输出的第一深度图和第一语义分割图，将所述第一深度图和所述第一语义分割图作为训练目标数据；

对从所述真实传感器获取的视觉传感器原始图像进行数据分布处理，得到真实目标数据的过程，具体包括：将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型，得到所述得而深度学习模型输出的第二深度图和第二语义分割图，将所述第二深度图和所述第二语义分割图作为真实目标数据。

优选的，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据或V2X信息；

对从所述真实传感器获取的雷达数据或V2X信息进行数据分布处理，得到真实目标数据的过程，具体包括：根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息，将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据；

对从所述模拟器环境获取的运动状态信息进行数据分布处理，得到训练目标数据的过程，具体包括：根据的所述目标运动状态信息的数据分布，对从所述模拟器环境获取的运动状态信息添加噪声，将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。

优选的，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据和V2X信息；

对从所述真实传感器获取的雷达数据和V2X信息进行数据分布处理，得到真实目标数据的过程，具体包括：根据所述雷达数据和所述V2X信息并利用数据融合技术，得到带噪声的目标运动状态信息，将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据；

一种基于强化学习算法的车辆自动驾驶控制装置，包括：

数据获取单元，用于获取真实传感器的采集数据和车辆的行驶状态信息；

分布处理单元，用于对所述采集数据进行数据分布处理，得到真实目标数据；

控制决策单元，用于将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型，得到所述强化学习模型输出的车辆的控制信号，在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致，所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；

行驶控制单元，用于根据所述控制信号控制车辆自动行驶。

优选的，还包括模型训练单元，所述模型训练单元包括：

数据获取子单元，用于获取模拟器环境中的传感器数据和行驶状态信息；

分布处理子单元，用于对所述传感器数据进行数据分布处理，得到训练目标数据；

训练子单元，用于利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。

所述分布处理子单元具体用于：将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型，得到所述第一深度学习模型输出的第一深度图和第一语义分割图，将所述第一深度图和所述第一语义分割图作为训练目标数据；

所述分布处理单元具体用于：将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型，得到所述得而深度学习模型输出的第二深度图和第二语义分割图，将所述第二深度图和所述第二语义分割图作为真实目标数据。

所述分布处理子单元具体用于：根据所述雷达数据或所述V2X信息得到带噪声的目标运动状态信息，将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据；

所述分布处理单元具体用于：根据的所述目标运动状态信息的数据分布，对从所述模拟器环境获取的运动状态信息添加噪声，将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据。

所述分布处理子单元具体用于：根据所述雷达数据和所述V2X信息并利用数据融合技术，得到带噪声的目标运动状态信息，将目标运动状态信息、所述第二深度图以及所述第二语义分割图共同作为真实目标数据；

与现有技术相比，本发明的技术方案具有以下优点：

上述技术方案提供的基于强化学习算法的车辆自动驾驶控制方案，分别对从真实传感器获取的采集数据和从模拟器环境中获取的传感器数据进行数据分布处理，得到数据分布一致的训练目标数据和真实目标数据；在强化学习模型训练时采用训练目标数据，而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致，因此，可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶，提高了自动驾驶的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种于强化学习算法的车辆自动驾驶控制方法的流程图；

图2为本发明实施例提供的一种于强化学习算法的车辆自动驾驶控制装置的逻辑结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种基于强化学习算法的车辆自动驾驶控制方法，基于VCU(vehicle control unit，整车控制器)实现。VCU主要利用预先训练的强化学习模型对经过数据分布处理得到的真实目标数据进行分析，得到车辆的控制信号，由于强化学习模型训练时采用的训练样本中的训练目标数据与真实目标数据的数据分布一致，使得训练好的强化学习模型适用于真实车辆的自动行驶过程，提高车辆自动驾驶的安全性。

参见图1所示，本实施例提供的基于强化学习算法的车辆自动驾驶控制方法包括步骤：

S11：获取真实传感器的采集数据和车辆的行驶状态信息；

VCU可以从CAN(Controller Area Network，控制器局域网络)总线中获取的各个真实传感器的采集数据以及车辆的行驶状态信息。车辆安装的真实传感器包括但不限于视觉传感器、激光雷达、毫米波雷达、超声波雷达和V2X设备等。车辆在自动驾驶过程中通过安装的上述真实传感器，实时感知周围的环境状态以控制车辆的行驶状态，进而实现安全行驶。车辆的行驶状态信息包括但不限于是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位等信息。

S12：对所述采集数据进行数据分布处理，得到真实目标数据；

在本申请的一个具体实施例中，采用高斯分布来表示数据分布，主要有均值和方差两个参数。为了使得模拟器环境下训练好的强化学习模型直接应用到真实车辆进行自动驾驶且保证自动驾驶的安全性，分别对从真实传感器获取的采集数据和从模拟器环境获取的传感器数据进行数据分布处理，得到数据分布一致的真实目标数据和训练目标数据。

S13：将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型，得到所述强化学习模型输出的车辆的控制信号；

在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致，所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到。利用与真实目标数据的数据分布一致的训练目标数据对强化学习模型进行训练，使得训练好的强化学习模型可以直接应用于真实车辆的自动驾驶过程且保证了自动驾驶的安全性。

强化学习模型可以采用适用于连续状态空间和连续动作空间的DDPG、A3C、TRPO或PPO等算法。

S14：根据所述控制信号控制车辆自动行驶。

控制信号包括但不限于油门踏板开度信号、制动踏板开度信号和方向盘转角信号等。

本实施例提供的基于强化学习算法的车辆自动驾驶控制方法，对从真实传感器获取的采集数据进行数据分布处理，得到与训练目标数据的数据分布一致的真实目标数据，训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；在强化学习模型训练时采用训练目标数据，而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致，因此，可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶，提高了自动驾驶的安全性。

在本实施例中，提供了强化学习模型的训练方案，强化学习模型的训练过程可以包括以下步骤：

S21：获取模拟器环境中的传感器数据和行驶状态信息；

强化学习模型训练过程，采用的传感器数据的类型同真实车辆在自动驾驶过程中获取的采集数据的类型一致；即如果自动驾驶过程中获取的采集数据的类型为视觉传感器原始图像，则训练采用的传感器数据也为视觉传感器原始图像。

训练时采用的行驶状态信息包含的类型也同真实车辆在自动驾驶过程中获取的行驶状态信息包含的类型相同；即如果真实车辆自动驾驶过程中获取的行驶状态信息包括是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位，则训练采用的行驶状态信息包括是否发生碰撞、是否偏离当前车道、车速、加速度、方向盘转角和档位。

S22：对所述传感器数据进行数据分布处理，得到训练目标数据；

对从模拟器环境获取的传感器数据进行数据分布处理，以使得到的训练目标数据与真实目标数据的数据分布一致。

在本申请的一个具体实施例中，从模拟器环境获取的传感器数据以及从真实传感器获取的采集数据均为视觉传感器原始图像。

从模拟器环境获取的传感器数据类型为视觉传感器原始图像时，得到训练目标数据的具体过程为：将从所述模拟器环境获取的视觉传感器原始图像输入预先训练得到的第一深度学习模型，得到所述第一深度学习模型输出的第一深度图和第一语义分割图，将所述第一深度图和所述第一语义分割图作为训练目标数据。第一深度学习模型为深度神经网络模型，以在模拟器中采样的视觉传感器原始图像为训练源数据、以标注好的深度图和语义分割图为标签进行训练，训练得到符合要求的第一深度学习模型模型。

对从所述真实传感器获取的采集数据类型为视觉传感器原始图像时，得到真实目标数据的过程为：将从所述真实传感器获取的视觉传感器输入预先训练得到的第二深度学习模型，得到所述得而深度学习模型输出的第二深度图和第二语义分割图，将所述第二深度图和所述第二语义分割图作为真实目标数据。第二深度学习模型为深度神经网络模型，以在真实环境中采集的视觉传感器原始图像为训练源数据、以标注好的深度图和语义分割图为标签进行训练，训练得到符合要求的深度神经网络模型。

深度图(depth image)也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离作为像素值的图像，它直接反映了景物可见表面的几何形状。语义分割图中各个颜色代表不同的物体，图像语义分割的意思就是机器自动分割并识别出图像中的内容。

S23：利用所述训练目标数据和从所述模拟器环境中获取的行驶状态信息对所述强化学习模型进行训练。

强化学习模型根据任务设置奖励函数，通过训练以最大化奖励，训练收敛后可在模拟器中测试效果，若强化学习模型的测试效果不好，则修改奖励函数、模型网络结构或一些参数后继续训练，直到训练得到的强化学习模型的测试效果符合要求为止。

在本申请的一个具体实施例中，从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息，从真实传感器获取的采集数据均为视觉传感器原始图像和和雷达数据；或者，从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息，从真实传感器获取的采集数据均为视觉传感器原始图像和V2X信息。

从真实传感器获取的采集数据的类型为视觉传感器原始图像和雷达数据时，得到真实目标数据的过程具体为：根据所述雷达数据得到带噪声的目标运动状态信息；将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据。

从真实传感器获取的采集数据的类型为视觉传感器原始图像和V2X信息时，得到真实目标数据的过程具体为：根据V2X信息得到带噪声的目标运动状态信息，将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据；

从模拟器环境获取的传感器数据类型为视觉传感器原始图像和车辆周围物体的运动状态信息时，得到训练目标数据的具体过程为：根据得到的目标运动状态信息的数据分布，对从所述模拟器环境获取的运动状态信息添加噪声，将添加噪声后的运动状态信息与得到的第一深度图以及第一语义分割图共同作为训练目标数据。

在本申请一个具体实施例中，从模拟器环境获取的传感器数据为视觉传感器原始图像和车辆周围物体的运动状态信息，从真实传感器获取的采集数据均为视觉传感器原始图像和、雷达数据和V2X信息。

从真实传感器获取雷达数据和V2X信息，然后根据雷达数据和V2X信息并利用数据融合技术，得到带噪声的目标运动状态信息，将目标运动状态信息与得到的第二深度图以及第二语义分割图共同作为真实目标数据。各种类型的传感器具有不同的优缺点，为得到较为准确的目标运动状态信息，获取多个类型的传感器数据，并通过数据融合技术融合各个传感器的优势得到需要的目标运动状态信息。

对从所述模拟器环境获取的运动状态信息进行数据分布处理，得到训练目标数据的过程具体还是：根据的目标运动状态信息的数据分布，对从所述模拟器环境获取的运动状态信息添加噪声，将添加噪声后的运动状态信息与得到的第一深度图以及第一语义分割图共同作为训练目标数据。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

本实施例提供一种基于强化学习算法的车辆自动驾驶控制装置，参见图2，该装置包括数据获取单元11、分布处理单元12、控制决策单元13和行驶控制单元14。

数据获取单元11，用于获取真实传感器的采集数据和车辆的行驶状态信息；

分布处理单元12，用于对所述采集数据进行数据分布处理，得到真实目标数据；

控制决策单元13，用于将所述真实目标数据和所述行驶状态信息输入预先训练得到的强化学习模型，得到所述强化学习模型输出的车辆的控制信号，在所述强化学习模型训练过程时采用的训练样本数据中的训练目标数据与所述真实目标数据的数据分布一致，所述训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；

行驶控制单元14，用于根据所述控制信号控制车辆自动行驶。

本实施例提供的基于强化学习算法的车辆自动驾驶控制装置，分布处理单元12对从真实传感器获取的采集数据进行数据分布处理，得到与训练目标数据的数据分布一致的真实目标数据，训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；在强化学习模型训练时采用训练目标数据，而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致，因此，可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶，提高了自动驾驶的安全性。

在本实施例中上述基于强化学习算法的车辆自动驾驶控制装置，还包括模型训练单元，模型训练单元包括数据获取子单元、分布处理子单元和训练子单元。

在本申请的一个具体实施例中，从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像；

在本申请的另一个具体实施例中，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据或V2X信息；

在本申请的又一个具体实施例中，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据和V2X信息；

所述分布处理单元具体用于：根据的所述目标运动状态信息的数据分布，对从所述模拟器环境获取的运动状态信息添加噪声，将添加噪声后的运动状态信息、所述第一深度图以及所述第一语义分割图共同作为训练目标数据

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习算法的车辆自动驾驶控制方法，其特征在于，包括：

获取真实传感器的采集数据和车辆的行驶状态信息；

对所述采集数据进行数据分布处理，得到真实目标数据；

根据所述控制信号控制车辆自动行驶。

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型的预先训练过程，包括：

获取模拟器环境中的传感器数据和行驶状态信息；

对所述传感器数据进行数据分布处理，得到训练目标数据；

3.根据权利要求2所述的方法，其特征在于，从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像；

4.根据权利要求3所述的方法，其特征在于，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据或V2X信息；

5.根据权利要求3所述的方法，其特征在于，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据和V2X信息；

6.一种基于强化学习算法的车辆自动驾驶控制装置，其特征在于，包括：

行驶控制单元，用于根据所述控制信号控制车辆自动行驶。

7.根据权利要求6所述的装置，其特征在于，还包括模型训练单元，所述模型训练单元包括：

8.根据权利要求7所述的装置，其特征在于，从所述模拟器环境获取的传感器数据和从所述真实传感器获取的采集数据均包括视觉传感器原始图像；

9.根据权利要求8所述的装置，其特征在于，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据或V2X信息；

10.根据权利要求8所述的装置，其特征在于，从所述模拟器环境获取的传感器数据还包括车辆周围物体的运动状态信息，从所述真实传感器获取的采集数据还包括雷达数据和V2X信息；