CN114170488A

CN114170488A - 基于条件模仿学习和强化学习的自动驾驶方法

Info

Publication number: CN114170488A
Application number: CN202111510148.6A
Authority: CN
Inventors: 何弢; 张润玺; 王辉; 廖文龙
Original assignee: Kuwa Environmental Technology Co ltd; Anhui Cowarobot Co ltd
Current assignee: Kuwa Environmental Technology Co ltd; Anhui Cowarobot Co ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11

Abstract

本发明提供了一种基于条件模仿学习和强化学习的自动驾驶方法，包括：步骤S1：收集行车数据，并标注出对应的决策动作作为专家决策；步骤S2：根据所述行车数据，计算得到航向角，并得到特征向量和特征图；步骤S3：基于所述特征向量、特征图、航向角和专家决策，构建训练数据集，并用所述训练数据集来训练模型；步骤S4：将训练好的模型应用到车辆中，实现车辆的自动驾驶决策。本发明通过结合条件模仿学习和强化学习的方式，减轻模型对训练数据集的依赖，同时解决了由于随机初始化导致的强化学习探索效率低下的问题；通过收集实车数据并将其应用在模型的训练中，使训练得到的模型更加贴近真实的驾驶场景。

Description

基于条件模仿学习和强化学习的自动驾驶方法

技术领域

本发明涉及自动驾驶领域，具体地，涉及一种基于条件模仿学习和强化学习的自动驾驶方法。

背景技术

自动驾驶的应用能够显著减少交通事故、缓解交通拥堵、提升通行效率、节约能源消耗，因此受到了高度重视。政府、企业、研究机构把巨量的资金和人力投入到自动驾驶的研究中，旨在早日实现其商业化应用。传统基于规则的(Rule-Based)自动驾驶方案将整个系统细分为感知、定位、规划和控制等模块，通过对这些模块的组合使用，实现车辆的自动驾驶。然而，这种方案结构复杂、成本较高，并存在多个中间环节，每个环节上的误差都会累计到最终结果中，导致控制精度不高。

端到端(End-to-End)是一种新兴的自动驾驶策略，它通过分析输入的图像或视频信息(如车道线、红绿灯等)直接得到车辆行驶的控制指令(如方向盘转角、油门大小、刹车程度等)，实现从感知端到控制端的直接映射。与传统方案相比，端到端自动驾驶无需人工设计的复杂规则，无需高精度地图，结构简单、硬件成本低、开发难度小，具有极大的发展前景。

目前，常见的端到端自动驾驶主要有基于大量专家数据的模仿学习和基于自我探索的强化学习。然而，模仿学习存在泛化性能低、过于依赖数据集等问题，强化学习则存在探索效率低、训练困难等问题。因此，如何结合模仿学习和强化学习的优点并将其应用在自动驾驶中，是一个值得研究的课题。

论文《Imitative Reinforcement Learning Fusing Vis ion and Pure Pursuitfor Self-driving》(Mingxing Peng et al.,2020,ICRA)提出了一种名为IPP-RL的训练框架，其中IPP(Imitation with Pure Pursuit)是指模仿学习阶段的预训练模型，其输入为RGB(Red-Green-Blue)图像，记录专家数据中的车速以及用PP(Pure Pursuit)算法计算出的粗略转向角，最后用神经网络输出对应的驾驶动作(速度、转向)，用专家数据中的真实驾驶动作作为真值，计算损失函数，训练模型。RL(Reinforcement Learning)指的是强化学习训练阶段，采用了DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法，其中的Actor网络被模仿学习阶段中已经训练好的权值初始化，使得强化学习在初期探索时能在相对合理的动作空间内进行探索，提升强化学习的效率。

专利文献CN112232490A公开了一种基于视觉的深度模仿强化学习策略训练方法，包括：构建模仿学习网络；训练所述模仿学习网络；对训练完成的模仿学习网络进行网络拆分，获得感知模块；构建DDPG网络，获得控制模块；通过所述感知模块和所述控制模块，完成深度模仿强化学习模型的搭建；训练所述深度模仿强化学习模型。

专利文献CN113255054A公开了一种基于异构融合特征的强化学习自动驾驶方法，通过搭建基于异构融合特征的深度确定性策略梯度强化学习方法来完成自动驾驶任务，设计了先模仿后强化，异构融合精简状态的学习思路。

然而，上述论文和专利所提出的方法具有如下不足：单纯使用RGB图像作为感知的主要来源，可解释性差、鲁棒性不强，如果遇到大雾或雨雪天气，完全依赖相机的感知是非常不安全的；利用图像选点计算的粗略PP角过于粗糙，在实际落地中可以选择更好的实车数据控制量；模仿学习框架卷积层庞大，实时性不足。

专利文献CN112904864A公开了一种基于深度强化学习的自动驾驶方法和系统，搭建网络模型，将自动驾驶汽车传感器测量的当前环境信息输入网络模型，得到当前控制动作集，再设计动作噪声，采用动作噪声修正所述当前控制动作集，得到最终控制动作集，最后采用最终控制动作集控制自动驾驶汽车行驶，实现对自动驾驶汽车的准确实时控制。但该发明没有通过结合CIL和RL的方式减轻模型对训练数据集的依赖，也没有很好解决由于随机初始化导致的强化学习探索效率低下的问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于条件模仿学习和强化学习的自动驾驶方法。

根据本发明提供的一种基于条件模仿学习和强化学习的自动驾驶方法，包括：

步骤S1：收集行车数据，并标注出对应的决策动作作为专家决策；

步骤S2：根据所述行车数据，计算得到航向角，并得到特征向量和特征图；

步骤S3：基于所述特征向量、特征图、航向角和专家决策，构建训练数据集，并用所述训练数据集来训练模型；

步骤S4：将训练好的模型应用到车辆中，实现车辆的自动驾驶决策。

优选地，在所述步骤S1中：

所述行车数据包括车辆状态信息以及从车载传感器处获得的感知信息；

所述车辆状态信息包括车辆的位置信息、速度信息、转向信息以及规划轨迹信息；

所述行车数据的收集，使用CARLA模拟器模拟城市道路的交通情况并收集行车信息，或者收集实车数据，在实际道路上行驶车辆并记录行车信息。

优选地，在所述步骤S2中：

所述航向角的计算方法：根据所述位置信息和规划轨迹信息，从规划轨迹线中选取距离车辆当前位置最近的N个轨迹点，相邻的两个轨迹点依次连接形成N-1个轨迹线段，分别计算车辆当前朝向相对于N-1个轨迹线段的角度，然后求这N-1个角度的平均值，得到所述航向角；

所述特征向量由所述位置信息、速度信息和转向信息结合获得；

所述特征图由障碍物语义图和地图语义图结合获得，所述障碍物语义图根据障碍物信息生成，所述障碍物信息是将所述感知信息与已知的地图信息进行融合获得，所述地图语义图则是根据所述地图信息、位置信息和规划轨迹信息生成。

优选地，在所述步骤S3中：

所述模型为条件模仿学习-强化学习模型，分为条件模仿学习模块和强化学习模块。

优选地，所述条件模仿学习模块具有第一神经网络，第一神经网络包括第一特征网络、第一决策网络和第一优化环节，所述条件模仿学习模块以所述特征图、航向角以及特征向量为输入，以所述专家决策作为真值标签，对所述第一神经网络进行训练；

在所述第一特征网络中，所述特征图通过具有三层结构的卷积层，得到第一中间值，所述第一中间值依次通过第一全连接层和第二全连接层之后，得到第二中间值；所述航向角依次通过第三全连接层和第四全连接层之后，得到第三中间值；所述第二中间值和第三中间值拼接后通过第五全连接层，得到第四中间值；从所述特征图和航向角得到所述第四中间值的结构称为第一特征图通道；所述特征向量依次通过第六全连接层和第七全连接层之后，得到第五中间值，从所述特征向量得到所述第五中间值的结构称为第一特征向量通道；第四中间值和第五中间值拼接后通过第八全连接层，得到第一特征中间值；

在所述第一决策网络中，根据车辆实际行驶所需的决策数量设置M个决策分支，所述第一特征中间值根据上层命令进入对应的决策分支，依次通过另外两个全连接层，再通过三元连接层，得到决策分支的输出，即模仿决策；M个决策分支得到M个模仿决策；

在所述第一优化环节中，根据所述专家决策和模仿决策构建第一损失函数，以最小化所述第一损失函数为目标对所述第一神经网络进行迭代训练，得到训练好的条件模仿学习模块；

优选地，所述强化学习模块具有第二神经网络，所述第二神经网络包括演员网络、评论家网络和强化学习优化环节；

所述演员网络包括第二特征网络和第二决策网络，所述第二特征网络和第二决策网络的结构分别与所述第一特征网络和第一决策网络的完全相同，但网络的各个权重值不同，所述演员网络以所述特征图、航向角以及特征向量为输入，输出演员决策；

所述评论家网络包括第三特征网络和第三决策网络，所述第三特征网络包括第三特征图通道、第三特征向量通道、决策输入通道和第九全连接层；所述决策输入通道接收所述演员决策，依次通过第十全连接层和第十一全连接层；所述第三特征图通道、第三特征向量通道和决策输入通道的输出拼接后通过第九全连接层，得到第二特征中间值；所述第三决策网络以所述第二特征中间值为输入，输出评论家决策；所述第三特征图通道、第三特征向量通道和第三决策网络的结构分别与所述第一特征图通道、第一特征向量通道和第一决策网络的相同，但网络的各个权重值不同；

所述演员网络的各个权重值用训练好的条件模仿学习模块的对应权重值进行初始化；所述评论家网络的第三特征图通道用训练好的条件模仿学习模块的第一特征图通道的对应权重值进行初始化，其他部分的权重值进行随机初始化；

所述强化学习优化环节参考环境信息，针对所述演员决策构建第二损失函数，针对所述评论家决策构建策略梯度，以最小化所述第二损失函数为目标对演员网络进行迭代训练，以最优化所述策略梯度为目标对评论家网络进行迭代训练，得到训练好的强化学习模块；

所述强化学习模块采用经典DDPG算法或者改进的DDPG算法。

优选地，在所述条件模仿学习模块和强化学习模块中，所有的全连接层均加入随机失活层进行优化。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过结合CIL和RL的方式，减轻模型对训练数据集的依赖，同时解决了由于随机初始化导致的强化学习探索效率低下的问题；

2、本发明通过收集实车数据并将其应用在模型的训练中，使训练得到的模型更加贴近真实的驾驶场景；

3、本发明加入精确航向角作为控制量后，使得CIL-RL模型不再单纯依赖于感知模块，CIL-RL比其他方法更具有泛化性能；

4、本发明特征图中结合了感知模块的相机信息，毫米波雷达信息和高精地图信息，能够弥补单纯的RGB相机的不足，在雨天雾天等影响RGB相机的情况下，可以很好的增强自动驾驶的鲁棒性，提高自动驾驶的性能；

5、本发明特征图和特征向量很小，特征图的大小是普通感知图像的三分之一，特征向量不过是1×3的小向量，可以忽略不记。CIL-RL模型的卷积层只有3层，是IPP-RL的一半大小。因此，CIL-RL的训练简单、实时性强，更能满足自动驾驶的需求。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于条件模仿学习和强化学习的自动驾驶方法的流程图；

图2为特征图的示意图；

图3为CIL-RL模型的示意图；

图4为CIL模块的结构示意图；

图5为RL模块的示意图；

图6为RL模块的Actor网络的结构示意图；

图7为RL模块的Critic网络的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的一种基于条件模仿学习和强化学习的自动驾驶方法，如图1-图7所示，包括：

具体地，在所述步骤S1中：

具体地，在所述步骤S2中：

具体地，在所述步骤S3中：

具体地，所述条件模仿学习模块具有第一神经网络，第一神经网络包括第一特征网络、第一决策网络和第一优化环节，所述条件模仿学习模块以所述特征图、航向角以及特征向量为输入，以所述专家决策作为真值标签，对所述第一神经网络进行训练；

具体地，所述强化学习模块具有第二神经网络，所述第二神经网络包括演员网络、评论家网络和强化学习优化环节；

所述强化学习模块采用经典DDPG算法或者改进的DDPG算法。

具体地，在所述条件模仿学习模块和强化学习模块中，所有的全连接层均加入随机失活层进行优化。

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明的目的是提供一种能克服现有技术缺陷的自动驾驶方法。

为了实现上述目的，本发明提供一种基于条件模仿学习和强化学习的自动驾驶方法，包括：

收集获得行车数据，并标注出对应的决策动作(如转向、避障、超车等)作为专家决策；

根据所述行车数据，计算得到航向角，并生成得到特征向量和特征图；

基于所述特征向量、特征图、航向角和专家决策，构建训练数据集，并用所述训练数据集来训练模型；

将训练好的模型应用到车辆中，实现车辆的自动驾驶决策。

具体地，所述行车数据包括车辆状态信息，如车辆的位置信息、速度信息、转向信息和规划轨迹信息等，还包括从相机和雷达等传感器处获得的感知信息。

具体地，所述行车数据的收集，可以使用CARLA模拟器，模拟城市道路的交通情况并收集行车信息，也可以收集实车数据，在实际道路上驾驶车辆并记录下行车信息。

具体地，所述航向角的计算方法是：根据所述位置信息和规划轨迹信息，从规划轨迹线中选取距离车辆当前位置最近的N个轨迹点，相邻的两个轨迹点依次连接形成N-1个轨迹线段，分别计算车辆当前朝向相对于所述N-1个轨迹线段的角度，然后求这N-1个角度的平均值，即得到航向角。

具体地，所述特征向量由所述位置信息、速度信息和转向信息结合而获得。

具体地，所述特征图由障碍物语义图和地图语义图结合而获得，所述障碍物语义图根据障碍物信息生成，所述障碍物信息是将所述感知信息与已知的地图信息进行融合而获得，所述地图语义图则根据所述地图信息、位置信息和规划轨迹信息生成。

具体地，所述模型为条件模仿学习-强化学习(Conditional ImitationLearning–Reinforcement Learning,CIL-RL)模型，分为CIL(条件模仿学习)模块和RL(强化学习)模块。所述CIL模块具有第一神经网络，所述第一神经网络包括第一特征网络、第一决策网络和第一优化环节，所述CIL模块以所述特征图、航向角以及特征向量为输入，以所述专家决策作为真值标签，对第一神经网络进行训练。所述RL模块具有第二神经网络，所述第二神经网络包括Actor(演员)网络、Critic(评论家)网络和RL优化环节。

具体地，在所述第一特征网络中，所述特征图通过具有三层结构的卷积层，得到第一中间值，所述第一中间值依次通过第一全连接层(Fully Connected layer,FC)和第二全连接层之后，得到第二中间值；所述航向角依次通过第三全连接层和第四全连接层之后，得到第三中间值；所述第二中间值和第三中间值拼接后通过第五全连接层，得到第四中间值；从所述特征图、航向角得到所述第四中间值的这部分结构称为第一特征图通道。所述特征向量依次通过第六全连接层和第七全连接层之后，得到第五中间值，这部分结构称为第一特征向量通道。所述第四中间值和第五中间值拼接后通过第八全连接层，得到第一特征中间值。在所述第一决策网络中，根据车辆实际行驶所需的决策数量设置M个决策分支，第一特征中间值根据上层命令进入对应的决策分支，然后依次通过另外两个全连接层，再通过一个三元连接层，得到此决策分支的输出，即模仿决策。M个决策分支共得到M个模仿决策。最后，根据所述专家决策和模仿决策构建第一损失函数，以最小化第一损失函数为目标对第一神经网络进行迭代训练，最终得到训练好的CIL模块。上述所有全连接层均加了Dropout(随机失活)层进行优化。

具体地，所述Actor网络包括第二特征网络和第二决策网络，所述第二特征网络和第二决策网络的结构分别与第一特征网络和第一决策网络的完全相同，但网络的各个权重值不一定相同；所述Actor网络以所述特征图、航向角以及特征向量为输入，输出演员决策。所述Critic网络包括第三特征网络和第三决策网络，所述第三特征网络包括第三特征图通道、第三特征向量通道、决策输入通道和第九全连接层；所述决策输入通道接收所述演员决策，使其依次通过第十全连接层和第十一全连接层；所述第三特征图通道、第三特征向量通道和决策输入通道的输出拼接后通过第九全连接层，得到第二特征中间值；所述第三决策网络以所述第二特征中间值为输入，输出评论家决策；所述第三特征图通道、第三特征向量通道和第三决策网络的结构分别与第一特征图通道、第一特征向量通道和第一决策网络的完全相同，但网络的各个权重值不一定相同。上述所有全连接层均加了Dropout(随机失活)层进行优化。

具体地，所述Actor网络的各个权重值用训练好的CIL模块的对应权重值进行初始化；所述Critic网络的第三特征图通道用训练好的CIL模块的第一特征图通道的对应权重值进行初始化，其他部分的权重值则进行随机初始化。

具体地，所述RL优化环节参考环境信息，针对所述演员决策构建第二损失函数，针对所述评论家决策构建策略梯度，分别以最小化所述第二损失函数为目标对所述Actor网络、以最优化所述策略梯度为目标对所述Critic网络进行迭代训练，最终得到训练好的RL模块。

具体地，所述RL模块的算法可以选择经典DDPG算法，或各种改进的DDPG算法，或其他强化学习算法(如PPO、SAC、A3C、TRPO等)。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于条件模仿学习和强化学习的自动驾驶方法，其特征在于，包括：

2.根据权利要求1所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于，在所述步骤S2中：

所述航向角的计算方法：根据所述位置信息和规划轨迹信息，从规划轨迹线中选取距离车辆当前位置最近的N个轨迹点，相邻的两个轨迹点依次连接形成N-1个轨迹线段，分别计算车辆当前朝向相对于N-1个轨迹线段的角度，然后求这N-1个角度的平均值，得到所述航向角。

4.根据权利要求1所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于，在所述步骤S2中：

5.根据权利要求1所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于，在所述步骤S3中：

所述模型为条件模仿学习强化学习模型，分为条件模仿学习模块和强化学习模块；

在所述条件模仿学习模块和强化学习模块中，所有的全连接层均加入随机失活层进行优化。

6.根据权利要求5所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于：

所述条件模仿学习模块具有第一神经网络，第一神经网络包括第一特征网络、第一决策网络和第一优化环节，所述条件模仿学习模块以所述特征图、航向角以及特征向量为输入，以所述专家决策作为真值标签，对所述第一神经网络进行训练。

7.根据权利要求6所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于：

在所述第一特征网络中，所述特征图通过具有三层结构的卷积层，得到第一中间值，所述第一中间值依次通过第一全连接层和第二全连接层之后，得到第二中间值；所述航向角依次通过第三全连接层和第四全连接层之后，得到第三中间值；所述第二中间值和第三中间值拼接后通过第五全连接层，得到第四中间值；从所述特征图和航向角得到所述第四中间值的结构称为第一特征图通道；所述特征向量依次通过第六全连接层和第七全连接层之后，得到第五中间值，从所述特征向量得到所述第五中间值的结构称为第一特征向量通道；第四中间值和第五中间值拼接后通过第八全连接层，得到第一特征中间值。

8.根据权利要求6所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于：

在所述第一优化环节中，根据所述专家决策和模仿决策构建第一损失函数，以最小化所述第一损失函数为目标对所述第一神经网络进行迭代训练，得到训练好的条件模仿学习模块。

9.根据权利要求5所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于：

所述强化学习模块具有第二神经网络，所述第二神经网络包括演员网络、评论家网络和强化学习优化环节；

所述演员网络的各个权重值用训练好的条件模仿学习模块的对应权重值进行初始化；所述评论家网络的第三特征图通道用训练好的条件模仿学习模块的第一特征图通道的对应权重值进行初始化，其他部分的权重值进行随机初始化。

10.根据权利要求9所述的基于条件模仿学习和强化学习的自动驾驶方法，其特征在于：

所述强化学习模块采用DDPG算法或者改进的DDPG算法。