CN117227755A

CN117227755A - 基于强化学习的复杂交通场景下自动驾驶决策方法及系统

Info

Publication number: CN117227755A
Application number: CN202311245950.6A
Authority: CN
Inventors: 武志斐; 张少杰; 吴鑫; 王增荣; 李守彪
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-15

Abstract

本发明公开了基于强化学习的复杂交通场景下自动驾驶决策方法及系统，通过强化学习方法处理不同交通场景，具有较好的泛化性。基于传统强化学习框架，使用自注意力网络提取环境信息和车辆信息的特征量作为观测空间，筛选主要车辆，对主要车辆下一时刻行驶区域做出预测，提高车辆行驶安全性以及复杂环境的适应能力。在此基础上增加的风险矫正模块，可以屏蔽车辆的危险换道动作，从而大大提高车辆行驶安全性，降低碰撞事故的发生，保证乘员安全。

Description

基于强化学习的复杂交通场景下自动驾驶决策方法及系统

技术领域

本发明属于自动驾驶技术领域，具体涉及基于强化学习的复杂交通场景下自动驾驶决策方法及系统。

背景技术

驾驶策略是自动驾驶汽车智能化的体现，有可能重塑移动交通工具，并使交通系统更具高效性、便捷性和安全性。随着研究的深入，自动驾驶车辆的行为策略开始由低级转变得更加高级智能，但以自主学习方法得到的高级驾驶策略具有竞争性，导致车辆驾驶行为激进，在行驶过程中容易忽视潜在风险，对乘员的生命安全造成威胁。因此，驾驶策略的研究与车辆行驶安全密切相关。

现如今自动驾驶技术根据功能可以分为感知、决策和控制三个主要模块，其中感知以及控制随着技术的发展已经逐渐趋于完善，决策机制逐渐成为决定自动驾驶能达到L3以及L4、L5的关键模块。当前基于规则的决策方法无法应对复杂多变的交通场景时存在不足，使得车辆行驶存在较大安全隐患。

基于规则的驾驶策略采取一种防御性的驾驶行为，对周围车辆保持负面态度，总是通过保守避让的策略减小潜在碰撞风险，因此在复杂环境下总是更倾向于自愿放弃本该有的通行优先权，让步于其他车辆。这种防御性的驾驶策略导致了车辆缺乏长期决策、影响交通效率。

新兴的基于自主学习的方法采用大量驾驶经验数据，使车辆学习到专家驾驶习惯和行为，这种驾驶策略被称为竞争性驾驶策略。竞争性驾驶策略通常使用深度学习或深度强化学习实现。竞争性策略与防御性策略最大的区别是将其他交通参与者视为理性驾驶的车辆，对其他车辆驾驶者保持积极态度。然而竞争性策略存在将其他车辆过度理想化导致忽视潜在的风险，将车辆置于危险境地，同时该策略使自动驾驶车辆过分追求自身的驾驶利益，从而影响其他交通参与者，继而导致整个交通效率下降。造成此种现象的原因是竞争性策略主要从仿真环境或专家的先验知识中训练得到，缺乏严格的安全性分析和约束，没有对潜在风险进行考虑，由于奖励函数的存在往往将车辆对场景的风险从中性转变为偏好，导致随着训练的进行，驾驶策略对风险逐渐忽略从而产生更激进的驾驶行为。因此要不断完善强化学习在自动驾驶决策方面的作用机制，改进其弊端，才能使其得到有实际意义的应用。

发明内容

针对现有技术的不足，本发明提出了基于强化学习的复杂交通场景下自动驾驶决策方法及系统，通过构建中高速场景下的高速公路、交叉路口以及环形路口多个子场景，针对每个子场景的交通特性在强化学习算法的基础上结合风险矫正函数、注意力机制和区间预测制订出每个子场景的驾驶策略并在仿真平台对算法进行训练和验证。研究成果改善竞争性策略的不足，提高车辆行驶安全性与道路通行效率，为中高速场景下的自动驾驶策略提供参考，推动自主学习在自动驾驶汽车中的实际应用。

为实现上述目的，本发明提供了如下方案：

基于强化学习的复杂交通场景下自动驾驶决策方法，包括以下步骤：

S1：搭建自动驾驶仿真环境，基于所述自动驾驶仿真环境，获取车辆自身状态信息及周围环境信息；

S2：利用所述周围环境信息，对周围车辆的可行驶区域进行预测；

S3：对周围车辆的可行驶区域预测信息与所述车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重；

S4：基于所述注意权重，对当前时刻的环境特征信息进行分析处理，依据预设的强化学习分析算法提供的自动驾驶车辆的运行策略，得到车辆的下一时刻运行动作；

S5：基于所述车辆的下一时刻运行动作，对车辆行为进行风险判断，对激进危险驾驶行为给予惩罚与矫正。

优选的，所述自动驾驶仿真环境包括：高速公路、交叉路口以及环形路口中高速交通场景。

优选的，所述车辆自身状态信息包括当前时刻车辆的id信息、位置信息和运行状态信息；所述周围环境信息包括当前时刻其他车辆的id信息、位置信息和运行状态信息。

优选的，所述S2中，利用所述周围环境信息，对周围车辆的可行驶区域进行预测的方法包括：

利用当前时刻周围车辆的位置信息和运行状态信息，对下一时刻的周围车辆位置信息和运行状态信息进行预测，得到周围车辆的区间可行驶区域信息。

优选的，所述S3中，对周围车辆的可行驶区域预测信息与所述车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重的方法包括：

式中，δ为softmax函数，d_k为特征线性变换后维度数，Q代表注意力机制里面的查询query，K代表键key，V代表值value，Q、K和V这三个值由输入特征经过线性变换得到。

优选的，所述S4中，所述预设的强化学习分析算法为SAC算法，利用马尔可夫决策过程对当前时刻的环境特征信息分析过程描述，形成六次元组M＝(S，A，π，R，G，P)；其中S为状态空间，即当前时刻智能驾驶车辆及感知到的环境状态的集合；A为动作空间，即当前状态空间下，所有的动作集合A；π为当前环境状态下的不同动作概率分布；R为环境根据动作由奖励函数产生的奖励值；G为智能驾驶车辆在一个回合中的总奖励R；P为状态转移，所述状态转移是指当智能驾驶车辆在环境中做出动作后，环境由当前状态转移到下一状态的过程。

优选的，所述奖励函数的表达式为：

R＝ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅

其中，r₁为碰撞惩罚，r₂为交通规则惩罚，r₃为速度奖励，r₄为时间惩罚，r₅为任务完成奖励；ω₁，ω₂，ω₃，ω₄，ω₅为各项奖励的权重系数。

优选的，所述S5中，基于所述车辆的下一时刻运行动作，对车辆行为进行风险判断的方法包括：

G(t)＝max(G_safe(t)，G_min)，

其中，G(t)为理想的行车间距，v_p为前车速度，δ为通信延迟，默认20ms，d_f和d_p分别表示前后车辆的制动能力，G_safe为当前时刻车辆计算得到的最小安全距离，G_min为自定义最小安全距离，取两者的最大值作为最小安全距离，当自动驾驶车辆与其他环境车辆距离低于该最小安全距离时，则认为存在风险。

本发明还提供了基于强化学习的复杂交通场景下自动驾驶决策系统，包括：

仿真环境搭建模块、碰撞预测模块、注意力网络模块、强化学习模块和风险矫正模块；

所述仿真环境搭建模块用于搭建自动驾驶仿真环境，基于所述自动驾驶仿真环境，获取车辆自身状态信息及周围环境信息；

所述碰撞预测模块用于利用所述周围环境信息，对周围车辆的可行驶区域进行预测；

所述注意力网络模块用于对周围车辆的可行驶区域预测信息与所述车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重；

所述强化学习模块用于基于所述注意权重，对当前时刻的环境特征信息进行分析处理，依据预设的强化学习分析算法提供的自动驾驶车辆的运行策略，得到车辆的下一时刻运行动作；

所述风险矫正模块用于基于所述车辆的下一时刻运行动作，对车辆行为进行风险判断，对激进危险驾驶行为给予惩罚与矫正。

与现有技术相比，本发明的有益效果为：

本发明提供了一种基于强化学习将碰撞预测和注意力机制相结合的复杂交通场景下自动驾驶决策方法，该方法对强化学习训练出的竞争性策略进行完善，与碰撞预测和自注意力网络相结合，使得车辆在城市场景和高速场景下具有较好的通用性，并且在多目标复杂场景下可以过滤无关车辆重点关注主要车辆提高车辆的决策能力。强化学习综合建模基于传统强化学习框架，使用环境感知信息及结合人类知识提取的特征量作为观测空间，根据评价指标设定车道线保持、行驶距离及避撞等作为强化学习算法中智能体车辆的奖赏与惩罚。模型训练时则通过元学习思想结合时变训练策略，每一阶段分别设定不同的奖赏权重和不同的训练集以强化智能体在先前训练阶段中所形成的部分行为缺陷，提升智能体在部分弱项场景下的表现，可以提高训练速度和策略应用的泛化性。另外还提出了风险矫正模块，使车辆具备识别危险动作与危险场景的能力，可以大大提高训练效率和车辆行驶安全性，减少碰撞次数。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的基于强化学习的复杂交通场景下自动驾驶决策方法流程示意图；

图2为本发明实施例中的强化学习训练算法框架图；

图3为本发明实施例中的算法步骤训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供了基于强化学习的复杂交通场景下自动驾驶决策方法，包括以下步骤：

S1：搭建自动驾驶仿真环境，基于自动驾驶仿真环境，获取车辆自身状态信息及周围环境信息；

S2：利用周围环境信息，对周围车辆的可行驶区域进行预测；

S3：对周围车辆的可行驶区域预测信息与车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重；

S4：基于注意权重，对当前时刻的环境特征信息进行分析处理，依据预设的强化学习分析算法提供的自动驾驶车辆的运行策略，得到车辆的下一时刻运行动作；

S5：基于车辆的下一时刻运行动作，对车辆行为进行风险判断，对激进危险驾驶行为给予惩罚与矫正。

下面将参考附图并结合实施例来详细说明本发明。参照图1至图3所示，其主要包括以下步骤：

步骤1，准备用于自动驾驶仿真的模拟器环境以及搭建的交通场景；

步骤2，在观测空间中添加训练强化学习模型所需的环境特征信息作为观测信息，包括自车信息、他车信息和道路信息，根据所述环境特征信息计算关键特征信息，包括规划的道路行驶路径、自车与道路朝向夹角以及其他车辆行驶速度、航向角等。

步骤3，设置所述强化学习模型训练所需的奖励框架；

步骤4，基于所训练的强化学习模型，在结合使用区间预测模型在不同交通场景下去训练，每隔一定迭代轮数根据智能体行驶表现及与其他车辆的碰撞方式修改训练时的奖励权重；

步骤5，风险矫正函数根据智能体做出的行车动作判别智能体是否危险，来限制或调整强化学习模型输出的行为，指导强化学习模型学习到安全的行驶动作并加速训练过程。

在本实施例中，本发明的决策方法是指以车辆行驶精准、行车速度快、行驶安全性和算法鲁棒性以及过滤无关车辆信息为目的。具体来说，在单一交通场景中要求车辆在固定行驶距离的情况下进行相同次数的模拟，车辆平均行驶速度尽量大，偏离航线次数尽量少行驶更精准，尽可能减少碰撞次数以及可以适应稀疏车流以及密集车流的情形。

在本实施例中，本发明训练所采用的交通场景是指在模拟器中训练所使用的地图场景，具有多种道路类型和车流的情况，所使用的地图类型包括简单、急弯、交叉路口、环岛、汇合、分流、多种道路混合场景等，不同的场景也包含不同密集程度的环境车辆。在模拟环境所设定的规则种，环境车辆的行驶轨迹和行驶目的地具有一定的随机性。

观测空间中添加训练强化学习模型所需的环境特征信息作为环境观测信息，根据环境特征信息计算关键特征量。这里的强化学习模型中，输入观测空间包括有自车信息、他车信息、道路信息等环境感知信息，以及从环境信息中提取的观测特征；其输出动作则包括油门开度、刹车控制、方向盘转角控制。

在本实施例中，环境观测信息包括自车信息、他车信息和道路信息等环境感知信息。其中，自车信息包括，自车id、自车坐标系相对世界坐标系的x轴偏移量、自车坐标系相对世界坐标系的y轴偏移量、自车在x轴上的速度、自车在y轴上的速度、弧度制的车辆航向的sin值、弧度制的车辆航向的cos值共计7个维度。他车信息包括他车id、他车坐标系相对世界坐标系的x轴偏移量、他车坐标系相对世界坐标系的y轴偏移量、他车在x轴上的速度、他车在y轴上的速度、弧度制下他车航向的sin值、弧度制下他车航向的cos值共计7个维度。

在本实施例中，利用周围环境信息，对周围车辆的可行驶区域进行预测的方法包括：

在本实施例中，对周围车辆的可行驶区域预测信息与车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重的方法包括：

式中，δ为softmax函数，d_k为特征线性变换后维度数，Q代表注意力机制里面的查询(query)，K代表键(key)，V代表值(value)，Q、K和V这三个值由输入特征经过线性变换得到。

在本实施例中，预设的强化学习分析算法为SAC算法，利用马尔可夫决策过程对当前时刻的环境特征信息分析过程描述，形成六次元组M＝(S，A，π，R，G，P)；其中S为状态空间，即当前时刻智能体及感知到的环境状态的集合；A为动作空间，即当前状态空间下，所有的动作集合A；π为当前环境状态下的不同动作概率分布；R为环境根据动作由奖励函数产生的奖励值；G为智能体在一个回合中的总奖励R；P为状态转移，所述状态转移是指当智能体在环境中做出动作后，环境由当前状态转移到下一状态的过程。其中，在强化学习当中，有智能体(agent)的概念，智能体在环境(environment)当中，根据当前的状态(state)的观测值(observation)做出动作(action)，这里面的state和action就是本发明中六元数组的S和A。因此，在本发明中，智能体这个概念其实表示的是“智能驾驶车辆”。

在本实施例，设置强化学习模型训练所需的奖励框架。在强化学习模型训练的奖励框架中，包括环境奖赏，速度奖赏，碰撞惩罚，车道中心偏差惩罚。其中环境奖赏为自车存活时间，表示自车从起点行驶至发生碰撞所经历的时长，其值从1逐渐增加到4，再从1开始逐步增加，在仿真环境中单步模拟只要自车还存活就给奖励。速度奖赏为自车行驶速度，以每秒行驶距离为单位。车道中心偏差惩罚为车辆中心与中心线距离的绝对值。碰撞惩罚包括三种为当自车驶离航线、自车行驶出道路边界或自车与环境车发生碰撞时会给予相应的碰撞惩罚，其值均为常数5，且其权重随迭代次数增加而增加，也就是每一种情况产生便获得的惩罚，各项惩罚的系数分别是1,0.5,0.1,1.2。这些系数会在训练过程中进行调整。

在本实施例中，奖励函数的表达式为：

R=ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅

在本实施例中，基于车辆的下一时刻运行动作，对车辆行为进行风险判断的方法包括：

G(t)＝max(G_safe(t)，G_min)，

在本实施例中，参照图3所示，基于时变训练法结合元模型训练强化学习模型，可以提升车辆在部分特殊场景中的表现，如十字路口、环岛等。下面给出其训练步骤：

步骤4.1，初始化所述强化学习模型，依次使用每个场景训练一定轮数得到元模型；

步骤4.2，使用时变训练法在所选场景下训练步骤4.1得到的元模型，是根据智能体的行为所存在缺陷调整奖励权重；

步骤4.3，设置场景为所有无交叉路口的简单场景，重复步骤4.2过程训练，提升在无交叉路口简单场景下的表现；

步骤4.4，设置场景为所有含交叉路口的场景，重复步骤4.2过程训练，提升在交叉路口场景下的表现；

步骤4.5，设置场景为含环岛与多方向车辆的场景，重复步骤4.2过程训练，提升在环岛与多方向车辆场景下的表现；

步骤4.6，在剩余的场景下继续训练，直至过程结束。

具体而言，在步骤4.2中，使用区间预测方法训练强化学习模型的具体过程为：

步骤4.2.1，设置强化学习模型超参数；

步骤4.2.2，设置奖励函数为基本奖励，使Agent学会车道保持，开始迭代训练；

步骤4.2.3，调高车道中心偏差惩罚与碰撞惩罚权重，继续迭代训练；

步骤4.2.4，继续调高碰撞惩罚，继续迭代训练；

步骤4.2.5，在原有场景数据集基础上新增场景，并新增速度奖赏以及调高车道中心偏差惩罚与碰撞惩罚权重，直至迭代结束。

综上所述，本发明提供了多目标场景下安全强化学习的解决方案，此项技术可应用于智能车辆辅助驾驶、无人驾驶等领域，与传统的完全端到端方案和基于规则方案相比，提供了一种新的混合方案思路，结合两者优点实现车辆在复杂、多种场景下高安全性、高智能性、高效率行驶的目的，因此，本技术具有很高的推广价值。

实施例二

仿真环境搭建模块用于搭建自动驾驶仿真环境，基于自动驾驶仿真环境，获取车辆自身状态信息及周围环境信息；

碰撞预测模块用于利用周围环境信息，对周围车辆的可行驶区域进行预测；

注意力网络模块用于对周围车辆的可行驶区域预测信息与车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重；

强化学习模块用于基于注意权重，对当前时刻的环境特征信息进行分析处理，依据预设的强化学习分析算法提供的自动驾驶车辆的运行策略，得到车辆的下一时刻运行动作；

风险矫正模块用于基于所述车辆的下一时刻运行动作，对车辆行为进行风险判断，对激进危险驾驶行为给予惩罚与矫正。

下面将结合实施例来详细说明本发明的具体过程。其主要包括以下步骤：

步骤1，搭建用于自动驾驶测试的仿真交通模拟场景；

步骤2，将仿真环境提供的观测信息，包括自车信息、周围车辆信息以及道路信息打包为数据流充当训练强化学习模型所需的环境特征信息，根据环境特征信息提炼出主要信息，包括每条车道信息、自车的速度和航向角，他车的速度、位置以及航向角等。

步骤3，通过他车的位置以及航向角信息预测其下一时刻可行驶区域；

步骤4，设置所述强化学习模型训练所需的奖励框架；

步骤5，针对强化学习输出的车辆行为动作，通过风险矫正模块对危险动作进行屏蔽，给予智能体一个惩罚的同时做出安全动作，若是动作被评估为安全则继续执行此动作。

步骤6，在不同交通场景下基于自注意力网络训练所述强化学习模型，结合可行驶区域预测，每间隔一定的迭代轮数根据智能体行驶表现情况及获得的奖励值调整网络参数权重，不断重复上述过程直到奖励值收敛。

步骤7，根据奖励值收敛趋势，来限制或调整所述强化学习模型的奖励函数组成，并通过在仿真环境中观察效果不断手动添加和优化奖励函数。

进一步的，步骤3中对观测到的其他车辆的位置、速度等信息采用区间预测算法预测出可行使区域。

进一步的，步骤4中所述奖励框架包括碰撞惩罚、速度奖励、时间惩罚、完成奖励、动作驳回惩罚、交通规则惩罚、驶入其他车辆行驶区域惩罚。

进一步的，步骤5中对本车当前环境周围是否存在车辆评估左右换道动作的危险程度，若判断为危险则驳回该动作，并做出车辆减速的安全动作。

进一步的，步骤6中所述基于自注意力的强化学习模型，其具体步骤为：

步骤6.1，初始化所述强化学习模型，依次使用每个场景训练一定轮数得到的元模型；

步骤6.2，使用自注意力网络处理复杂场景下多目标车辆，计算每个其他车辆对主车的影响，过滤无关车辆以及其他信息，根据智能体行为所存在的缺陷调整奖励权重；

步骤6.3，设置场景为高速公路场景、交叉路口场景以及环岛场景，重复4.2过程训练，提升在预置场景中的表现，直至过程结束。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述自动驾驶仿真环境包括：高速公路、交叉路口以及环形路口中高速交通场景。

3.根据权利要求1所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述车辆自身状态信息包括当前时刻车辆的id信息、位置信息和运行状态信息；所述周围环境信息包括当前时刻其他车辆的id信息、位置信息和运行状态信息。

4.根据权利要求3所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述S2中，利用所述周围环境信息，对周围车辆的可行驶区域进行预测的方法包括：

5.根据权利要求1所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述S3中，对周围车辆的可行驶区域预测信息与所述车辆自身状态信息进行特征提取与融合，获取与车辆自身存在运动空间冲突的周围车辆特征信息的注意权重的方法包括：

6.根据权利要求1所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述S4中，所述预设的强化学习分析算法为SAC算法，利用马尔可夫决策过程对当前时刻的环境特征信息分析过程描述，形成六次元组M＝(S，A，π，R，G，P)；其中S为状态空间，即当前时刻智能驾驶车辆及感知到的环境状态的集合；A为动作空间，即当前状态空间下，所有的动作集合A；π为当前环境状态下的不同动作概率分布；R为环境根据动作由奖励函数产生的奖励值；G为智能驾驶车辆在一个回合中的总奖励R；P为状态转移，所述状态转移是指当智能驾驶车辆在环境中做出动作后，环境由当前状态转移到下一状态的过程。

7.根据权利要求6所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述奖励函数的表达式为：

R=ω₁r₁+ω₂r₂+ω₃r₃+ω₄r₄+ω₅r₅

8.根据权利要求1所述的基于强化学习的复杂交通场景下自动驾驶决策方法，其特征在于，所述S5中，基于所述车辆的下一时刻运行动作，对车辆行为进行风险判断的方法包括：

G(t)＝max(G_safe(t)，G_min)，

9.基于强化学习的复杂交通场景下自动驾驶决策系统，其特征在于，包括：