CN114781072A

CN114781072A - 一种无人驾驶车辆的决策方法和系统

Info

Publication number: CN114781072A
Application number: CN202210683994.6A
Authority: CN
Inventors: 徐书缘; 陈雪梅; 韩欣彤; 杨宏伟; 高丛政
Original assignee: Shandong Weichuang Information Technology Co ltd; Advanced Technology Research Institute of Beijing Institute of Technology
Current assignee: Shandong Weichuang Information Technology Co ltd; Advanced Technology Research Institute of Beijing Institute of Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-07-22

Abstract

本发明提出了一种无人驾驶车辆的决策方法和系统，该方法包括获取交叉口环境下第一时刻观测状态；将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作；接收时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值；获取第二时刻观测状态共同形成预测信息，更新时序观测状态，重新执行决策模型，更新奖励值直到目标车辆穿越交叉口环境。基于该方法，还提出了决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率。

Description

一种无人驾驶车辆的决策方法和系统

技术领域

本发明属于无人驾驶决策技术领域，特别涉及一种无人驾驶车辆的决策方法和系统。

背景技术

在安全和效率方面，无人驾驶车辆比有人驾驶车辆具有巨大优势。城市环境是自主车辆必须处理的最复杂的场景，特别是无信号灯的十字路口。城市十字路口的决策更具挑战性，因为穿越行为是一个强烈的时间约束、多目标的优化过程。当交通参与者在无信号灯的十字路口一个接一个地通过冲突区时，车辆面临着潜在的威胁。因此，研究无信号灯交叉口的通行决策具有重要的实际意义。由于机器学习的发展，基于学习的方法在自主车辆的决策研究中得到了广泛关注。然而在实际应用中，强化学习决策算法的学习效率和泛化能力还需要进一步提高，基于学习的决策方法的性能受到数据集质量的限制，还需要进一步改进。

现有技术中给出了不同的解决方案，在方案一中针对不同的交通参与者之间会不可避免地产生时间或空间上的冲突问题,对智能驾驶车辆在城市交叉口左转时潜在的冲突行为进行分析并建立决策模型。考虑了车辆运动模式并基于高斯过程回归模型（GPR）建立了直行车辆长时轨迹预测模型，结合轨迹预测提出了基于冲突消解的智能驾驶车辆决策流程模型和考虑多因素的驾驶动作选择方法。在方案二中针对交叉口穿越行为，引入人类驾驶经验规律在指导在线强化学习，利用Q-learning和NQL算法实现最优策略迭代。在方案二中针对端到端学习，提出利用DDPG模型实现从感知信息到控制信息的决策，明显优于DQN模型。但是现有技术具有两点不足之处：第一，针对交叉口场景的传统方法缺乏算法灵活性，主要依靠碰撞时间TTC来进行避障判断，针对交叉口场景的深度学习方法缺乏泛化性，对数据质量要求较高。第二，现有的基于强化学习的决策模型虽然考虑复杂化环境下的各类障碍物，但仍然缺乏高效的收敛性和交叉口环境的泛化性能。例如，有些模型在简单场景的训练时间较长，收敛速度慢；有些模型无法具备场景适应性，周围车辆的位置变化导致决策模型无法安全通行。

发明内容

为了解决上述技术问题，本发明提出了一种无人驾驶车辆的决策方法和系统。融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率、提升算法泛化能力，提高系统实时性。

为实现上述目的，本发明采用以下技术方案：

一种无人驾驶车辆的决策方法，包括以下步骤：

获取交叉口环境下第一时刻观测状态；所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置，以及环境车辆的速度和环境车辆的位置；所述环境车辆为与目标车辆存在冲突的车辆；

将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作；

在得到确定性动作后，接收所述时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值；

获取第二时刻观测状态共同形成预测信息，更新所述时序观测状态，重新执行所述决策模型，更新奖励值直到目标车辆穿越交叉口环境。

进一步的，在获取交叉口环境下第一时刻观测状态之后，搭建无信号灯交叉口通行仿真场景，利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。

进一步的，所述时序观测状态生成的方法包括：

基于第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态；第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态；

其中，第一时刻观测状态

，t为时刻；

第一时刻之前多个连续时刻观测状态为

，

其中，t=1,2,3...n；所述时序观测状态

。

进一步的，所述目标车辆的加速度得到的方法为：所述时序观测状态为神经网络提供的环境信息为

；环境信息表达为：

；

其中

为目标车辆水平方向的相对位置；

为第一冲突车辆垂直方向的相对位置；

为第m冲突车辆垂直方向的相对位置；

为目标车辆速度；

为第一冲突车辆的速度；

为第m冲突车辆的速度；

为目标车辆的状态，包括相对位置和速度；

为第一冲突车辆的状态；

为第m冲突车辆的状态；

设定交叉口环境下冲突车辆之外的车辆状态为0，则目标车辆的加速度为：

；其中

为目标车辆的加速度。

进一步的，所述在得到确定性动作后还包括：

初始化第一评论者

、第二评论者

和行动者

；初始化第一评论者的目标函数

、第二评论者的目标函数

和行动者的目标函数

；初始化第一评论者的权重

、第二评论者的权重

和初始化行动者的权重

；以及初始化记忆缓冲区R；

其中

表示动作；

表示状态。

进一步的，接收所述时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值的过程包括：

目标车辆从起始位置穿越交叉口完成任务或者目标车辆在冲突区域发生碰撞时进入下一个回合时，接收

以及

；

根据

和

，在记忆缓冲区R存入

；其中

为执行行动；

为观察奖励；

为观察下一状态奖励；

从R中随机抽取批次数据D；

；

其中

代表正态分布，

代表截取参数；

代表批量的动作；

代表噪声；

代表动作策略；

；

代表计算TD的目标值；

代表短期奖励优先级的折扣系数；

更新评论者网络；

；

如果时刻t能够整除2，那么更新第一评论者网络、第二评论者网络和行动者网络。

进一步的，所述方法运行于目标车辆的车载计算平台。

本发明还提出了一种无人驾驶车辆的决策系统，包括：获取模块、训练模块、计算模块和执行模块；

所述获取模块用于获取交叉口环境下第一时刻观测状态；所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置，以及环境车辆的速度和环境车辆的位置；所述环境车辆为与目标车辆存在冲突的车辆；

所述训练模块用于将所述第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作；

所述计算模块用于在得到确定性动作后，接收所述时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值；

所述执行模块用于获取第二时刻观测状态共同形成预测信息，更新所述时序观测状态，重新执行所述决策模型，更新奖励值直到目标车辆穿越交叉口环境。

进一步的，所述获取模块执行之后还包括搭建无信号灯交叉口通行仿真场景，利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。

进一步的，所述训练模块执行的详细过程包括：

其中，第一时刻观测状态

，t为时刻；

第一时刻之前多个连续时刻观测状态为

，

其中，t=1,2,3...n；所述时序观测状态

；

时序观测状态为神经网络提供的环境信息为

；环境信息表达为：

；

其中

为目标车辆水平方向的相对位置；

为第一冲突车辆垂直方向的相对位置；

为第m冲突车辆垂直方向的相对位置；

为目标车辆速度；

为第一冲突车辆的速度；

为第m冲突车辆的速度；

为目标车辆的状态，包括相对位置和速度；

为第一冲突车辆的状态；

为第m冲突车辆的状态；

；其中

为目标车辆的加速度。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种无人驾驶车辆的决策方法和系统，该方法包括以下步骤：

获取交叉口环境下第一时刻观测状态；第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置，以及环境车辆的速度和环境车辆的位置；环境车辆为与目标车辆存在冲突的车辆；将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作；在得到确定性动作后，接收时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值；获取第二时刻观测状态共同形成预测信息，更新所述时序观测状态，重新执行所述决策模型，更新奖励值直到目标车辆穿越交叉口环境。基于一种无人驾驶车辆的决策方法，还提出了一种无人驾驶车辆的决策系统。本发明融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率、提升算法泛化能力，提高系统实时性。

本发明利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络，实现探索网络与行动者网络叠加生成更优动作靠近，实现算法的快速收敛。

本发明采用时间双延迟深度确定性策略梯度算法，将MDP模型扩展序列化，利用预测的思想，将LSTM神经网络放入TD3框架中，通过强化学习与环境的交互过程考虑周围车辆的运动趋势，并执行适当的策略，实现算法的泛化性。

附图说明

如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图；

如图2为本发明实施例2一种无人驾驶车辆的决策系统示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例1

本发明实施例1提出了一种无人驾驶车辆的决策方法。融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率、提升算法泛化能力，提高系统实时性；如图1为本发明实施例1一种无人驾驶车辆的决策方法流程图，该方法运行于无人驾驶目标车辆的车载计算平台。

在步骤S100中，获取交叉口环境下第一时刻观测状态；第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置，以及环境车辆的速度和环境车辆的位置；环境车辆为与目标车辆存在冲突的车辆；

在复杂城市交叉口场景，目标车辆在到达无信号交叉口前，目标车辆的车载计算平台确定交叉口环境下与自主车辆存在潜在冲突的环境车辆的第一时刻观测状态。观测状态即为训练模型中的状态空间。

在步骤S110中，将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作。

时序观测状态生成的方法包括：

其中，第一时刻观测状态

，t为时刻；

第一时刻之前多个连续时刻观测状态为

，

其中，t=1,2,3...n；所述时序观测状态

。

搭建无信号灯交叉口通行仿真场景，利用仿真器中的激光雷达和摄像头来获取周边障碍物的信息数据。

本发明实施例1中，选择典型城市交叉口，双向4车道，设定所有车辆的初始速度为40km/h。周围的车辆以恒定的速度行驶。本车的初始位置被随机设置为从停车线到停车线后50米。周围车辆的初始位置也是随机设置的，但它们的间距被设置为20米，符合城市交叉口的间距，随机设置的目的是为了创造一个真实的交通模拟，增加决策泛化的能力。目的是让目标车辆根据周围车辆的状态，自主地选择提前通过交通流，或从交通流中间通过，或从交通流后通过。

时序观测状态为神经网络提供的环境信息为

；环境信息表达为：

；

其中

为目标车辆水平方向的相对位置；

为第一冲突车辆垂直方向的相对位置；

为第m冲突车辆垂直方向的相对位置；

为目标车辆速度；

为第一冲突车辆的速度；

为第m冲突车辆的速度；

为目标车辆的状态，包括相对位置和速度；

为第一冲突车辆的状态；

为第m冲突车辆的状态；

；其中

为目标车辆的加速度。

在步骤S120中，在得到确定性动作后，接收时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值。

本发明首先基于元探索深度确定性策略梯度算法进行建模，元探索策略

取代传统的OU噪声网络生成一组数据并将其送入记忆存储区，评论者网络从中学习经验。目标是改进原有的actor网络使得它能生成大量更有用的数据，使得原有DDPG尽可能快地收敛和提高奖励值。

优化有元探索策略输入

和无元探索策略输入

的更新之间的差异

是元探索强化学习的关键。

；

其中

表示一个新的策略更新，在π的数据基础上，从记忆存储区中采样的新策略。

表示动作，

表示下一时刻的动作，

表示状态，

表示下一时刻的状态，

，

分别表示actor和critic的网络参数。与行为者策略不同的是，元探索策略是基于随机策略梯度的，我们可以计算出以下梯度

：

；

其中，

是给定策略

产生一个批次数据D的转移概率，通过增加价值函数的梯度，引导

元探索策略训练方向为全局探索，N是训练的批次数目batch_size。其中概率分布可以被分解为：

；

；

其中

表示过渡概率和

表示初始分布，

表示状态为

，执行动作的策略

。因为

不涉及探索策略参数

，通过计算梯度可得到：

；

因此，如果获得该元奖励回报

，就可以按照更新规则来更新探索策略参数

；其中，

；其中

代表学习率。

在基于价值的强化学习方法中，已知价值函数的近似误差会导致高估的价值估计，最终导致得到一个不完美的策略。为了很好地处理这个问题，双延迟深度确定性策略梯度（TD3）算法应运而生，本发明提出基于元探索时间双延迟深度确定性策略梯度算法模型。具体而言，元探索采用上述的模型。

传统的马尔可夫决策过程只与当前状态有关。然而，忘记以前的状态在自主驾驶中是不合理的，因为自主驾驶任务与时间相关。本发明使用多帧数据作为输入来训练自主车辆。算法策略将当前状态和过去一段时间的状态考虑在内，并将预测信息整合到MDP模型中。在此基础上，本发明提出了一种改进的TD3算法，称为时间双延迟的深度确定型策略梯度（T-TD3），其中TD3算法与DDPG算法的主要不同在于多了一个评论者网络。

第一时刻观测状态确认在第一时刻之前多个连续时刻观测状态；第一时刻和在第一时刻之前多个连续时刻观测状态构成时序观测状态；

其中，第一时刻观测状态

，t为时刻；

第一时刻之前多个连续时刻观测状态为

，

其中，t=1,2,3...n；所述时序观测状态

。

本发明将DDPG基础框架中原有的网络由全连接神经网络修改为LSTM神经网络，通过强化学习与环境的交互过程考虑周围车辆的运动趋势，并执行适当的策略。与基于目标状态识别的决策方法相比，基于行动预测的算法的实时性更好，泛化性更强。其中DDPG为深度确定性策略梯度。

所以本发明实现的过程为：

初始化第一评论者

、第二评论者

和行动者

；初始化第一评论者的目标函数

、第二评论者的目标函数

和行动者的目标函数

；初始化第一评论者的权重

、第二评论者的权重

和初始化行动者的权重

；以及初始化记忆缓冲区R；

其中

表示动作；

表示状态；

以及

；

根据

和

，在记忆缓冲区R存入

；其中

为执行行动；

为观察奖励；

为观察下一状态奖励；

从R中随机抽取批次数据D；

；

其中

代表正态分布，

代表截取参数；

代表批量的动作；

代表噪声；

代表动作策略；

；

代表计算TD的目标值；

代表短期奖励优先级的折扣系数；

更新评论者网络；

；

在步骤S130中，获取第二时刻观测状态共同形成预测信息，更新时序观测状态，重新执行决策模型，更新奖励值直到目标车辆穿越交叉口环境。

本发明具体的融合表现为元探索学习算法与时间双延迟深度确定性策略梯度算法同时放入强化学习框架，即两种算法融合到一个决策模型中。元探索学习算法的意义主要在于替换强化学习框架中环境噪声生成的部分，使决策模型在训练时能尽可能快地收敛和提高奖励值。时间双延迟深度确定性策略梯度算法替换原有强化学习框架中神经网络的部分，将DDPG中神经网络结构替换成T-TD3的神经网络结构，构建基于时序的决策模型，同样使决策模型在训练时收敛更快和奖励值更高。

本发明实施例1提出的一种无人驾驶车辆的决策方法，融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率、提升算法泛化能力，提高系统实时性。

实施例2

基于本发明实施例1提出的一种无人驾驶车辆的决策方法，本发明实施例2还提出了一种无人驾驶车辆的决策系统，该系统包括获取模块、训练模块、计算模块和执行模块；

获取模块用于获取交叉口环境下第一时刻观测状态；所述第一时刻观测状态包括在第一时刻时目标车辆的速度、目标车辆的位置，以及环境车辆的速度和环境车辆的位置；所述环境车辆为与目标车辆存在冲突的车辆；

训练模块用于将第一时刻观测状态扩展出的时序观测状态输入至训练完成的第一神经网络中输出目标车辆的确定性动作；

计算模块用于在得到确定性动作后，接收时序观测状态，并将预测信息输入马尔科夫模型中，以及将深度确定性策略梯度算法中的全连接神经网络修改为LSTM神经网络形成基于时序的决策模型，计算确定性动作后决策模型的奖励值；

执行模块用于获取第二时刻观测状态共同形成预测信息，更新时序观测状态，重新执行决策模型，更新奖励值直到目标车辆穿越交叉口环境。

本发明实施例2中每个模块将实施例1中的方法模块化，详细的过程参照实施例1中方法的实现过程。

本发明实施例2提出的一种无人驾驶车辆的决策系统，融合元探索学习算法与时间双延迟深度确定性策略梯度算法，有效提升车辆通行安全和效率、提升算法泛化能力，提高系统实时性。

本发明实施例2提出的一种无人驾驶车辆的决策系统，利用元探索学习加快整体模型的收敛速度。元探索的实质利用策略梯度算法来优化噪声探索网络，实现探索网络与行动者网络叠加生成更优动作靠近，实现算法的快速收敛。

本发明实施例2提出的一种无人驾驶车辆的决策系统，采用时间双延迟深度确定性策略梯度算法，将MDP模型扩展序列化，利用预测的思想，将LSTM神经网络放入TD3框架中，通过强化学习与环境的交互过程考虑周围车辆的运动趋势，并执行适当的策略，实现算法的泛化性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。