CN114493013A

CN114493013A - 基于强化学习的智能体路径规划方法、电子设备及介质

Info

Publication number: CN114493013A
Application number: CN202210106163.2A
Authority: CN
Inventors: 禹祎凡; 付卫婷
Original assignee: Zhejiang Tongshan Artificial Intelligence Technology Co ltd
Current assignee: Zhejiang Tongshan Artificial Intelligence Technology Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13

Abstract

本发明涉及一种基于强化学习的智能体路径规划方法、电子设备及介质，方法包括：根据智能体采集的状态信息，通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作；目标网络的训练过程包括：构建当前网络，目标网络和当前网络均为深度Q值网络，迭代执行目标网络更新步骤，该步骤包括：获取智能体采集的状态信息，进行数据预处理后存储至记忆库，根据优先经验回放机制在记忆库中选择训练样本；选择训练样本和动作，根据动作更改环境信息，获取下一状态的环境信息，根据TD‑error训练当前网络，根据软更新机制更新目标网络，更新样本的选中概率。与现有技术相比，本发明实现难度低，计算效率高，缓解了局部最优问题。

Description

基于强化学习的智能体路径规划方法、电子设备及介质

技术领域

本发明涉及无人驾驶领域，尤其是涉及一种基于强化学习的智能体路径规划方法、电子设备及介质。

背景技术

近年来人工智能技术的飞速发展为很多传统行业带来了新的活力，以汽车行业与物流行业为例，它们借助人工智能技术推出了无人驾驶的新模式。大到道路上的无人车，小到电商平台的送货机器人，无人驾驶的智能体正出现在我们生活的方方面面。

在无人驾驶领域，最为核心的无疑就是为智能体规划一条高质量的行驶路径，使得智能体能够根据控制模块发布的指令进行相应的移动，最终快速准确地完成分配给它的任务，这一过程就是智能体的路径规划。在实际的业务场景当中，智能体会根据其配备的传感器采集相应的环境信息，控制系统会根据智能体采集到的信息识别周边的障碍或者意外情况，从而选择一种合适的运动方式通过机器指令的方式发送给智能体，从而驱使智能体行动到目标地点，并且保证其不会出现碰撞等非正常行为。基于智能体对环境信息的了解程度，可以将路径规划问题划分为全局路径规划和局部路径规划。全局路径规划是在预先了解全局的环境信息下进行的路径规划，智能体在行驶过程中可能遇到的障碍物位置大小等都是固定的；局部路径规划场景下智能体对环境信息不了解或者部分了解，在运动过程中会碰到各种突发情况。这些意外既可能是道路整修导致的封路等，也可能是多智能体的路线冲突。这也对智能体提出了在行进过程中面对突发状况要调整行驶策略的要求，同时在行驶过程中对环境信息的搜寻也比全局路径规划的要求更高。

在局部路径规划中存在着两个比较显著的问题：

一方面是智能体对环境信息的了解需要通过传感器来进行，比如相机、激光雷达、红外线探测器等，但智能体针对这些传感器采集到的原始数据并不能直接使用，需要进行一些预处理之后才能用于决策；

另一方面，针对路径规划问题的研究已经由来已久。传统的路径规划算法可以大致分成四类，分别是基于图搜索的算法、基于采样的算法、智能仿生学算法和其他算法，这些算法均存在局部最优化问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的智能体路径规划方法、电子设备及介质。

本发明的目的可以通过以下技术方案来实现：

一种基于强化学习的智能体路径规划方法，包括：

根据智能体采集的状态信息，通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作；

所述的目标网络的训练过程包括：

构建当前网络，所述的目标网络和当前网络均为深度Q值网络，迭代执行目标网络更新步骤，直至目标网络收敛；

所述的目标网络更新步骤包括：

获取智能体采集的状态信息，进行数据预处理后存储至优先经验回放记忆库；

根据优先经验回放机制在记忆库中选择训练样本；

根据选择的训练样本，通过动作选择策略选择动作；

根据选择的动作更改环境信息，获取智能体下一个状态的环境信息，并进行数据预处理；

根据智能体下一个状态的环境信息，获取当前网络的Q值Q_当前网络以及目标网络的目标Q值Q′_目标网络，所述的当前网络和

根据Q_当前网络和Q′_目标网络计算TD-error；

根据TD-error训练当前网络；

根据软更新机制更新目标网络的网络参数；

更新记忆库中样本的选中概率。

进一步地，所述的动作选择策略采用ε-greedy策略，公式为：

其中，a为动作，s为智能体采集的状态信息，ε为智能体的探索率。

进一步地，所述的TD-error的计算公式为：

TD-error＝|y′_i-y_i|

y′_i＝Q_当前网络

y′_i＝r+Q′_目标网络

其中，r为智能体执行一次动作后，通过奖惩策略计算得到的奖励值；

所述的奖惩策略包括：

根据智能体执行一次动作后获取的下一个状态的环境信息，确定奖惩场景以及对应的奖惩值，通过累计奖惩值获得奖励值。

进一步地，通过以下公式更新记忆库中样本的选中概率：

p_i＝|δ_i|+ε₂

其中，p_i为选择的训练样本在记忆库中被选中的概率，|δ_i|为TD-error，ε₂为设定值。

进一步地，所述的软更新机制的计算公式为：

Q′＝τQ+(1-τ)Q′

其中，Q′为目标网络，Q为当前网络，τ为更新比例。

进一步地，所述的状态信息包括智能体的姿态信息、智能体通过相机获取的图像信息以及激光雷达获取的雷达点云信息；

所述的数据预处理过程包括：

提取姿态信息、图像信息以及雷达点云信息的特征矩阵，并进行拼接，获得：环境信息数据。

进一步地，所述的姿态信息和雷达点云信息的特征矩阵的提取过程包括：

对姿态信息和雷达点云信息分别进行拼接，对拼接后的姿态信息和雷达点云信息分别进行数据叠帧；

通过LSTM网络分别提取姿态信息和雷达点云信息的特征矩阵。

进一步地，所述的图像信息的特征矩阵的提取过程包括：

压缩图像数据；

将图像信息中的三通道彩色图片转换为单通道灰度图；

对图像信息进行数据叠帧；

通过基于CBAM注意力机制的CNN网络提取图像信息的特征矩阵。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述程序指令能够执行所述的智能体路径规划方法。

一种计算机可读存储介质，包括计算机程序，所述计算机程序能够被处理器执行以实现所述的智能体路径规划方法。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明通过引入强化学习方法来解决传统路径规划方法的问题，强化学习模型训练成功后所需空间主要为模型的大小，不需要为中间过程开辟大量的额外空间，占用内存空间小，实现难度低，训练成功的强化学习模型在规划路径时主要的算力用于智能体的动作决策，这一步骤所需的时间相对较短，不必通过大量的计算生成路径，计算效率高，另外强化学习模型可以在训练过程中调整训练参数、修正模型的训练方向以缓解局部最优问题；

(2)本发明强化学习模型通过训练赋予了智能体应对突发状况的能力，在环境中出现随机的障碍物时，它可以在不重新规划路径的情况下进行规避；

(3)本发明数据预处理将智能体多个传感器采集到的信息分门别类进行了预处理，提升了环境信息的处理效果；

(4)本发明通过引入注意力机制、软更新机制和优先经验回放机制提高了模型的环境探索效率、模型收敛速度、网络更新平滑程度以及经验反馈速度。

附图说明

图1为Jackal无人车路径规划过程中数据预处理步骤的流程示意图；

图2为Jackal无人车路径规划过程中强化学习模型训练步骤的流程示意图；

图3为智能体路径规划系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

一种基于强化学习的智能体路径规划方法，包括：

目标网络的训练过程包括：

构建当前网络，目标网络和当前网络均为深度Q值网络，迭代执行目标网络更新步骤，直至目标网络收敛；

目标网络更新步骤包括：

根据优先经验回放机制在记忆库中选择训练样本；

根据选择的训练样本，通过动作选择策略选择动作；

根据智能体下一个状态的环境信息，获取当前网络的Q值Q_当前网络以及目标网络的目标Q值Q′_目标网络，当前网络和

根据Q_当前网络和Q′_目标网络计算TD-error；

根据TD-error训练当前网络；

根据软更新机制更新目标网络的网络参数；

更新记忆库中样本的选中概率。

目标网络和当前网络都是基于深度Q值网络算法实现的，Q值就代表着智能体每次执行后可以从其中获取的价值，价值越高，智能体选择执行的动作越好，当前网络随着动作的执行实时更新，目标网络会延后几个迭代同步当前网络的参数，两者的输出分别代表当前网络的Q值和目标网络的Q值，两个Q值的差异是用来反向传递更新当前网络参数的依据。

动作选择策略采用ε-greedy策略，公式为：

其中，a代表智能体选择执行的动作，s为智能体采集的状态信息，a执行完成之后才能获取到下一状态的信息，ε为智能体的探索率，ε值越大，智能体越容易进行随机动作选择，从而完成对环境进一步地了解以丰富路径规划的可能性，ε值越小代表动作的选择越倾向于每次的最大Q值动作，代表智能体的运动更有针对性。

TD-error的计算公式为：

TD-error＝|y′_i-y_i|

y′_i＝Q_当前网络

y′_i＝r+Q′_目标网络

奖惩策略包括：

通过以下公式更新记忆库中样本的选中概率：

p_i＝|δ_i|+ε₂

其中，p_i为选择的训练样本在记忆库中被选中的概率，|δ_i|代表TD-error，ε₂为设定值，代表着一个较小的概率，从而避免样本的概率变成0以致在后续的训练中永远不会被选中。

软更新机制的计算公式为：

Q′＝τQ+(1-τ)Q′

其中，Q′为目标网络，Q为当前网络，τ为更新比例。

状态信息包括智能体的姿态信息、智能体通过相机获取的图像信息以及激光雷达获取的雷达点云信息；

数据预处理过程包括：

提取姿态信息、图像信息以及雷达点云信息的指定维度的特征矩阵，并进行拼接，获得：环境信息数据。

姿态信息和雷达点云信息为长序列数据，姿态信息和雷达点云信息的特征矩阵的提取过程包括：

对姿态信息和雷达点云信息分别进行拼接，对拼接后的姿态信息和雷达点云信息分别进行数据叠帧，以减少误差；

通过LSTM网络分别提取姿态信息和雷达点云信息的特征矩阵。

图像信息的特征矩阵的提取过程包括：

压缩图像数据；

将图像信息中的三通道彩色图片转换为单通道灰度图；

对图像信息进行数据叠帧，以减少误差；

通过基于CBAM注意力机制的CNN网络提取图像信息的特征矩阵。

将本实施例提出的智能体路径规划方法应用于Jackal无人车，具体过程包括数据预处理步骤和强化学习模型训练步骤。

如图1，数据预处理步骤包括以下子步骤：

S101：环境状态发生变化，Jackal无人车转至子步骤S102，LIDAR组件转至子步骤S103，Bumblebee组件转至子步骤S104；

S102：Jackal无人车通过回调函数获取智能体姿态信息，转至子步骤S105；

S103：LIDAR激光雷达通过回调函数获取长序列点云信息，转至子步骤S105；

S104：Bumblebee双目相机通过回调函数获取图像信息，转至子步骤S108；

S105：智能体姿态信息与雷达点云信息均可视为长序列信息，进行数据拼接后转至子步骤S106；

S106：进行数据叠帧以减少误差，转至子步骤S107；

S107：长序列数据通过LSTM网络进行特征提取，经过LSTM网络的特征提取后，长序列数据被处理为一个指定维度的特征矩阵，该矩阵将作为环境信息的一部分输入用于后续的强化学习模型训练，转至子步骤S112；

S108：图像数据压缩以便减小模型训练压力，转至子步骤S109；

S109：图像数据有三通道彩色图片转换为单通道灰度图，转至子步骤S110；

S110：进行数据叠帧以减少误差，转至子步骤S111；

S111：通过CNN网络实现了CBAM注意力机制，利用该机制可以获取图像中需要重点关注的区域，并在此基础上输出图像数据的特征矩阵，该矩阵将作为环境信息的一部分用于后续的强化学习模型训练，转至子步骤S112；

S112：长序列特征数据与图像特征数据拼接形成环境状态信息，转至子步骤S113；

S113：环境信息数据存储在优先经验回放记忆库中，至此数据预处理完成。

如图2，强化学习模型训练步骤包括以下子步骤：

S201：根据优先经验回放机制在记忆库中选择训练样本，样本被选中的概率为：

其中，α代表优先采样的程度，当其为0退化为传统的经验回放，具体的采样过程是基于SumTree的二叉树结构，样本的采样概率作为树的叶子节点，每个父节点是叶子节点的概率之和，根节点为所有样本的采样概率之和，抽样时会根据采样数量batch_size将根节点代表的采样概率之和划分成长度均等的batch_size个区间，在每个区间中随机生成一个数进行从上至下的检索，检索过程为将该值对比左子树的值，若小于等于左子树进入左子树，大于左子树减去左子树的值进入右子树重复检索过程，直到选中一个叶子节点为止，这样就完成了选择训练样本的工作，转至子步骤S202；

S202：选择好的训练样本根据动作选择策略ε-greedy进行动作选择，动作选择好后，转至子步骤S203；

S203：根据选择好的动作更改环境信息，并将其通过数据预处理流程处理获得下一个状态的环境信息，转至子步骤S204；

S204：当前网络根据当前环境信息获得对应的Q值，转至子步骤S206：

S205：目标网络根据下一个状态的环境信息获取目标网络的Q值，转至子步骤S206；

S206：设计奖惩方案给出每次动作执行获得奖励值r，该值是用来计算TD-error的一部分，具体的奖惩方案如表1所示：

表1奖惩策略

奖惩场景	奖惩值
		到达目标点	30
背离目标点	-0.1*\|Δd\|
		靠近目标点	0.1*\|Δd\|
靠近静态障碍物1.5米	-1
		靠近动态障碍物1米	-1
靠近确定性组件1.5米	-1
		速度变化	-0.01*\|Δv\|
角速度变化	-0.01*\|Δω\|

转至子步骤S207；

S207：计算TD-error，根据TD-error训练强化学习模型，转至子步骤S208；

S208：根据软更新机制更新目标网络参数，转至子步骤S209；

S209：更新记忆库中样本的概率。

综上，如图3，本实施例提出的智能体路径规划方法通过智能体路径规划系统实现，智能体路径规划系统包括环境模拟器、智能体原始信息处理方案、智能体路径规划方案以及贯穿整个过程的智能体信息采集与运动模块四部分。

环境模拟器部分是整个框架的基础，其包含半不确定性环境抽象之后的地图信息以及需要进行自适应能力训练的智能体，所有的训练过程和环境变化都是基于该部分；

智能体原始信息处理部分主要是针对智能体采集到的一些原始信息进行初步的计算与重组，使其转化为神经网络可以识别的输入，主要包括对智能体自身状态信息的处理、LIDAR激光雷达信息的处理、Bumblebee双目相机拍摄到的图片信息处理；

智能体路径规划方案主要就是针对智能体的训练模块以及训练好之后的决策模块，在该模块提出了一种新的算法基于卷积注意力模块和优先经验回放的软更新深度Q值网络算法(Soft Update Deep Q Network algorithm based on Convolutional BlockAttention Module and Prioritized Experience Replay，APER-SDQN)，其主要基于的网络是处理图像信息的CNN网络、处理雷达长序列信息的LSTM网络以及处理拼接信息的MLP网络，训练的损失函数与网络结构都是基于DQN算法设计的，同时通过优先经验回放机制进行训练样本的抽取，并藉由注意力机制为环境中的障碍物按照距离智能体的远近划分其对智能体的影响程度，然后通过动作选择策略和奖惩方案指导模型的学习方向，最终通过软更新进行目标网络的平滑迭代；

智能体的信息采集与运动是整个方案形成与执行过程的现实反馈，用于表征训练过程与训练效果，主要基于Jackal无人地面车的传感器组件以及底盘的运动能力。

实施例2

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述程序指令能够执行实施例1所述的智能体路径规划方法。

实施例3

一种计算机可读存储介质，包括计算机程序，所述计算机程序能够被处理器执行以实现实施例1所述的智能体路径规划方法。

实施例1、实施例2和实施例3提出了一种基于强化学习的智能体路径规划方法、电子设备及介质，通过基于深度学习的多传感器信息处理方案将智能体多个传感器采集到的信息分门别类进行了预处理，提升了环境信息的处理效果；通过引入强化学习方法来解决传统路径规划方法的问题，强化学习模型训练成功后所需空间主要为模型的大小，不需要为中间过程开辟大量的额外空间；训练成功的强化学习模型在规划路径时主要的算力用于智能体的动作决策，这一步骤所需的时间相对较短，不必通过大量的计算生成路径；另外强化学习模型可以在训练过程中调整训练参数、修正模型的训练方向以缓解局部最优问题；与此同时，强化学习模型通过训练赋予了智能体应对突发状况的能力，在环境中出现随机的障碍物时，它可以在不重新规划路径的情况下进行规避；最后本发明通过引入注意力机制、软更新机制和优先经验回放机制提高了模型的环境探索效率、模型收敛速度、网络更新平滑程度以及经验反馈速度。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于强化学习的智能体路径规划方法，其特征在于，包括：

所述的目标网络的训练过程包括：

所述的目标网络更新步骤包括：

根据优先经验回放机制在记忆库中选择训练样本；

根据选择的训练样本，通过动作选择策略选择动作；

根据Q_当前网络和Q′_目标网络计算TD-error；

根据TD-error训练当前网络；

根据软更新机制更新目标网络的网络参数；

更新记忆库中样本的选中概率。

2.根据权利要求1所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的动作选择策略采用ε-greedy策略，公式为：

3.根据权利要求1所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的TD-error的计算公式为：

TD-error＝|y′_i-y_i|

y′_i＝Q_当前网络

y′_i＝r+Q′_目标网络

所述的奖惩策略包括：

4.根据权利要求1所述的一种基于强化学习的智能体路径规划方法，其特征在于，通过以下公式更新记忆库中样本的选中概率：

p_i＝|δ_i|+ε₂

5.根据权利要求1所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的软更新机制的计算公式为：

Q′＝τQ+(1-τ)Q′

其中，Q′为目标网络，Q为当前网络，τ为更新比例。

6.根据权利要求1所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的状态信息包括智能体的姿态信息、智能体通过相机获取的图像信息以及激光雷达获取的雷达点云信息；

所述的数据预处理过程包括：

7.根据权利要求6所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的姿态信息和雷达点云信息的特征矩阵的提取过程包括：

通过LSTM网络分别提取姿态信息和雷达点云信息的特征矩阵。

8.根据权利要求6所述的一种基于强化学习的智能体路径规划方法，其特征在于，所述的图像信息的特征矩阵的提取过程包括：

压缩图像数据；

将图像信息中的三通道彩色图片转换为单通道灰度图；

对图像信息进行数据叠帧；

通过基于CBAM注意力机制的CNN网络提取图像信息的特征矩阵。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器调用所述程序指令能够执行如权利要求1至8任一所述的智能体路径规划方法。

10.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-8任一所述的智能体路径规划方法。