CN115993831B

CN115993831B - 基于深度强化学习的机器人无目标网络的路径规划方法

Info

Publication number: CN115993831B
Application number: CN202310288721.6A
Authority: CN
Inventors: 曹亚楠; 赵冬; 曹翔
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-09
Anticipated expiration: 2043-03-23
Also published as: CN115993831A

Abstract

本发明公开了基于深度强化学习的机器人无目标网络的路径规划方法，包括：以dueling deep Q‑network为骨干网络构建机器人路径规划模型；使用优先经验回放的方式进行所述模型的动作平衡智能体训练，并使用动态

的方式选择动作平衡智能体训练过程中的探索‑利用频次；删除网络中的目标网络并使用mellow算子作为最大化算子进行网络的更新；使用gym自定义动态环境进行网络的训练并得到网络权重模型，采用训练好的模型进行机器人无目标网络的路径规划。可以节省网络训练过程中的时间，有效降低训练过程中内存占用率，能够使现有深度强化学习保持在线强化学习的准则。

Description

基于深度强化学习的机器人无目标网络的路径规划方法

技术领域

本发明属于智能体路径规划技术领域，具体涉及基于深度强化学习的机器人无目标网络的路径规划方法。

背景技术

随着近些年人工智能技术的快速发展，从遥控潜水器（ROVS）到无人机(UAVs)，路径规划成为研究的重要课题之一。通过指定目标位置或使用传感器而不告知智能体其他环境信息，使其找到一条不碰撞障碍物并能最短到达目标点的路径。传统的路径规划算法在面对动态环境时的实时计算时间开销是巨大的。这些方法很难推广到未知情况。为此，需要使用新的框架解决传统路径规划中的巨大时间开销和面对动态环境时难以解决的问题。

尽管在网络模型中添加不同方法和模块来更好地完成工作是不断改进的方向，但已有的工作表明，深度强化学习具有很强的脆弱性和敏感性。深度 RL 算法的大部分脆弱性归因于深度神经网络在 RL 任务中应用的预测问题的非平稳性。在

中目标网络的使用增加了网络更新过程中的稳定性，但却使其偏离了强化学习的马尔科夫性质。

强化学习通过让智能体在环境中不断探索并获得回报，来逐渐优化策略。强化学习满足马尔科夫性质，即未来收益仅取决于当前状态，而和过去的状态无关。在Q-learing中，智能体以最小化预测动作价值函数

和目标函数/>

之间的距离为更新目标，其中/>

定义为：

。在t时刻和环境st下智能体从动作空间A中选择动作at并执行，根据状态转移矩阵P转移到新的状态/>

,并获得回报/>

,/>

代表折扣因子，/>

。定义为一个/>

。采用时序差分的办法，在智能体模拟运行上述一个transition后，用得到的数据近似代替目标/>

为/>

。强化学习中智能体必须解决一系列类似的预测任务，它们会迭代地提高其价值函数的准确性和策略。在传统强化学习Q-Learning中，采用一张表格保存每一个状态动作价值Q-Value值。当状态空间连续，采用映射到离散状态空间的方式将造成极大的开销和内存占用。Deep Q-Network使用非线性函数逼近---带有参数θ的深度网络拟合Q表格。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供基于深度强化学习的机器人无目标网络的路径规划方法，为基于深度强化学习中智能体路径规划问题提供了不使用目标网络，得到更为平滑的路径的算法，在删除目标网络后可行的最大化算子，并且得到的路径轨迹相对平滑，可以节省网络训练过程中的时间，有效降低训练过程中内存占用率，能够使现有深度强化学习保持在线强化学习的准则。

为实现上述技术目的，本发明采取的技术方案为：

基于深度强化学习的机器人无目标网络的路径规划方法，包括：

步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型；

步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练，并使用动态

的方式选择动作平衡智能体训练过程中的探索-利用频次；

步骤3、删除深度强化学习网络中的目标网络，并使用mellow算子作为最大化算子进行网络的更新；

步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型，即为训练好的机器人路径规划模型，采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1使用dueling deep Q-network作为模型中的骨干网络，具体包括：

将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数，并计算对应状态下的动作优势，使用更改后的状态-动作价值函数作为最终输出。

上述的步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练，具体包括：

计算每一个存入经验回放池中样本的TD-error，通过TD-error并基于等级的优先级计算每一个样本的优先级，最后通过优先级计算每一个样本被抽取到的概率。

上述的步骤2使用动态

的方式选择动作平衡智能体训练过程中的探索-利用频次的公式为：

；

其中，t表示当前轮数，δ表示偏移量，x表示随环境变化的变量；

训练开始时，

较小，智能体会有更多的机会去探索，随着训练回合的增加，/>

逐渐增大，智能体将更有概率选择最优动作。

上述的步骤3删除深度强化学习网络中通常使用的目标网络，并使用mellow算子作为最大化算子进行网络的更新，具体包括：

删除目标网络，仅使用一个网络进行更新，用mellow算子替换max算子计算价值。

上述的步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括：

自定义智能体的奖惩函数；

设置训练智能体的最大回合；

设置每一个回合的最大的步骤；

定义每一个回合开始时智能体、目标点、障碍物随机生成位置；

定义智能体的5个传感器。

上述的自定义智能体的奖惩函数，包括：

定义智能体碰到障碍物或者边界受到-200的惩罚，达到目标点获得200的奖励；

在每个步骤结束后，计算智能体当前状态距离目标点和上一状态距离目标点的差值，给予相应的奖励和惩罚。

上述的使用gym自定义动态环境还包括：

动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。

本发明具有以下有益效果：

本发明中删除目标网络，并基于深度强化学习提出了一种融合dueling network、优先经验回放和mellow operator的算法，减少网络的过估计，并提出了一种新的动态

方法进行动作选择。实现了端到端的模型，用以解决路径规划收敛缓慢，路径不平滑等问题。本发明提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法，使得到的轨迹趋于平滑，相比于传统的智能体路径规划方法，本发明不依赖于目标网路即可以正常工作，能够处理动态环境下任务，针对不同的障碍物、目标点具有较强的鲁棒性，具体包括：

1、本发明使用dueling deep Q-network作为模型中的骨干网络，增加智能体对于环境的感知程度，获取更优的最终网络模型，可提升模型的最终训练效果，针对某些环境采取更平滑的动作；

2、本发明在网络训练时使用优先经验回放代替原本的经验回放，实现对于更重要样本的抽取，并保证TD-error值为0的情况下也有被抽取到的概率，可更大概率抽取到有学习价值的样本，提升网络学习效率；

3、本发明删除深度强化学习网络中通常使用的目标网络，并使用mellow算子作为最大化算子进行网络的更新，提供了另一种不依赖于目标网络进行深度强化学习的方案，加快收敛速度，节省内存开销；

4、本发明使用gym自定义动态环境进行网络的训练并得到网络权重模型，可模拟真实环境设计惩罚函数，使得到的网络模型能有效应用于真实环境中。

附图说明

图1 为本发明基于无目标网络的深度强化学习路径规划方法的一种可选的流程图；

图2为路径规划随机产生地图示例；

图3为未使用目标网络的mellow算子和使用目标网络的max 算子的对比结果；

图4为不同参数w下的实施例对比结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

基于深度强化学习的机器人无目标网络的路径规划方法，相比于传统的智能体路径规划方法，不依赖于目标网路即可以正常工作，能够处理动态环境下任务，针对不同的障碍物、目标点具有较强的鲁棒性。具体来说，图1示出该方法的一种可选的流程图，如图1所示，该方法包括如下步骤：

的方式选择动作平衡智能体训练过程中的探索-利用频次；

在网络训练时使用优先经验回放代替原本的经验回放；

使用动态

的方式选择动作平衡智能体训练过程中的探索-利用频次；

步骤3、删除深度强化学习网络中通常使用的目标网络，并使用mellow算子作为最大化算子进行网络的更新；

其有益效果是，提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法，使得到的轨迹趋于平滑。

本专利算法的伪代码过程如下：

input: minibatch

,network parameter/>

,experience replay memory

；

for episode ito

do

Initialize sequence

and preprocess/>

；

for

to/>

do

with probability

select action/>

；

otherwise select

；

take action

；

observe

；

store transition

in/>

；

for

do

sample transition

；

compute TD-error;

update transition priority ;

accumulate weight-change

；/>

update weight

；

end

set

；

end

将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数，并计算该状态下的动作优势，使用更改后的状态-动作价值函数作为最终输出。

在实施例中，具体地，更改网络分别输出在状态S下选择动作a的状态-动作价值函数

，和状态s下选择策略/>

的期望回报值/>

。

使用两者之差

代表在状态s下采用策略/>

选择动作a的优势。

最终，其中一路输出状态值

，另一路输出动作优势/>

，其中θ表示对输入层等网络进行特征处理的参数；

a和β分别是两个输出流的参数。

并使用更改后的状态-动作价值函数最终输出

，其中/>

表示状态s下可能采取动作。

基于以上，增加智能体对于环境的感知程度，获取更优的最终网络模型。

其有益效果是，提升模型的最终训练效果，针对某些环境采取更平滑的动作。

在实施例中，所述步骤2在网络训练时使用优先经验回放代替原本的经验回放，具体包括：

进一步地，优先经验回放选择样本训练，包括：

在

中网络更新公式为：/>

，其中st表示t时刻的状态，at表示t时刻下选择的动作，/>

表示得到的立即奖赏，/>

表示折扣率。

其中TD-error定义为：

。

优化的目标就是尽可能减少此项的值，让Q函数更接近目标函数。如果此项值较大的话，那么更应该从buffer中选取该条经验值。

但一味学习TD-error较大的情况可能会降低网络泛化能力，同时也要保证即使TD-error值很小的样本也有概率被抽取到。

采用P(i)来表示第i条transition的优先值：

。

其中指数

决定了优先级的使用程度，pi = 1/ rank(i)。/>

对于优先级，采用基于等级的优先级排序，用rank(i)来表示重放内存根据

排序时第i个样本的等级。

在这种情况下，P(i)成为指数为

的幂律分布。

这是一种间接的方案，对异常值不敏感。

基于以上实现对于更重要样本的抽取，并保证TD-error值为0的情况下也有被抽取到的概率。

其有益效果是，更大概率抽取到有学习价值的样本，提升网络学习效率。

进一步地，使用动态

方法选择动作，包括：该动态/>

方法表示为：

；

其中t表示当前轮数，

表示偏移量，x表示随环境变化的变量。

训练开始时，

逐渐增大，智能体将更有概率选择最优动作。

相比于传统的方法更好地解决了探索-利用困境。

在实施例中，所述步骤3删除深度强化学习网络中通常使用的目标网络，并使用mellow算子作为最大化算子进行网络的更新，具体包括：

其有益效果是，提供了另一种不依赖于目标网络进行深度强化学习的方案，加快收敛速度，节省内存开销。

进一步地，删除目标网络并使用mellow算子作为最大化算子进行网络更新，包括：

删除强化学习网络中目标网络，仅使用一个网络进行更新，并且使用一种可以代替max算子的mellow算子，表示为：

。

其中w是大于0的参数。

对于任意的w>0,mellow(x)是一个凸函数。

对于任意的w>0,和x,mellow(x)是一个非递减函数。并且可以通过改变x的值可以降低高估的幅度。缓解了强化学习中一直存在的高估问题。

在实施例中，所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括：

自定义智能体的奖惩函数；

设置训练智能体的最大回合；

设置每一个回合的最大的步骤；

定义智能体的5个传感器。

基于以上各步骤，使所得到的网络模型应用于实际情况时具有较强的鲁棒性。

其有益效果是，模拟真实环境设计惩罚函数，使得到的网络模型能有效应用于真实环境中。

在实施例中，所述自定义智能体的奖惩函数，包括：

在动作和状态中添加了加性白色高斯噪声。

其有益效果是，使智能体尽量避免碰撞障碍物的风险，并找到到达目标点的有效路径。

进一步地，使用gym自定义动态环境进行网络的训练并得到网络权重模型。包括：为了模仿真实的情况，没有使用状态环境简单的栅格地图。如图2所示随机产生的一次地图中，白色方块代表障碍物，两圆点分别代表终点,并且智能体拥有5个探测器。在每个回合开始时，障碍物、目标位置和智能体都会随机改变位置。动作空间由前进加上左右方向三个离散的动作组成。另外在动作和状态中添加了加性白色高斯噪声。

具体地，定义碰到障碍物或者四周墙壁获得-200的惩罚,并终止当前回合。在智能体到达目标点时获得200的奖励。在每个步骤结束后，计算智能体当前状态距离目标点和上一状态距离目标点的差值，给予相应的奖励和惩罚，以加速收敛。最终训练结果如图3所示，并和使用目标网络的max算子进行对比。

具体地，如图4所示，分别使用不同参数的δ进行模型训练，可以看出本发明对于该参数在可接受的训练时长内都可以完成收敛，并没有因为参数δ的不同而收敛于不同值，采用不同参数智能体都可以找到近似最优路径，说明了该算法具有良好的鲁棒性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，包括：

步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练，并使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次；

使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次的公式为：

训练开始时，ε较小，智能体会有更多的机会去探索，随着训练回合的增加，ε逐渐增大，智能体将更有概率选择最优动作；

所述mellow算子，表示为：

其中w是大于0的参数；

2.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述步骤1使用dueling deep Q-network作为模型中的骨干网络，具体包括：

3.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练，具体包括：

4.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述步骤3删除深度强化学习网络中通常使用的目标网络，并使用mellow算子作为最大化算子进行网络的更新，具体包括：

5.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括：

自定义智能体的奖惩函数；

设置训练智能体的最大回合；

设置每一个回合的最大的步骤；

定义智能体的5个传感器。

6.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述自定义智能体的奖惩函数，包括：

7.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法，其特征在于，所述使用gym自定义动态环境还包括：