CN115167419A

CN115167419A - 一种基于dqn算法的机器人路径规划方法

Info

Publication number: CN115167419A
Application number: CN202210779102.2A
Authority: CN
Inventors: 李奕龙; 钟伟锋; 黄旭民; 康嘉文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11

Abstract

本发明公开了一种基于DQN算法的机器人路径规划方法，方法步骤包括：利用图像采集装置采集一次环境图像；利用DQN算法对环境图像进行处理获得动作价值函数；利用深度强化学习对动作价值函数进行更新；根据移动机器人更新后的动作价值函数获取移动机器人的运动策略，再根据运动策略计算出最优价值运动策略；根据最优价值运动策略实现移动机器人的最优运动路径导航。该基于DQN算法的机器人路径规划方法通过在图像处理阶段使用DQN算法，利用深度卷积网络对Q值进行逼近并代替Q值表，从而用Q(s,a；w)来近似代替Q*(s,a)，避免了使用Q值表耗费大量时间和空间的情况，极大的提高了网络训练的稳定性和收敛性。

Description

一种基于DQN算法的机器人路径规划方法

技术领域

本发明涉及一种机器人路径规划方法，尤其是一种基于DQN算法的机器人路径规划方法。

背景技术

自主导航能力是移动机器人在所处环境中完成各自功能的一项基础技能，强化学习广泛用于移动机器人的路径规划。然而，该算法的收敛速度较慢、训练效率较低，目前现有技术中还没有如何结合深度学习从而有效地提高训练效率的研究。因此有必要设计出一种基于DQN算法的机器人路径规划方法，能够结合深度学习的信息感知以及强化学习的行为决策，将深度强化学习应用于机器人的导航学习，从而有效地提高学习效率。

发明内容

发明目的：提供一种基于DQN算法的机器人路径规划方法，能够结合深度学习的信息感知以及强化学习的行为决策，将深度强化学习应用于机器人的导航学习，从而有效地提高学习效率。

技术方案：本发明所述的基于DQN算法的机器人路径规划方法，包括如下步骤：

步骤1，在机器人运动前，利用导航区域上空设置的图像采集装置采集一次移动机器人所处的环境图像；

步骤2，利用DQN算法对采集的环境图像进行处理获得移动机器人的动作价值函数Q(s,a；w)；

步骤3，利用深度强化学习对获得的动作价值函数Q(s,a；w)进行更新；

步骤4，根据移动机器人更新后的动作价值函数Q(s,a；w)获取移动机器人的运动策略π，运动策略π由多个运动动作依次组合，再根据运动策略π计算出最优价值运动策略π^*为：

式中，

S为可通行区域，

表示从状态s转移到状态s'的过程，Q^π(s',a'；w)表示在策略π下状态s'下选择某一动作a'的价值，r(s,a；w)表示在状态s下选取动作a所得奖励，γ表示折扣因子，w为神经网络的各个权重参数；

步骤5，根据最优价值运动策略π^*获得移动机器人各个最优价值的动作，依次执行各个最优价值的动作实现移动机器人的最优运动路径导航。

进一步的，步骤1中，环境图像包括机器人所处的实时位置以及机器人移动的目的地位置。

进一步的，步骤2中，获得移动机器人的动作价值函数Q(s,a；w)的具体步骤为：

步骤2.1，利用深度强化学习的3个卷积层将环境图像变成特征向量；

步骤2.2，用3个全连接层把特征映射到一个输出向量Q(s,a；w)上，该输出向量Q(s,a；w)是对移动机器人所有可能动作的打分，将该输出向量Q(s,a；w)作为移动机器人的动作价值函数Q(s,a；w)。

进一步的，步骤3中，利用深度强化学习对获得的动作价值函数Q(s,a；w)进行更新的具体步骤为：

步骤3.1，构建强化学习单回合模型，执行强化学习单回合模型的运行步骤为：

步骤3.1.1，设定初始化状态为s₀；

步骤3.1.2，在当前状态s_t下，根据动作价值函数Q(s,a；w)对移动机器人的各种动作情况进行打分，使用贪婪策略选择动作，选择在状态s_t下动作价值函数最大的动作a_t，即a_t＝argmax_a Q*(s,a；w)，再执行动作a_t得到下一个状态s_t+1和奖励r；

在下一状态s_t+1下，利用DQN算法继续对移动机器人的所有可能动作进行打分，使用贪婪策略选择分数最高的动作a_t+1，再更新Q(s_t,a_t；w)的值为：

式中，Q(s_t,a_t；w)_m为Q(s_t,a_t；w)更新后的值，α表示学习率，γ表示折扣因子；

步骤3.1.3，更新当前状态，将s_t+1作为s_t，再执行步骤3.1.2，以此循环，直到状态s_t为目的地位置，同时DQN算法对移动机器人各种可能动作的打分也越来越精确；

步骤3.2，执行M个强化学习单回合模型，得到更新学习后的动作价值函数Q(s,a；w)，即为DQN算法的输出向量Q(s,a；w)。

本发明与现有技术相比，其有益效果是：(1)在图像处理阶段使用DQN算法，利用深度卷积网络对Q值进行逼近，从而用Q(s,a；w)来近似代替Q*(s,a)，不需要使用Q表；(2)相比于现有技术没有运动规则的约束，因此可以利用深度强化学习进一步优化DQN算法，得到训练好的动作价值函数Q(s,a；w)；(3)在对移动机器人进行导航时，根据训练的动作价值函数，能够快速收敛，得到最优运动策略(4)使得机器人在训练过程中减少了无效探索，学习效率高，避免了状态和动作数量很多时，避免了使用Q表耗费大量时间和空间的情况，极大的提高了网络训练的稳定性和收敛性。

附图说明

图1为本发明的方法流程图；

图2为本发明的神经网络示意图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本发明公开的基于DQN算法的机器人路径规划方法，包括如下步骤：

步骤2，利用DQN(Deep Q-Network)算法对采集的环境图像进行处理获得移动机器人的动作价值函数Q(s,a；w)；

式中，

S为可通行区域，

表示从状态s转移到状态s'的过程，Q^π(s',a'；w)表示在策略π下状态s'下选择某一动作a'的价值，r(s,a；w)表示在状态s下选取动作a所得奖励，γ表示折扣因子，w为神经网络的各个权重参数，如图2所示的实施例，w包括w 11⁽¹⁾、w 12⁽¹⁾、w 13⁽¹⁾、w21⁽¹⁾、w22⁽¹⁾、w23⁽¹⁾、w 11⁽²⁾、w21⁽²⁾以及w31⁽²⁾，根据图2可以计算出Q的值为：

Q＝a11·w 11⁽²⁾+a12·w21⁽²⁾+a13·w31⁽²⁾

其中，a11＝x1·w 11⁽¹⁾+x2·w21⁽¹⁾，a12＝x1·w 12⁽¹⁾+x2·w22⁽¹⁾，a13＝x1·w13⁽¹⁾+x2·w23⁽¹⁾；

通过在图像处理阶段使用DQN算法，利用深度卷积网络对Q值进行逼近，从而用Q(s,a；w)来近似代替Q*(s,a)，不需要使用Q表，从而避免了使用Q表耗费大量时间和空间的情况，极大的提高了网络训练的稳定性和收敛性；相比于现有技术没有运动规则的约束，因此可以利用深度强化学习进一步优化DQN算法，得到更新好的动作价值函数Q(s,a；w)。

步骤3.1.1，设定初始化状态为s₀；

在下一状态s_t+1下，利用DQN算法继续对移动机器人的所有可能动作进行打分，使用贪婪策略选择分数最高的动作a_t+1，再更新Q(s_t,a_t；ω)的值为：

步骤3.1.3，更新当前状态，即将s_t+1作为s_t，再执行步骤3.1.2，以此循环，直到状态s_t为目的地位置，同时DQN算法对移动机器人各种可能动作的打分也越来越精确；

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种基于DQN算法的机器人路径规划方法，其特征在于，包括如下步骤：

式中，

S为可通行区域，

2.根据权利要求1所述的基于DQN算法的机器人路径规划方法，其特征在于，步骤1中，环境图像包括机器人所处的实时位置以及机器人移动的目的地位置。

3.根据权利要求1所述的基于DQN算法的机器人路径规划方法，其特征在于，步骤2中，获得移动机器人的动作价值函数Q(s,a；w)的具体步骤为：

4.根据权利要求1所述的基于DQN算法的机器人路径规划方法，其特征在于，步骤3中，利用深度强化学习对获得的动作价值函数Q(s,a；w)进行更新的具体步骤为：

步骤3.1.1，设定初始化状态为s₀；