CN117707168A

CN117707168A - 一种基于深度强化学习的机器人避障路径规划方法

Info

Publication number: CN117707168A
Application number: CN202311740805.5A
Authority: CN
Inventors: 苏飏; 董秀成; 田箫源; 向贤明; 张党成; 刘俊君
Original assignee: Sichuan Huakong Graph Technology Co ltd
Current assignee: Sichuan Huakong Graph Technology Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-15

Abstract

本发明公开了一种基于深度强化学习的机器人避障路径规划方法，主要包括以Deep Q‑Network为骨干网络构建机器人路径规划深度强化学习模型；并在其模型基础上加入障碍学习规则，避免每轮面对同一障碍物的重复学习；以及探索奖励和启发奖励的优化方法，平衡不同状态点的访问次数，影响机器人的行为选择，使其更偏向于选择接近目标点的路径，进而提升学习效果，实现自适应调整和更好奖赏效果；最后则是动态探索因子，逐步降低探索的随机性，在后期训练中更充分利用神经网络进行动作选择和学习，提高算法性能和学习效率。

Description

一种基于深度强化学习的机器人避障路径规划方法

技术领域

本发明属于机器人路径规划技术领域，具体涉及一种基于深度强化学习的机器人避障路径规划方法。

背景技术

随着科学技术的不断进步，各式各样的移动机器人逐渐进入到人们的日常生活当中，在军事、工业、探险、医疗等领域发挥了重大作用。

移动机器人的自主导航可以分为信息感知、行为决策和操纵控制三个子系统，路径规划是其中导航和控制的基础，具体是指从初始点到目标点之间找出一条无碰撞路径的过程。

目前常用的算法主要有Dijkstra算法、快速扩展随机树算法(Rapidly-exploringRandom Trees,RRT)、A*算法、蚁群算法等，但这些算法大多依赖全局环境信息，因此环境信息的完整性和准确性将直接影响路径规划的质量。但在实际应用中，机器人往往难以获取环境的全部信息，因此使机器人能够自主学习，感知环境并作出决策就显得尤为重要。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度强化学习的机器人避障路径规划方法解决了现有路径规划方法中，难以完整准确获取环境信息，进而影响路径规划质量的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度强化学习的机器人避障路径规划方法，包括以下步骤：

S1、将环境地图栅格化；

S2、以深度强化学习网络Deep Q-Network为骨干网络构建机器人路径规划深度强化学习模型；

S3、初始化机器人路径规划深度强化模型的状态值、回放记忆单元D和障碍学习记录表；其中，栅格环境地图中的每个单元格对应一个状态，回放记忆单元D为(s_t,a_t,r_t,s_t+1)，s_t为当前状态s，a_t为当前动作a，r_t为即时奖赏；s_t+1为下一个状态；障碍物学习记录表用于记录碰撞障碍物时的状态和动作；

S4、在机器人基于机器人路径规划深度强化学习模型探索栅格环境地图的过程中，判断当前状态是否为目标点状态；

若是，则完成避障路径规划；

若否，则进入步骤S5；

S5、进入下一状态，将障碍物学习记录表中记录的动作从动作集中移除，并在动作集中选择动作并执行；

S6、根据当前执行动作，获取即时奖励并进入下一状态，并将当前(s_t,a_t,r_t,s_t+1)存入至回放记忆单元中；

S7、判断回放记忆单元中的数据存储量是否达到预设阈值；

若是，则进入步骤S8；

若否，则进入步骤S9：

S8、从回放记忆单元中随机抽取数据，并根据其对机器人路径规划深度强化学习模型进行更新，并进入步骤S9；

S9、根据获取奖励判断该动作是否为碰撞到障碍物动作；

若是，则将其记录在障碍物学习记录表中，并返回步骤S4；

若否，则直接返回步骤S4。

进一步地，所述步骤S1中，栅格环境地图中，每个单元格大小相同且分布均匀，包括机器人当前所处单元格作为起始点、待到达目标点所处单元格、障碍物区域以及可行区域。

进一步地，所述步骤S2中，所述机器人路径规划深度强化学习模型包括估计网络和目标网络；

其中，估计网络用于利用神经网络的感知功能对输入的未知环境状态提取特征，实现环境状态到动作值函数的拟合；目标网络用于根据深度学习网络的输出和探索策略完成决策，实现状态到动作的映射。

进一步地，所述步骤S3中，r_t为即时奖赏包括：

其中，C₁为10，C₂为-10，C₃为-3，C₄为启发奖励函数r^e(s_t,a_t,s_t+1)，当D(s_t+1,s_g)≤D(s_t,s_g)时，C₅为0.1，反之则为0，C₆为常数-1。

进一步地，启发奖励函数r^e(s_t,a_t,s_t+1)的表达式为：

式中，N(s_t+1)为到达状态s_t+1的次数，N(s_t)为到达状态s_t的次数；

在探索奖励中，当前状态点到目标点的欧式距离为D(s_t,s_g)，下一状态点到目标点的欧式距离为D(s_t+1,s_g)的表达式分别为：

式中，(x_t,y_t)为机器人当前坐标位置点，(x_t+1,y_t+1)为机器人下个状态的坐标位置点，(x_g,y_g)为目标坐标位置点。

进一步地，所述步骤S5中，利用ε-greedy贪婪策略选择探索随机选择动作a或利用估计网络选择动作a。

进一步地，所述ε-greedy贪婪策略是指生成一个在[0,1)内的随机数，判断其是否小于EPSILON；EPSILON的值通过动态函数f(x)＝0.5×ln(6.389x+1)生成，x是指回合数；

若是，则利用估计网络选择最大Q值的动作a；其中，Q值是指状态-动作对的值函数；

若否，则从动作集中随机选择一个动作a；

其中，利用估计网络的目标状态动作函数确定目标Q值，其表达式为：

y'＝r+γmaxQ(s_t+1,a_t+1,θ)

式中，y'为目标Q值，γ为折扣因子，r为在状态s下采取动作a后立即获得的奖赏值，θ为神经网络结构模型中训练的权值参数。

进一步地，所述步骤S8中，对机器人路径规划深度强化学习模型进行更新时，损失函数为均方误差损失函数，其表达式为：

L(θ)＝E[(y'-Q(s,a,θ))²]。

本发明的有益效果为：

(1)本发明通过障碍学习规则、重新设计奖励函数和引入动态探索因子的改进，可以让机器人在避障的前提下收敛更快，成功率更高，路径长度更短。

(2)本发明中构建的机器人路径规划深度强化学习模型中，采用深度强化学习(Deep Reinforcement Learning,DRL)是一种将深度学习(Deep Learning,DL)与强化学习(Reinforcement Learning,RL)相结合的算法，其中DL主要负责利用神经网络的感知功能对输入的未知环境状态提取特征，实现环境状态到状态动作值函数的拟合；而RL则负责根据深度神经网络的输出和一定的探索策略完成决策，从而实现状态到动作的映射，进而较好地满足机器人的移动需求。

附图说明

图1为本发明提供的基于深度强化学习的机器人避障路径规划方法流程图。

图2为本发明的动态函数训练回合速度示意图。

图3为本发明的神经网络模型结构。

图4为本发明的3维25×25输入信息图。

图5为本发明的两个栅格图示意图。

图6为本发明地图1中基于深度强化学习的机器人避障路径规划图。

图7为本发明地图2中基于深度强化学习的机器人避障路径规划图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明实施例提供了一种基于深度强化学习的机器人避障路径规划方法，如图1所示，包括以下步骤：

S1、将环境地图栅格化；

若是，则完成避障路径规划；

若否，则进入步骤S5；

S7、判断回放记忆单元中的数据存储量是否达到预设阈值；

若是，则进入步骤S8；

若否，则进入步骤S9：

S9、根据获取奖励判断该动作是否为碰撞到障碍物动作；

若是，则将其记录在障碍物学习记录表中，并返回步骤S4；

若否，则直接返回步骤S4。

在本发明实施例的步骤S1中，栅格环境地图中，每个单元格大小相同且分布均匀，包括机器人当前所处单元格作为起始点、待到达目标点所处单元格、障碍物区域以及可行区域；其中，起始点和待到达目标点对应一个单元格，障碍物区域对应两个及以上的单元格。

在本发明实施例的步骤S2中，所述机器人路径规划深度强化学习模型包括估计网络和目标网络；

其中，估计网络用于利用神经网络的感知功能对输入的未知环境状态提取特征，实现环境状态到动作值函数的拟合；目标网络用于根据深度学习网络的输出和探索策略完成决策，实现状态到动作的映射；其中，动作包括上、下、左、右、左上、右上、左下和右下，进而较好地满足机器人的移动需求。

在本发明实施例的步骤S3中，初始化状态值、回放记忆单元D和障碍学习记录表，包括初始化各个位置状态值s，回放记忆单元D和障碍学习记录表为0；其中，状态s一共有625个，为栅格环境下25×25个单元格，其中每个单元格大小相同且分布均匀。

在本实施例中，对于障碍学习记录表，其是指在移动机器人探索环境时会遇到障碍物，碰撞障碍物会有-10的惩罚，当即时奖励r为-10时，记录下来状态s和动作a到记录表中。

具体地，本实施例的步骤S3中，r_t为即时奖赏包括：

在本实施例中，启发奖励是指移动机器人在探索环境时遇到障碍物和目标点时会产生即时奖励r，引入启发奖励影响机器人的行为选择，使其更偏向于选择接近目标点的路径，并取消远离目标点的惩罚，实现自适应调整和更好奖赏效果；基于此，启发奖励函数r^e(s_t,a_t,s_t+1)的表达式为：

式中，N(s_t+1)为到达状态s_t+1的次数，N(s_t)为到达状态s_t的次数；由其计算方式可知在状态s_t访问次数越多，其倒数值越小，从而访问次数少的状态倒数减去访问次数多的状态倒数可以获得正向奖励，从而鼓励机器人更多去探索没有探索过的状态，反之访问次数多的状态倒数减去访问次数少的状态倒数则没有奖励，给予0奖励。

在本实施例中，对于探索奖励，移动机器人在探索环境时遇到障碍物和目标点时会产生即时奖励r，引入探索奖励，利用不同状态间的访问次数差异给予奖励，平衡不同状态点的访问次数，避免过度重复访问，进而提升学习效果；基于此，在探索奖励中，当前状态点到目标点的欧式距离为D(s_t,s_g)，下一状态点到目标点的欧式距离为D(s_t+1,s_g)的表达式分别为：

在本发明实施例步骤S5中，从动作集中移除记录的动作，具体包括根据障碍记录表记录的状态s和动作a，在动作集中移除已在记录表中记录的动作，防止其下次重复选择碰撞障碍物的动作，避免接下来学习过程中的大量面对同一个障碍物的重复学习。

在本发明实施例步骤S5中，利用ε-greedy贪婪策略选择探索随机选择动作a或利用估计网络选择动作a。

具体地，在本实施例中，所述ε-greedy贪婪策略是指生成一个在[0,1)内的随机数，判断其是否小于EPSILON；EPSILON通过动态函数f(x)＝0.5×ln(6.389x+1)生成，x是指回合数；

若是，则利用估计网络选择最大Q值的动作a；其中，Q值是指状态-动作对的值函数；它表示在给定状态下，采取某个动作所获得的累计奖赏值的估计值，Q值可以用来评估不同动作的优劣，并帮助机器人做出决策选择最优的动作，总的来说，Q值在DQN算法中代表了动作的价值，通过学习和优化Q值函数，机器人能够找到最优的决策策略。

若否，则从动作集中随机选择一个动作a；

y'＝r+γmaxQ(s_t+1,a_t+1,θ)

在本实施例中，EPSILON的值通过动态函数f(x)＝0.5×ln(6.389x+1)生成，EPSILON是一个控制探索和利用平衡的参数。它用于决定在训练过程中是选择随机动作还是选择当前认为最好的动作。当随机数大于等于EPSILON时，DQN会随机选择动作，以便继续探索环境，以发现可能更好的动作。这样可以确保算法不会陷入局部最优解，而是能够探索到更多的状态和动作。而当随机数小于EPSILON时，DQN会选择当前估计的最优动作，即利用已经学习到的值函数来做出决策。这样可以确保算法在训练过程中减少探索，并趋向于选择更优的动作，通过调整EPSILON的值，可以控制算法在探索和利用之间的权衡。

在本实施例中，图2为本实施例中动态探索因子采取动态函数生成的示意图；本实施例中的探索因子ε决定了机器人在选择动作时是进行随机选择还是利用估计网络进行选择，而采用动态探索因子逐步降低探索的随机性，在后期训练中更充分利用神经网络进行动作选择和学习，提高算法性能和学习效率。

在本发明实施例的步骤S8中，当回放记忆单元D中的数据存储量大于预设阈值时，用新的数据覆盖旧的数据，当机器人步数大于预设阈值且每隔5步时从记忆单元D中随机抽取若干个(s_t,a_t,r_t,s_t+1)数据对估计网络和目标网络进行更新，其中损失函数为均方误差损失函数为：

L(θ)＝E[(y'-Q(s,a,θ))²]。

式中，θ为神经网络结构模型中训练的权值参数。

在本发明实施例中步骤S9中，根据即时奖励r_t判断该动作是否该记录在障碍学习记录表中，如果r_t为C2，也就是碰撞到障碍物，则将当前状态的该动作a_t记录在障碍记录学习表中，返回步骤S4，并继续往下进行，直到满足当前状态s_t是目标点状态s_g。

在本发明实施例中，机器人路径规划深度强化学习模型的模型结构如图3所示，其神经网络由三层神经元结构组成，分别为输入层、隐藏层和输出层；如图4所示为本发明为了方便卷积神经网络的读入的输入信息示意图。在图4中，网络的输入信息是一个三维的25×25的数组，每一维相当于代表一种物体的位置状态，比如第一维为机器人的位置状态，在第一层数组[0,0]的位置为1，其他区域为0；第二维为障碍的位置状态，其所在第二维位置为1，可活动区域为0；第三维为目标点的位置状态，第三维数组[24 24]的位置为1，其他区域为0，激活函数为RELU函数。隐藏层由一个全连接层组成，其输入神经元个数为625，输出神经元为224，激活函数为RELU函数。输出层由一个全连接层组成，其输入神经元个数为224，输出神经元为8，分别对应8个动作。优化器使用Adam，损失函数为MSELoss。

图5为本实例的两个25×25的栅格环境图，两个栅格环境中，红色的圆点代表机器人的起始点，蓝色的星星代表机器人的目标点，黑色方格代表障碍物，两个栅格环境中障碍物区域和可行区域并不相同。图,6为环境1下完成路径规划后的效果，绿线为从红点起始点出发到大蓝星目标点的最优避障路径；图7为环境2下完成路径规划后的效果，绿线为从红点起始点出发到大蓝星目标点的最优避障路径。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度强化学习的机器人避障路径规划方法，其特征在于，包括以下步骤：

S1、将环境地图栅格化；

若是，则完成避障路径规划；

若否，则进入步骤S5；

S7、判断回放记忆单元中的数据存储量是否达到预设阈值；

若是，则进入步骤S8；

若否，则进入步骤S9：

S9、根据获取奖励判断该动作是否为碰撞到障碍物动作；

若是，则将其记录在障碍物学习记录表中，并返回步骤S4；

若否，则直接返回步骤S4。

2.根据权利要求1所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述步骤S1中，栅格环境地图中，每个单元格大小相同且分布均匀，包括机器人当前所处单元格作为起始点、待到达目标点所处单元格、障碍物区域以及可行区域。

3.根据权利要求1所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述步骤S2中，所述机器人路径规划深度强化学习模型包括估计网络和目标网络；

4.根据权利要求1所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述步骤S3中，r_t为即时奖赏包括：

5.根据权利要求4所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，启发奖励函数r^e(s_t,a_t,s_t+1)的表达式为：

6.根据权利要求1所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述步骤S5中，利用ε-greedy贪婪策略选择探索随机选择动作a或利用估计网络选择动作a。

7.根据权利要求5所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述ε-greedy贪婪策略是指生成一个在[0,1)内的随机数，判断其是否小于EPSILON；EPSILON的值通过动态函数f(x)＝0.5×ln(6.389x+1)生成，x是指回合数；

若否，则从动作集中随机选择一个动作a；

y'＝r+γmaxQ(s_t+1,a_t+1,θ)

8.根据权利要求7所述的基于深度强化学习的机器人避障路径规划方法，其特征在于，所述步骤S8中，对机器人路径规划深度强化学习模型进行更新时，损失函数为均方误差损失函数，其表达式为：

L(θ)＝E[(y'-Q(s,a,θ))²]。