CN115586774A

CN115586774A - 基于改进动态窗口法的移动机器人避障方法

Info

Publication number: CN115586774A
Application number: CN202211324982.0A
Authority: CN
Inventors: 蔡晨晓; 张培培; 姚娟; 邹云; 殷明慧; 谢云云; 卜京
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-10

Abstract

本发明涉及移动机器人局部路径规划技术领域，尤其涉及一种基于改进动态窗口法的移动机器人避障方法，包括首先获取移动机器人当前状态、运动参数、目标位置以及障碍物的分布情况，然后搜索移动机器人在速度空间约束下可达到的线速度与角速度，修改动态窗口法的评价函数，接着基于模糊强化学习选择最优路径，最后选择最优路径对应的速度指令，驱动移动机器人避障。本发明基于改进动态窗口法，在提高移动机器人运动轨迹稳定性与平滑性的同时，提高了移动机器人在复杂环境下的避障能力，使移动机器人更具灵活性。

Description

基于改进动态窗口法的移动机器人避障方法

技术领域

本发明涉及移动机器人局部路径规划技术领域，尤其涉及一种基于改进动态窗口法的移动机器人避障方法。

背景技术

随着传感器和计算技术的发展，移动机器人的相关技术日益成熟，在越来越多的工作岗位上取代了人类，特别是轮式移动机器人已广泛应用于制造业、农业、国防等领域，从事重复性工作或人类工人在恶劣环境下难以完成的工作。然而，在这种人类与机器人共存的复杂环境中，机器人执行任务的环境是部分或完全未知的，并且在执行任务过程中还可能与障碍物发生碰撞，因此，移动机器人的避障算法值得深入研究。

动态窗口法是目前较为典型的一种避障算法。该算法充分考虑了机器人的物理约束，环境约束等因素，是一种在速度空间中直接搜索机器人最优速度的自主避障算法，将采样的多组速度与速度和加速度的运动约束相结合，然后通过评价函数对仿真的多组轨迹进行评价，选择轨迹对应的最优速度作为机器人的驱动。

但目前的动态窗口法不能避开障碍物密集的区域，容易陷入局部极值；同时评价函数中只考虑了如何避障，没有反应目标位置的重要性，从而路径规划的时间较长；另外，评价函数的各项评价因子权值固定，使得机器人在面对不同环境时缺乏避障的灵活性，在复杂环境中，机器人会出现避障路径选择不合理甚至无法避开障碍物的情况。因此，继续研究基于动态窗口法的避障算法仍然具有重要意义。

发明内容

本发明公开一种基于改进动态窗口法的移动机器人避障方法，用以解决当前技术中规划路径不合理、复杂环境下避障能力不稳定的问题。

为了实现本发明的目的，所采用的技术方案是：基于改进动态窗口法的移动机器人避障方法，包括如下步骤：

S1、获取移动机器人当前状态、运动参数、目标位置以及障碍物的分布情况；

S2、在速度空间约束下对移动机器人进行速度采样，确定其可达的速度空间，在速度空间中根据移动机器人的运动方程向前模拟T时刻移动机器人的运动轨迹，生成移动机器人的轨迹空间；

S3、修改动态窗口法的评价函数，使移动机器人避开障碍物密集区域，避免发生急停现象，路径选择更合理，同时缩短了移动机器人到目标点的运行时间；

S4、构建模糊强化系统，将移动机器人与目标位置的距离以及移动机器人与最近障碍物的距离输入到模糊强化系统中，根据模糊强化系统确定S3中评价函数的权重系数，从而选择最优路径；

S5、根据动态窗口法的评价函数确定的最优轨迹所对应的线速度与角速度，作为移动机器人下一时刻的速度指令，控制移动机器人的移动轨迹，实现避障功能。

作为本发明的优化方案，在步骤S1中，获取移动机器人当前状态、运动参数、目标位置以及障碍物的分布情况，包括如下：

所述移动机器人当前状态包括移动机器人的当前位置、方向角、线速度与角速度；运动参数包括移动机器人的最大线速度、最大角速度、加速度和角加速度。

作为本发明的优化方案，在步骤S2中，包括如下：

基于移动机器人本身性能以及环境的约束，所述速度空间约束包括移动机器人最大最小速度约束、电机动力学性能约束以及移动机器人安全允许距离约束。在速度空间约束下，限制了移动机器人移动的线速度与角速度范围，构成移动机器人可达的速度空间。

根据t时刻移动机器人的位置和方向角，利用移动机器人的运动方程可以得到t+1时刻移动机器人的位置和方向角，向前模拟T时刻，在所述移动机器人可达速度空间中，不同的线速度与角速度取值可以得到多条运动轨迹，生成移动机器人的轨迹空间。

作为本发明的优化方案，步骤S3中，在动态窗口法的评价函数中，引入目标位置与移动机器人和最近障碍物之间的相对夹角评价因子，使移动机器人避障路径更合理，同时加入目标相对距离评价因子，在确保路径合理的基础上缩短了移动机器人到目标点的时间，修改后的评价函数为：

其中，heading(v(t),ω(t))为目标方位角评价因子，表示为：

heading(v(t),ω(t))＝180°-θ (2)

式(2)中：θ表示目标点相对于预测轨迹末端移动机器人的夹角，目标方位角评价因子用来评估预测轨迹末端移动机器人的行驶方向和目标位置的角度差，使得移动机器人朝着目标位置前进，α为heading(v(t),ω(t))的权重系数；

dist(v(t),ω(t))为移动机器人在(v(t),ω(t))时所对应轨迹上与障碍物的最近距离评价因子，用来评估预测轨迹末端移动机器人与障碍物的最小距离，使得移动机器人尽量远离障碍物，β为dist(v(t),ω(t))的权重系数；

velocity(v(t),ω(t))为速度评价因子，表示为：

velocity(v(t),ω(t))＝│v(t)│ (3)

速度评价因子用来评估移动机器人的速度大小，使得机器人快速移动，γ为velocity(v(t),ω(t))的权重系数；

relativeAngle(v(t),ω(t))为目标位置分别与移动机器人和最近障碍物之间的相对夹角评价因子，表示为：

relativeAngle(v(t),ω(t))＝│obstacleζ-goalθ│ (4)

式(4)中，obstacleζ表示预测轨迹末端移动机器人与障碍物的最小夹角，goalθ表示目标点相对于预测轨迹末端移动机器人的夹角，相对夹角评价因子用来评估目标位置与移动机器人和最近障碍物之间相对夹角的大小，使得移动机器人避开障碍物密集的区域，η为relativeAngle(v(t),ω(t))的权重系数；

Goaldist(v(t),ω(t))为预测轨迹末端移动机器人与目标位置的相对距离函数，表示为：

式(5)中，d_G为预测轨迹末端移动机器人与目标点的最短距离，d_Gmax为设定的d_G的最大值，Goaldist(v(t),ω(t))用来评估预测轨迹末端移动机器人与障碍物的距离，使得移动机器人到达目标位置的时间最短，μ为Goaldist(v(t),ω(t))的权重系数。

作为本发明的优化方案，步骤S4中，构建模糊强化系统，包括如下：

所述模糊强化系统将模糊推理系统与Q学习算法相结合，将当前状态向量s输入系统后，通过模糊推理系统选择一个动作A执行，每个动作都有相应的权值Q，用Q学习算法不断更新Q值表直至其收敛，然后根据重心法解模糊，得到系统的输出动作向量a。

作为本发明的优化方案，在步骤S4中，包括如下：

将所述移动机器人与目标位置的距离Gd以及移动机器人与最近障碍物的距离Od输入到模糊强化系统中，即输入状态向量s＝{Gd,Od}；将这两个变量进行模糊化，分割为S,M,L三个模糊集，然后根据强化学习更新Q值表，利用重心法解模糊，得到系统的输出动作向量a＝{α,β,γ,η,μ}，其中α,β,γ,η,μ为动态窗口法评价函数的权重系数；

将模糊强化系统的输出动作向量输出到环境中，利用评价函数对移动机器人轨迹空间中各条模拟轨迹进行打分，得分最高的轨迹为最优的避障轨迹；

对于模糊强化系统中接近目标的行为，设计的奖励函数如下：

其中，R_t为移动机器人t时刻获得的奖励，τ为设置的安全阈值，当Od＜τ时，设置奖励值为-500，表示移动机器人与障碍物距离过近，有可能与障碍物发生碰撞；Gd₁为当前时刻移动机器人与目标位置的距离，Gd₀为上一时刻移动机器人与目标位置的距离，当Gd₁＞Gd₀时，设置奖励值为-200，表示移动机器人未朝目标位置移动；当Od＞τ且Gd₁≤Gd₀时，设置奖励值为+100，使移动机器人能够保持安全适当的速度向目标移动；当移动机器人到达目标时，设置奖励值为+200，使移动机器人能够在不断学习过程中尽可能快速到达目标位置。

作为本发明的优化方案，在步骤S5中，包括如下：

A、首先给权值Q赋一个[0,1]区间内的随机值，通过强化学习反复学习直至其收敛；

B、然后根据强化学习出的Q值表随机调整评价函数的系数，获得移动机器人的最优避障轨迹；

C、将最优轨迹对应的线速度和角速度作为移动机器人下一时刻的速度指令，控制移动机器人的运动轨迹，从而实现避障功能。

本发明具有积极的效果：1)本发明的评价函数中引入目标位置与移动机器人和最近障碍物之间的相对夹角评价因子，使移动机器人避开障碍物密集区域，避免发生急停现象，避障路径更合理；

2)本发明评价函数中引入移动机器人与目标位置的相对距离评价因子，在确保路径合理的基础上缩短了移动机器人到目标点的时间；

3)本发明利用模糊强化系统强化学习调整评价函数各项权值，实现参数的自适应调整，使移动机器人避障更具灵活性，在复杂障碍物环境中能够安全、快速地到达目标位置；

4)本发明基于改进动态窗口法，在提高移动机器人运动轨迹稳定性与平滑性的同时，提高了移动机器人在复杂环境下的避障能力，使移动机器人更具灵活性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的整体流程图；

图2为本发明引入的相对夹角评价因子示意图；

图3为图2的避障效果示意图；

图4为基于模糊强化系统强化学习的动态窗口法系统框架图；

图5为模糊强化系统输入变量Gd和Od的隶属度函数图；

图6为模糊强化系统将模糊推理系统与Q学习算法相结合的整体流程图；

图7为未使用本发明方法后的避障效果图；

图8为使用本发明方法后的避障效果图。

具体实施方式

如图1所示，本发明公开一种基于改进动态窗口法的移动机器人避障方法，包括如下步骤：

作为一种具体实施方式，在步骤S1中，获取移动机器人当前状态、运动参数、目标位置以及障碍物的分布情况，包括如下：

作为一种具体实施方式，在步骤S2中，包括如下：

作为一种具体实施方式，步骤S3中，在动态窗口法的评价函数中，引入目标位置与移动机器人和最近障碍物之间的相对夹角评价因子，使移动机器人避障路径更合理，同时加入目标相对距离评价因子，在确保路径合理的基础上缩短了移动机器人到目标点的时间，修改后的评价函数为：

其中，heading(v(t),ω(t))为目标方位角评价因子，表示为：

heading(v(t),ω(t))＝180°-θ (2)

velocity(v(t),ω(t))为速度评价因子，表示为：

velocity(v(t),ω(t))＝│v(t)│ (3)

relativeAngle(v(t),ω(t))＝│obstacleζ-goalθ│ (4)

作为一种具体实施方式，步骤S4中，构建模糊强化系统，包括如下：

作为一种具体实施方式，在步骤S4中，包括如下：

作为一种具体实施方式，在步骤S5中，包括如下：

首先给权值Q赋一个[0,1]区间内的随机值，通过强化学习反复学习直至其收敛；

然后根据强化学习出的Q值表随机调整评价函数的系数，获得移动机器人的最优避障轨迹；

将最优轨迹对应的线速度和角速度作为移动机器人下一时刻的速度指令，控制移动机器人的运动轨迹，从而实现避障功能。

采用本实施例基于改进动态窗口法的移动机器人避障方法，按图1所示的设计流程进行实验。

在动态窗口法的评价函数中引入公式(5)所述的相对距离评价因子，同时引入如图2所示的相对夹角评价因子，对其进行仿真验证可得如图3所示的运行结果图，可以看出移动机器人能够绕开障碍物密集区域进行移动。结合模糊强化学习实时调整动态窗口法的评价函数系数，整体系统框架如图4所示，当移动机器人获取t时刻的环境信息后，将当前状态S_t、奖励函数值r_t输入到模糊强化系统中，先将移动机器人t时刻的状态，即移动机器人与目标位置的距离Gd、移动机器人与最近障碍物的距离Od进行模糊化，分割为S,M,L三个模糊集，其论域和隶属度函数如图5所示(纵坐标为隶属度)，然后根据强化学习更新Q值，根据重心法反模糊化，得到系统的动作向量a_t，即动态窗口法评价函数的权值，再将动作向量输出到环境中，利用动态窗口法选择下一时刻路径，获得下一时刻的状态S_t+1；同时将动作向量输入到奖励函数中，计算下一时刻的奖励值r_t+1。再将获得的状态向量和奖励值输入模糊强化系统中，不断循环迭代上述步骤。结合模糊强化系统将模糊推理系统与Q学习算法相结合的整体流程如图6所示，首先初始化算法参数，随机选择移动机器人的初始状态，结合模糊规则和Q值表得到移动机器人的动作，其中，Q值表为输出动作向量相应的总权值Q的所有可能值构成的表，基于该动作得到移动机器人下一时刻的状态，计算单步奖励值R，根据奖励值和下一时刻的状态更新Q值表，不断迭代该过程，当Q值表收敛时，算法结束。基于该算法的最终避障结果如图8所示。

为了验证评价函数中增加评价因子的有效性，分别对原始动态窗口法、只增加相对夹角、只增加目标相对距离和两项都增加的动态窗口法进行了对比实验，结果如表1所示：

表1增加评价因子对比实验

算法	轨迹长度/m	平均速度/(m·s<sup>-1</sup>)	运行时间/s
				原始动态窗口法	28.97	0.282	84.89
增加相对夹角的动态窗口法	27.89	0.329	77.54
				增加目标相对距离的动态窗口法	25.41	0.416	65.03
两项都增加的动态窗口法	25.77	0.409	64.71

为了验证结合模糊强化系统将模糊推理系统与Q学习算法相结合的有效性，在上述增加评价因子的动态窗口法的基础上，人为设定两组固定权值，将其与结合模糊强化系统将模糊推理系统与Q学习算法相结合的动态窗口法进行了对比实验，仿真结果如图7、图8所示，具体参数如表2所示：

表2对比实验

仿真对比实验结果表明，本发明的方法缩短了移动机器人的移动路径，降低了算法的运行时间，同时可以使移动机器人根据当前环境选择更安全、合理的路径，提高了在复杂环境下的避障性能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于改进动态窗口法的移动机器人避障方法，其特征在于：包括如下步骤：

S2、在速度空间约束下对移动机器人进行速度采样，确定移动机器人可达的速度空间，在速度空间中根据移动机器人的运动方程向前模拟T时刻移动机器人的运动轨迹，生成移动机器人的轨迹空间；

2.根据权利要求1所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：在步骤S1中，获取移动机器人当前状态、运动参数、目标位置以及障碍物的分布情况，包括如下：

3.根据权利要求2所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：在步骤S2中，包括如下：

基于移动机器人本身性能以及环境的约束，所述速度空间约束包括移动机器人最大最小速度约束、电机动力学性能约束以及移动机器人安全允许距离约束；在速度空间约束下，限制了移动机器人移动的线速度与角速度范围，构成移动机器人可达的速度空间；

4.根据权利要求3所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：步骤S3中，在动态窗口法的评价函数中，引入目标位置与移动机器人和最近障碍物之间的相对夹角评价因子，使移动机器人避障路径更合理，同时加入目标相对距离评价因子，在确保路径合理的基础上缩短了移动机器人到目标点的时间，修改后的评价函数为：

其中，heading(v(t),ω(t))为目标方位角评价因子，表示为：

heading(v(t),ω(t))＝180°-θ (2)

velocity(v(t),ω(t))为速度评价因子，表示为：

velocity(v(t),ω(t))＝│v(t)│ (3)

relativeAngle(v(t),ω(t))＝│obstacleζ-goalθ│ (4)

5.根据权利要求4所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：步骤S4中，构建模糊强化系统，包括如下：

6.根据权利要求5所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：在步骤S4中，包括如下：

7.根据权利要求6所述的基于改进动态窗口法的移动机器人避障方法，其特征在于：在步骤S5中，包括如下：