CN117213501B

CN117213501B - 一种基于分布式模型预测的机器人避障规划方法

Info

Publication number: CN117213501B
Application number: CN202311484411.8A
Authority: CN
Inventors: 余倩; 何振中; 李笑平
Original assignee: Chengdu Vocational and Technical College of Industry
Current assignee: Chengdu Vocational and Technical College of Industry
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-02-02
Anticipated expiration: 2043-11-09
Also published as: CN117213501A

Abstract

本发明公开了一种基于分布式模型预测的机器人避障规划方法，包括如下步骤：S1，在笛卡尔坐标系中建立以机器人所获得的状态信息为目标位置的相对自身的极坐标位置模型；S2，采用分布式模型对机器人目标位置与包含障碍物的工作空间进行建模，得到机器人动作空间模型；S3，基于极坐标位置模型，采用马尔可夫决策过程来预测机器人在动作空间模型中的下一状态，得到下一状态值；S4，采用代价函数将下一状态值进行搜索迭代，输出机器人执行的运动点，形成机器人避障运动路径。本发明解决了现有机器人在复杂环境的避障问题，降低了计算量，且所采用的分布式预测模型收敛速度更好，可重复性更高。因此，适宜推广应用。

Description

一种基于分布式模型预测的机器人避障规划方法

技术领域

本发明属于机器人控制技术领域，具体地说，是涉及一种基于分布式模型预测的机器人避障规划方法。

背景技术

当前随着人工智能领域的研究和应用不断推广和深入，使得移动机器人在制造业中得到广泛应用。移动机器人移动时必须具备避障路径规划能力，按所规划的最短路径执行操作。移动机器人移动时避障的路径规划求解方法，一直是学术界与工程应用界的研究热点。

目前，移动机器人移动时避障的路径规划求解方法有很多，如基于行为方法、遗传算法、蚁群算法、神经网络、可视图法等方法。但是，上述移动机器人移动时避障的路径规划求解方法存在耗时较长，无法为移动机器人及时提供有效的规划路径结果，降低机器人执行端避障的路径规划方法的时效性。

发明内容

本发明的目的在于提供一种基于分布式模型预测的机器人避障规划方法，主要解决现有机器人避障模型在环境复杂的情况下调整效果不佳，不适用于动态环境的问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于分布式模型预测的机器人避障规划方法，包括如下步骤：

S1，在笛卡尔坐标系中建立以机器人所获得的状态信息为目标位置的相对自身的极坐标位置模型；

S2，采用分布式模型对机器人目标位置与包含障碍物的工作空间进行建模，得到机器人动作空间模型；

S3，基于极坐标位置模型，采用马尔可夫决策过程来预测机器人在动作空间模型中的下一状态，得到下一状态值；

S4，采用代价函数将下一状态值进行搜索迭代，输出机器人执行的运动点，形成机器人避障运动路径。

进一步地，在所述步骤S1中，极坐标位置模型的表达式为：

式中，和 />分别是机器人和目标位置的坐标，/>和/>分别为机器人的速度矢量和从机器人指向目标位置的矢量。

进一步地，在所述步骤S2中，机器人动作空间模型为：

式中，，/>，/>为常数矩阵，/>为机器人的状态，/>为机器人的位置，/>为机器人的速度；/>为移动障碍物状态，/>为固定障碍物状态，N为机器人个数，/>为单位矩阵。

进一步地，在所述步骤S3的马尔可夫决策过程中，机器人的避障任务对应于一元组，其中，E表示机器人所处环境；S表示环境状态，F表示动作状态，P表示状态转移概率，R表示奖励，T表示工作时间；/>表示初始状态分布，/>（0,1）表示折扣因子；将/>定义为未来奖惩的总和，则有：

定义Q函数，表示在从状态/>采取行动时在策略/>下的预期回报，即：

式中，， />；

其中，对于所有策略，如果一个策略的预期收益大于或等于其他策略的收益，则为最优策略；即

；

其中，最优策略符合贝尔曼方程，则得到下一时刻的Q值，即用Q表示机器人下一时刻的状态值表示为：

。

进一步地，在步骤S4中，所述代价函数表示从出发点开始，将每个点上的代价列入评估对象，代价最小的点当做下一个运动到的点，通过计算周围点的代价并比较得出代价最优点，当机器人到达目标位置时，搜索迭代停止；其表达式为：

式中，表示机器人从起点到当前位置的累计代价值，/>为当前位置到目标位置的剩余代价；已知终点的/>值为0，且在理想情况下 />等于当前点到终点的实际距离，在有障碍的情况下/>大于到终点的实际距离，代价函数持续进行搜索迭代，把每一步的最小代价点列人执行的运动点，最后输出最优路径；其中，每一步的代价值计算表达式为：

式中，和/>分别是机器人和目标位置的坐标。

与现有技术相比，本发明具有以下有益效果：

本发明的机器人避障规划方法中，采用分布式模型构建机器人的动作空间模型，并将马尔可夫决策应用在机器人的规划策略中，并利用代价函数实现了动态避障导航，解决了现有机器人在复杂环境的避障问题，降低了计算量，且所采用的分布式预测模型收敛速度更好，可重复性更高。

附图说明

图1为本发明-实施例中不同算法的路径规划图。

图2为本发明-实施例中不同算法的路径规划中路线高度均方差迭代图。

图3为本发明-实施例中不同算法的路径规划中路线转弯次数迭代图。

图4为本发明-实施例中不同算法的路径规划中路线长度迭代图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

本发明公开的一种基于分布式模型预测的机器人避障规划方法，为了便于描述移动机器人的运动，必须建立一个通用的坐标系统。即首先在笛卡尔坐标系中建立以机器人所获得的状态信息为目标位置的相对自身的极坐标位置模型。其表达式为：

式中，和/>分别是机器人和目标位置的坐标，/>和/>分别为机器人的速度矢量和从机器人指向目标位置的矢量。

在机器人路径规划中，机器人的动作空间内不仅存在固定障碍物，同时还存在移动障碍物，因此，在本实施例中采用分布式模型对机器人目标位置与包含障碍物的工作空间进行建模，得到机器人动作空间模型。

为各个机器人寻找一条最优无碰撞路径问题可以简化为马尔可夫决策过程。本实施例中，基于极坐标位置模型，采用马尔可夫决策过程来预测机器人在动作空间模型中的下一状态，得到下一状态值。在本实施例中，机器人的避障任务对应于一元组，其中，E表示机器人所处环境；S表示环境状态，F表示动作状态，P表示状态转移概率，R表示奖励，T表示工作时间；/>表示初始状态分布，/>（0,1）表示折扣因子；将/>定义为未来奖惩的总和，则有：

式中，，/>；

；

。

最后，采用代价函数将下一状态值进行搜索迭代。所述代价函数表示从出发点开始，将每个点上的代价列入评估对象，代价最小的点当做下一个运动到的点，通过计算周围点的代价并比较得出代价最优点，当机器人到达目标位置时，搜索迭代停止。从而输出机器人执行的运动点，形成机器人避障运动路径。

在本实施例中，代价函数的表达式为：

式中，表示机器人从起点到当前位置的累计代价值，/>为当前位置到目标位置的剩余代价；已知终点的/>值为0，且在理想情况下/>等于当前点到终点的实际距离，在有障碍的情况下通常/>要大于到终点的实际距离，代价函数持续进行搜索迭代，把每一步的最小代价点列人执行的运动点，最后输出最优路径；其中，每一步的代价值计算表达式为：

式中，和/>分别是机器人和目标位置的坐标。

本实施例使用Turtlebot3作为虚拟试验机器人，其硬件环境主要由一个Kobuki移动基地和支架组成。该机器人装载有一个激光雷达扫描仪，探测距离为4m，激光雷达采样率为128Hz，采样范围为180°。将本实施例方法与背景技术中传统方法中采用的行为方法、遗传算法、蚁群算法进行模拟比较得到如图1~图4的实验对比图。通过实验模拟对比可知，本发明方法的避障路径规划增大了机器人避障移动过程中直行的机率，并有效减少了路径的转弯次数，保障了路径的平滑性，得到了一条平滑度较高的路径。本方法能较快且较稳定地收敛于最优解，程序运行时间也表现最好。总体来看，在复杂的多对角障碍环境中，本方法具有明显的优势。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于分布式模型预测的机器人避障规划方法，其特征在于，包括如下步骤：

S1，在笛卡尔坐标系中建立以机器人所获得的状态信息为目标位置的相对自身的极坐标位置模型；其中，极坐标位置模型的表达式为：

式中，和/>分别是机器人和目标位置的坐标，/>和/>分别为机器人的速度矢量和从机器人指向目标位置的矢量；

S2，采用分布式模型对机器人目标位置与包含障碍物的工作空间进行建模，得到机器人动作空间模型：

；

式中，，/>，/>为常数矩阵，/>为机器人的状态，为机器人的位置，/>为机器人的速度；/>为移动障碍物状态，/>为固定障碍物状态，N为机器人个数，/>为单位矩阵；

S3，基于极坐标位置模型，采用马尔可夫决策过程来预测机器人在动作空间模型中的下一状态，得到下一状态值；其中，在马尔可夫决策过程中，机器人的避障任务对应于一元组，其中，E表示机器人所处环境；S表示环境状态，F表示动作状态，P表示状态转移概率，R表示奖励，T表示工作时间；/>表示初始状态分布，/>（0,1）表示折扣因子；将/>定义为未来奖惩的总和，则有：

；

式中，，/>；

；

S4，采用代价函数将下一状态值进行搜索迭代，输出机器人执行的运动点，形成机器人避障运动路径；其中，所述代价函数表示从出发点开始，将每个点上的代价列入评估对象，代价最小的点当做下一个运动到的点，通过计算周围点的代价并比较得出代价最优点，当机器人到达目标位置时，搜索迭代停止；其表达式为：

；

式中，和/>分别是机器人和目标位置的坐标。