CN115338862B

CN115338862B - 一种基于部分可观测马尔科夫的机械手移动路径规划方法

Info

Publication number: CN115338862B
Application number: CN202210981275.2A
Authority: CN
Inventors: 臧希喆; 王超; 张学贺; 刘玉斌; 赵杰
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2024-05-28
Anticipated expiration: 2042-08-16
Also published as: CN115338862A

Abstract

一种基于部分可观测马尔科夫的机械手移动路径规划方法，所述方法包括：步骤一：建立机械手移动路径在线规划的虚拟触觉部分可观测马尔科夫决策过程模型；步骤二：配置机械手的初始坐标、任务目标的估计坐标、预设位置误差和策略求解器参数；步骤三：求解虚拟触觉部分可观测马尔科夫决策过程模型连续生成机械手移动动作序列；步骤四：机械手执行所生成的动作序列，判断机械手与目标之间的位置误差是否满足预设位置误差。若满足，则终止机械手路径规划过程；若不满足，则重复步骤三和步骤四直至位置误差满足预设位置误差。本发明有助于增强机器人在3D空间中自主规划机械手移动路径的能力。

Description

一种基于部分可观测马尔科夫的机械手移动路径规划方法

技术领域

本发明涉及一种机械手移动路径规划方法，特别是涉及一种基于虚拟触觉部分可观测马尔科夫决策过程的机械手移动路径在线规划方法，属于机器人技术领域。

背景技术

近些年来得益于触觉传感器技术的发展，机器人能够借助触觉传感器来定位、抓取和操作目标，并顺利完成作业任务。然而，由于触觉传感器的独有特性(只有与周围环境或任务目标产生真实接触时才会发挥作用)，造成机器人很难仅仅依靠触觉传感器来完成机械手移动路径的连续规划过程。这意味着，机器人必须依赖于其他路径规划算法才能实现基于触觉的目标定位和抓取，从而增加了机器人控制系统的复杂性。目前，该机器人技术领域内能够摆脱机器人对传统路径规划算法的依赖，并适用于机械手移动路径在线规划方法仍然较少。

公开号CN113400308A公开的机械手抓取产品的最优路径规划方法与可读存储介质中利用机器视觉来获取目标的像素坐标，依次计算所有像素坐标与剩余像素坐标中任选三组像素坐标之间路径距离，通过冒泡排序算法进行排序并获取最短像素坐标路径。这种方法需要机器视觉检测算法来采集全部像素坐标后才能进行后续排序过程，因此，该方法对视觉算法的检测精度有较高要求。公开号CN111923039A公开的一种基于强化学习的冗余机械臂路径规划方法中利用深度强化学习算法来建立冗余机械臂的训练环境，借助离线训练后的网络模型来规划机械臂路径。然而，这种方法需要基于大规模可靠数据集进行长时离线训练，很难满足机器人动态作业环境的在线路径规划需求。公开号CN112677159A公开的一种基于视觉定位的机械手作业路径规划方法及装置中介绍了利用视觉检测目标位置及作业环境信息，基于环境各物体的位置关系来生成作业规划路径。这种方法采用的由视觉和机械手组成手眼系统虽然可以实现在线路径规划，然而该手眼系统在使用之前需要进行精确标定，并且对视觉算法的检测精度也有较高要求。此外，公告号CN110561426B公开的超冗余机械臂路径规划方法、公告号CN110509279B公开的仿人机械臂的运动路径规划方法和公告号CN110181515B公开的双机械臂协同装配作业路径规划方法等，虽然也涉及路径规划，但仍需要依赖于精确的运动学模型或动力学模型，故在实际应用过程中容易受到建模精度的限制，从而很难发挥最佳的路径规划效果。

综上所述，针对机器人的目标搜索定位领域，迫切需要一种新的适用于机械手的移动路径在线规划方法。

发明内容

本发明为克服现有技术不足，提出一种基于部分可观测马尔科夫的机械手移动路径规划方法。该检测方法是将3D作业空间下的机械手移动路径规划问题建模为虚拟触觉部分可观测马尔科夫决策过程，进一步利用策略求解器生成机械手的动作序列并执行，最后通过判断机械手与目标之间的位置误差是否满足预设条件来决定结束或继续进行路径规划。该机械手路径规划方法摆脱了对精确数学模型的依赖，特别是可以摆脱对视觉算法、精确模型的依赖，且可以在线连续规划机械手的移动路径，有助于提高机械手对目标搜索定位的鲁棒性和效率。

本发明的技术方案如下：

步骤一：建立机械手移动路径在线规划的虚拟触觉部分可观测马尔科夫决策过程模型；

步骤二：配置机械手的初始坐标、任务目标的估计坐标、预设位置误差和策略求解器参数；

步骤三：求解虚拟触觉部分可观测马尔科夫决策过程模型连续生成机械手移动动作序列；

步骤四：机械手执行所生成的动作序列，判断机械手与目标之间的位置误差是否满足预设位置误差。若满足，则终止机械手路径规划过程；若不满足，则重复步骤三和步骤四直至位置误差满足预设位置误差。

本发明相比现有技术的有益效果是：

本发明机械手移动路径规划方法，通过建立虚拟触觉部分可观测马尔科夫决策过程模型，可以克服机器人对传统路径规划算法的依赖，特别是对精确数学模型的依赖，实现机械手移动路径的在线连续规划。特别的，本发明可以通过改变虚拟触觉部分可观测马尔科夫决策过程模型和策略求解器的参数适用于不同的路径规划场景，增强机械手对不同作业场景的适应性并提高机械手搜索定位目标的效率，从而提升机器人对作业目标的快速搜索定位能力。

下面结合附图并通过具体实施方式对本发明作进一步地说明：

附图说明

图1为机械手移动路径规划流程图；

图2为机械手移动路径规划过程示意图；

图3为机械手的规划路径示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

为了更清晰地说明本发明的实现过程，现将本发明的具体实施方式介绍如下。

如图1所示，本实施方式的一种基于部分可观测马尔科夫的机械手移动路径规划方法，它包括：

步骤四：机械手执行所生成的动作序列，判断机械手与目标之间的位置误差是否满足预设位置误差，若满足，则终止机械手路径规划过程；若不满足，则重复步骤三和步骤四直至位置误差满足预设位置误差。

可选地，步骤一建立机械手移动路径在线规划的虚拟触觉部分可观测马尔科夫决策过程模型，具体包括：定义状态空间、定义动作空间、定义观测空间、定义状态转换函数、定义观测函数、定义奖惩函数和制定信念更新规则。图1和图2中所述预设条件是指预设位置误差。

定义状态空间的要求包括：机械手对作业空间中的目标进行定位时，不需要考虑机械手和目标的姿态；状态空间变量包括机械手和目标的坐标；状态空间S定义为<Ob_p,Gr_p>,其中，Ob_p和Gr_p代表目标和机械手在作业空间中的x,y,z三轴坐标；

定义动作空间的要求包括：为满足三维定位的要求，机械手的动作至少具有三个轴的运动特征，即右左(x轴)、前后(y轴)和上下(z轴)；机械手的动作可以具有更多的运动特征，如沿着自定义的坐标轴进行移动；动作空间A定义为<move-right/left,move-forward/backward,move-up/down,sense>，共7种动作类型；基于二分法原理自主地调整动作的移动尺度，即每个动作移动的距离是距离误差的二分之一，如公式(1)所示；

式中，δ是比例因子，可选地，取δ＝0.5；是目标的估计坐标；/>是机械手的实时坐标；move-right/left,move-forward/backward,move-up/down,sense分别表示右移、左移、前移、后移、上移、下移和感知。感知是表示不执行具体动作，只是用传感器采集信号；

定义观测空间的要求包括：机器人系统具有本体感知能力，机械手在作业空间中的(x,y,z)坐标Gr_p是机器人系统的已知量；观测空间Z定义为<Gr_p,Ω>，Ω是虚拟触觉传感器的感知信号；

定义状态转换函数的要求包括：机械手的动作只是接近目标，而不会超过目标所在坐标；观测空间Z中所有的状态分为7类，即object-{right,left,forward,backward,up,down,coincident}，其中，{right,left,forward,backward,up,down}表示目标相对于机械手的方位，{coincident}表示目标与机械手的位置重合；机械手的每个动作的移动距离小于机械手与目标之间的距离，状态转移函数定义为均匀概率分布的函数，如公式(2)所示；

式中，Num{□}表示□的数量，Class[□]表示□的类别；

其中，right,left,forward,backward,up,down分别表示右、左、前、后、上和下方位。Coincident表示重合。

定义观测函数的要求包括：定义虚拟触觉传感器的输出与测量范围的比值λ为是否观察到新状态的标志；λ可参考真实触觉传感器的灵敏度，根据实际情况进行设置；当目标容易损坏或变形时，倾向于取小值来增加触觉感知的灵敏度；当目标高刚度时，可考虑较大的值来提高触觉感知的可靠性；虚拟触觉是在机械手和目标未发生实际接触的情况下，在区间[0,1]之间采用均匀分布随机地生成虚拟触觉信号ψ，且当虚拟触觉信号ψ大于λ时，则从观测空间Z中选择一种状态作为最新的观测状态，反之，当虚拟触觉信号ψ小于λ时，则不更新观测状态；当动作a_i∈{sense}时，观察到的代理状态应该更可靠，当动作时，状态观测概率与[a_i,s_i+1]的一致性有关，因此，观测函数定义如公式(3)所示；

作为一种可能的具体实施方式，式(3)中，λ＝0.15，当虚拟触觉信号ψ超过该值时，则表示观察到了新状态，Isinstance[□,○]表示□和○属性是否一致，如果属性一致，返回值为1，否则，返回值为-1。例如，动作{move-right}和状态{object-right}的属性是一致的，而动作{move-right}和状态{object-left}的属性不一致；

{move-right}表示右移动作，{object-right}表示目标相对于机械手右侧方位，{object-left}表示目标相对于机械手左侧方位。

定义奖惩函数的要求包括：为了鼓励机械手更靠近目标，当动作的属性与观察的属性一致时，即返回正向奖励，反之，当它们的属性不一致时，即返回负向惩罚；设定额外的奖惩系数τ来放大奖惩的影响，快速纠正不希望的行为；奖励或惩罚的数值与机械手-目标的距离呈负相关，如公式(4)所示；较佳地，为了最短化所规划的路径，每个动作都有一个-1的惩罚值；

式中，R(s_i,a_i)表示在状态s_i时，执行动作a_i的奖励，τ为惩罚系数，例如：Isinstance[a_i,z_i]＝1，则τ＝5；Isinstance[a_i,z_i]＝-1，则τ＝10，和/>分别为目标的实时坐标和估计坐标，/>和/>分别为机械手的实时坐标和初始坐标；为避免计算过程中出现数据过度拟合情况，上述坐标均设置为整数；

制定信念更新规则的要求包括：初始信念是均匀概率分布，使用非加权粒子滤波器来更新信度状态；历史h_t的信念状态由K个粒子估计，每个粒子都是一个基于观察、奖励和状态转换的样本状态，信度状态是所有粒子的总和，如公式(5)所示；滤波器中K个粒子从初始状态分布采样，然后通过Monte-Carlo模拟更新；

式中，δ_□△是克罗内克函数。

可选地，步骤二中配置机械手的初始坐标、任务目标的估计坐标、预设位置误差和策略求解器参数，具体包括：设置机械手在作业空间中的初始坐标和任务目标的估计坐标/>预设位置误差是根据实际需要预先设定机械手与目标之间的位置误差，即当机械手与目标之间位置差值小于该预设位置误差时，则表示机械手已到达目标位置；根据实际规划需求选择策略求解器；

所述策略求解器例如可为部分可观测蒙特卡洛树或者部分可观测上置信区间树、并设置策略求解器的视野深度。

进一步的，基于步骤二中的设置参数执行步骤三求解虚拟触觉部分可观测马尔科夫决策过程模型，如图2所示，连续生成机械手的移动动作序列，并输入机器人控制器用于机械手的移动过程。

可选地，步骤四中机械手执行所执行的动作序列为步骤三中生成动作序列，如图2所示，进一步判断机械手与目标之间的位置误差是否满足预设条件，从而决定是否需要继续循环执行规划过程。具体判别过程包括：如果机械手与目标之间的位置误差满足预设位置误差，则终止机械手路径规划过程；如果机械手与目标之间的位置误差不满足预设位置误差，则重复步骤三和步骤四直至位置误差满足预设位置误差。

特别的，图3提供了实施“一种基于虚拟触觉部分可观测马尔科夫决策过程的机械手移动路径在线规划方法”的具体实施例的机械手移动路径规划结果。具体的，路径规划结果的参数设置包括：(1)作业空间大小：图3(a)的20cm×20cm×20cm，图3(b)的40cm×40cm×40cm，图3(c)的60cm×60cm×60cm，图3(d)的80cm×80cm×80cm和图3(e)的100cm×100cm×100cm；(2)机械手初始坐标和任务目标的估计坐标：{0,0,0}和{20,20,20}，{0,0,0}和{40,40,40}，{0,0,0}和{60,60,60}，{0,0,0}和{80,80,80}，{0,0,0}和{100,100,100}；(3)视野深度：2，3和4；(4)策略求解器：采用部分可观测蒙特卡洛树(PO-MCP)和部分可观测上置信区间树求解器(PO-UCT)。然而，图3只是本发明实施方式有限的机械手的移动路径规划结果，通过修改作业空间大小、机械手初始坐标、任务目标的估计坐标、视野深度、策略求解器等设置，即可获得更多的机械手移动路径的规划结果。

本发明已以较佳实施案例揭示如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可以利用上述揭示的结构及技术内容做出些许的更动或修饰为等同变化的等效实施案例，均仍属本发明技术方案范围。

Claims

1.一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：包括：

包括如下过程：1)定义状态空间，2)定义动作空间，3)定义观测空间，4)定义状态转换函数，5)定义观测函数，6)定义奖惩函数和7)制定信念更新规则；其中：

1)定义状态空间，包括：机械手对作业空间中的目标进行定位时，不需要考虑机械手和目标的姿态；状态空间变量包括机械手和目标的坐标；状态空间S定义为<Ob_p,Gr_p>,其中，Ob_p和Gr_p代表目标和机械手在作业空间中的x,y,z三轴坐标；

2)定义动作空间，包括：为满足三维定位的要求，机械手的动作至少具有三个轴的运动特征，即右左、前后和上下；动作空间A定义为<move-right/left,move-forward/backward,move-up/down,sense>，共7种动作类型；基于二分法原理自主地调整动作的移动尺度，即每个动作移动的距离是距离误差的二分之一，如公式(1)所示；

式中，δ是比例因子，是目标的估计坐标；/>是机械手的实时坐标；

3)定义观测空间，具体的要求包括：机器人系统具有本体感知能力，机械手在作业空间中的(x,y,z)坐标Gr_p是机器人系统的已知量；观测空间Z定义为<Gr_p,Ω>，Ω是虚拟触觉传感器的感知信号；

4)定义状态转换函数，具体的要求包括：机械手的动作只是接近目标，而不会超过目标所在坐标；观测空间Z中所有的状态分为7类，即object-{right,left,forward,backward,up,down,coincident}，其中，{right,left,forward,backward,up,down}表示目标相对于机械手的方位，{coincident}表示目标与机械手的位置重合；机械手的每个动作的移动距离小于机械手与目标之间的距离，状态转移函数定义为均匀概率分布的函数，如公式(2)所示；

式中，Num{□}表示□的数量，Class[□]表示□的类别；

5)定义观测函数，具体的要求包括：定义虚拟触觉传感器的输出与测量范围的比值λ为是否观察到新状态的标志；λ可参考真实触觉传感器的灵敏度，根据实际情况进行设置；当目标容易损坏或变形时，则取小值来增加触觉感知的灵敏度；当目标高刚度时，取较大的值来提高触觉感知的可靠性；虚拟触觉是在机械手和目标不发生实际接触的情况下，在区间[0,1]之间采用均匀分布随机地生成虚拟触觉信号ψ，且当虚拟触觉信号ψ大于λ时，则从观测空间Z中选择一种状态作为最新的观测状态，反之，当虚拟触觉信号ψ小于λ时，则不更新观测状态；当动作a_i∈{sense}时，观察到的代理状态更可靠，当动作时，状态观测概率与[a_i,s_i+1]的一致性有关，因此，观测函数定义如公式(3)所示；

Isinstance[□,○]表示□和○属性是否一致，如果属性一致，返回值为1，否则，返回值为-1；

6)定义奖惩函数，包括：当动作的属性与观察的属性一致时，即返回正向奖励，反之，当它们的属性不一致时，即返回负向惩罚；设定额外的奖惩系数τ来放大奖惩的影响，快速纠正不希望的行为；奖励或惩罚的数值与机械手-目标的距离呈负相关，如公式(4)所示；为了最短化所规划的路径，每个动作都有一个-1的惩罚值；

式中，R(s_i,a_i)表示在状态s_i时，执行动作a_i的奖励，τ为惩罚系数，和/>分别为目标的实时坐标和估计坐标，/>和/>分别为机械手的实时坐标和初始坐标；

7)制定信念更新规则，包括：初始信念是均匀概率分布，使用非加权粒子滤波器来更新信度状态；历史h_t的信念状态由K个粒子估计，每个粒子都是一个基于观察、奖励和状态转换的样本状态，信度状态是所有粒子的总和，如公式(5)所示；滤波器中K个粒子从初始状态分布采样，然后通过Monte-Carlo模拟更新；

式中，δ_□△是克罗内克函数；

步骤三：求解虚拟触觉部分可观测马尔科夫决策过程模型连续生成机械手的移动动作序列；

步骤四：机械手执行所生成的动作序列，判断机械手与任务目标之间的位置误差是否满足预设位置误差，若满足，则终止机械手路径规划过程；若不满足，则重复步骤三和步骤四直至位置误差满足预设位置误差。

2.根据权利要求1所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：步骤二中配置机械手的初始坐标、任务目标的估计坐标、预设位置误差和策略求解器参数，具体包括：设置机械手在作业空间中的初始坐标和任务目标的估计坐标/>预设位置误差是根据实际需要预先设定机械手与目标之间的位置误差，即当机械手与目标之间位置差值小于该预设位置误差时，则表示机械手已到达目标位置；根据实际规划需求选择策略求解器，并设置策略求解器的视野深度。

3.根据权利要求2所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：基于步骤二中的设置参数执行步骤三求解虚拟触觉部分可观测马尔科夫决策过程模型，连续生成机械手的移动动作序列，并输入机器人控制器用于机械手的移动过程。

4.根据权利要求1、2或3所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：步骤一的公式(3)中λ＝0.15，当虚拟触觉信号ψ超过该值时，则表示观察到了新状态。

5.根据权利要求2所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：所述的策略求解器为部分可观测蒙特卡洛树。

6.根据权利要求2所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：所述的策略求解器为部分可观测上置信区间树求解器。

7.根据权利要求1所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：步骤一的公式(1)中取δ＝0.5。

8.根据权利要求1所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：步骤一的定义观测函数中：右移动作和目标相对于机械手右侧方位状态的属性是一致的，而右移动作和目标相对于机械手左侧方位状态的属性不一致。

9.根据权利要求1所述的一种基于部分可观测马尔科夫的机械手移动路径规划方法，其特征在于：步骤一的公式(4)中：如果Isinstance[a_i,z_i]＝1，则τ＝5；如果Isinstance[a_i,z_i]＝-1，则τ＝10。