CN115524997B

CN115524997B - 基于强化与模仿学习的机器人动态操作布料方法及系统

Info

Publication number: CN115524997B
Application number: CN202211191648.2A
Authority: CN
Inventors: 宋锐; 付天宇; 白云峰; 李凤鸣; 李程
Original assignee: Shandong Institute Of Industrial Technology; Shandong University
Current assignee: Shandong Institute Of Industrial Technology; Shandong University
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2024-05-14
Anticipated expiration: 2042-09-28
Also published as: CN115524997A

Abstract

本发明属于机器人技术领域，提供了一种基于强化与模仿学习的机器人动态操作布料方法及系统，首先通过在仿真环境中，依据强化学习，通过与环境交互学习机器人动态操作布料策略，得到仿真环境中的机器人关节运动轨迹，然后将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹；最后依据真实机器人的关节运动轨迹，利用动态运动基元方法进行轨迹学习与轨迹泛化，得到最终的操作轨迹；通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹，避免了与布料进行大量交互，提高了机器人操作织物等柔性物体的能力。

Description

基于强化与模仿学习的机器人动态操作布料方法及系统

技术领域

本发明属于机器人技术领域，尤其涉及一种基于强化与模仿学习的机器人动态操作布料方法及系统。

背景技术

操纵软物料对机器人来说是一项有意义且具有挑战性的能力。其中一项操作任务是将布料平整放置在工作台，这在家庭服务，工业生产等过程十分常见。机器人需要操作布料从悬空位置平铺到工作表面，要求布料处于正确位置且无褶皱，需要对具有高维状态表示，非线性动力学的变形物体进行连续性操作，不正确的操作轨迹会导致布料产生变形，因此，这是一个困难的动态操作过程，特别是对于机器人来说。

发明人发现，现有研究中，主要是依靠视觉感知、几何信息或轨迹规划等技术来实现布料变形操纵，但这些方法大多为离散的静态操作，需要与布料进行大量交互，导致操作织物等柔性物体的能力较差。

发明内容

本发明为了解决上述问题，提出了一种基于强化与模仿学习的机器人动态操作布料方法及系统，为了提高机器人操作织物等柔性物体的能力，本发明考虑机器人运动轨迹中速度与加速度对布料最终状态的决定性影响提出的布料方法，提高了机器人对变形物体的操作能力。

为了实现上述目的，本发明是通过如下的技术方案来实现：

第一方面，本发明提供了一种基于强化与模仿学习的机器人动态操作布料方法，包括：

搭建机器人操作布料的仿真环境；

在所述仿真环境中，依据强化学习，通过与环境交互学习机器人动态操作布料策略，得到仿真环境中的机器人关节运动轨迹；

将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹；

依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化，得到最终的操作轨迹；

利用最终的操作轨迹，控制机器人进行动态操作布料。

进一步的，轨迹学习过程用于获取末端轨迹的权重信息；轨迹泛化过程用于生成学习轨迹，将学习后轨迹与任务目标结合，泛化动态操作轨迹。

进一步的，仿真环境中，布料采用弹簧质点模型。

进一步的，t时刻状态s_t，动作a_t的奖励函数为：

r(s_t,a_t)＝-4h+2l-0.5r

其中，h为抓取点距离工作台高度；l为抓取点距离布料底部末端点的距离；r为布料底部末端点距离放置目标点的距离。

进一步的，操作策略优化目标为最小化抓取点距离工作台高度，最小化布料底部末端点距离放置目标点的距离。

进一步的，使用预设的演示专家数据改进操作策略的学习速度与效果，并通过对布料软硬特性进行随机化。

进一步的，利用动态运动基元方法进行轨迹学习与轨迹泛化。

第二方面，本发明还提供了一种基于强化与模仿学习的机器人动态操作布料系统，包括：

仿真场景搭建模块，被配置为：搭建机器人操作布料的仿真环境；

强化学习模块，被配置为：在所述仿真环境中，依据强化学习，通过与环境交互学习机器人动态操作布料策略，得到仿真环境中的机器人关节运动轨迹；

映射转换模块，被配置为：将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹；

轨迹学习与轨迹泛化模块，被配置为：依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化，得到最终的操作轨迹；

控制模块，被配置为：利用最终的操作轨迹，控制机器人进行动态操作布料。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了第一方面所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。

第四方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了第一方面所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明首先通过在仿真环境中，依据强化学习，通过与环境交互学习机器人动态操作布料策略，得到仿真环境中的机器人关节运动轨迹，然后将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹；最后依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化，得到最终的操作轨迹；通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹，避免了与布料进行大量交互，提高了机器人操作织物等柔性物体的能力；

3、本发明利用仿真环境，结合深度强化学习框架学习机器人动态操作布料策略，可以提高机器人训练效率，保证训练安全；利用动态运动基元将仿真环境中掌握的操作技能进行学习并泛化，可以适应不同场景下布料的放置操作。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解，本实施例的示意性实施例及其说明用于解释本实施例，并不构成对本实施例的不当限定。

图1为本发明实施例1的流程图；

图2为本发明实施例1的弹簧质点模型仿真布料；

图3为本发明实施例1的增加纹理后的仿真布料；

图4为本发明实施例1的机器人动态操作策略获得流程；

图5为本发明实施例1的机器人动态操作布料过程；

图6为本发明实施例1的机器人动态操作布料网络；

图7为本发明实施例1的基于动态运动基元的动态操作布料轨迹学习与泛化。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1：

如图1所述，本实施例提供了一种基于强化与模仿学习的机器人动态操作布料方法，包括：

搭建机器人操作布料的仿真环境；

利用最终的操作轨迹，控制机器人进行动态操作布料。

本实施例中，首先在仿真软件中搭建机器人操作布料环境，利用强化学习框架，通过与环境交互学习机器人动态操作布料策略π；使用少量演示专家数据τ^*来改进操作策略的学习速度与效果，并通过对布料软硬等特性ζ进行随机化，提高操作策略的鲁棒性。然后将仿真环境中动态操作策略的机器人关节运动轨迹θ_s通过机器人控制器映射转换为真实机器人的关节运动轨迹θ_r。最后运用动态运动基元方法分别进行轨迹学习与轨迹泛化，轨迹学习过程用于获取末端轨迹P_r的权重信息；轨迹泛化过程主要用于生成学习轨迹，将学习后轨迹与任务目标结合g，泛化动态操作轨迹τ。通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹，避免了与布料进行大量交互，提高了机器人操作织物等柔性物体的能力。

本实施例中，可以利用mujoco搭建机器人动态操作布料的仿真环境，机械臂可以采用UR5e，布料采用弹簧质点模型进行仿真，如图2和图3所示，布料网格参数如表1所示。

表1布料网格参数

动态操作策略π获得的方法如图4所示，具体包含步骤如下：

S1、定义机械臂操作状态s＝(s_e,s_f,s_j)；

其中，s_e为机械臂末端位姿；s_f为机械臂末端力数据；s_j为机械臂关节数据。

S2、定义机械臂缝制动作a＝(θ₁,θ₂,θ₃,θ₄,θ₅,θ₆)；

其中，θ₁,θ₂,θ₃,θ₄,θ₅,θ₆为六轴机械臂各关节角度。

S3、定义动态操作质量评价奖励函数r；

S3.1、动态操作过程如图5所示，其中，h为抓取点P距离工作台高度；l为抓取点P距离布料底部末端点P_e的距离；r为布料底部末端点P_e距离放置目标点P_g的距离。操作策略优化目标为最小化h确保布料放置在工作台，最大化l确保布料最终平整无褶皱，最小化r确保布料放置在工作台期望位置。

S3.2、因此t时刻状态s_t，动作a_t的奖励函数为：

r(s_t,a_t)＝-4h+2l-0.5r

S4、基于软Actor-Critic框架，搭建机器人动态操作布料策略网络，整体网络框架如图6所示，具体流程如下。

S4.1、对评价网络和策略网络π_θ的参数φ₁,φ₂,θ进行随机初始化。

S4.2、用专家数据τ^*初始化经验池专家数据可以理解为预存专家数据。

S4.3、初始化目标网络，

S4.4、观察初始状态s_t，策略网络生成动作智能体执行动作/>观察环境下一步状态s_t+1，获得奖励r_t+1，并将与环境交互的数组(s_t,a_t,r_t,s_t+1)存入经验池/>中。

S4.5、随机从经验池中采用一个batch的状态转换序列B＝N*(s_t,a_t,r_t,s_t+1)。

S4.6、基于当前策略网络策略与其动作输出，计算动作熵公式如下：

其中，π_θ(a_t+1|s_t+1)为状态s_t+1下输出动作a_t+1的概率。

S4.7、通过流程①计算目标动作值函数Q_s(r,s_t+1)：

其中，α为熵的权重；和/>为在两个Critic目标网络输出中取最小值，该操作可以防止过高估计价值。

S4.8、流程②采用MSEloss作为loss函数，通过梯度下降更新评价网络，公式如下：

S4.9、流程③通过以下公式利用梯度下降更新策略网络：

其中，a_t是通过当前策略网络π_θ(s_t)基于当前状态得到。

S4.10、通过参数ρ利用软更新更新目标网络：

S5、基于真实机器人零点对应，实现机器人控制器映射：

S6、基于动态运动基元，将仿真环境中动态操作策略π学习到的机器人操作轨迹进行轨迹学习与轨迹泛化，具体算法流程如图7所示：

S6.1、给定示教轨迹

S6.2、建立DMPs模型，在稳定的二阶系统中引入非线性强迫函数。

其中，g为学习目标；f为强迫函数；α_θ,β_θ为系统参数可取τ为放缩项；x为与系统无关变量；α_x为常数，可取1.0。

S6.3、通过以下公式计算强迫函数f：

其中，为初始状态；ψ_i(x)为基函数；其中c_i为中心值；ω_i为基函数权重：

S6.4、构造以下平方损失函数，使用最优化方法LWR(局部加权回归)计算基函数模型参数：

其中，P表示整条轨迹的总时间步数(即)，ξ(t)＝x(t)(g-θ₀)

S6.5、则基函数权重为：

其中，

利用得到非线性强迫函数f的权重ω_i，形成新的轨迹与轨迹θ_r有相似的运动趋势，从而学习到动态操作策略的演示轨迹，与新的目标相结合，最终让机器人实现布料动态操作的学习与泛化。

实施例2：

本实施例提供了一种基于强化与模仿学习的机器人动态操作布料系统，包括：

所述系统的工作方法与实施例1的基于强化与模仿学习的机器人动态操作布料方法相同，这里不再赘述。

实施例3：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了实施例1所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。

实施例4：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了实施例1所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。

以上所述仅为本实施例的优选实施例而已，并不用于限制本实施例，对于本领域的技术人员来说，本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.基于强化与模仿学习的机器人动态操作布料方法，其特征在于，包括：

搭建机器人操作布料的仿真环境；

利用最终的操作轨迹，控制机器人进行动态操作布料；

轨迹学习过程用于获取末端轨迹的权重信息；轨迹泛化过程用于生成学习轨迹，将学习后轨迹与任务目标结合，泛化动态操作轨迹；

t时刻状态s_t，动作a_t的奖励函数为：

r(s_t,a_t)＝-4h+2l-0.5r

2.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法，其特征在于，仿真环境中，布料采用弹簧质点模型。

3.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法，其特征在于，操作策略优化目标为最小化抓取点距离工作台高度，最小化布料底部末端点距离放置目标点的距离。

4.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法，其特征在于，使用预设的演示专家数据改进操作策略的学习速度与效果，并通过对布料软硬特性进行随机化。

5.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法，其特征在于，利用动态运动基元方法进行轨迹学习与轨迹泛化。

6.一种用于如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的系统，其特征在于，包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现了如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现了如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。