CN116533247A

CN116533247A - 基于dmp与卷积神经网络的机械臂多模态抓取任务实现方法

Info

Publication number: CN116533247A
Application number: CN202310629052.4A
Authority: CN
Inventors: 王志鹏; 徐海鑫; 马家骏; 何斌; 周艳敏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-04

Abstract

本发明涉及一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，包括以下步骤：采集目标物体图像，构建卷积神经网络，输出目标物体的位置；选取部分目标物体的位置对机械臂进行抓取示教任务，收集机械臂末端轨迹以及人手部肌电信号；将肌电信号转化为刚度信息，并利用DMP建模，确定阻抗DMP模型参数；构建全连接神经网络并进行DMP参数训练；针对特定任务，利用全连接神经网络输出的阻抗DMP模型参数对轨迹与刚度进行建模，基于阻抗控制的方法控制机械臂依照轨迹和刚度进行任务的执行。与现有技术相比，本发明能够很好地将少量示教泛化到机械臂自主执行的特定抓取任务中。

Description

基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法

技术领域

本发明涉及模仿学习技术领域，尤其是涉及一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法。

背景技术

模仿学习是现在备受关注的一种技术，是机器学习中的一种技术，通过让学习者观察和模仿人类专家的行为和决策来实现自主学习的过程。它是一种监督式学习的变体，它利用人类专家提供的示范数据和反馈来训练模型，并且可以应用于各种各样的任务，而将模仿学习用与机器人控制领域，让机器人通过观察人类或其他机器人的行为来学习执行特定的任务，可以大大减少编程人员的工作量。

应用于机器人领域的模仿学习方法由很多种，其中较为著名的是在2002年由Ijspeert等人提出的动态运动基元(DMP)模型。DMP利用了机器学习中的回归方法，通过学习一组基本的运动模式，即动态运动基元，来生成复杂的运动。动态运动基元是一组由非线性微分方程表示的基本的运动模式，能够模拟出各种连续的运动模式，例如握取、抓取、走路等。已经广泛应用于机器人学、控制工程和运动控制等领域，并已经在许多实际应用中得到了验证，例如机器人操作、航空航天、生物力学和康复医疗等。

在通过DMP方法完成机械臂抓取任务的过程中，并不能够将任务很好地泛化到不同抓取物体以及不同抓取位置的情况。

发明内容

本发明的目的是为了提供一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，将少量示教泛化到机械臂自主执行的特定抓取任务中，实现高精度、高效率、广适用性的抓取。

本发明的目的可以通过以下技术方案来实现：

一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，包括以下步骤：

步骤1)采集目标物体图像，构建训练数据集，构建卷积神经网络并利用训练数据集进行训练，输出目标物体的位置；

步骤2)选取部分目标物体的位置对机械臂进行抓取示教任务，收集机械臂末端轨迹以及人手部肌电信号；

步骤3)将肌电信号转化为手臂末端的刚度信息，同时将刚度信息与机械臂末端轨迹分别用DMP建模，确定阻抗DMP模型参数，构建全连接神经网络的训练数据集；

步骤4)构建全连接神经网络并进行训练，所述全连接神经网络的输入为目标物体的位置以及时钟信号，输出为末端轨迹和阻抗DMP模型参数；

步骤5)针对特定任务，利用全连接神经网络输出的阻抗DMP模型参数对轨迹与刚度进行建模，基于阻抗控制的方法控制机械臂依照轨迹和刚度进行任务的执行。

进一步的，所述采集目标物体图像，构建数据集具体为：在机械臂的工作空间内随机放置目标物品，利用摄像头捕获多组样本图片，并记录每张图片对应目标物品的基坐标系坐标，构建卷积神经网络的训练数据集。

进一步的，所述步骤2)包括以下步骤：

步骤2-1)将机械臂置于拖动示教模式，示教者佩戴肌电信号收集装置拖动机械臂末端完成对工作空间内目标物体的抓取任务，记录任务过程中机械臂末端位置轨迹以及人体肌电信号；

步骤2-2)将目标物品放置在工作空间内的不同位置，重复步骤2-1)，获取多组数据。

进一步的，所述步骤3)中，将肌电信号转化为手臂末端的刚度信息具体为：

其中，K_en∈R^6×6,K_j∈R^7×7分别表示人体上肢端点刚度和关节刚度；表示人体手臂雅可比矩阵的伪逆，表示手臂姿态；q_h∈R⁷表示手臂关节角；F_ex∈R⁶表示施加在人体上肢端点的外力；K_j基于肌电信号确定。

进一步的，用p表示刚度，所述人体上肢关节刚度K_j表示为一个肌肉收缩指数α(p)和一个固有不变刚度的乘积：

其中，肌肉收缩指数为：

变量α(p)是基于肌电信号确定的肌肉激活指标，λ₁、λ₂为常数系数。

进一步的，所述步骤3)中，将刚度信息与机械臂末端轨迹分别用DMP建模的建模过程包括以下步骤：

步骤3-2-1)构建单模态DMP模型：

其中，是轨迹的初始位置，/>是轨迹的终止位置，/> 是一个对角矩阵，其中向量g-y₀是对角线上的分量，/>是非线性强迫项，是按比例的运动速度，/>表示相位；

单模态DMP模型中的强迫项由径向基函数表示：

Ψ_k(s)＝exp(-h_k(s-c_k)²)

其中，c_k为沿轨迹相位分布的高斯函数的中心，h_k为高斯函数的宽度，h_k和c_k的值是固定的，且c_k沿相位均匀分布，w_k是未知参数，通过回归方法习得；

步骤3-2-2)为了保证基于同一任务参数的末端轨迹和阻抗同步，将单模态DMP模型修改为轨迹与阻抗同步的多模态DMP模型：

其中第一个式子为正则系统，后两个式子表示两个转换系统，一个用于编码位置轨迹，另一个用于刚度轮廓，p代表末端刚度；

步骤3-2-3)对于采集到的示教轨迹，用形式表示，其中θ_k,n、/>分别为k时刻关节n对应的位置，速度和加速度；参考运动轨迹的建模过程，将输入的n替换为p，得到刚度轨迹DMP模型：

其中，是刚度轨迹的初始位置，/>是刚度轨迹的终止位置，是一个对角矩阵，其中向量g_p-y_0p是对角线上的分量，/>是非线性强迫项；由于正则系统一致，参数τ，x，z一致；

步骤3-2-4)根据示教轨迹，获得期望的强迫项：

F_tar(s)为示教轨迹对应期望强迫项函数值；

步骤3-2-5)利用线性回归算法，定义损失函数，计算径向基函数的参数ω_k，得到基于特定任务的期望DMP模型的参数。

进一步的，所述损失函数为：

其中是示教轨迹对应期望强迫项函数值，/>是网络输出的强迫项函数值。

进一步的，所述全连接神经网络用于训练DMP模型的强迫项参数。

进一步的，所述全连接神经网络通过参数的偏差来判断网络是否学习到示教轨迹的特征，定义全连接神经网络的损失函数如下：

通过梯度下降算法来更新网络参数。

进一步的，所述步骤5)包括以下步骤：

步骤5-1)将步骤4)训练得到的强迫项参数应用到DMP模型中，通过动态运动原语获得基于特定任务参数的刚度和轨迹信息；

步骤5-2)定义机械臂关节空间阻抗控制模型：

其中，为机器人关节刚度矩阵，/>表示关节阻尼矩阵，θ_d和/>是用DMP算法生成的期望关节轨迹和角速度，θ_m和/>是被测关节轨迹和角速度，/>用于补偿重力、科氏力和其他动力，输出的u为个关节的转矩；

步骤5-3)利用刚度信息估计机械臂阻抗控制模型的参数：

K_r＝εK_en

其中，K_r为笛卡尔刚度，与估计的人体上肢端点刚度K_en成正比，ε是预先设定的比例系数，J_r是机械臂的雅可比矩阵，η为选定的正常系数；

步骤5-4)根据运动轨迹和刚度轨迹，依照阻抗控制模型进行特定抓取任务的执行。

与现有技术相比，本发明具有以下有益效果：

(1)本发明基于卷积神经网络对任务参数进行提取，可以实现端到端的任务执行效果，省去了任务定义任务参数的步骤。

(2)本发明将估计的机器人末端刚度作为任务的控制器输出，在保持机器人的柔顺性和安全性的同时提高机器人的任务执行性能。

(3)本发明利用DMP模型同时对运动轨迹和刚度轮廓进行编码，实现了这两方面的技能特征从人到机器人的传递，实现机器人对人类示教的多模态学习。

附图说明

图1为本发明的方法流程图。

图2为一种实施例中的EMG信号获取示意图。

图3为一种实施例中的卷积神经网络和全连接神经网络的架构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，如图1所示，包括以下步骤：

步骤1)采集目标物体图像，构建训练数据集，构建卷积神经网络并利用训练数据集进行训练，输出目标物体的位置。

在机械臂的工作空间内随机放置目标物品，利用摄像头捕获多组样本图片，并记录每张图片对应目标物品的基坐标系坐标，构建卷积神经网络的训练数据集。其中，摄像头固定在机械臂底座上方，用于捕获机械臂工作空间内的图像，并保证在机械臂工作时无遮挡。

步骤2)选取部分目标物体的位置对机械臂进行抓取示教任务，收集机械臂末端轨迹以及人手部肌电信号(EMG)。

步骤2-1)将机械臂置于拖动示教模式，示教者佩戴肌电信号收集装置拖动机械臂末端完成对工作空间内目标物体的抓取任务，记录任务过程中机械臂末端位置轨迹以及人体肌电信号。

本实施例中，如图2所示，在人手臂上臂肌肉处部署EMG信号获取装置，获得示教过程中人体肌肉的肌电信号。

步骤2-2)将目标物品放置在工作空间内的不同位置，重复步骤2-1)，获取多组数据，构建用于估计DMP模型参数的全连接神经网络训练数据集。

步骤3)将肌电信号转化为手臂末端的刚度信息，同时将刚度信息与机械臂末端轨迹分别用DMP建模，确定阻抗DMP模型参数，构建全连接神经网络的训练数据集。

步骤3-1)将肌电信号转化为手臂末端的刚度信息，具体为：

用p表示刚度，采用一种简化的方法来估计上肢刚度，具体的，将人体上肢关节刚度K_j表示为一个肌肉收缩指数α(p)和一个固有不变刚度的乘积：

其中，肌肉收缩指数为：

步骤3-2)利用DMP模型分别对机械臂末端位置轨迹以及手臂刚度信息进行建模。

步骤3-2-1)构建单模态DMP模型：

其中，是轨迹的初始位置，/>是轨迹的终止位置，/> 是一个对角矩阵，其中向量g-y₀是对角线上的分量，/>是非线性强迫项，是按比例的运动速度，/>表示相位。

单模态DMP模型中的强迫项由径向基函数表示：

Ψ_k(s)＝exp(-h_k(s-c_k)²)

其中，c_k为沿轨迹相位分布的高斯函数的中心，h_k为高斯函数的宽度，h_k和c_k的值是固定的，且c_k沿相位均匀分布，w_k是未知参数，通过回归方法习得。

其中第一个式子为正则系统，后两个式子表示两个转换系统，一个用于编码位置轨迹，另一个用于刚度轮廓，p代表末端刚度。

步骤3-2-3)对于采集到的示教轨迹，用形式表示，其中θ_k,n、/>分别为k时刻关节n对应的位置，速度和加速度；参考运动轨迹的建模过程，将输入的末端轨迹n替换为刚度轨迹p，并且使用同样的正则系统，从而保证建模得到的运动轨迹和刚度轨迹是同步的，最终得到刚度轨迹DMP模型：

其中，是刚度轨迹的初始位置，/>是刚度轨迹的终止位置，是一个对角矩阵，其中向量g_p-y_0p是对角线上的分量，/>是非线性强迫项；由于正则系统一致，参数τ，x，z一致。

步骤3-2-4)根据示教轨迹，获得期望的强迫项：

F_tar(s)为示教轨迹对应期望强迫项函数值。

步骤3-2-5)利用线性回归算法，定义损失函数：

基于损失函数计算径向基函数的参数ω_k，得到基于特定任务的期望DMP模型的参数，依据此构建全连接神经网络的数据集。

步骤4)构建全连接神经网络并进行训练，所述全连接神经网络的输入为目标物体的位置以及时钟信号，输出为末端轨迹和阻抗DMP模型参数。

步骤4-1)构建全连接神经网络，将步骤2)得到的任务参数与时钟信号一同送入强迫项训练网络中，训练得到不同任务参数下的强迫项参数。

具体的，全连接神经网络的结构如图3所示，通过参数的偏差来判断网络是否学习到示教轨迹的特征，定义全连接神经网络的损失函数如下：

通过梯度下降算法来更新网络参数，从而训练网络能够输出合适的参数值，再带入DMP模型中，生成能够完成特定任务的轨迹。

步骤4-2)将步骤3-2)中获得的基于神经网络获得的强迫项参数应用到DMP算法中，通过动态运动原语获得基于特定任务参数的轨迹。

步骤5-1)将步骤4)训练得到的强迫项参数应用到DMP模型中，通过动态运动原语获得基于特定任务参数的刚度和轨迹信息。

步骤5-2)定义机械臂关节空间阻抗控制模型：

其中，为机器人关节刚度矩阵，/>表示关节阻尼矩阵，θ_d和/>是用DMP算法生成的期望关节轨迹和角速度，θ_m和/>是被测关节轨迹和角速度，/>用于补偿重力、科氏力和其他动力，输出的u为个关节的转矩。

步骤5-3)利用刚度信息估计机械臂阻抗控制模型的参数：

K_r＝εK_en

其中，K_r为笛卡尔刚度，与估计的人体上肢端点刚度K_en成正比；ε是预先设定的比例系数，可以保证机械臂的刚度在安全范围内；J_r是机械臂的雅可比矩阵；η为选定的正常系数。

在实施过程中，利用训练得到的网络作为特定任务下DMP网络参数的发生器，在给定目标物品的任意工作空间位置的夹取任务时，首先将相机捕获的图片传入卷积神经网络，获取目标物的坐标，再将获得的坐标连同时钟信号一起作为全连接神经网络的输入，得到DMP模型的参数，构建DMP模型，获得在特定任务参数情况下完成夹取任务末端轨迹和刚度轨迹，用刚度轨迹转化为机械臂阻抗控制的参数，利用机械臂阻抗控制，完成对目标物体的夹取任务。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述采集目标物体图像，构建数据集具体为：在机械臂的工作空间内随机放置目标物品，利用摄像头捕获多组样本图片，并记录每张图片对应目标物品的基坐标系坐标，构建卷积神经网络的训练数据集。

3.根据权利要求1所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述步骤2)包括以下步骤：

4.根据权利要求1所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述步骤3)中，将肌电信号转化为手臂末端的刚度信息具体为：

其中，K_en∈R^6×6，K_j∈R^7×7分别表示人体上肢端点刚度和关节刚度；表示人体手臂雅可比矩阵的伪逆，表示手臂姿态；q_h∈R⁷表示手臂关节角；F_ex∈R⁶表示施加在人体上肢端点的外力；K_j基于肌电信号确定。

5.根据权利要求4所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，用p表示刚度，所述人体上肢关节刚度K_j表示为一个肌肉收缩指数α(p)和一个固有不变刚度的乘积：

其中，肌肉收缩指数为：

6.根据权利要求1所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述步骤3)中，将刚度信息与机械臂末端轨迹分别用DMP建模的建模过程包括以下步骤：

步骤3-2-1)构建单模态DMP模型：

其中，是轨迹的初始位置，/>是轨迹的终止位置，/> 是一个对角矩阵，其中向量g-y₀是对角线上的分量，/>是非线性强迫项，/>是按比例的运动速度，/>表示相位；

单模态DMP模型中的强迫项由径向基函数表示：

Ψ_k(s)＝exp(-h_k(s-c_k)²)

其中，c_k为沿轨迹相位分布的高斯函数的中心，g_k为高斯函数的宽度，h_k和c_k的值是固定的，且c_k沿相位均匀分布，w_k是未知参数，通过回归方法习得；

步骤3-2-3)对于采集到的示教轨迹，用n＝1，2，…，N_d}形式表示，其中θ_k，n、/>分别为k时刻关节n对应的位置，速度和加速度；参考运动轨迹的建模过程，将输入的n替换为p，得到刚度轨迹DMP模型：

步骤3-2-4)根据示教轨迹，获得期望的强迫项：

F_tar(s)为示教轨迹对应期望强迫项函数值；

7.根据权利要求6所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述损失函数为：

8.根据权利要求6所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述全连接神经网络用于训练DMP模型的强迫项参数。

9.根据权利要求8所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述全连接神经网络通过参数的偏差来判断网络是否学习到示教轨迹的特征，定义全连接神经网络的损失函数如下：

通过梯度下降算法来更新网络参数。

10.根据权利要求1所述的一种基于DMP与卷积神经网络的机械臂多模态抓取任务实现方法，其特征在于，所述步骤5)包括以下步骤：

步骤5-2)定义机械臂关节空间阻抗控制模型：

步骤5-3)利用刚度信息估计机械臂阻抗控制模型的参数：

K_r＝εK_en