CN111890357A - 一种基于动作演示示教的智能机器人抓取方法 - Google Patents

一种基于动作演示示教的智能机器人抓取方法 Download PDF

Info

Publication number
CN111890357A
CN111890357A CN202010619248.1A CN202010619248A CN111890357A CN 111890357 A CN111890357 A CN 111890357A CN 202010619248 A CN202010619248 A CN 202010619248A CN 111890357 A CN111890357 A CN 111890357A
Authority
CN
China
Prior art keywords
robot
human
training
teaching
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010619248.1A
Other languages
English (en)
Other versions
CN111890357B (zh
Inventor
雷渠江
徐杰
李秀昊
桂光超
潘艺芃
王卫军
韩彰秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Advanced Technology of CAS
Original Assignee
Guangzhou Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Advanced Technology of CAS filed Critical Guangzhou Institute of Advanced Technology of CAS
Priority to CN202010619248.1A priority Critical patent/CN111890357B/zh
Publication of CN111890357A publication Critical patent/CN111890357A/zh
Application granted granted Critical
Publication of CN111890357B publication Critical patent/CN111890357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于动作演示示教的智能机器人抓取方法,涉及机器人学习技术领域,包括如下步骤:完成动作演示示教编程系统的硬件环境搭建;人类演示抓取操作形成人类示教动作视频,人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频;将人类和机器人示教动作视频的数据集合均进行去噪和扩充操作;采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习。本发明所提出的元学习算法能在不同的背景环境、不同的人类示教者和不同的机器人上实现模仿学习的一眼学习,利用时间卷积实现自适应目标损失函数的学习,使得网络能够同时捕捉多帧人类动作图像信息,具有强大的适应能力和鲁棒性。

Description

一种基于动作演示示教的智能机器人抓取方法
技术领域
本发明涉及机器人学习技术领域,尤其是一种基于动作演示示教的智能机器人抓取方法。
背景技术
近年来机器人自动化系统得到了飞速发展,在工业和家用环境中得到广泛应用,对解决社会老龄化问题、加快产业升级转型等起到了重要作用。其中,机器人抓取技术是机器人自动化系统中的重要组成部分,几乎涉及到机器人操作相关的所有应用,例如工业机器人分拣搬运、家用机器人桌面清理等。然而,当前大部分成熟的抓取系统都是围绕结构化操作环境设计,依赖事先获取的目标模型信息规划抓取过程,抓取目标单一且应用场景相对固定,灵巧性不够,不能很好地适应复杂多变的现实应用场景。
目前,对于未知物体的抓取问题大都采用机器学习的方法,人工设计特征并建立特征到抓取参数的映射,利用算法的学习能力将特征从已知物体迁移到未知物体中。但采用传统机器学习方法进行未知物体抓取时,人工设计特征费时费力,并且严重依赖人类经验,特征的好坏直接影响算法性能,抓取系统存在泛化能力差、仅用于当前任务难以迁移到其他任务中的问题。
发明内容
有鉴于此,有必要针对上述的问题,提出一种基于动作演示示教的智能机器人抓取方法,机器人从动作演示中学习需要获取的示教抓取轨迹,当面对新任务时,可以通过快速学习就掌握该技能,并且能够处理多种任务,满足机器人智能抓取的可重复性、灵活性和可靠性的发展需求。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于动作演示示教的智能机器人抓取方法,包括以下步骤:
步骤S1:完成动作演示示教编程系统的硬件环境搭建;
步骤S2:人类演示抓取操作形成人类示教动作视频,人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频;
步骤S3:将人类示教动作视频和机器人示教动作视频的数据集合均进行去噪和扩充操作;
步骤S4:采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习;该步骤具体包括元训练和元测试两个过程:在元训练过程中,将内训练的损失函数作为自适应目标,将外训练的目标作为元目标,利用人类演示示教动作中的线索信息推断出完成任务应采取的策略参数;在元测试过程中,输入一个人类动作视频序列,由输出梯度信息对策略网络进行微调,完成机器人模仿人类抓取物体功能的实现。
进一步地,所述动作演示示教编程系统包括Inter深度摄像机、至少一台ROS动力学特性的Ubantu18.04电脑、至少一台带有夹持器的UR5机器人、至少一个待抓取物体;
所述Inter深度摄像机用于采集人类和机器人动作演示的视频数据,并安装在所述UR5机器人上;
所述Ubantu18.04电脑用于完成抓取网络模型的训练;
所述UR5机器人用于抓取待抓取物体。
进一步地,步骤S3具体包括以下步骤:
步骤S31:采用深度视频分层去噪方法对人类和机器人演示示教动作获得的数据集合进行去噪处理;
步骤S32:采用随机平移和旋转对人类和机器人演示示教动作获得的数据集合进行扩充;
具体地,所述步骤S31具体实现方法包括:
获取深度视频深度帧;
依照深度值分布对深度帧进行分层;
对每层图像进行二值化处理,将面积小于阈值的深度噪声去除;
将去噪后的每层图像合并为完整深度帧;
填补去噪后深度值空白区域;
对与深度帧对应的彩色帧进行SLIC超像素划分,进行聚类;
划分后,根据类内无噪声点的深度值计算,得到空白点的深度值;
填补完毕,得到去噪后深度帧。
具体地,所述SLIC超像素划分具体实现方法包括:
初始化种子点;
在种子点的3×3领域内重新选择种子点;
在每个种子点周围的领域内为每个像素点分配类标签;
距离度量包括颜色距离和空间,分别计算每个搜索到的像素点和该种子点的距离;
迭代优化。
具体地,所述计算每个搜索到的像素点和该种子点的距离的方法为:
Figure BDA0002564625910000031
Figure BDA0002564625910000032
Figure BDA0002564625910000033
其中,dc代表颜色距离,dc代表空间距离,lj和li代表亮度,aj和ai代表从绿色到红色的分量,bj和bi代表从蓝色到黄色分量,xj、xi、yj、yi代表横纵坐标,Nc代表最大颜色距离,Ns是类内最大空间距离,定义Ns=S=sqrt(N/K),适用于每个聚类。
具体地,所述步骤S32具体实现方法包括:
翻转:包括但不限于水平翻转、垂直翻转、水平垂直翻转;
旋转:将原图按照一定角度旋转作为新图像,常取的旋转角度为-30°、-15°、15°、30°角度值;
尺度变换:将图像分辨率变为原图的0.8、0.9、1.1、1.2倍数作为新图像;
截取:截取含有明显语义信息的图像块作为新图像。
具体地,所述步骤S4的具体实现方法包括:
首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中,训练策略分为内外训练两个阶段:其中在内训练阶段输入人类动作,在外训练阶段输入机器人示教动作,并在多个任务中进行反复迭代训练;然后经过一个空间softmax函数转为一维特征向量,并与机器人配置信息级联起来,经过3个全连接层后得到隐藏层的输出向量,此时网络分成两个支路:一个输出向量与前面提取的特征向量在此级联起来,经过3层时间卷积和范数计算得到自适应目标损失函数;另一个输出向量经过一个全连接层后输出预测的动作指令,在外训练过程中计算行为克隆损失函数,并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿,并对此进行监督。
具体地,在步骤S4中,模型内训练过程损失函数可以表示为:
Figure BDA0002564625910000041
其中,
Figure BDA0002564625910000042
表示内训练阶段模型内训练过程损失函数,w和b分别表示最后一个全连接层的权重和偏置,Ti和Tj分别表示所采样的第i和第j个任务样本;
具体地,在步骤S4中,外训练的优化目标可以表示为:
Figure BDA0002564625910000043
其中,θ、w、b分别表示网络参数、最后一个全连接层的权重和偏置,
Figure BDA0002564625910000044
Figure BDA0002564625910000045
别表示外训练模型外训练过程损失函数和内训练模型内训练过程损失函数,Ti表示所采样的第i个任务样本,fθ‘
Figure BDA0002564625910000046
分别表示外层学习器和内层学习器的参数值,α表示外层训练的学习率,
Figure BDA0002564625910000047
表示梯度算子;
具体地,在步骤S4中,对于机器人夹具开或关的离散动作采用sigmoid层输出和交叉熵损失函数,其中sigmoid函数表示如下:
Figure BDA0002564625910000048
其中,s表示模型上一层的输出,g(s)为概率值也是交叉熵公式中的模型预测输出;
交叉熵损失函数表示如下:
Figure BDA0002564625910000051
其中,
Figure BDA0002564625910000052
表示当前样本标签的概率,y表示0或者1,N表示样本总个数,i表示样本编号。
具体地,在步骤S4中,对于接触到目标对象或容器时夹具位姿的监督训练采用均方误差损失函数,表示如下:
Figure BDA0002564625910000053
其中,xi表示网络输出,x′i表示真实值。
本发明的优点和积极效果是:
与传统的机器学习方法相比,本发明所提出的元学习算法能在不同的背景环境、不同的人类示教者和不同的机器人上实现模仿学习的一眼学习,利用时间卷积实现自适应目标损失函数的学习,使得网络能够同时捕捉多帧人类动作图像信息,具有强大的适应能力和鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于动作演示示教的智能机器人抓取方法流程示意图;
图2为本发明基于动作演示示教的机器人抓取系统硬件环境示意图;
图3为本发明元学习算法模型网络结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1给出了本发明基于动作演示示教的智能机器人抓取方法流程示意图,如图1所示,本发明提供了一种基于动作演示示教的智能机器人抓取方法,包括以下步骤:
步骤S1:完成动作演示示教编程系统的硬件环境搭建;
步骤S2:人类演示抓取操作形成人类示教动作视频,人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频;
步骤S3:将人类示教动作视频和机器人示教动作视频的数据集合均进行去噪和扩充操作;
步骤S4:采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习;该步骤具体包括元训练和元测试两个过程:在元训练过程中,将内训练的损失函数作为自适应目标,将外训练的目标作为元目标,利用人类演示示教动作中的线索信息推断出完成任务应采取的策略参数;在元测试过程中,输入一个人类动作视频序列,由输出梯度信息对策略网络进行微调,完成机器人模仿人类抓取物体功能的实现。
图2为本发明基于动作演示示教的机器人抓取系统硬件环境示意图,如图2所示,进一步地,所述动作演示示教编程系统包括Inter深度摄像机、至少一台ROS动力学特性的Ubantu18.04电脑、至少一台带有夹持器的UR5机器人、至少一个待抓取物体;
所述Inter深度摄像机用于采集人类和机器人动作演示的视频数据,并安装在所述UR5机器人上;
所述Ubantu18.04电脑用于完成抓取网络模型的训练;
所述UR5机器人用于抓取待抓取物体。
进一步地,步骤S3具体包括以下步骤:
步骤S31:采用深度视频分层去噪方法对人类和机器人演示示教动作获得的数据集合进行去噪处理;
步骤S32:采用随机平移和旋转对人类和机器人演示示教动作获得的数据集合进行扩充;
具体地,所述步骤S31具体实现方法包括:
获取深度视频深度帧;
依照深度值分布对深度帧进行分层;
对每层图像进行二值化处理,将面积小于阈值的深度噪声去除;
将去噪后的每层图像合并为完整深度帧;
填补去噪后深度值空白区域;
对与深度帧对应的彩色帧进行SLIC超像素划分,进行聚类;
划分后,根据类内无噪声点的深度值计算,得到空白点的深度值;
填补完毕,得到去噪后深度帧。
具体地,所述SLIC超像素划分具体实现方法包括:
初始化种子点;
在种子点的3×3领域内重新选择种子点;
在每个种子点周围的领域内为每个像素点分配类标签;
距离度量包括颜色距离和空间,分别计算每个搜索到的像素点和该种子点的距离;
迭代优化。
具体地,所述计算每个搜索到的像素点和该种子点的距离的方法为:
Figure BDA0002564625910000071
Figure BDA0002564625910000072
Figure BDA0002564625910000073
其中,dc代表颜色距离,dc代表空间距离,lj和li代表亮度,aj和ai代表从绿色到红色的分量,bj和bi代表从蓝色到黄色分量,xj、xi、yj、yi代表横纵坐标,Nc代表最大颜色距离,Ns是类内最大空间距离,定义Ns=S=sqrt(N/K),适用于每个聚类。
具体地,所述步骤S32具体实现方法包括:
翻转:包括水平翻转、垂直翻转、水平垂直翻转;
旋转:将原图按照一定角度旋转作为新图像,常取的旋转角度为-30°、-15°、15°、30°角度值;
尺度变换:将图像分辨率变为原图的0.8、0.9、1.1、1.2倍数作为新图像;
截取:截取含有明显语义信息的图像块作为新图像。
具体地,所述步骤S4的具体实现方法包括:
图3给出了本发明元学习算法模型网络结构示意图,此处的网络结构模型如图3所示。首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中,训练策略分为内外训练两个阶段:其中在内训练阶段输入人类动作,在外训练阶段输入机器人动作,并在多个任务中进行反复迭代训练;然后经过一个空间softmax函数转为一维特征向量,并与机器人配置信息级联起来,经过3个全连接层后得到隐藏层的输出向量,此时网络分成两个支路:一个输出向量与前面提取的特征向量在此级联起来,经过3层时间卷积和范数计算得到自适应目标损失函数;另一个输出向量经过一个全连接层后输出预测的动作指令,在外训练过程中计算行为克隆损失函数,并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿,并对此进行监督。
具体地,在步骤S4中,模型内训练过程损失函数可以表示为:
Figure BDA0002564625910000081
其中,
Figure BDA0002564625910000082
表示内训练阶段模型内训练过程损失函数,w和b分别表示最后一个全连接层的权重和偏置,Ti和Tj分别表示所采样的第i和第j个任务样本;
具体地,在步骤S4中,外训练的优化目标可以表示为:
Figure BDA0002564625910000091
其中,θ、w、b分别表示网络参数、最后一个全连接层的权重和偏置,
Figure BDA0002564625910000092
Figure BDA0002564625910000093
分别表示外训练模型外训练过程损失函数和内训练模型内训练过程损失函数,Ti表示所采样的第i个任务样本,fθ‘
Figure BDA0002564625910000094
分别表示外层学习器和内层学习器的参数值,α表示外层训练的学习率,
Figure BDA0002564625910000095
表示梯度算子;
为了使外训练的损失函数下降,在每个内训练过程中就强行优化W和b,使其组成的损失函数能更好的引导网络参数的更新,经过多次反复迭代训练后,网络逐渐具备了仅利用观察进行参数更新的能力,在测试时,仅需要输入一个不带有人类动作新任务的视频序列,网络就能进行参数微调,从而学会新的任务。
具体地,在步骤S4中,对于机器人夹具开或关的离散动作采用sigmoid层输出和交叉熵损失函数,其中sigmoid函数表示如下:
Figure BDA0002564625910000096
其中,s表示模型上一层的输出,g(s)为概率值也是交叉熵公式中的模型预测输出;
交叉熵损失函数表示如下:
Figure BDA0002564625910000097
其中,
Figure BDA0002564625910000098
表示当前样本标签的概率,y表示0或者1,N表示样本总个数,i表示样本编号。
具体地,在步骤S4中,对于接触到目标对象或容器时夹具位姿的监督训练采用均方误差损失函数,表示如下:
Figure BDA0002564625910000099
其中,xi表示网络输出,x′i表示真实值。
与传统的机器学习方法相比,本发明所提出的元学习算法能在不同的背景环境、不同的人类示教者和不同的机器人上实现模仿学习的一眼学习,利用时间卷积实现自适应目标损失函数的学习,使得网络能够同时捕捉多帧人类动作图像信息,具有强大的适应能力和鲁棒性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (12)

1.一种基于动作演示示教的智能机器人抓取方法,其特征在于,包括以下步骤:
步骤S1:完成动作演示示教编程系统的硬件环境搭建;
步骤S2:人类演示抓取操作形成人类示教动作视频,人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频;
步骤S3:将人类示教动作视频和机器人示教动作视频的数据集合均进行去噪和扩充操作;
步骤S4:采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习;该步骤具体包括元训练和元测试两个过程:在元训练过程中,将内训练的损失函数作为自适应目标,将外训练的目标作为元目标,利用人类演示示教动作中的线索信息推断出完成任务应采取的策略参数;在元测试过程中,输入一个人类动作视频序列,由输出梯度信息对策略网络进行微调,完成机器人模仿人类抓取物体功能的实现。
2.根据权利要求1所述的基于动作演示示教的智能机器人抓取方法,其特征在于,步骤S1中,所述动作演示示教编程系统包括Inter深度摄像机、至少一台ROS动力学特性的Ubantu18.04电脑、至少一台带有夹持器的UR5机器人、至少一个待抓取物体;
所述Inter深度摄像机用于采集人类和机器人动作演示的视频数据,并安装在所述UR5机器人上;
所述Ubantu18.04电脑用于完成抓取网络模型的训练;
所述UR5机器人用于抓取待抓取物体。
3.根据权利要求1所述的基于动作演示示教的智能机器人抓取方法,其特征在于,步骤S3具体包括以下步骤:
步骤S31:采用深度视频分层去噪方法对人类和机器人演示示教动作获得的数据集合进行去噪处理;
步骤S32:采用随机平移和旋转对人类和机器人演示示教动作获得的数据集合进行扩充。
4.根据权利要求3所述的基于动作演示示教的智能机器人抓取方法,其特征在于,所述步骤S31具体实现方法包括:
获取深度视频深度帧;
依照深度值分布对深度帧进行分层;
对每层图像进行二值化处理,将面积小于阈值的深度噪声去除;
将去噪后的每层图像合并为完整深度帧;
填补去噪后深度值空白区域;
对与深度帧对应的彩色帧进行SLIC超像素划分,进行聚类;
划分后,根据类内无噪声点的深度值计算,得到空白点的深度值;
填补完毕,得到去噪后深度帧。
5.根据权利要求4所述的基于动作演示示教的智能机器人抓取方法,其特征在于,所述SLIC超像素划分具体实现方法包括:
初始化种子点;
在种子点的3×3领域内重新选择种子点;
在每个种子点周围的领域内为每个像素点分配类标签;
距离度量包括颜色距离和空间,分别计算每个搜索到的像素点和该种子点的距离;
迭代优化。
6.根据权利要求4所述的基于动作演示示教的智能机器人抓取方法,其特征在于,所述计算每个搜索到的像素点和该种子点的距离的方法为:
Figure FDA0002564625900000021
Figure FDA0002564625900000022
Figure FDA0002564625900000023
其中,dc代表颜色距离,dc代表空间距离,lj和li代表亮度,aj和ai代表从绿色到红色的分量,bj和bi代表从蓝色到黄色分量,xj、xi、yj、yi代表横纵坐标,Nc代表最大颜色距离,Ns是类内最大空间距离,定义Ns=S=sqrt(N/K),适用于每个聚类。
7.根据权利要求3所述的基于动作演示示教的智能机器人抓取方法,其特征在于,所述步骤S32具体实现方法包括:
翻转:包括水平翻转、垂直翻转、水平垂直翻转;
旋转:将原图按照一定角度旋转作为新图像,常取的旋转角度为-30°、-15°、15°、30°角度值;
尺度变换:将图像分辨率变为原图的0.8、0.9、1.1、1.2倍数作为新图像;
截取:截取含有明显语义信息的图像块作为新图像。
8.根据权利要求1所述的基于动作演示示教的智能机器人抓取方法,其特征在于,所述步骤S4的具体实现方法包括:
首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中,训练策略分为内外训练两个阶段:其中在内训练阶段输入人类动作,在外训练阶段输入机器人动作,并在多个任务中进行反复迭代训练;然后经过一个空间softmax函数转为一维特征向量,并与机器人配置信息级联起来,经过3个全连接层后得到隐藏层的输出向量,此时网络分成两个支路:一个输出向量与前面提取的特征向量在此级联起来,经过3层时间卷积和范数计算得到自适应目标损失函数;另一个输出向量经过一个全连接层后输出预测的动作指令,在外训练过程中计算行为克隆损失函数,并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿,并对此进行监督。
9.根据权利要求8所述的基于动作演示示教的智能机器人抓取方法,其特征在于,在步骤S4中,模型内训练过程损失函数可以表示为:
Figure FDA0002564625900000031
其中,
Figure FDA0002564625900000032
表示内训练阶段模型内训练过程损失函数,w和b分别表示最后一个全连接层的权重和偏置,Ti和Tj分别表示所采样的第i和第j个任务样本。
10.根据权利要求9所述的基于动作演示示教的智能机器人抓取方法,其特征在于,在步骤S4中,外训练的优化目标可以表示为:
Figure FDA0002564625900000041
其中,θ、w、b分别表示网络参数、最后一个全连接层的权重和偏置,
Figure FDA0002564625900000042
Figure FDA0002564625900000043
分别表示外训练模型外训练过程损失函数和内训练模型内训练过程损失函数,Ti表示所采样的第i个任务样本,fθ‘
Figure FDA0002564625900000044
分别表示外层学习器和内层学习器的参数值,α表示外层训练的学习率,
Figure FDA0002564625900000045
表示梯度算子。
11.根据权利要求8所述的基于动作演示示教的智能机器人抓取方法,其特征在于,在步骤S4中,对于机器人夹具开或关的离散动作采用sigmoid层输出和交叉熵损失函数,其中sigmoid函数表示如下:
Figure FDA0002564625900000046
其中,s表示模型上一层的输出,g(s)为概率值也是交叉熵公式中的模型预测输出;
交叉熵损失函数表示如下:
Figure FDA0002564625900000047
其中,
Figure FDA0002564625900000048
表示当前样本标签的概率,y表示0或者1,N表示样本总个数,i表示样本编号。
12.根据权利要求8所述的基于动作演示示教的智能机器人抓取方法,其特征在于,在步骤S4中,对于接触到目标对象或容器时夹具位姿的监督训练采用均方误差损失函数,表示如下:
Figure FDA0002564625900000049
其中,xi表示网络输出,x′i表示真实值。
CN202010619248.1A 2020-07-01 2020-07-01 一种基于动作演示示教的智能机器人抓取方法 Active CN111890357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010619248.1A CN111890357B (zh) 2020-07-01 2020-07-01 一种基于动作演示示教的智能机器人抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010619248.1A CN111890357B (zh) 2020-07-01 2020-07-01 一种基于动作演示示教的智能机器人抓取方法

Publications (2)

Publication Number Publication Date
CN111890357A true CN111890357A (zh) 2020-11-06
CN111890357B CN111890357B (zh) 2023-07-04

Family

ID=73191801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010619248.1A Active CN111890357B (zh) 2020-07-01 2020-07-01 一种基于动作演示示教的智能机器人抓取方法

Country Status (1)

Country Link
CN (1) CN111890357B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509392A (zh) * 2020-12-16 2021-03-16 复旦大学 一种基于元学习的机器人行为示教方法
CN112809689A (zh) * 2021-02-26 2021-05-18 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN112949501A (zh) * 2021-03-03 2021-06-11 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法
CN113255614A (zh) * 2021-07-06 2021-08-13 杭州实在智能科技有限公司 一种基于视频分析的rpa流程自动生成方法与系统
CN113537232A (zh) * 2021-05-31 2021-10-22 大连民族大学 双通道交互时间卷积网络、近景视频动作分割方法、计算机系统和介质
CN113552871A (zh) * 2021-01-08 2021-10-26 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN113674324A (zh) * 2021-08-27 2021-11-19 常州唯实智能物联创新中心有限公司 基于元学习的类级别6d位姿追踪方法、系统及装置
CN114881240A (zh) * 2022-02-28 2022-08-09 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN115157247A (zh) * 2022-07-07 2022-10-11 燕山大学 一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法
CN116276956A (zh) * 2022-12-01 2023-06-23 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170108526A (ko) * 2016-03-18 2017-09-27 한국과학기술원 모사학습 및 행동 조합에 기반한 로봇의 작업 행동궤적 생성 방법 및 그 장치
CN108648233A (zh) * 2018-03-24 2018-10-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
CN110315544A (zh) * 2019-06-24 2019-10-11 南京邮电大学 一种基于视频图像演示的机器人操作学习方法
CN110580472A (zh) * 2019-09-12 2019-12-17 合肥工业大学 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN111216133A (zh) * 2020-02-05 2020-06-02 广州中国科学院先进技术研究所 一种基于指尖识别和手部运动跟踪的机器人演示编程方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170108526A (ko) * 2016-03-18 2017-09-27 한국과학기술원 모사학습 및 행동 조합에 기반한 로봇의 작업 행동궤적 생성 방법 및 그 장치
CN108648233A (zh) * 2018-03-24 2018-10-12 北京工业大学 一种基于深度学习的目标识别与抓取定位方法
CN110315544A (zh) * 2019-06-24 2019-10-11 南京邮电大学 一种基于视频图像演示的机器人操作学习方法
CN110580472A (zh) * 2019-09-12 2019-12-17 合肥工业大学 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN111216133A (zh) * 2020-02-05 2020-06-02 广州中国科学院先进技术研究所 一种基于指尖识别和手部运动跟踪的机器人演示编程方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509392A (zh) * 2020-12-16 2021-03-16 复旦大学 一种基于元学习的机器人行为示教方法
CN113552871A (zh) * 2021-01-08 2021-10-26 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN113552871B (zh) * 2021-01-08 2022-11-29 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN112809689B (zh) * 2021-02-26 2022-06-14 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN112809689A (zh) * 2021-02-26 2021-05-18 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN112949501A (zh) * 2021-03-03 2021-06-11 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法
CN112949501B (zh) * 2021-03-03 2023-12-08 安徽省科亿信息科技有限公司 一种从示教视频学习物体的可供性方法
CN113537232B (zh) * 2021-05-31 2023-08-22 大连民族大学 双通道交互时间卷积网络、近景视频动作分割方法、计算机系统和介质
CN113537232A (zh) * 2021-05-31 2021-10-22 大连民族大学 双通道交互时间卷积网络、近景视频动作分割方法、计算机系统和介质
CN113255614A (zh) * 2021-07-06 2021-08-13 杭州实在智能科技有限公司 一种基于视频分析的rpa流程自动生成方法与系统
CN113674324A (zh) * 2021-08-27 2021-11-19 常州唯实智能物联创新中心有限公司 基于元学习的类级别6d位姿追踪方法、系统及装置
CN114881240A (zh) * 2022-02-28 2022-08-09 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN114881240B (zh) * 2022-02-28 2023-09-26 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN115157247A (zh) * 2022-07-07 2022-10-11 燕山大学 一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法
CN116276956A (zh) * 2022-12-01 2023-06-23 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置
CN116276956B (zh) * 2022-12-01 2023-12-08 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置

Also Published As

Publication number Publication date
CN111890357B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111890357B (zh) 一种基于动作演示示教的智能机器人抓取方法
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
Yen-Chen et al. Learning to see before learning to act: Visual pre-training for manipulation
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
Yuan et al. Sornet: Spatial object-centric representations for sequential manipulation
Yu et al. A vision-based robotic grasping system using deep learning for 3D object recognition and pose estimation
Makantasis et al. Deep learning based human behavior recognition in industrial workflows
CN111216133B (zh) 一种基于指尖识别和手部运动跟踪的机器人演示编程方法
CN113370217B (zh) 基于深度学习的物体姿态识别和抓取的智能机器人的方法
CN114708297A (zh) 一种视频目标跟踪方法及装置
CN114549507A (zh) 改进Scaled-YOLOv4的织物瑕疵检测方法
CN115147488A (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
CN113762159B (zh) 一种基于有向箭头模型的目标抓取检测方法及系统
CN114511924A (zh) 基于自适应增广与表示学习的半监督骨骼动作识别方法
CN112288809B (zh) 一种用于多物体复杂场景的机器人抓取检测方法
CN114998573B (zh) 一种基于rgb-d特征深度融合的抓取位姿检测方法
CN114937153B (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
Schmeckpeper et al. Object-centric video prediction without annotation
CN111160170A (zh) 一种自学习的人体行为识别与异常检测方法
Permana et al. Hand movement identification using single-stream spatial convolutional neural networks
CN112396666A (zh) 基于手势识别的装配过程智能控制方法
CN113486718A (zh) 一种基于深度多任务学习的指尖检测方法
Yang et al. Domain centralization and cross-modal reinforcement learning for vision-based robotic manipulation
Yang et al. A Recognition Algorithm for Workpieces Based on the Machine Learning
Moon et al. Predicting multiple pregrasping poses by combining deep convolutional neural networks with mixture density networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant