CN110315544B

CN110315544B - 一种基于视频图像演示的机器人操作学习方法

Info

Publication number: CN110315544B
Application number: CN201910547119.3A
Authority: CN
Inventors: 陈昱; 徐国政; 高翔
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-10-14
Anticipated expiration: 2039-06-24
Also published as: CN110315544A

Abstract

本发明公开了一种基于视频图像演示的机器人操作学习方法，包括如下步骤：1、通过搭载在机器人外部三脚架上的Kinect相机，计算机器人基座到跟踪系统的静态变换，实现机器人和相机系统的手眼标定；2、通过控制机器人执行不同的演示任务收集一个演示视频数据集；3、通过3D卷积神经网络获取视频数据中的动作特征；4、将操作学习与未知模型元学习相结合计算出具有泛化能力的机器人操作模仿学习模型；5、通过监控机器人抓取过程中手指的最大电流，感知手指抓取力。本发明实现了机器人能够通过观看视频演示达到学习新任务的能力，并通过机器人指尖电流的变化做到与外界环境进行交互，该方法很好的提高了服务机器人通用性和智能化水平。

Description

一种基于视频图像演示的机器人操作学习方法

技术领域

本发明涉及服务机器人领域，具体涉及一种基于视频图像演示的机器人操作学习方法。

背景技术

目前基于深度学习算法的机器人操作可以通过大量时间和经验从头学习一项复杂的技能，基于大量专家级技巧演示的操作学习，通过原始像素输入实现抓取单个固定对象的任务，需要200次演示才能实现良好的性能。目前深度学习太依赖于大量的数据集和巨量的训练，无法快速学习，使得深度学习的应用受到很大的局限，而对于人而言，在面对新事物的时候，能够根据对物体的描述就能基于以往的经验知识实现对任务的快速学习，这是因为人具有先验知识，会利用自己的先前经验作为基础并与新事物结合起来从而进行快速学习。同样，我们希望机器人在学习了一定量的任务后，在面对新的任务时，只需要少量的样本就能够根据之前的经验快速学习，而不是把新的任务孤立的考虑。因此我们希望建立一个端到端的神经网络来对机器人进行控制，输入视觉传感器捕获的视频图像，输出机器人相应的操作动作，这种机器人具备非常强的适应能力，可以在不同场景中保持工作能力。

这种方法，我们称为元学习或者叫做学会学习，元学习是机器学习中的子领域，它的思想是学会训练的过程，使得我们的系统在它的整个生命周期可以持续地学习各种各样的任务。

发明内容

发明目的：针对现有技术存在的问题，本发明提供了一种基于视频图像演示的机器人操作学习方法，以实现通过监测机器人抓取过程中手指电流的变化估算机器人抓取物体所需施加力的大小，达到仅需通过视频演示即可使机器人学习相关抓取任务，并对被抓取物体有所感知的目的。

技术方案：一种基于视频图像演示的机器人操作学习方法，具体包括如下步骤：

步骤1、通过搭载在机器人外部三脚架上的Kinect相机，计算机器人基座到跟踪系统的静态变换，实现机器人和相机系统的手眼标定；

步骤2、通过控制机器人执行不同的演示任务收集一个演示视频数据集；

步骤3、通过3D卷积神经网络获取视频数据中的动作特征；

步骤4、通过将操作学习与未知模型元学习相结合计算出具有泛化能力的机器人操作模仿学习模型；

步骤5、通过监控机器人抓取过程中手指的最大电流，感知手指抓取力。

进一步的，所述步骤1中，标定板采用Aruco，并将标定板固定在机器人末端，使用ROS系统下Moveit插件和easy_handeye标定包相结合。利用棋格标定板对Kinect相机进行内参标定。

进一步的，所述步骤2中，在ROS系统下，控制机器人在不同环境下完成不同的抓取任务，得到一个可供模型进行训练的数据集。

进一步的，所述步骤3中，通过未知模型元学习中的二次梯度计算出具有泛化能力的深度学习模型。

进一步的，所述步骤5中，通过监控流过手指的最大电流，找到手指施加相应的力，运行程序控制手指缓慢闭合，直到达到电流的阈值；所述阈值根据不同的物体进行改变，达到阈值后，手指停止闭合，然后通过图表找到手指达到最大电流与施加力的大小。

和现有技术相比，本发明具有如下显著进步：通过元学习算法为机器人建立训练模型，减少了大量样本的数据输入，提高了训练效率。增加机器人手指的感知能力，把操作学习与物体感知结合起来。机器人可以通过视频中的演示，学习到新的任务，并对不同物体的抓取施加不同的力，增强了机器人的智能化和通用性。

附图说明

图1为Kinova机器人与Kinect相机可视化标定图；

图2为MAML的训练框图；

图3机器人手抓力与电流的关系。

具体实施方式

一种基于视频图像演示的机器人操作学习方法，包括如下步骤：

步骤1、通过搭载在机器人外部三脚架上的Kinect相机，计算机器人基座到跟踪系统的静态变换，实现机器人和相机系统的手眼校准。

该步骤中，在机器人的末端执行器上附加标记，通过VISP库的手眼校准程序，提供相机姿态估计的解决方案，使用easy_hand_eye包用于机器人的自动移动和位置采样，计算深度相机与机器人的坐标关系，完成机器人与相机之间的手眼标定。

步骤2、通过控制机器人执行不同的演示任务收集一个演示数据集。

该步骤利用ROS系统下的Moveit插件对机器人设定不同的抓取任务，使机器人在不同的环境下完成对不同物体的抓取，同时通过Kinect相机记录机器人完成的抓取任务，作为训练机器人操作模仿学习模型的数据集。

步骤3、通过3D卷积神经网络获取视频数据中的动作特征。

该步骤将S2的视频数据集做预处理，将连续大小为60*40的视频帧图像作为输入，每帧提取5个通道信息，包括灰度、横坐标梯度、纵坐标梯度、X光流、Y光流。通过3D卷积神经网络的多层卷积和降采样，每连续7帧图像就可以获得128维的特征向量，3D卷积神经网络模型中可训练的参数均为随机初始化，结合MAML进行训练。

步骤4、通过将机器人操作学习与未知模型元学习(MAML)相结合计算出具有泛化能力的深度学习模型。

该步骤运用MAML来学习一组初始策略参数θ，以便在某个对象进行演示之后，对演示进行梯度下降以找到一个针对该对象参数θ′的可泛化策略，也就是通过MAML学习训练一个函数f：

a_t＝f(s_t；g(θ，demo))

其中g使用当前参数和demo对参数进行更新，demo是S2收集的数据集，很自然的，g可以是一个梯度下降过程：

θ_new＝g(θ，demo)＝θ-α*Δ_θLoss(demo)

其中demo包含了位置和行为等信息，因此可以通过将行为信息输入到神经网络，得到预测的行为信息，从而与真实的行为信息进行比较得到损失。

步骤5、通过监控机器人抓取过程中手指的最大电流，感知机器人抓取过程中力的大小。

该步骤通过监测Kinova机器人的手指电流的变化，运行程序控制手指慢慢闭合，直到达到电流的阈值，抓取过程中的阈值可以根据不同的物体进行改变，达到阈值后，手指停止闭合，通过电流与抓取力的关系表可以获取抓取过程中力的大小

如图1表示了整个标定过程的可视化图像，通过ROS系统下的TF插件，监测机器人基坐标，机器人末端坐标，Aruco标志物坐标以及Kinect坐标之间的关系。

如图2表示了MAML的整个训练框架，通过3D卷积神经网络模型获取视频中的动作特征信息，将训练参数通过元学习算法，训练出具有泛化能力的参数。

下表为整个元训练过程的算法伪代码，每个训练数据包括元训练和元测试两个部分，与模型无关的元学习算法(MAML)是通过两次梯度下降来完成的。

表1

下面结合附图所示，更加具体地描述前述基于元学习算法的机器人操作学习方法的实现，具体实施方法如下：

S1、利用影像辨识为核心技术的Kinect来获取彩色场景图像，将此视觉传感器搭载到Jaco机器人外部的支架上，为了获取机器人抓取物体的各种任务，需要通过手眼标定获得机器人坐标系与视觉传感器坐标之间的转换关系。具体步骤如下：

S11，运行roscore启动节点管理器，配置环境变量，实现主机器人本体和管理终端的通信。

S12，运行roslaunch kinect2_bridge Kinect_bridge_laubch命令启动kinect节点。

S13，运行roslaunch easy_haneye calibrate.launch命令，运行标定程序。

S14，开始校准过程，在Jaco机器人的末端放置AR标记，并通过Moveit控制机器人移动，整个过程机器人要始终在视觉传感器的视野内，一步一步的改变执行器的位置和方向进行校准。

S15，校准完成后，记录校准参数，进行坐标变换计算。

S2、通过ROS下的Moveit插件对Jaco机器人设定不同的抓取任务，使机器人在不同的环境下完成对不同物体的抓取，将这些抓取视频进行预处理，作为一个演示数据集。

S3、通过3D卷积神经网络获取视频中的动作特征。该步骤数据集做预处理，将连续大小为60*40的视频帧图像作为输入，每连续7帧图像就可以获得128维的特征向量，3D卷积神经网络模型中可训练的参数均为随机初始化，结合MAML进行训练。

S4、通过将机器人操作学习与未知模型元学习(MAML)相结合计算出具有泛化能力的机器人操作学习模型。具体步骤如下：

S41，将预处理过的数据集分为元训练集和元测试集，随机初始化模型的参数。

S42，对训练集中的样本进行随机采样，形成一个batch，进行第一次梯度更新。

S43，利用数据集中的任务和损失更新梯度，第一次梯度更新复制模型，计算出新的参数。

S44，利用第一次梯度更新得到的新参数进行第二次梯度更新，将计算出的梯度通过SGD作用在原模型上。

S5、通过监测机器人手指内部电流对不同抓取物体电流的变化，利用线性函数表征电流与机器人手指施加相应的力。运行程序控制手指慢慢闭合，直到达到电流的阈值。具体步骤如下：

S51，运行roslaunch j2n6s300_bringup kinova_robot.launch命令，启动机器人并建立通信。

S52，运行roslaunch j2n6s300_moveit_config j2n6s300_demo.launch命令启动机械手。

S53，设置电流阈值，在ROS下建立工作空间，创建消息和服务，然后编写消息发布器和订阅器，将设置好电流阈值的节点发布出去，手指控制节点订阅该话题。

S54，运行roslaunch kinova_demo fingers_action_client.py命令，可以通过电流的变化做到对物体抓取时施加相应力的控制。

综上，本发明针对目前的多关节机器人，利用深度学习以及手指感知技术，通过机器人搭载的视觉传感器采集视频中的演示任务，不需要通过编程，仅需要通过观看视频演示，机器人可以通过先前经验快速学习新的任务，并且通过监测机器人指尖的电流变化对不同的抓取物体施加不同的力，使机器人抓取具备非常强大的通用性以及智能性。

Claims

1.一种基于视频图像演示的机器人操作学习方法，其特征在于，包括如下步骤：

步骤3、通过3D卷积神经网络获取视频数据中的动作特征；

步骤4、将操作学习与未知模型元学习相结合计算出具有泛化能力的机器人操作模仿学习模型；

步骤5、通过监控机器人抓取过程中手指的最大电流，感知手指抓取力；

所述步骤3中，通过未知模型元学习中的二次梯度计算出具有泛化能力的深度学习模型。

2.根据权利要求1所述的机器人操作学习方法，其特征在于：步骤1中，标定板采用Aruco，并将标定板固定在机器人末端，使用ROS系统下Moveit插件和easy_handeye标定包相结合。

3.根据权利要求2所述的机器人操作学习方法，其特征在于：利用棋格标定板对Kinect相机进行内参标定。

4.根据权利要求1所述的机器人操作学习方法，其特征在于：步骤2中，在ROS系统下，控制机器人在不同环境下完成不同的抓取任务，得到一个可供模型进行训练的数据集。

5.根据权利要求1所述的机器人操作学习方法，其特征在于：所述步骤5中，通过监控流过手指的最大电流，找到手指施加相应的力，运行程序控制手指缓慢闭合，直到达到电流的阈值；所述阈值根据不同的物体进行改变，达到阈值后，手指停止闭合，然后通过图表找到手指达到最大电流与施加力的大小。