CN106737673B - 一种基于深度学习的端到端的机械臂控制的方法 - Google Patents

一种基于深度学习的端到端的机械臂控制的方法 Download PDF

Info

Publication number
CN106737673B
CN106737673B CN201611203287.3A CN201611203287A CN106737673B CN 106737673 B CN106737673 B CN 106737673B CN 201611203287 A CN201611203287 A CN 201611203287A CN 106737673 B CN106737673 B CN 106737673B
Authority
CN
China
Prior art keywords
mechanical arm
network
control
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611203287.3A
Other languages
English (en)
Other versions
CN106737673A (zh
Inventor
刘勇
王志磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201611203287.3A priority Critical patent/CN106737673B/zh
Publication of CN106737673A publication Critical patent/CN106737673A/zh
Application granted granted Critical
Publication of CN106737673B publication Critical patent/CN106737673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones

Abstract

本发明公开了一种利用深度学习进行手臂控制的方法。该方法首先采集机械手臂的运动过程的图像,同时以一定的频率记录手臂的控制指令,利用端到端的训练方法获得用深度神经网络表达的控制器。在此基础上,深入观察发现,利用深度神经网络表达控制结构,利用端到端的训练方法可以进一步减小手臂的运动误差,在有障碍物的情况下仍然可以很好地实现避障运动。本发明方法实现灵活,很大程度上减小了训练所需样本,这对于机械臂运动这种很难获得大样本的情况具备很大的优势。

Description

一种基于深度学习的端到端的机械臂控制的方法
技术领域
本发明属于深度强化学习领域,尤其涉及一种端到端的运动控制方法,极大地减少了训练所需的样本数据。
背景技术
近年来,深度学习在学术界发展迅猛,尤其在模式识别方面表现不俗。在很多传统的识别任务中,识别率都获得了显著的提高。许多其他领域也尝试用深度学习来解决一些本领域的问题。
深度学习应用在控制领域的应用已经有了一些研究,尤其是与强化学习的结合,展现了其独特的优势。深度强化学习是深度学习与强化学习相结合的一个领域,它能够实现从感知到动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作。深度强化学习具有使机械臂实现完全自主的学习一种甚至多种技能的潜力。
深度学习之所以发展迅速,一个很重要的因素就是大数据时代的到来,大量的数据即训练样本可以更容易的获得,这为深度学习的发展提供了重要保障。然而在控制领域,有些时候数据并不容易获得或者获得数据的代价较高。比如本文提到的机械臂的运动控制数据,这就使得深度学习的应用受到一定的局限。如何提高数据的利用率或如何采集重要样本数据成了一个关键的挑战。
网络的训练包括直接获取大量的样本数据,然后一次性训练获得参数;先获取一些样本对网络进行初始化,然后采集数据进行参数调整,本文所用的方法是后者。
发明内容
本发明所要解决的技术问题是提供基于深度学习的端到端的机械臂控制的方法,使得能提高数据的有效性和利用率。为此,本发明提供以下技术方案:
一种基于深度学习的端到端的机械臂控制的方法,包括如下步骤:
步骤一,以一定频率采集机械臂运动时的图像信息和机械臂的控制指令与状态信息;
步骤二,对于步骤一中采集的所述图像信息、控制指令与状态信息进行网络处理:
网络包括图像处理网络和控制策略网络,图像处理网络用于对原始图像进行降维,以使图像输入和机械臂的状态输入维度在一个量级上;
控制策略网络输出对机械臂执行的控制指令,初始化图像处理网络的权重,图像信息作为输入,机械臂的状态信息作为输出,训练初始化图像处理网络;初始化控制策略网络的权重,机械臂的状态信息作为输入,控制指令作为输出,训练初始化控制策略网络的网络权重;
步骤三,在有障碍物的场景中,在采集数据的阶段得到障碍物的位置信息,人工示教机械臂绕过障碍物同时到达目标位置;移动障碍物,改变障碍物的位置,重复上述操作多次,采集多条避障的轨迹;在执行轨迹的过程中记录图片和控制指令;对步骤二所获的网络进行调参训练,该过程实际上是对网络的权重进行调整优化;
步骤四,对于步骤三采集的每条避障轨迹加入一定的噪声,使机械臂能够在示教轨迹的周围进行探索,探索到一条最优路径。最优轨迹是基于一个目标函数的评价,目标函数由机械臂当前位置与目标位置的偏差以及机械臂控制指令组成。目标函数将对大的控制指令进行惩罚,对位置偏差进行惩罚。在执行最优轨迹的过程中记录图片和控制指令;
然后将采集的图片和控制指令当作训练数据,对步骤二所获得初始网络进行进一步调参训练。
在上述技术方案的基础上,本发明还可以采用一下进一步的技术方案:
在训练过程中,端到端的训练是指从图像获得机械臂控制控制指令的方式。
步骤三中,将目标物体放置在几个不同的位置,控制机械臂对物体进行抓取,以一定的频率记录机械手臂的状态信息,包括关节角、机械臂的执行机构的位置、末端执行机构姿态及机械臂的控制力矩,将机械臂的关节角及末端控制器的位姿作为输入,机械臂的力矩信息作为输出来训练控制策略网络,以此作为控制策略网络的初始化。
步骤四中,将图片信息所表达的环境进行降维,将低维表达作为控制策略网的一部分输入,构建出网络的端到端模式,对机械臂的执行设置一个目标函数,在运动过程中,反复对机械臂的运动轨迹进行优化,在该优化过程中采集到的数据作为网络的训练数据,从而实现对已经初始化的网络进行参数调整,即轨迹优化过程中采集的数据仍然可以作为训练数据。
由于采用本发明的技术方案,本发明的有益效果为:本发明无需采集庞大的数据样本,利用轨迹控制,先将一个目标物体放置在不同的初始位置,对不同的位置记录物体的位姿,并对其进行采图,用几百个这样的数据进行离线训练前面部分的神经网络,由此可以获得图像处理部分网络权重的初始化。整个过程只需要在线采集几条针对不同目标位置的轨迹,即可实现一定的泛化能力。
本发明在机械臂的抓取过程中,在环境中加入障碍物,在初始采样过程中,必须已知障碍物的具体位置信息。在抓取过程中要考虑基于避障的抓取,用这样的数据对网络进行参数调整,可以实现一定的避障能力,同样只需要几条避障的轨迹。因此本发明无需大量的样本数据,同时又兼顾了机械臂的基于避障的目标抓取任务。
附图说明
图1为基于深度学习的端到端的机械臂控制的方法流程示意图。
具体实施方式
本发明公开了一种基于深度学习的端到端的机械臂控制的方法,
步骤一,以一定频率采集机械臂运动时的图像信息和机械臂的控制指令与状态信息;
步骤二,对于步骤一中采集的所述图像信息、控制指令与状态信息进行网络处理:
网络包括图像处理网络和控制策略网络,图像处理网络用于对原始图像进行降维,以使图像输入和机械臂的状态输入维度在一个量级上;
控制策略网络输出对机械臂执行的控制指令,初始化图像处理网络的权重,图像信息作为输入,机械臂的状态信息作为输出,训练初始化图像处理网络;初始化控制策略网络的权重,机械臂的状态信息作为输入,控制指令作为输出,训练初始化控制策略网络的网络权重;
步骤三,在有障碍物的场景中,在采集数据的阶段得到障碍物的位置信息,人工示教机械臂绕过障碍物同时到达目标位置;移动障碍物,改变障碍物的位置,重复上述操作多次,采集多条避障的轨迹;在执行轨迹的过程中记录图片和控制指令;对步骤二所获的网络进行调参训练;
步骤四,对于步骤三采集的每条避障轨迹加入一定的噪声,使机械臂能够在示教轨迹的周围进行探索,探索到一条最优路径,在执行最优轨迹的过程中记录图片和控制指令;
然后将采集的图片和控制指令当作训练数据,对步骤二所获得初始网络进行进一步调参训练。
图1为实施例举例,具体步骤如下:
(1)机械臂的执行机构抓取目标物体,控制机械臂运动,使得运动停止时,目标物体在相机的视野内;当运动停止后,记录机械臂执行机构坐标系到基座坐标系的位姿关系,采集相机视野内的图片;
(2)控制机械臂运动n次,得到第n+1运动停止时的状态数据;
(3)使机械臂的执行机构抓取障碍物体,重复(1)(2)步骤的工作;
(4)根据(1)到(2)步获得的数据,采集的图像信息作为输入,机械臂的位姿作为输出,离线训练网络1,对其进行初始化;根据步骤(3)所获得数据,图像信息作为输入,机械臂位姿作为输出,离线训练网络2,实现对网络2的初始化;
(5)桌面上同时放置一个目标物体和一个障碍物,该过程中,物体的放置均使用机械臂来放置。因此,该阶段的目标物体与障碍物的位置均是已知量。控制机械臂绕过障碍物抓取目标物体,在该过程中以一定频率记录机械臂的控制力矩,并同时记录机械臂的关节角,末端的位姿信息,以及目标物体的位置和障碍物的位置。移动目标物体或障碍物,使其相对关系发生变化,重复上述操作;
(6)用目标物体的位置及障碍物的位置,机械臂的关节角,末端的位姿信息作为输入,机械臂的控制力矩作为输出,离线训练控制策略网络,如图1的网络3,对其进行初始化;
(7)如同步骤(5)一样,桌面上同时放置目标物和障碍物,控制机械臂绕过障碍物抓取目标物体,该过程中以一定频率用相机采图,并记录机械臂控制力矩、关节角、末端位姿;
(7-1)将采集的图片、机械臂关节角、末端位姿作为输入,控制力矩作为输出,训练整个端到端的网络;
(7-2)设置一个代价函数,用于实现轨迹优化。使得轨迹在避障的基础上抓取目标物体,优化后重复(7-1)的任务,直到代价函数小于一定值;
(7-3)改变障碍物、目标物的放置位置,重复(7-1),(7-2)的任务;
以上例举的仅是本发明的优选实施方式,本发明并不限于以上实施例。

Claims (4)

1.一种基于深度学习的端到端的机械臂控制的方法,其特征在于,包括如下步骤:
步骤一,以一定频率采集机械臂运动时的图像信息和机械臂的控制指令与状态信息;
步骤二,对于步骤一中采集的所述图像信息、控制指令与状态信息进行网络处理:
网络包括图像处理网络和控制策略网络,图像处理网络用于对原始图像进行降维,以使图像输入和机械臂的状态输入维度在一个量级上;
控制策略网络输出对机械臂执行的控制指令,初始化图像处理网络的权重,图像信息作为输入,机械臂的状态信息作为输出,训练初始化图像处理网络;初始化控制策略网络的权重,机械臂的状态信息作为输入,控制指令作为输出,训练初始化控制策略网络的网络权重;
步骤三,在有障碍物的场景中,在采集数据的阶段得到障碍物的位置信息,人工示教机械臂绕过障碍物同时到达目标位置;移动障碍物,改变障碍物的位置,重复上述操作多次,采集多条避障的轨迹;在执行轨迹的过程中记录图片和控制指令;对步骤二所获的网络进行训练,该过程实际上是对网络的权重进行调整优化;
步骤四,对于步骤三采集的每条避障轨迹加入一定的噪声,使机械臂能够在示教轨迹的周围进行探索,探索到一条最优轨迹,在执行最优轨迹的过程中记录图片和控制指令;
然后将采集的图片和控制指令当作训练数据,对步骤二所获得初始网络进行进一步调参训练。
2.如权利要求1所述的一种基于深度学习的端到端的机械臂控制的方法,其特征在于,在训练过程中,端到端的训练是指从图像获得机械臂控制指令的方式。
3.如权利要求1所述的一种基于深度学习的端到端的机械臂控制的方法,其特征在于,步骤三中,将目标物体放置在几个不同的位置,控制机械臂对目标物体进行抓取,以一定的频率记录机械臂的状态信息,包括关节角、机械臂末端执行机构的位置、末端执行机构姿态及机械臂的控制力矩,将机械臂的关节角及末端执行机构的位姿作为输入,机械臂的力矩信息作为输出来训练控制策略网络,以此作为控制策略网络的初始化。
4.如权利要求1所述的一种基于深度学习的端到端的机械臂控制的方法,其特征在于,步骤四中,将图片信息所表达的环境进行降维,将低维表达作为控制策略网络的一部分输入,构建出网络的端到端模式,对机械臂的执行设置一个目标函数,在运动过程中,反复对机械臂的运动轨迹进行优化,在该优化过程中采集到的数据作为网络的训练数据,从而实现对已经初始化的网络进行参数调整,即轨迹优化过程中采集的数据仍然作为训练数据。
CN201611203287.3A 2016-12-23 2016-12-23 一种基于深度学习的端到端的机械臂控制的方法 Active CN106737673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611203287.3A CN106737673B (zh) 2016-12-23 2016-12-23 一种基于深度学习的端到端的机械臂控制的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611203287.3A CN106737673B (zh) 2016-12-23 2016-12-23 一种基于深度学习的端到端的机械臂控制的方法

Publications (2)

Publication Number Publication Date
CN106737673A CN106737673A (zh) 2017-05-31
CN106737673B true CN106737673B (zh) 2019-06-18

Family

ID=58897570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611203287.3A Active CN106737673B (zh) 2016-12-23 2016-12-23 一种基于深度学习的端到端的机械臂控制的方法

Country Status (1)

Country Link
CN (1) CN106737673B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229678B (zh) * 2017-10-24 2021-04-06 深圳市商汤科技有限公司 网络训练方法、操作控制方法、装置、存储介质和设备
CN107944476B (zh) * 2017-11-10 2019-06-21 大连理工大学 一种基于深度强化学习的黄桃挖核机器人行为控制方法
CN107972036B (zh) * 2017-12-25 2021-04-27 厦门大学嘉庚学院 基于TensorFlow的工业机器人动力学控制系统及方法
CN110293553B (zh) * 2018-03-21 2021-03-12 北京猎户星空科技有限公司 控制机械臂操作物体的方法、装置及模型训练方法、装置
CN110293552B (zh) * 2018-03-21 2020-12-08 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质
CN108592902B (zh) * 2018-05-08 2020-07-31 清华大学 一种基于多传感器的定位设备及定位方法、系统和机械臂
CN109543823B (zh) * 2018-11-30 2020-09-25 山东大学 一种基于多模信息描述的柔性装配系统及方法
CN109656139A (zh) * 2018-12-26 2019-04-19 深圳市越疆科技有限公司 机器人驱控一体系统的自适应建模方法
CN109702741B (zh) * 2018-12-26 2020-12-18 中国科学院电子学研究所 基于自监督学习神经网络的机械臂视觉抓取系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
CN104758096A (zh) * 2015-03-30 2015-07-08 山东科技大学 一种对假肢目标空间定位精度矫正的方法
CN104777839A (zh) * 2015-04-16 2015-07-15 北京工业大学 基于bp神经网络和距离信息的机器人自主避障方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9463571B2 (en) * 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
CN104758096A (zh) * 2015-03-30 2015-07-08 山东科技大学 一种对假肢目标空间定位精度矫正的方法
CN104777839A (zh) * 2015-04-16 2015-07-15 北京工业大学 基于bp神经网络和距离信息的机器人自主避障方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Also Published As

Publication number Publication date
CN106737673A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106737673B (zh) 一种基于深度学习的端到端的机械臂控制的方法
Levine et al. End-to-end training of deep visuomotor policies
CN103271784B (zh) 基于双目视觉的人机交互式机械手控制系统和控制方法
Finn et al. Deep spatial autoencoders for visuomotor learning
Yang et al. A learning framework of adaptive manipulative skills from human to robot
Yang et al. Haptics electromyography perception and learning enhanced intelligence for teleoperated robot
Chao et al. A developmental approach to robotic pointing via human–robot interaction
CN108247637A (zh) 一种工业机器人手臂视觉防撞操控方法
Kase et al. Put-in-box task generated from multiple discrete tasks by ahumanoid robot using deep learning
Yuan et al. Rearrangement with nonprehensile manipulation using deep reinforcement learning
Jamone et al. Interactive online learning of the kinematic workspace of a humanoid robot
Liang et al. Using dVRK teleoperation to facilitate deep learning of automation tasks for an industrial robot
CN109397285A (zh) 一种装配方法、装配装置及装配设备
Arsenic Developmental learning on a humanoid robot
Arenas et al. Convolutional neural network with a DAG architecture for control of a robotic arm by means of hand gestures
Li et al. Vision-based robotic manipulation of flexible pcbs
CN108196453A (zh) 一种机械臂运动规划群体智能计算方法
Krug et al. Velvet fingers: Grasp planning and execution for an underactuated gripper with active surfaces
Vohra et al. Real-time grasp pose estimation for novel objects in densely cluttered environment
Marić et al. Robot arm teleoperation via RGBD sensor palm tracking
Xu et al. A teleoperated shared control scheme for mobile robot based semg
Abuduweili et al. Adaptable human intention and trajectory prediction for human-robot collaboration
Kumar et al. Computer vision based object grasping 6DoF robotic arm using picamera
CN109048924A (zh) 一种基于机器学习的智能机器人柔性作业装置及其方法
Liu et al. Understanding Multi-Modal Perception Using Behavioral Cloning for Peg-In-a-Hole Insertion Tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant