CN110000785B - 农业场景无标定机器人运动视觉协同伺服控制方法与设备 - Google Patents

农业场景无标定机器人运动视觉协同伺服控制方法与设备 Download PDF

Info

Publication number
CN110000785B
CN110000785B CN201910289751.2A CN201910289751A CN110000785B CN 110000785 B CN110000785 B CN 110000785B CN 201910289751 A CN201910289751 A CN 201910289751A CN 110000785 B CN110000785 B CN 110000785B
Authority
CN
China
Prior art keywords
grabbing
network
scene
teaching
return value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910289751.2A
Other languages
English (en)
Other versions
CN110000785A (zh
Inventor
刘成良
贡亮
李旭东
汪韬
沈晓晔
林晨晖
陶建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910289751.2A priority Critical patent/CN110000785B/zh
Publication of CN110000785A publication Critical patent/CN110000785A/zh
Priority to PCT/CN2019/119079 priority patent/WO2020207017A1/zh
Priority to US17/602,903 priority patent/US20220193914A1/en
Application granted granted Critical
Publication of CN110000785B publication Critical patent/CN110000785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01BSOIL WORKING IN AGRICULTURE OR FORESTRY; PARTS, DETAILS, OR ACCESSORIES OF AGRICULTURAL MACHINES OR IMPLEMENTS, IN GENERAL
    • A01B63/00Lifting or adjusting devices or arrangements for agricultural machines or implements
    • A01B63/002Devices for adjusting or regulating the position of tools or wheels
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • B25J13/087Controls for manipulators by means of sensing devices, e.g. viewing or touching devices for sensing other physical parameters, e.g. electrical or chemical properties
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J15/00Gripping heads and other end effectors
    • B25J15/02Gripping heads and other end effectors servo-actuated
    • B25J15/0253Gripping heads and other end effectors servo-actuated comprising parallel grippers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J15/00Gripping heads and other end effectors
    • B25J15/08Gripping heads and other end effectors having finger members
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/4155Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by programme execution, i.e. part programme or machine function execution, e.g. selection of a programme
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01MCATCHING, TRAPPING OR SCARING OF ANIMALS; APPARATUS FOR THE DESTRUCTION OF NOXIOUS ANIMALS OR NOXIOUS PLANTS
    • A01M7/00Special adaptations or arrangements of liquid-spraying apparatus for purposes covered by this subclass
    • A01M7/0089Regulating or controlling systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40269Naturally compliant robot arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了农业场景无标定机器人运动视觉协同伺服控制方法与设备,该设备的机械臂在臂末端安装有机械抓手,目标抓取物处在机械臂的可抓取范围内;控制模块驱动机械抓手抓取目标抓取物,并控制图像传感器对机械臂抓取目标抓取物的过程进行图像采样;图像传感器将采样的图像数据发送给控制模块。本发明无需对于场景内的目标抓取物及相关环境进行精确的空间标注,机械臂将按照训练好的网络进行策略引导完成抓取任务,对于空间感知设备的要求更低,环境适应性强,并可迁移至多种任务。

Description

农业场景无标定机器人运动视觉协同伺服控制方法与设备
技术领域
本申请涉及机器人领域,特别涉及农业场景无标定机器人运动视觉协同伺服控制方法与设备。
背景技术
机器人作为精密高效的执行机械在军事、医学、制造业等领域有着广泛的应用,集成了电子、传感、控制等多种技术,机器人得以在工业场景中实现不同的功能;为了应对更为复杂多变的任务需求、提升机器人的性能与智能,智能型机器人的概念被提了出来,即应用了如强化学习控制、规划模式识别等学习型控制算法与图像视觉计算或深度神经网络的智能感知技术,具备自适应、自学习功能的一类机器人,在保障了机器人的工作精度与鲁棒性的同时,环境适应性与任务柔性得以提升。
经过对现有技术的检索发现,中国专利文献号CN106041941A,公开日2016.10.26,公开了一种工业机械臂的轨迹规划方法与装置,为同样领域内实现工业机械臂驱动的方法,该技术针对SCARA机械臂的每个关节构建坐标系与工作区域,通过预先计算输入控制方向射线与工作区域边界的交点,优化机械臂的速度规划过程。但该技术需要精确标定场景,获得目标终点的空间坐标后进行模式化的轨迹规划驱动,对于标定设备及技术要求高,对于不同场景适应能力差,尤其无法适应复杂多变的农业非结构化场景。
对于另一项现有技术文献,中国专利文献号CN105353772A,公开日2016.02.24,公开了一种无人机定位跟踪的视觉伺服控制方法,该技术通过在无人机上安装定位装置,惯性测量单元与摄像机获得大地、机体、相机与图像坐标系数据,通过运算各坐标系之间的相对过渡关系,以控制无人机拍摄目标物位于图像中心。该技术结合了视觉传感实现基于视觉伺服的无人机控制,但该技术仅能计算简单场景下无人机的目标姿态规划问题,难以迁移应用至农业机器人的应用领域,给出无标定农业场景下的执行策略。
发明内容
本发明的目的在于提供对空间感知设备的要求更低,环境适应性强的农业场景无标定机器人运动视觉协同伺服控制方法和设备。
为了解决上述问题,本发明提供了一种农业场景无标定机器人运动视觉协同伺服控制设备,包括机械臂、目标抓取物、图像传感器和控制模块,其中,所述机械臂在臂末端安装有机械抓手;所述目标抓取物处在所述机械臂的可抓取范围内;所述控制模块分别与所述机械臂和图像传感器电连接,所述控制模块驱动所述机械抓手抓取所述目标抓取物,并控制所述图像传感器对所述机械臂抓取所述目标抓取物的过程进行图像采样;所述图像传感器将采样的图像数据发送给所述控制模块。
优选地,所述机械臂为六自由度机械臂。
本发明还提供了一种农业场景无标定机器人运动视觉协同伺服控制方法,包括如下步骤:
构建场景空间特征向量获取网络,获取场景空间特征特征向量;
获取示教动作样本;
构建逆强化回报值策略网络;
逆强化回报值策略网络迁移训练;
基于视觉特征提取网络与逆强化回报值策略网络,采用策略引导驱动算法获得正向引导规划结果。
优选地,所述场景空间特征向量获取网络为视觉卷积神经网络。
优选地,所述获取场景空间特征特征向量具体为:
图像传感器对机械臂抓取目标抓取物的过程进行图像采样,并提取RGB图像信息;
以所述图像信息作为所述场景空间特征向量获取网络的输入量,输出向量即为场景空间特征特征向量。
优选地,所述获取示教动作样本具体为:
牵引机械臂完成对目标抓取物的抓取,获取一次示教抓取的示教抓取动作数据;
驱动机械臂模拟示教抓取动作数据,自主完成对目标抓取物的抓取动作,用以拍摄获取示教抓取场景图像特征数据;
基于所述示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本。
优选地,所述构建逆强化回报值策略网络具体为:
构建用于拟合表示回报值的逆强化回报值策略网络;
通过仿真域随机化算法生成仿真参数;
使用ROS规划库规划模拟虚拟抓取动作,并采样得到模拟抓取路径;
逆强化回报值策略网络仿真预训练。
优选地,所述逆强化回报值策略网络迁移训练具体为:使用所述示教动作样本进行所述逆强化回报值策略网络的优化训练。
与现有技术相比,本发明存在以下技术效果:
1、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法无需对于场景内的目标抓取物及相关环境进行精确的空间标注,机械臂将按照训练好的网络进行策略引导完成抓取任务,对于空间感知设备的要求更低,环境适应性强,并可迁移至多种任务。
2、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法构建了场景空间特征向量获取网络用于获取场景特征,并在仿真环境内通过域随机化算法模拟抓取,使用仿真数据进行逆强化回报值策略网络的预训练;场景空间特征向量获取网络和逆强化回报值策略网络分别的进行预训练,将传统复杂视觉运动伺服问题解耦处理,降低了训练网络的复杂度。
3、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法域随机化算法可以快速的生成大量的训练数据,减少示教员的示教操作数量,在有限的时间与资源内提升网络的训练效果。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
图1为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备结构示意图;
图2为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备硬件连接示意图;
图3为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备软件配置层次图;
图4为本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法流程图;
图5为本发明实施例场景空间特征向量获取网络的网络结构。
具体实施方式
以下将结合附图对本发明提供的农业场景无标定机器人运动视觉协同伺服控制方法与设备进行详细的描述,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例,本领域技术人员在不改变本发明精神和内容的范围内,能够对其进行修改和润色。
本发明实施例构建场景空间特征向量获取网络,即视觉卷积神经网络,用于提取场景与目标抓取物的空间特征;构建逆强化回报值策略网络间接描述可能的驱动抓取策略;同时,在仿真环境内通过域随机化算法模拟抓取,使用仿真数据进行逆强化回报值策略网络的预训练,场景空间特征向量获取网络与逆强化回报值策略网络可以分别的进行预训练,将传统复杂视觉运动伺服问题解耦处理,降低了网络预训练的复杂度。其中,域随机化算法可以快速的生成大量的训练数据,减少了人工示教的操作数量,在有限的时间与资源内提升网络的训练效果。最后,通过真实场景与示教数据的融合,修正系统网络以使其适应真实的场景与任务。在网络训练完成后,通过引导性策略搜索算法给出规划结果。在最终的应用过程中,无需对场景内的目标抓取物及相关环境进行精确的空间标注,机械臂只需按照训练好的网络进行策略引导,完成抓取任务,训练好的网络对空间感知设备的要求更低,环境适应性强,并可迁移至多种任务。
实施例一
本发明实施例提供了农业场景无标定机器人运动视觉协同伺服控制设备,包括机械臂、目标抓取物、图像传感器和控制模块,请参考图1,
机械臂为UR5机械臂6,UR5机械臂6为六自由度机械臂,并在臂末端安装了机械抓手7,机械抓手7可以通过夹紧、张开运动完成目标抓取物3的抓取,UR5机械臂6通过一底座机座5固定在场景环境8中;
目标抓取物3优选为蔬果,如西红柿等,放置于一工位平台4上,工位平台4为稳定的具有一定高度的工作平面,如桌子等,工位平台4放置在场景环境8中,目标抓取物3处在UR5机械臂6的可抓取范围内;
图像传感器为kinect图像传感器1,具体为Kinect2.0图像传感器,Kinect图像传感器1固定在一kinect安装支架2上,Kinect安装支架2为可以将kinect图像传感器1固定在一定高度的装置,优选使用铝型材搭建,kinect安装支架2放置于UR5机械臂6与目标抓取物3的侧部,kinect图像传感器1可以拍摄到UR5机械臂6、目标抓取物3及场景环境8;
控制模块为Jetson TX1控制板9,Jetson TX1控制板9分别与UR5机械臂6和kinect图像传感器1电连接,Jetson TX1控制板9驱动UR5机械臂6通过机械抓手7抓取目标抓取物3,并控制kinect图像传感器1对UR5机械臂6抓取目标抓取物3的过程进行图像采样,kinect图像传感器1将采样的图像数据发送给Jetson TX1控制板9。
具体地,请参考图2,Kinect图像传感器1通过Kinect适配转换器10将接口转换为USB3.0接口,Kinect适配转换器10通过USB3.0与Jetson TX1控制板9进行连接;UR5机械臂6通过连接机械臂控制箱12获取电源,机械臂控制箱12与Jetson TX1控制板9通过网线连接,Jetson TX1控制板9通过网线接口向机械臂控制箱12输入机械臂控制信号。
优选地,Jetson TX1控制板9通过HDMI接口连接一显示屏11。
进一步地,请参考图3,在Jetson TX1控制板9内安装ubuntu操作系统、驱动组件;通过安装Jetpack开发工具来为Jetson TX1控制板9安装其他软件;通过安装Kinect支持库来使得控制模块Jetson TX1控制板9可以驱动Kinect图像传感器,并使用相关的图像处理工具与算法;安装数据库,通过安装python依赖库与MongoDB数据库软件,完成Jetson TX1控制板9内嵌入式数据库的搭建,用于保存之后的训练用相关数据;安装Docker容器引擎以创建独立的软件运行环境,并将ROS操作系统与Tensorflow框架安装在Docker容器内,使得Jetson TX1控制板9内包含一个具备本实施例完整开发环境的容器引擎,并可以快速迁移至其他的硬件系统。
其中,ROS操作系统内包含有RGB-D(彩色深度图像)采样处理的算法节点与UR5机械臂的采样控制节点;Tensorflow框架内包含有GPS引导策略算法控制程序,以及训练好的视觉空间特征提取与强化回报值策略网络。
实施例二
基于实施例一的农业场景无标定机器人运动视觉协同伺服控制设备,本发明提供了农业场景无标定机器人运动视觉协同伺服控制方法,请参考图4,包括如下步骤:
S101:构建场景空间特征向量获取网络,获取场景空间特征特征向量。
本实施例中,场景空间特征向量获取网络为视觉卷积神经网络,请参考图5,场景空间特征向量获取网络迁移使用了CIFAR-1000 VGG16的前五层作为图像特征提取网络,为卷积神经网络结构,具体地,
卷积神经网络的卷积层计算遵循下式:
Figure BDA0002024538140000071
其中,
Figure BDA0002024538140000072
表示第l层的第j个特征图,
Figure BDA0002024538140000073
表示的是针对l-1层有所关联的特征图
Figure BDA0002024538140000074
和第l层的第j个卷积核
Figure BDA0002024538140000075
做卷积运算并求和,
Figure BDA0002024538140000076
是对第l层的第j个特征图补充的偏置参数,f(...)为激励函数,用于将式子右侧的卷积结果生成输出;
卷积神经网络的池化层计算遵循下式:
Figure BDA0002024538140000077
其中,
Figure BDA0002024538140000078
表示第l层的第j个特征图,
Figure BDA0002024538140000079
表示权重,在本实施例中的2x2池化过程中,
Figure BDA00020245381400000710
的值取为1/4,down(...)为下采样函数,f(...)为激励函数,用于将式子右侧的池化结果生成输出。
本实施例中,使用的场景空间特征向量获取网络构造如下表:
Figure BDA00020245381400000711
Figure BDA0002024538140000081
表1
本实施例中,Jetson TX1控制板9控制kinect图像传感器1拍摄抓取场景,并提取RGB图像信息,得到的图像数据为240x240x3的3通道RGB彩色图像,以图像数据作为场景空间特征向量获取网络的输入量,场景空间特征向量获取网络的最终输出40维的稀疏向量F,用于表示场景图像特征。
S102:获取示教动作样本。
本实施例中,获取获取示教动作样本包括如下步骤:
S1021:牵引机械臂完成对目标抓取物的抓取,获取一次示教抓取的示教抓取动作数据;
采用人为牵引UR5机械臂6完成UR5机械臂6的示教抓取路径,使UR5机械臂6末端的机械抓手7到达可以直接抓取目标抓取物3的位置,抓取过程中,Jetson TX1控制板9以频率f对运动过程中的关节状态信息连续采样,获得一次示教抓取的示教抓取动作数据;
本实施例中,UR5机械臂6包括六个自由度关节,每个自由度关节的状态信息记为Srobotii,ai,vi,a′i,xi),包括:关节转角θi、转速ωi、关节角加速度ai、关节节点中心的空间运动速度vi、关节节点中心的空间运动加速度ai',相对初始位置的位移xi;其中,
Figure BDA0002024538140000082
为可直接获取的关节状态信息,包括:关节转角θi和转速ωi,关节初始零点θi=0,ωi=0;
Figure BDA0002024538140000083
为间接获取的关节状态数据,根据
Figure BDA0002024538140000084
信息与采样步长T=1/f计算得到的关节状态,f为采样频率。
抓取过程中,UR5机械臂驱动节点程序以频率f对运动过程中的关节状态信息进行多次连续采样。每次采样,UR5机械臂驱动节点程序将采集可直接获取的关节状态信息
Figure BDA0002024538140000091
并同步计算间接获取关节状态信息
Figure BDA0002024538140000092
并一次采样中的
Figure BDA0002024538140000093
Figure BDA0002024538140000094
将合并为一次关节状态信息采样结果Srobotii,ai,vi,a′i,xi)。
然后,将抓取过程中多次采样获得的每个关节状态信息采样结果Srobotii,ai,vi,a′i,xi)按照采样时间先后顺序排布,形成一个连续关节状态信息数据序列。该序列即为一次示教抓取的示教抓取动作数据。
S1022:驱动机械臂模拟示教抓取动作数据,自主完成对目标抓取物的抓取动作,用以拍摄获取示教抓取场景图像特征数据;
在完成一次示教动作后,人员离开场景环境,基于示教抓取动作数据中包含的UR5机械臂6的六个自由度关节状态信息,Jetson TX1控制板9驱动UR5机械臂6模拟示教过程完成一次模拟抓取目标抓取物3的动作,同时,Jetson TX1控制板9以频率f驱动kinect图像传感器1对抓取过程进行图像采样,获得一次示教抓取场景图像特征数据。
S1023:基于示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本;
将示教抓取动作数据、示教抓取场景图像特征数据、机械臂与任务固有条件参数同步记录在MongoDB数据库,整合得到示教动作样本Dt({γt},g,d),其中,{γt}={St,Pt},{St}为六个自由度关节状态信息数据,{Pt}为图像特征数据序列,g为目标抓取物状态信息(包括目标抓取物的大小、距离),d为机械臂动力学信息(包括机械臂模型构件的质量、机械臂模型初始的关节姿态)及控制参数。
S103:构建逆强化回报值策略网络。
本实施例中,构建逆强化回报值策略网络包括如下步骤:
S1031:构建用于拟合表示回报值的逆强化回报值策略网络;
本实施例中,逆强化回报值策略网络为DNN结构深度网络,该深度网络用于拟合表示引导策略中的回报值函数,从而避免建模人工选取特征参数。
本实施例中使用的逆强化回报值策略网络构造如下表:
NO Name 参数
1 输入 40维特征向量
2 全连接1 50
3 全连接2 30
4 全连接3 12
表2
然后,通过均匀随机产生逆强化回报值策略网络的初始权重参数初值θ0。此时,可用深度网络表示一个未经学习训练优化的回报值函数。
S1032:通过仿真域随机化算法生成仿真参数;
首先,设置可行参数域C,标示域随机化算法参数的可能范围。参数域C内包括目标抓取物3相关参数的可行参数域Cg,UR5机械臂6的相关动力学参数的可行参数域Cd
具体地,在具有GTX1080显卡的训练机上安装ubuntu系统,并移植上述构建在Jetson TX1控制板9内的Docker容器;同时,在训练机中的ROS操作环境内导入UR5机械臂6的真实模型与目标抓取物3的抽象模型,并通过域随机化算法,随机生成UR5机械臂6的初始状态与目标抓取物3的大小空间位置,并决定仿真环境中的拍摄观测视角。
本实施例中,域随机化算法中所使用的参数如下表:
Figure BDA0002024538140000101
Figure BDA0002024538140000111
表3
然后,在参数域C内随机生成一组域随机化算法参数
Figure BDA0002024538140000112
令g(ObjectSize,Vpangle,Location),
Figure BDA0002024538140000113
以及状态S(βi)。
S1033:使用ROS规划库规划模拟虚拟抓取动作,并采样得到模拟抓取路径。
基于上述域随机化算法参数设定仿真环境内任务目标、初始状态与执行条件,通过ROS规划库规划模拟完成该仿真环境下的虚拟抓取动作,并对虚拟抓取动作路径进行虚拟采样,得到模拟抓取路径状态数据;同时,根据主事窗视角参数Vpangle,调整仿真中的观测视角,并进行连续图像采样获取模拟抓取场景图像数据。
将模拟抓取路径状态数据、模拟抓取场景图像数据与域随机化算法参数结合,生成一次仿真规划动作样本数据Zt({γ′t},g',d'),并将其保存在MongoDB数据库中。其中,{γ′t}={S′t,Pt'},{S′t}为六个自由度关节状态信息数据,{Pt'}为图像特征数据序列,g'为目标抓取物状态信息(包括目标抓取物的大小、距离),d'为机械臂动力学信息(包括机械臂模型构件的质量、机械臂模型初始的关节姿态)及控制参数。
S1034:逆强化回报值策略网络仿真预训练;
使用仿真规划动作样本数据Zt({γ't},g',d')对逆强化回报值策略网络进行预训练。
首先,以随机生成的逆强化回报值策略网络的参数权重初始初值θ作为迭代初值,即θ1=initial_weights()=θ0
开始迭代循环,循环特征量n从1开始执行至迭代上限nmax:
以第n次循环当前的网络权重参数θn,以空间图像特征F为输入量,计算当前的回报值分布情况,计算如下式:
γn=nn_forwoard(F,θn)
然后,根据当下回报值分布,计算MDP最优策略πn
πn=solve_mdp(γn)
然后,计算期望状态频率IE[μn]与专家示教损失项LD,D表示以示教数据为专家动作;
IE[μn]=propagrate_policy(πn)
Figure BDA0002024538140000121
计算专家示教损失函数对回报值r的导数
Figure BDA0002024538140000122
与专家示教损失函数对网络模型参数的导数
Figure BDA0002024538140000123
式中μD为专家状态动作频率:
Figure BDA0002024538140000124
Figure BDA0002024538140000125
根据
Figure BDA0002024538140000126
梯度修正网络模型参数,完成一次优化迭代:
Figure BDA0002024538140000131
算法迭代至最大迭代次数或专家示教损失项LD小于可容忍限度,网络收敛得到θend。以此作为网络权重参数的回报值策略网络将在模拟环境中引导机械臂模型执行与ROS规划库规划期望策略相近的执行策略。
S104:逆强化回报值策略网络迁移训练。
首先,以S103中预训练的逆强化回报值策略网络的权重参数θend为初始条件,使用S102中采样获得的示教动作样本Dt({γt},g,d)替代S103的仿真规划动作样本数据Zt({γ′t},g',d'),进行逆强化回报值策略网络训练,以进行网络训练修正,实现仿真环境模型到真实策略模型的模型迁移;
具体地,令θ=θend,基于示教样本数据作为专家动作,以真实场景经视觉特征提取网络计算后得到的图像特征向量作为特征输入量,进行逆强化回报值策略网络的迁移训练优化,具体的算法执行步骤与S1034的优化过程相同,获得优化的网络权重
Figure BDA0002024538140000132
然后,以
Figure BDA0002024538140000133
作为网络权重参数得到的逆强化回报值策略网络,即为具备有人类策略认知的环境内策略引导回报网络,以此网络评估机械臂策略的回报,并可引导机械臂在农业复杂环境任务中做出与人类认知近似的决策。
S105:基于视觉特征提取网络与逆强化回报值策略网络,采用策略引导驱动算法获得正向引导规划结果。
基于上述学习算法训练后的视觉特征提取网络与逆强化回报值策略网络,采用策略引导驱动算法(GPS)进行正向的引导规划。
具体的引导规划流程如下:
首先,生成若干差异性动态规划策略
Figure BDA0002024538140000134
然后,对于所述若干差异性动态规划策略进行采样得到策略路径数据
Figure BDA0002024538140000141
多个策略路径数据可以通过
Figure BDA0002024538140000142
计算组合平均策略以进行同时引导计算提高效率;
对以上策略的参数进行极大似然估计
Figure BDA0002024538140000143
组合
Figure BDA0002024538140000144
Figure BDA0002024538140000145
得到初始样本集S;
基于场景特征提取后的向量状态参数,使用逆强化回报值策略网络对样本集S进行评估,评估
Figure BDA0002024538140000146
Figure BDA0002024538140000147
的回报值。
Figure BDA0002024538140000148
回报大于
Figure BDA0002024538140000149
的回报,则将
Figure BDA00020245381400001410
赋予
Figure BDA00020245381400001411
并对应的减少策略函数中的正则项参数;
Figure BDA00020245381400001412
回报小于
Figure BDA00020245381400001413
的回报,则增大策略函数中的正则项参数;
Figure BDA00020245381400001414
重复执行上述评估,最终得到一个引导后的最优策略,即为正向引导规划结果。
本发明方法基于运动视觉双伺服驱动,通过自适应的学习算法训练机器人获得智能的空间感知与任务规划能力。在最终的驱动过程中,无需对于场景内的目标抓取物及相关环境进行精确的空间标注,机械臂将按照训练好的网络进行策略引导完成抓取任务,对于空间感知设备的要求更低,环境适应性强,并可迁移至多种任务。
以上公开的仅为本申请的两个具体实施例,但本申请并非局限于此,任何本领域的技术人员能思之的变化,都应落在本申请的保护范围内。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

Claims (4)

1.一种农业场景无标定机器人运动视觉协同伺服控制方法,其特征在于,包括如下步骤:
构建场景空间特征向量获取网络,获取场景空间特征特征向量;
获取示教动作样本,其中,所述获取示教动作样本具体为:牵引机械臂完成对目标抓取物的抓取,获取一次示教抓取的示教抓取动作数据,驱动机械臂模拟示教抓取动作数据,自主完成对目标抓取物的抓取动作,用以拍摄获取示教抓取场景图像特征数据,基于所述示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本;
构建逆强化回报值策略网络,其中,所述构建逆强化回报值策略网络具体为:构建用于拟合表示回报值的逆强化回报值策略网络、通过仿真域随机化算法生成仿真参数、使用ROS规划库规划模拟虚拟抓取动作,并采样得到模拟抓取路径、逆强化回报值策略网络仿真预训练;
逆强化回报值策略网络迁移训练;
基于视觉特征提取网络与逆强化回报值策略网络,采用策略引导驱动算法获得正向引导规划结果。
2.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法,其特征在于,所述场景空间特征向量获取网络为视觉卷积神经网络。
3.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法,其特征在于,所述获取场景空间特征特征向量具体为:
图像传感器对机械臂抓取目标抓取物的过程进行图像采样,并提取RGB图像信息;
以所述图像信息作为所述场景空间特征向量获取网络的输入量,输出向量即为场景空间特征特征向量。
4.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法,其特征在于,所述逆强化回报值策略网络迁移训练具体为:
使用所述示教动作样本进行所述逆强化回报值策略网络的优化训练。
CN201910289751.2A 2019-04-11 2019-04-11 农业场景无标定机器人运动视觉协同伺服控制方法与设备 Active CN110000785B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910289751.2A CN110000785B (zh) 2019-04-11 2019-04-11 农业场景无标定机器人运动视觉协同伺服控制方法与设备
PCT/CN2019/119079 WO2020207017A1 (zh) 2019-04-11 2019-11-18 农业场景无标定机器人运动视觉协同伺服控制方法与设备
US17/602,903 US20220193914A1 (en) 2019-04-11 2019-11-18 Method and device for collaborative servo control of motion vision of robot in uncalibrated agricultural scene

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289751.2A CN110000785B (zh) 2019-04-11 2019-04-11 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Publications (2)

Publication Number Publication Date
CN110000785A CN110000785A (zh) 2019-07-12
CN110000785B true CN110000785B (zh) 2021-12-14

Family

ID=67171177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910289751.2A Active CN110000785B (zh) 2019-04-11 2019-04-11 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Country Status (3)

Country Link
US (1) US20220193914A1 (zh)
CN (1) CN110000785B (zh)
WO (1) WO2020207017A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110000785B (zh) * 2019-04-11 2021-12-14 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备
US11571809B1 (en) * 2019-09-15 2023-02-07 X Development Llc Robotic control using value distributions
US11645498B2 (en) * 2019-09-25 2023-05-09 International Business Machines Corporation Semi-supervised reinforcement learning
CN112989881A (zh) * 2019-12-16 2021-06-18 深圳慧智星晨科技有限公司 一种无监督可迁移的3d视觉物体抓取方法
CN111178545B (zh) * 2019-12-31 2023-02-24 中国电子科技集团公司信息科学研究院 一种动态强化学习决策训练系统
CN112347900B (zh) * 2020-11-04 2022-10-14 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
CN112834764A (zh) * 2020-12-28 2021-05-25 深圳市人工智能与机器人研究院 机械臂的采样控制方法及装置、采样系统
CN112935650B (zh) * 2021-01-29 2023-01-06 华南理工大学 一种焊接机器人激光视觉系统标定优化方法
CN113189983B (zh) * 2021-04-13 2022-05-31 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113050433B (zh) * 2021-05-31 2021-09-14 中国科学院自动化研究所 机器人控制策略迁移方法、装置及系统
CN115494831B (zh) * 2021-06-17 2024-04-16 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN115249333B (zh) * 2021-06-29 2023-07-11 达闼科技(北京)有限公司 抓取网络训练方法、系统、电子设备及存储介质
CN113743287B (zh) * 2021-08-31 2024-03-26 之江实验室 基于脉冲神经网络的机器人自适应抓取控制方法及系统
CN114347028B (zh) * 2022-01-10 2023-12-22 武汉科技大学 一种基于rgb-d图像的机器人末端智能抓取方法
CN114800530B (zh) * 2022-06-09 2023-11-28 中国科学技术大学 基于视觉的机器人的控制方法、设备及存储介质
CN116214528B (zh) * 2023-05-10 2023-10-03 深圳市安信达存储技术有限公司 一种人形机器人存储控制方法及控制系统
CN117549307B (zh) * 2023-12-15 2024-04-16 安徽大学 一种非结构化环境下的机器人视觉抓取方法及系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813836B2 (en) * 2003-12-09 2010-10-12 Intouch Technologies, Inc. Protocol for a remotely controlled videoconferencing robot
EP2255930A1 (de) * 2009-05-27 2010-12-01 Leica Geosystems AG Verfahren und System zum hochpräzisen Positionieren mindestens eines Objekts in eine Endlage im Raum
JP6616170B2 (ja) * 2015-12-07 2019-12-04 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
CN111832702A (zh) * 2016-03-03 2020-10-27 谷歌有限责任公司 用于机器人抓取的深度机器学习方法和装置
KR102487493B1 (ko) * 2016-03-03 2023-01-11 구글 엘엘씨 로봇 파지용 심층 기계 학습 방법 및 장치
EP3402633B1 (en) * 2016-05-20 2020-05-13 Google LLC Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
JP6549545B2 (ja) * 2016-10-11 2019-07-24 ファナック株式会社 人の行動を学習してロボットを制御する制御装置およびロボットシステム
CN108227689A (zh) * 2016-12-14 2018-06-29 哈尔滨派腾农业科技有限公司 一种农业移动机器人自主导航的设计方法
CN107451602A (zh) * 2017-07-06 2017-12-08 浙江工业大学 一种基于深度学习的果蔬检测方法
WO2019021058A2 (en) * 2017-07-25 2019-01-31 Mbl Limited SYSTEMS AND METHODS FOR OPERATING A ROBOTIC SYSTEM AND EXECUTING ROBOTIC INTERACTIONS
CN107481247A (zh) * 2017-07-27 2017-12-15 许文远 一种智慧农业用采摘机器人控制系统及方法
US10792810B1 (en) * 2017-12-14 2020-10-06 Amazon Technologies, Inc. Artificial intelligence system for learning robotic control policies
CN108271531B (zh) * 2017-12-29 2019-10-01 湖南科技大学 基于视觉识别定位的水果自动化采摘方法及装置
CN108171748B (zh) * 2018-01-23 2021-12-07 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
US20210107142A1 (en) * 2018-02-27 2021-04-15 Siemens Aktiengesellschaft Reinforcement learning for contact-rich tasks in automation systems
CN108656107B (zh) * 2018-04-04 2020-06-26 北京航空航天大学 一种基于图像处理的机械臂抓取系统及方法
CN109443382B (zh) * 2018-10-22 2022-05-17 北京工业大学 基于特征提取与降维神经网络的视觉slam闭环检测方法
CN109531584A (zh) * 2019-01-31 2019-03-29 北京无线电测量研究所 一种基于深度学习的机械臂控制方法和装置
CN113544714A (zh) * 2019-03-08 2021-10-22 Assest 株式会社 农作物的收获量预测程序、栽培环境判别程序
CN110000785B (zh) * 2019-04-11 2021-12-14 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备
WO2021001312A1 (de) * 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer applikation mithilfe wenigstens eines roboters

Also Published As

Publication number Publication date
US20220193914A1 (en) 2022-06-23
CN110000785A (zh) 2019-07-12
WO2020207017A1 (zh) 2020-10-15

Similar Documents

Publication Publication Date Title
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
Dasari et al. Robonet: Large-scale multi-robot learning
Sadeghi et al. Sim2real viewpoint invariant visual servoing by recurrent control
US11654564B2 (en) Efficient data generation for grasp learning with general grippers
JP2019508273A (ja) ロボットの把持のための深層機械学習方法および装置
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
CN109483534B (zh) 一种物体抓取方法、装置和系统
CN110900598A (zh) 机器人三维运动空间动作模仿学习方法和系统
CN111421554B (zh) 基于边缘计算的机械臂智能控制系统、方法、装置
CN110744541A (zh) 一种视觉引导的水下机械臂控制方法
Fu et al. Active learning-based grasp for accurate industrial manipulation
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
JP2022187983A (ja) 高次元のロボット作業を学習するためのネットワークモジュール化
Gutzeit et al. The besman learning platform for automated robot skill learning
Liu et al. Visual servoing with deep learning and data augmentation for robotic manipulation
CN117103277A (zh) 一种基于多模态数据融合的机械手臂感知方法
Gonnochenko et al. Coinbot: Intelligent robotic coin bag manipulation using artificial brain
JP2022187984A (ja) モジュール化ニューラルネットワークを用いた把持学習
Fornas et al. Fitting primitive shapes in point clouds: a practical approach to improve autonomous underwater grasp specification of unknown objects
Aslan et al. End-to-end learning from demonstation for object manipulation of robotis-Op3 humanoid robot
Gomes et al. Deep Reinforcement learning applied to a robotic pick-and-place application
Ranaweera et al. Bridging Reality Gap Between Virtual and Physical Robot through Domain Randomization and Induced Noise.
Zhaowei et al. Vision-based behavior for UAV reactive avoidance by using a reinforcement learning method
Chen et al. Object Recognition and Localization for Pick-and-Place Task using Difference-based Dynamic Movement Primitives
CN111015676A (zh) 基于无手眼标定的抓取学习控制方法、系统、机器人及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant