CN110000785B

CN110000785B - 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Info

Publication number: CN110000785B
Application number: CN201910289751.2A
Authority: CN
Inventors: 刘成良; 贡亮; 李旭东; 汪韬; 沈晓晔; 林晨晖; 陶建峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-12-14
Anticipated expiration: 2039-04-11
Also published as: US20220193914A1; CN110000785A; WO2020207017A1

Abstract

本发明公开了农业场景无标定机器人运动视觉协同伺服控制方法与设备，该设备的机械臂在臂末端安装有机械抓手，目标抓取物处在机械臂的可抓取范围内；控制模块驱动机械抓手抓取目标抓取物，并控制图像传感器对机械臂抓取目标抓取物的过程进行图像采样；图像传感器将采样的图像数据发送给控制模块。本发明无需对于场景内的目标抓取物及相关环境进行精确的空间标注，机械臂将按照训练好的网络进行策略引导完成抓取任务，对于空间感知设备的要求更低，环境适应性强，并可迁移至多种任务。

Description

农业场景无标定机器人运动视觉协同伺服控制方法与设备

技术领域

本申请涉及机器人领域，特别涉及农业场景无标定机器人运动视觉协同伺服控制方法与设备。

背景技术

机器人作为精密高效的执行机械在军事、医学、制造业等领域有着广泛的应用，集成了电子、传感、控制等多种技术，机器人得以在工业场景中实现不同的功能；为了应对更为复杂多变的任务需求、提升机器人的性能与智能，智能型机器人的概念被提了出来，即应用了如强化学习控制、规划模式识别等学习型控制算法与图像视觉计算或深度神经网络的智能感知技术，具备自适应、自学习功能的一类机器人，在保障了机器人的工作精度与鲁棒性的同时，环境适应性与任务柔性得以提升。

经过对现有技术的检索发现，中国专利文献号CN106041941A，公开日2016.10.26，公开了一种工业机械臂的轨迹规划方法与装置，为同样领域内实现工业机械臂驱动的方法，该技术针对SCARA机械臂的每个关节构建坐标系与工作区域，通过预先计算输入控制方向射线与工作区域边界的交点，优化机械臂的速度规划过程。但该技术需要精确标定场景，获得目标终点的空间坐标后进行模式化的轨迹规划驱动，对于标定设备及技术要求高，对于不同场景适应能力差，尤其无法适应复杂多变的农业非结构化场景。

对于另一项现有技术文献，中国专利文献号CN105353772A，公开日2016.02.24，公开了一种无人机定位跟踪的视觉伺服控制方法，该技术通过在无人机上安装定位装置，惯性测量单元与摄像机获得大地、机体、相机与图像坐标系数据，通过运算各坐标系之间的相对过渡关系，以控制无人机拍摄目标物位于图像中心。该技术结合了视觉传感实现基于视觉伺服的无人机控制，但该技术仅能计算简单场景下无人机的目标姿态规划问题，难以迁移应用至农业机器人的应用领域，给出无标定农业场景下的执行策略。

发明内容

本发明的目的在于提供对空间感知设备的要求更低，环境适应性强的农业场景无标定机器人运动视觉协同伺服控制方法和设备。

为了解决上述问题，本发明提供了一种农业场景无标定机器人运动视觉协同伺服控制设备，包括机械臂、目标抓取物、图像传感器和控制模块，其中，所述机械臂在臂末端安装有机械抓手；所述目标抓取物处在所述机械臂的可抓取范围内；所述控制模块分别与所述机械臂和图像传感器电连接，所述控制模块驱动所述机械抓手抓取所述目标抓取物，并控制所述图像传感器对所述机械臂抓取所述目标抓取物的过程进行图像采样；所述图像传感器将采样的图像数据发送给所述控制模块。

优选地，所述机械臂为六自由度机械臂。

本发明还提供了一种农业场景无标定机器人运动视觉协同伺服控制方法，包括如下步骤：

构建场景空间特征向量获取网络，获取场景空间特征特征向量；

获取示教动作样本；

构建逆强化回报值策略网络；

逆强化回报值策略网络迁移训练；

基于视觉特征提取网络与逆强化回报值策略网络，采用策略引导驱动算法获得正向引导规划结果。

优选地，所述场景空间特征向量获取网络为视觉卷积神经网络。

优选地，所述获取场景空间特征特征向量具体为：

图像传感器对机械臂抓取目标抓取物的过程进行图像采样，并提取RGB图像信息；

以所述图像信息作为所述场景空间特征向量获取网络的输入量，输出向量即为场景空间特征特征向量。

优选地，所述获取示教动作样本具体为：

牵引机械臂完成对目标抓取物的抓取，获取一次示教抓取的示教抓取动作数据；

驱动机械臂模拟示教抓取动作数据，自主完成对目标抓取物的抓取动作，用以拍摄获取示教抓取场景图像特征数据；

基于所述示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本。

优选地，所述构建逆强化回报值策略网络具体为：

构建用于拟合表示回报值的逆强化回报值策略网络；

通过仿真域随机化算法生成仿真参数；

使用ROS规划库规划模拟虚拟抓取动作，并采样得到模拟抓取路径；

逆强化回报值策略网络仿真预训练。

优选地，所述逆强化回报值策略网络迁移训练具体为：使用所述示教动作样本进行所述逆强化回报值策略网络的优化训练。

与现有技术相比，本发明存在以下技术效果：

1、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法无需对于场景内的目标抓取物及相关环境进行精确的空间标注，机械臂将按照训练好的网络进行策略引导完成抓取任务，对于空间感知设备的要求更低，环境适应性强，并可迁移至多种任务。

2、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法构建了场景空间特征向量获取网络用于获取场景特征，并在仿真环境内通过域随机化算法模拟抓取，使用仿真数据进行逆强化回报值策略网络的预训练；场景空间特征向量获取网络和逆强化回报值策略网络分别的进行预训练，将传统复杂视觉运动伺服问题解耦处理，降低了训练网络的复杂度。

3、本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法域随机化算法可以快速的生成大量的训练数据，减少示教员的示教操作数量，在有限的时间与资源内提升网络的训练效果。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图中：

图1为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备结构示意图；

图2为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备硬件连接示意图；

图3为本发明实施例农业场景无标定机器人运动视觉协同伺服控制设备软件配置层次图；

图4为本发明实施例农业场景无标定机器人运动视觉协同伺服控制方法流程图；

图5为本发明实施例场景空间特征向量获取网络的网络结构。

具体实施方式

以下将结合附图对本发明提供的农业场景无标定机器人运动视觉协同伺服控制方法与设备进行详细的描述，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例，本领域技术人员在不改变本发明精神和内容的范围内，能够对其进行修改和润色。

本发明实施例构建场景空间特征向量获取网络，即视觉卷积神经网络，用于提取场景与目标抓取物的空间特征；构建逆强化回报值策略网络间接描述可能的驱动抓取策略；同时，在仿真环境内通过域随机化算法模拟抓取，使用仿真数据进行逆强化回报值策略网络的预训练，场景空间特征向量获取网络与逆强化回报值策略网络可以分别的进行预训练，将传统复杂视觉运动伺服问题解耦处理，降低了网络预训练的复杂度。其中，域随机化算法可以快速的生成大量的训练数据，减少了人工示教的操作数量，在有限的时间与资源内提升网络的训练效果。最后，通过真实场景与示教数据的融合，修正系统网络以使其适应真实的场景与任务。在网络训练完成后，通过引导性策略搜索算法给出规划结果。在最终的应用过程中，无需对场景内的目标抓取物及相关环境进行精确的空间标注，机械臂只需按照训练好的网络进行策略引导，完成抓取任务，训练好的网络对空间感知设备的要求更低，环境适应性强，并可迁移至多种任务。

实施例一

本发明实施例提供了农业场景无标定机器人运动视觉协同伺服控制设备，包括机械臂、目标抓取物、图像传感器和控制模块，请参考图1，

机械臂为UR5机械臂6，UR5机械臂6为六自由度机械臂，并在臂末端安装了机械抓手7，机械抓手7可以通过夹紧、张开运动完成目标抓取物3的抓取，UR5机械臂6通过一底座机座5固定在场景环境8中；

目标抓取物3优选为蔬果，如西红柿等，放置于一工位平台4上，工位平台4为稳定的具有一定高度的工作平面，如桌子等，工位平台4放置在场景环境8中，目标抓取物3处在UR5机械臂6的可抓取范围内；

图像传感器为kinect图像传感器1，具体为Kinect2.0图像传感器，Kinect图像传感器1固定在一kinect安装支架2上，Kinect安装支架2为可以将kinect图像传感器1固定在一定高度的装置，优选使用铝型材搭建，kinect安装支架2放置于UR5机械臂6与目标抓取物3的侧部，kinect图像传感器1可以拍摄到UR5机械臂6、目标抓取物3及场景环境8；

控制模块为Jetson TX1控制板9，Jetson TX1控制板9分别与UR5机械臂6和kinect图像传感器1电连接，Jetson TX1控制板9驱动UR5机械臂6通过机械抓手7抓取目标抓取物3，并控制kinect图像传感器1对UR5机械臂6抓取目标抓取物3的过程进行图像采样，kinect图像传感器1将采样的图像数据发送给Jetson TX1控制板9。

具体地，请参考图2，Kinect图像传感器1通过Kinect适配转换器10将接口转换为USB3.0接口，Kinect适配转换器10通过USB3.0与Jetson TX1控制板9进行连接；UR5机械臂6通过连接机械臂控制箱12获取电源，机械臂控制箱12与Jetson TX1控制板9通过网线连接，Jetson TX1控制板9通过网线接口向机械臂控制箱12输入机械臂控制信号。

优选地，Jetson TX1控制板9通过HDMI接口连接一显示屏11。

进一步地，请参考图3，在Jetson TX1控制板9内安装ubuntu操作系统、驱动组件；通过安装Jetpack开发工具来为Jetson TX1控制板9安装其他软件；通过安装Kinect支持库来使得控制模块Jetson TX1控制板9可以驱动Kinect图像传感器，并使用相关的图像处理工具与算法；安装数据库，通过安装python依赖库与MongoDB数据库软件，完成Jetson TX1控制板9内嵌入式数据库的搭建，用于保存之后的训练用相关数据；安装Docker容器引擎以创建独立的软件运行环境，并将ROS操作系统与Tensorflow框架安装在Docker容器内，使得Jetson TX1控制板9内包含一个具备本实施例完整开发环境的容器引擎，并可以快速迁移至其他的硬件系统。

其中，ROS操作系统内包含有RGB-D(彩色深度图像)采样处理的算法节点与UR5机械臂的采样控制节点；Tensorflow框架内包含有GPS引导策略算法控制程序，以及训练好的视觉空间特征提取与强化回报值策略网络。

实施例二

基于实施例一的农业场景无标定机器人运动视觉协同伺服控制设备，本发明提供了农业场景无标定机器人运动视觉协同伺服控制方法，请参考图4，包括如下步骤：

S101：构建场景空间特征向量获取网络，获取场景空间特征特征向量。

本实施例中，场景空间特征向量获取网络为视觉卷积神经网络，请参考图5，场景空间特征向量获取网络迁移使用了CIFAR-1000 VGG16的前五层作为图像特征提取网络，为卷积神经网络结构，具体地，

卷积神经网络的卷积层计算遵循下式：

其中，

表示第l层的第j个特征图，

表示的是针对l-1层有所关联的特征图

和第l层的第j个卷积核

做卷积运算并求和，

是对第l层的第j个特征图补充的偏置参数，f(...)为激励函数，用于将式子右侧的卷积结果生成输出；

卷积神经网络的池化层计算遵循下式：

其中，

表示第l层的第j个特征图，

表示权重，在本实施例中的2x2池化过程中，

的值取为1/4，down(...)为下采样函数，f(...)为激励函数，用于将式子右侧的池化结果生成输出。

本实施例中，使用的场景空间特征向量获取网络构造如下表：

表1

本实施例中，Jetson TX1控制板9控制kinect图像传感器1拍摄抓取场景，并提取RGB图像信息，得到的图像数据为240x240x3的3通道RGB彩色图像，以图像数据作为场景空间特征向量获取网络的输入量，场景空间特征向量获取网络的最终输出40维的稀疏向量F，用于表示场景图像特征。

S102：获取示教动作样本。

本实施例中，获取获取示教动作样本包括如下步骤：

S1021：牵引机械臂完成对目标抓取物的抓取，获取一次示教抓取的示教抓取动作数据；

采用人为牵引UR5机械臂6完成UR5机械臂6的示教抓取路径，使UR5机械臂6末端的机械抓手7到达可以直接抓取目标抓取物3的位置，抓取过程中，Jetson TX1控制板9以频率f对运动过程中的关节状态信息连续采样，获得一次示教抓取的示教抓取动作数据；

本实施例中，UR5机械臂6包括六个自由度关节，每个自由度关节的状态信息记为S_robot(θ_i,ω_i,a_i,v_i,a′_i,x_i)，包括：关节转角θ_i、转速ω_i、关节角加速度a_i、关节节点中心的空间运动速度v_i、关节节点中心的空间运动加速度a_i'，相对初始位置的位移x_i；其中，

为可直接获取的关节状态信息，包括：关节转角θ_i和转速ω_i，关节初始零点θ_i＝0,ω_i＝0；

为间接获取的关节状态数据，根据

信息与采样步长T＝1/f计算得到的关节状态，f为采样频率。

抓取过程中，UR5机械臂驱动节点程序以频率f对运动过程中的关节状态信息进行多次连续采样。每次采样，UR5机械臂驱动节点程序将采集可直接获取的关节状态信息

并同步计算间接获取关节状态信息

并一次采样中的

与

将合并为一次关节状态信息采样结果S_robot(θ_i,ω_i,a_i,v_i,a′_i,x_i)。

然后，将抓取过程中多次采样获得的每个关节状态信息采样结果S_robot(θ_i,ω_i,a_i,v_i,a′_i,x_i)按照采样时间先后顺序排布，形成一个连续关节状态信息数据序列。该序列即为一次示教抓取的示教抓取动作数据。

S1022：驱动机械臂模拟示教抓取动作数据，自主完成对目标抓取物的抓取动作，用以拍摄获取示教抓取场景图像特征数据；

在完成一次示教动作后，人员离开场景环境，基于示教抓取动作数据中包含的UR5机械臂6的六个自由度关节状态信息，Jetson TX1控制板9驱动UR5机械臂6模拟示教过程完成一次模拟抓取目标抓取物3的动作，同时，Jetson TX1控制板9以频率f驱动kinect图像传感器1对抓取过程进行图像采样，获得一次示教抓取场景图像特征数据。

S1023：基于示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本；

将示教抓取动作数据、示教抓取场景图像特征数据、机械臂与任务固有条件参数同步记录在MongoDB数据库，整合得到示教动作样本D_t({γ_t},g,d)，其中，{γ_t}＝{S_t,P_t}，{S_t}为六个自由度关节状态信息数据，{P_t}为图像特征数据序列，g为目标抓取物状态信息(包括目标抓取物的大小、距离)，d为机械臂动力学信息(包括机械臂模型构件的质量、机械臂模型初始的关节姿态)及控制参数。

S103：构建逆强化回报值策略网络。

本实施例中，构建逆强化回报值策略网络包括如下步骤：

S1031:构建用于拟合表示回报值的逆强化回报值策略网络；

本实施例中，逆强化回报值策略网络为DNN结构深度网络，该深度网络用于拟合表示引导策略中的回报值函数，从而避免建模人工选取特征参数。

本实施例中使用的逆强化回报值策略网络构造如下表：

NO	Name	参数
			1	输入	40维特征向量
2	全连接1	50
			3	全连接2	30
4	全连接3	12

表2

然后，通过均匀随机产生逆强化回报值策略网络的初始权重参数初值θ₀。此时，可用深度网络表示一个未经学习训练优化的回报值函数。

S1032：通过仿真域随机化算法生成仿真参数；

首先，设置可行参数域C，标示域随机化算法参数的可能范围。参数域C内包括目标抓取物3相关参数的可行参数域C_g，UR5机械臂6的相关动力学参数的可行参数域C_d。

具体地，在具有GTX1080显卡的训练机上安装ubuntu系统，并移植上述构建在Jetson TX1控制板9内的Docker容器；同时，在训练机中的ROS操作环境内导入UR5机械臂6的真实模型与目标抓取物3的抽象模型，并通过域随机化算法，随机生成UR5机械臂6的初始状态与目标抓取物3的大小空间位置，并决定仿真环境中的拍摄观测视角。

本实施例中，域随机化算法中所使用的参数如下表：

表3

然后，在参数域C内随机生成一组域随机化算法参数

令g(ObjectSize,Vpangle,Location),

以及状态S(β_i)。

S1033：使用ROS规划库规划模拟虚拟抓取动作，并采样得到模拟抓取路径。

基于上述域随机化算法参数设定仿真环境内任务目标、初始状态与执行条件，通过ROS规划库规划模拟完成该仿真环境下的虚拟抓取动作，并对虚拟抓取动作路径进行虚拟采样，得到模拟抓取路径状态数据；同时，根据主事窗视角参数Vpangle，调整仿真中的观测视角，并进行连续图像采样获取模拟抓取场景图像数据。

将模拟抓取路径状态数据、模拟抓取场景图像数据与域随机化算法参数结合，生成一次仿真规划动作样本数据Z_t({γ′_t},g',d'),并将其保存在MongoDB数据库中。其中，{γ′_t}＝{S′_t,P_t'}，{S′_t}为六个自由度关节状态信息数据，{P_t'}为图像特征数据序列，g'为目标抓取物状态信息(包括目标抓取物的大小、距离)，d'为机械臂动力学信息(包括机械臂模型构件的质量、机械臂模型初始的关节姿态)及控制参数。

S1034：逆强化回报值策略网络仿真预训练；

使用仿真规划动作样本数据Z_t({γ'_t},g',d')对逆强化回报值策略网络进行预训练。

首先，以随机生成的逆强化回报值策略网络的参数权重初始初值θ作为迭代初值，即θ¹＝initial_weights()＝θ₀。

开始迭代循环，循环特征量n从1开始执行至迭代上限nmax：

以第n次循环当前的网络权重参数θⁿ，以空间图像特征F为输入量，计算当前的回报值分布情况，计算如下式：

γⁿ＝nn_forwoard(F,θⁿ)

然后，根据当下回报值分布，计算MDP最优策略πⁿ：

πⁿ＝solve_mdp(γⁿ)

然后，计算期望状态频率IE[μⁿ]与专家示教损失项L_D，D表示以示教数据为专家动作；

IE[μⁿ]＝propagrate_policy(πⁿ)

计算专家示教损失函数对回报值r的导数

与专家示教损失函数对网络模型参数的导数

式中μ_D为专家状态动作频率：

根据

梯度修正网络模型参数，完成一次优化迭代：

算法迭代至最大迭代次数或专家示教损失项L_D小于可容忍限度，网络收敛得到θ_end。以此作为网络权重参数的回报值策略网络将在模拟环境中引导机械臂模型执行与ROS规划库规划期望策略相近的执行策略。

S104：逆强化回报值策略网络迁移训练。

首先，以S103中预训练的逆强化回报值策略网络的权重参数θ_end为初始条件，使用S102中采样获得的示教动作样本D_t({γ_t},g,d)替代S103的仿真规划动作样本数据Z_t({γ′_t},g',d')，进行逆强化回报值策略网络训练，以进行网络训练修正，实现仿真环境模型到真实策略模型的模型迁移；

具体地，令θ＝θ_end，基于示教样本数据作为专家动作，以真实场景经视觉特征提取网络计算后得到的图像特征向量作为特征输入量，进行逆强化回报值策略网络的迁移训练优化，具体的算法执行步骤与S1034的优化过程相同，获得优化的网络权重

然后，以

作为网络权重参数得到的逆强化回报值策略网络，即为具备有人类策略认知的环境内策略引导回报网络，以此网络评估机械臂策略的回报，并可引导机械臂在农业复杂环境任务中做出与人类认知近似的决策。

S105：基于视觉特征提取网络与逆强化回报值策略网络，采用策略引导驱动算法获得正向引导规划结果。

基于上述学习算法训练后的视觉特征提取网络与逆强化回报值策略网络，采用策略引导驱动算法(GPS)进行正向的引导规划。

具体的引导规划流程如下：

首先，生成若干差异性动态规划策略

然后，对于所述若干差异性动态规划策略进行采样得到策略路径数据

多个策略路径数据可以通过

计算组合平均策略以进行同时引导计算提高效率；

对以上策略的参数进行极大似然估计

组合

与

得到初始样本集S；

基于场景特征提取后的向量状态参数，使用逆强化回报值策略网络对样本集S进行评估，评估

与

的回报值。

若

回报大于

的回报，则将

赋予

并对应的减少策略函数中的正则项参数；

若

回报小于

的回报，则增大策略函数中的正则项参数；

对

重复执行上述评估，最终得到一个引导后的最优策略，即为正向引导规划结果。

本发明方法基于运动视觉双伺服驱动，通过自适应的学习算法训练机器人获得智能的空间感知与任务规划能力。在最终的驱动过程中，无需对于场景内的目标抓取物及相关环境进行精确的空间标注，机械臂将按照训练好的网络进行策略引导完成抓取任务，对于空间感知设备的要求更低，环境适应性强，并可迁移至多种任务。

以上公开的仅为本申请的两个具体实施例，但本申请并非局限于此，任何本领域的技术人员能思之的变化，都应落在本申请的保护范围内。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

Claims

1.一种农业场景无标定机器人运动视觉协同伺服控制方法，其特征在于，包括如下步骤：

获取示教动作样本，其中，所述获取示教动作样本具体为：牵引机械臂完成对目标抓取物的抓取，获取一次示教抓取的示教抓取动作数据，驱动机械臂模拟示教抓取动作数据，自主完成对目标抓取物的抓取动作，用以拍摄获取示教抓取场景图像特征数据，基于所述示教抓取动作数据和示教抓取场景图像特征数据整合得到示教动作样本；

构建逆强化回报值策略网络，其中，所述构建逆强化回报值策略网络具体为：构建用于拟合表示回报值的逆强化回报值策略网络、通过仿真域随机化算法生成仿真参数、使用ROS规划库规划模拟虚拟抓取动作，并采样得到模拟抓取路径、逆强化回报值策略网络仿真预训练；

逆强化回报值策略网络迁移训练；

2.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法，其特征在于，所述场景空间特征向量获取网络为视觉卷积神经网络。

3.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法，其特征在于，所述获取场景空间特征特征向量具体为：

4.根据权利要求1所述的农业场景无标定机器人运动视觉协同伺服控制方法，其特征在于，所述逆强化回报值策略网络迁移训练具体为：

使用所述示教动作样本进行所述逆强化回报值策略网络的优化训练。