CN116945170A

CN116945170A - 基于视触融合感知与多模态时空卷积的抓取稳定性评估方法

Info

Publication number: CN116945170A
Application number: CN202310890785.3A
Authority: CN
Inventors: 赵阳; 唐锋; 王进; 张海运; 陆国栋
Original assignee: Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd; Zhejiang University ZJU
Current assignee: Zhejiang Qiantang Robot And Intelligent Equipment Research Co ltd; Zhejiang University ZJU
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-27

Abstract

本发明属于机器人智能抓取技术领域，基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，包括以下步骤：步骤A01：基于Pybullet和TACTO建立机器人仿真抓取平台；步骤A02：根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集；步骤A03：建立静态视触抓取稳定性分析模型；步骤A04：根据步骤A01搭建的仿真抓取平台采集动态先验数据，获得仿真抓取物体数据集；步骤A05：构建时空卷积抓取稳定性评估模型；步骤A06：训练与验证动态视触融合模型。通过触觉模态信息与视觉模态信息的相互补充，提高抓取的准确性和稳定性。抓取稳定性评估有助于提高机器人的抓取成功率和工作效率，对机器人抓取任务的高效成功实现具有重要的作用。

Description

基于视触融合感知与多模态时空卷积的抓取稳定性评估方法

技术领域

本发明属于机器人智能抓取技术领域，具体涉及基于视触融合感知与多模态时空卷积的抓取稳定性评估方法。

背景技术

目前，机器人在抓取过程中面对干扰或误差的影响下，需要保持稳定的抓取姿态和夹持力，从而确保抓取成功率和抓取稳定性。

当前抓取稳定性的分析方法大致可分为两种：分析法和数据驱动法。分析方法依赖于物体、环境和抓手的已知物理模型来构建抓取并推理其质量，以确保物体满足力封闭和形封闭，但是分析方法依赖于对物体姿态的准确状态估计和正确的建模假设，在真实环境中对抓取稳定性的预测效果很差。数据驱动法可以从图像或点云数据中有效的规划抓取位置，可以推理的处理堆叠环境中多种物体的抓取配置，但是依靠视觉模态的方法往往是开环的，即确定了抓取配置之后机器人的运动状态保持不变，该运动状态极易发生意外。为了实现有效的机器人抓取闭环方法，从而实现稳定的抓取，大量的研究引入了机器人的触觉感知。

综上，视觉无法充分感知被抓取物体的接触表面特性、物体位姿变化以及接触力的变化信息；基于触觉的方法往往需要多次尝试，难以实现高效的抓取任务。

基于此，研究并开发一种基于视触融合感知与多模态时空卷积的抓取稳定性评估方法。

发明内容

本发明提供一种基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，以解决现有抓取稳定性评估方法中视觉感知准确性低、触觉感知稳定性差的问题，同时为实现高准确度和稳定性地评估机器人抓取稳定性提供一种可供借鉴的方法。

本发明通过下述技术方案实现：

基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，包括以下步骤：

步骤A01：基于Pybullet和TACTO建立机器人仿真抓取平台；

步骤A02：根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集；

步骤A03：建立静态视触抓取稳定性分析模型；

步骤A04：根据步骤A01搭建的仿真抓取平台采集动态先验数据，获得仿真抓取物体数据集；

步骤A05：构建时空卷积抓取稳定性评估模型；

步骤A06：训练与验证动态视触融合模型。

可选地，步骤A01中基于Pybullet和TACTO建立机器人仿真抓取平台，包括以下步骤：

步骤A011：基于视觉传感器模拟器TACTO，模拟和配置对应的触觉传感器；

步骤A012：应用Pybullet模拟机器人抓取的物理行为；

步骤A013：搭建仿真环境下的抓取场景，建立机器人仿真抓取平台，抓取场景包括机械臂、夹爪、相机、抓取物体和触觉传感器模型。

可选地，步骤A02中根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集，包括以下步骤：

步骤A021：获得EGAD模型的仿真抓取物体；

步骤A022：根据机器人仿真抓取平台采集虚拟抓取及视触图像；

步骤A023：加载机器人仿真抓取平台的模型，调整仿真抓取物体状态，获得机器人仿真抓取平台模拟抓取动作收集数据。

可选地，步骤A022根据机器人仿真抓取平台采集虚拟抓取及视触图像，包括以下步骤：

步骤A0221：初始化Pybullet，创建渲染器，并在渲染器中创建光源传感器和触觉传感器；

步骤A0222：加载并解析URDF文件，添加mesh文件，并最后添加到渲染器中；

步骤A0222：采用Pybullet进行步进仿真，TACTO同步所述仿真抓取物体的姿态，最后将所述仿真抓取物体的姿态同步到渲染器。

可选地，：步骤A023：加载机器人仿真抓取平台的模型，调整仿真抓取物体状态，获得机器人仿真抓取平台模拟抓取动作收集数据，包括以下步骤：

步骤A0231：加载机器人仿真抓取平台的模型之后，机器人夹爪初始化为张开状态，调整所述仿真抓取状态首先将所述仿真抓取物体放置于初始位置，然后仿真抓取物体自由掉落至地面；

步骤A0232：仿真抓取物体的姿态稳定之后驱动电机使机器人夹爪运动至预定位置，随后机器人夹爪闭合，待机器人夹爪稳定后，利用Pybullet记录当前相机的视角、光源传感器和触觉传感器与所述仿真抓取物体之间的接触法向力的信息以及当前被抓取所述仿真抓取物体的位姿信息，采集当前RGB图像、Depth图像和接触力数据，然后进行DIGIT的画面渲染，采集光源传感器、触觉传感器的RGB图像和Depth图像，然后机械臂匀速上升20cm，在机械臂稳定之后获取当前时刻仿真抓取物体的位姿信息，若与初始时刻的沿z轴方向的高度差小于阈值，则确认为抓取失败，记录该组数据的抓取标签为0；反之确认为抓取成功，记录该组数据的抓取标签为1；

步骤A0233：机械人夹爪在抓取过程中更新所述仿真抓取物体的位姿态信息，机械臂的驱动位置沿被抓取所述仿真抓取物体的质心位置周围增加随机扰动，且增加垂直抓取绕z轴的随机转动，随机更新所述机器人夹爪的夹持力，所述机器人夹爪的夹持力取值范围为5～20N。

可选地，步骤A03建立静态视触抓取稳定性分析模型，包括以下步骤：

A031：采用ImageNet上预训练的ResNet-18模型作为输入图像的特征提取器，并将ResNet-18模型输出的一维向量进行拼接，通过两层全连接层预测抓取动作完成后所述仿真抓取物体是否会发生掉落；

A032：训练和验证网络模型，采用5折交叉验证评估数据集，其中，训练集与测试集的比例为8:2，训练网络模型采用Adam优化器，学习率为5e^-4，批次设置为32，Epoch设置为10；视觉图像、触觉图像均缩放裁剪至224x224。

可选地，步骤A04根据步骤A01搭建的仿真抓取平台采集动态先验数据，获得仿真抓取物体数据集，具体为采集动态先验数据时，设置机械臂的抬升速度、相机分辨率、帧率和DIGIT的采集分辨率、帧率，在机械臂夹爪稳定闭合后，采集1s，记录采集数据时刻的RGB图像、左DIGIT图像、右DIGIT图像、夹持力和抓取标签，获得模拟机械臂基础抬升期间的仿真抓取物体数据集。

可选地，步骤A05：构建时空卷积抓取稳定性评估模型，包括以下步骤：

A051：输入视觉图像序列(V₁，V₂，...，V_n)和触觉图像序列(T₁，T₂，...，T_n)，建立深度神经网络模型，确认序列F(V₁，V₂，...V_n；T₁，T₂，...T_n)是否发生不稳定的滑动，其中，n为序列长度，F为分类器，当F输出为0时，当前时刻为滑动状态，当F输出为1时，当前时刻为稳定状态；

A052：通过所述深度神经网络模型拟合分类器F，深度神经网络模型以视觉图像序列、触觉图像序列为输入，滑动概率为输出，深度神经网络模型的网络框架包括空间特征提取模块、时间特征提取模块和多层感知机分类器，从而获得时空卷积抓取稳定性评估模型。

可选地，步骤A052包括以下步骤：

步骤A0521：基于ResNet-50网络构建空间特征提取模块，用于提取仿真抓取物体数据集中视频的二维空间特征；

步骤A0522：采用attention机制的Longformer结构构建时间特征提取模块；

步骤A0523：多层感知机分类器输出滑动概率，多层感知机分类器包括GELU、层归一化和Dropout。

可选地，步骤A06：训练与验证动态视触融合模型，包括以下步骤：

步骤A061：将所述仿真抓取物体数据集划分为训练集和验证集，训练时，首先对视觉模态信息进行裁剪，在抓取稳定性评估任务时，视觉模态信息包括末端执行期模块和被抓所述仿真抓取物体的状态，所述视觉模态信息位于相机成像的中下部位；

步骤A062：训练时，将视觉模态信息的关键信息裁剪为600x320x3，放缩至256x256x3，触觉图像包括左指数据、右指数据，将触觉图像沿宽度方向拼接，然后逆时针旋转90°，合并为480x320x3的图像，并将视触图像统一放缩至224x224x3。

步骤063：训练模型使用Adam优化器和梯度反向传播，视触图像时间序列长度为8，训练与验证时时batchsize设置为2，对训练数据进行数据增强，视频序列随机选取8帧；采用预训练增强加速训练流程，Epoch设置为20，学习率设置为10^-3，注意力窗口尺寸设为8，Dropout概率设为0.1。

与现有技术相比，本发明的有益效果是：

本发明的一种基于视触融合感知与多模态时空卷积的抓取稳定性评估方法具有以下优点：本发明解决了现有抓取稳定性评估方法中视觉感知准确性低、触觉感知稳定性差的问题，同时为实现高准确度和稳定性地评估机器人抓取稳定性提供一种可供借鉴的方法。

附图说明

图1为TACTO的软件架构图；

图2为TACTO的工作流程图；

图3为EGAD验证数据集图；

图4为DIGIT仿真图像示例图；

图5为基于静态图像的视触融合抓取稳定性评估网络模型图；

图6为基于视频的抓取稳定性评估网络架构图；

图7为基于视频的抓取稳定性评估网络模型图；

图8为注意力模式图；

图9为时空卷积网络训练准确率曲线图；

图10为时空卷积网络训练训练集损失曲线图；

图11为时空卷积网络训练验证集损失曲线图；

图12为本申请技术方案的流程示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清所楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：

如图1-12所示，基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，包括以下步骤：

步骤A01：基于Pybullet和TACTO建立机器人仿真抓取平台；

步骤A03：建立静态视触抓取稳定性分析模型；

步骤A05：构建时空卷积抓取稳定性评估模型；

步骤A06：训练与验证动态视触融合模型。

其中，步骤A01中基于Pybullet和TACTO建立机器人仿真抓取平台，包括以下步骤：

步骤A011：基于视觉传感器模拟器TACTO，模拟和配置对应的触觉传感器，TACTO为基于视觉的视觉传感器模拟器，视觉传感器可为DIGIT和OmniTact；

步骤A012：应用Pybullet模拟机器人抓取的物理行为，达到提高碰撞检测的准确性和动力模型渲染的目的；

步骤A013：搭建仿真环境下的抓取场景，建立机器人仿真抓取平台，机器人仿真抓取平台的抓取场景包括机械臂、机械臂的夹爪、相机、抓取物体和触觉传感器模型。抓取物体可理解为仿真抓取物体。

其中，步骤A02中根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集，包括以下步骤：

步骤A021：获得EGAD模型的仿真抓取物体；

步骤A021：获得EGAD模型的仿真抓取物体，仿真抓取物体选自EGAD即EvolvedGrasping Analysis Dataset的仿真抓取物体，EGAD有共计2330个模型。

可选地，步骤A023：加载机器人仿真抓取平台的模型，调整仿真抓取物体状态，获得机器人仿真抓取平台模拟抓取动作收集数据，包括以下步骤：

步骤A0232：仿真抓取物体的姿态稳定之后驱动电机使机器人夹爪运动至预定位置，随后机器人夹爪闭合，待机器人夹爪的夹持状态稳定后，利用Pybullet记录当前相机的视角、光源传感器和触觉传感器与所述仿真抓取物体之间的接触法向力的信息以及当前被抓取所述仿真抓取物体的位姿信息，采集当前RGB图像、Depth图像和接触力数据，然后进行DIGIT的画面渲染，采集光源传感器、触觉传感器的RGB图像和Depth图像，然后机械臂匀速上升20cm，在机械臂稳定之后获取当前时刻仿真抓取物体的位姿信息，若与初始时刻的沿z轴方向的高度差小于阈值，则确认为抓取失败，记录该组数据的抓取标签为0；反之确认为抓取成功，记录该组数据的抓取标签为1，采集后的图像数据如图4所示；

A031：如图5所示，采用ImageNet上预训练的ResNet-18模型作为输入图像的特征提取器，并将ResNet-18模型输出的一维向量进行拼接，通过两层全连接层预测抓取动作完成后所述仿真抓取物体是否会发生掉落，其中，两层全连接层具体为全连接隐藏层维度分别为512、256；

A032：训练和验证网络模型，采用5折交叉验证评估数据集，其中，训练集与测试集的比例为8:2，训练网络模型采用Adam优化器，学习率为5e^-4，批次设置为32，Epoch设置为10；视觉图像、触觉图像均缩放裁剪至224x224，达到满足网络模型的输入格式要求。

本实施例中，通过步骤2步骤A02中根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集。其中，获得的多模态抓取数据集包括49000组数据，每组数据包括视觉RGB图像、Depth图像、左指触觉RGB图像、Depth图像、右指触觉RGB图像、Depth图像、双指法向接触力、夹爪夹持力、抓取稳定性标签即抓取标签。

可选地，步骤A04根据步骤A01搭建的仿真抓取平台采集动态先验数据，获得仿真抓取物体数据集，具体为采集动态先验数据时，设置机械臂的抬升速度3mm/s、相机分辨率640x480、帧率设置为30FPS和DIGIT的采集分辨率320x240、帧率设置为30FPS，在机械臂夹爪稳定闭合后，采集1s，记录采集数据时刻的RGB图像、左DIGIT图像、右DIGIT图像、夹持力和抓取标签，获得模拟机械臂基础抬升期间的仿真抓取物体数据集。对于物体数据集中的每个物体采集100组抓取视频。

其中，FPS为Frames per Second。

其中，步骤A05：构建时空卷积抓取稳定性评估模型，包括以下步骤：

A051：将抓取稳定性分析任务定义为二分类问题，输入视觉图像序列(V₁，V₂，...，V_n)和触觉图像序列(T₁，T₂，...，T_n)，建立深度神经网络模型，确认序列F(V₁，V₂，...V_n；T₁，T2，...T_n)是否发生不稳定的滑动，其中，n为序列长度，F为分类器，当F输出为0时，当前时刻为滑动状态，当F输出为1时，当前时刻为稳定状态；

其中，多层感知机分类器为MLP分类器，MLP分类器即Multilayer Perceptron分类器。

可选地，步骤A052包括以下步骤：

步骤A0522具体为：如图7所示，采用改进了Transformer的传统attention机制的Longformer结构构建时间特征提取模块。对于每一个标记(token)，只对固定窗口大小的附近token计算local attention，并可以结合具体任务，计算少量的global attention。如图8所示，当Q、K序列长度为L时，在传统Transformer的self-attention中，需要对Q、K进行逐行点积运算，从而QK^T∈R^L×L，其复杂度为O(L²)。在Longformer的注意力机制中，对于Q中任意一行q仅需进行其与K中[q-w/2，q+w/2]窗口内的点积运算，其复杂度为O(L×w)。其中，w为窗口长度，其取值与L无关且远小于L。

步骤A0523：GELU为Gaussian Error Linear Unit，GELU定义通过下式表示：

步骤A061：将所述仿真抓取物体数据集按照比例8：2划分为训练集和验证集，训练时，首先对视觉模态信息进行裁剪，在抓取稳定性评估任务时，视觉模态信息包括末端执行期模块和被抓所述仿真抓取物体的状态，所述视觉模态信息位于相机成像的中下部位；

在步骤A061中，训练时对视觉模态信息进行裁剪时，由于相机在工作时既要作为抓取检测的信号输入源，又要作为抓取稳定性评估的模态输入，图像空间不同部位的信息需要满足不同任务的要求，在抓取稳定性评估任务时，视觉模态信息主要包含末端执行器末端和被抓取物体的状态，该信息主要集中在相机成像的中下部位。

本实施例提出的基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，对抓取稳定性评估方法的性能进行测定，主要与不同种类模态的输入和不同混合模态在对于抓取稳定性分析对应的影响效果进行对比，如下表1所示：

表1中符号表示的含义说明如下：

(1)T-C-L：Tactile-Color-Left，即左指触觉RGB图像；

(2)T-D-L：Tactile-Depth-Left，即左指触觉Depth图像；

(3)T-C-R：Tactile-Color-Right，即右指触觉RGB图像；

(4)T-D-R：Tactile-Depth-Right，即右指触觉Depth图像；

(5)V-C：Vision-Color，即视觉RGB图像；

(6)V-D：Vision-Depth，即视觉Depth图像；

(7)ALL：包含视觉RGB图像、Depth图像以及左右指触觉RGB图像、Depth图像。

可见，本对于本实施例提出的基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，结果表明，抓取稳定性评估准确率为：视觉与双指触觉＞双指触觉＞单指触觉＞视觉。

仅依靠视觉作为判断抓取稳定性的依据成功率较低但相对稳定，深度图、彩色图平均准确率分别为69.47％、76.69％；从触觉中学习稳定抓取有较高的准确性，双指触觉的效果明显优于单指触觉且以触觉彩色图为输入的检验效果优于深度图像，其中最高准确率为85.01％，相较于单一视觉模态的准确率提高了8.32％，但是准确率波动大、稳定性较差。本文提出的基于视触融合的方法的检测效果在触觉感知的基础上进一步提高且方差明显小于触觉模态的检测效果，即稳定性更好。

本实施例提出的基于视触融合和时空卷积的抓取稳定性评估方法性能测定，本发明提出的抓取稳定性分析网络在视触抓取数据集上的准确率为95.80％，其中，参数量为51.5M，平均推理时长279.01ms。其训练与验证曲线如图9、图10和图11所示。

最后，对比了不同的空间模块ResNet-50，ResNet-101、VGG-16和不同的时间注意力模块Longformer、LSTM对网络训练结果的影响。其中，LSTM设置为两层，隐藏层节点数设置为64，不同卷积网络效果对比如下表2所示。

模型	参数量	准确率(％)	推理时间(ms)
				ResNet-50--Longformer	51,472,450	95.80	279.01
ResNet-101--Longformer	70,464,578	96.33	431.83
				VGG-16--Longformer	165,379,138	94.17	356.73
ResNet-50--LSTM	23,803,650	92.20	201.23
				ResNet-101--LSTM	42,795,778	93.33	459.83
VGG-16--LSTM	134,826,754	91.67	215.37

由上表可知，以Longformer为时间注意力编码的模型准确率普遍高于以LSTM为时间注意力编码的模型，但参数量明显较多、推理时间较长；在空间模块中，ResNet-101的表现胜过ResNet-50和VGG-16，但平均推理时间最长。本发明提出的基于视触融合和时空卷积的抓取稳定性评估方法最能满足机器人抓取稳定性分析在准确性、实时性方面的要求。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：包括以下步骤：

步骤A01：基于Pybullet和TACTO建立机器人仿真抓取平台；

步骤A03：建立静态视触抓取稳定性分析模型；

步骤A05：构建时空卷积抓取稳定性评估模型；

步骤A06：训练与验证动态视触融合模型。

2.根据权利要求1所述的基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A01中基于Pybullet和TACTO建立机器人仿真抓取平台，包括以下步骤：

步骤A012：应用Pybullet模拟机器人抓取的物理行为；

3.根据权利要求1所述的基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A02中根据步骤A01建立的机器人仿真抓取平台采集虚拟抓取及视触图像，获得多模态抓取数据集，包括以下步骤：

步骤A021：获得EGAD模型的仿真抓取物体；

4.根据权利要求3所述的基于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A022根据机器人仿真抓取平台采集虚拟抓取及视触图像，包括以下步骤：

5.根据权利要求4所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A023：加载机器人仿真抓取平台的模型，调整仿真抓取物体状态，获得机器人仿真抓取平台模拟抓取动作收集数据，包括以下步骤：

6.根据权利要求1所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A03建立静态视触抓取稳定性分析模型，包括以下步骤：

7.根据权利要求1所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A04根据步骤A01搭建的仿真抓取平台采集动态先验数据，获得仿真抓取物体数据集，具体为采集动态先验数据时，设置机械臂的抬升速度、相机分辨率、帧率和DIGIT的采集分辨率、帧率，在机械臂夹爪稳定闭合后，采集1s，记录采集数据时刻的RGB图像、左DIGIT图像、右DIGIT图像、夹持力和抓取标签，获得模拟机械臂基础抬升期间的仿真抓取物体数据集。

8.根据权利要求1所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A05：构建时空卷积抓取稳定性评估模型，包括以下步骤：

A051：输入视觉图像序列(V₁，V₂，...，V_n)和触觉图像序列(T₁，T₂，...，T_n)，建立深度神经网络模型，确认序列F(V₁，V₂，...，V_n；T₁，T₂，...T_n)是否发生不稳定的滑动，其中，n为序列长度，F为分类器，当F输出为0时，当前时刻为滑动状态，当F输出为1时，当前时刻为稳定状态；

9.根据权利要求8所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A052包括以下步骤：

10.根据权利要求1所述的于视触融合感知与多模态时空卷积的抓取稳定性评估方法，其特征在于：步骤A06：训练与验证动态视触融合模型，包括以下步骤：