CN118163114A

CN118163114A - 一种视触觉跨模态特征融合的工件抓取检测方法及系统

Info

Publication number: CN118163114A
Application number: CN202410514859.8A
Authority: CN
Inventors: 杨景涛; 卢清华; 陈明猷; 罗陆锋; 陈为林; 张云志
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-06-11

Abstract

本发明公开了一种视触觉跨模态特征融合的工件抓取检测方法及系统，该方法包括：获取抓取工件的视觉特征与抓取工件的触觉特征；通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征；通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态。本发明能够实现深度的视触觉跨模态特征融合，从而提高当前工件的抓取状态的检测准确度。本发明作为一种视触觉跨模态特征融合的工件抓取检测方法及系统，可广泛应用于视触觉融合技术领域。

Description

一种视触觉跨模态特征融合的工件抓取检测方法及系统

技术领域

本发明涉及视触觉融合技术领域，尤其涉及一种视触觉跨模态特征融合的工件抓取检测方法及系统。

背景技术

针对工件，仅仅检测抓取过程中是否发生滑移是不够的，还需要考虑被抓取工件的变形情况。现有方法通过将深度学习方法应用于机器人抓握状态的评估中，通过深度学习网络对被抓取物体的变形和滑移进行预测，取得了显著效果，但是，现有的许多方法未能在视觉和触觉特征之间建立强有力的时空联系，在抓取和滑移过程中，时间连续性和空间一致性对于预测和理解抓取状态至关重要，且目前的视触觉融合技术往往只是通过将视觉和触觉特征直接拼接来实现，这种简单的拼接方法没有充分利用视觉和触觉特征之间的潜在关联，对视觉与触觉特征缺乏深入的交互融合，导致无法充分利用两种模态信息之间的互补性，因而最终的工件抓取效果并不理想。

发明内容

为了解决上述技术问题，本发明的目的是提供一种视触觉跨模态特征融合的工件抓取检测方法及系统，能够通过获取工件抓取状态的动态时序特征实现深度的视触觉跨模态特征融合，从而提高当前工件的抓取状态的检测准确度。

本发明所采用的第一技术方案是：一种视触觉跨模态特征融合的工件抓取检测方法，包括以下步骤：

获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，得到抓取工件的视觉特征与抓取工件的触觉特征；

通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征；

通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态。

进一步，所述获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，得到抓取工件的视觉特征与抓取工件的触觉特征这一步骤，其具体包括：

通过相机获取抓取工件的视觉视频图像数据；

通过触觉传感器获取抓取工件的触觉视频图像数据；

对抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据进行分辨率切分与图像分块处理，得到抓取工件的视觉特征与抓取工件的触觉特征。

进一步，所述通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征这一步骤，其具体包括：

将抓取工件的视觉特征与抓取工件的触觉特征分别进行特征分别输入至分割时空注意力模块，所述分割时空注意力模块包括多头时间注意力模块、多头空间注意力模块和多层感知器模块；

基于分割时空注意力模块的多头时间注意力模块，分别对抓取工件的视觉特征与抓取工件的触觉特征进行时间维度特征计算，得到抓取工件的视觉时间特征向量与抓取工件的触觉时间特征向量；

基于分割时空注意力模块的多头空间注意力模块，分别对抓取工件的视觉特征与抓取工件的触觉特征进行空间维度特征计算，得到抓取工件的视觉空间特征向量与抓取工件的触觉空间特征向量；

基于分割时空注意力模块的多层感知器模块，对抓取工件的视觉时间特征向量与抓取工件的视觉空间特征向量进行混合编码处理，得到抓取工件的视觉动态时序特征；

基于分割时空注意力模块的多层感知器模块，对抓取工件的触觉时间特征向量与抓取工件的触觉空间特征向量进行混合编码处理，得到抓取工件的触觉动态时序特征。

进一步，所述分割时空注意力模块的特征捕捉处理的表达式具体如下所示：

上式中，LN(·)表示图层规范化，MSA(·)表示多头注意力机制，MLP(·)表示多层感知器模块，time表示时间维度，space表示空间维度，表示经过时间注意力后得到的注意力权重，/>表示经过空间注意力后得到的注意力权重，p和t分别表示为视觉特征和触觉特征的空间位置和对应图像帧的索引，l表示第l层编码，/>表示动态时序特征。

进一步，所述通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态这一步骤，其具体包括：

将抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征分别输入至跨模态特征交互融合分类模块，所述跨模态特征交互融合分类模块包括跨模态注意力模块、前馈网络模块、跨模态融合模块和MLP网络模块；

基于跨模态特征交互融合分类模块的跨模态注意力模块，对抓取工件的视觉动态时序特征进行模态计算处理，得到抓取工件视觉动态时序特征的查询向量、抓取工件视觉动态时序特征的键向量和抓取工件视觉动态时序特征的值向量；

基于跨模态特征交互融合分类模块的跨模态注意力模块，对抓取工件的触觉动态时序特征进行模态计算处理，得到抓取工件触觉动态时序特征的查询向量、抓取工件触觉动态时序特征的键向量和抓取工件触觉动态时序特征的值向量；

将抓取工件视觉动态时序特征的查询向量、抓取工件触觉动态时序特征的键向量和抓取工件触觉动态时序特征的值向量进行矩阵计算处理，得到若干抓取工件的视觉特征；

将抓取工件触觉动态时序特征的查询向量、抓取工件视觉动态时序特征的键向量和抓取工件视觉动态时序特征的值向量进行矩阵计算处理，得到若干抓取工件的触觉特征；

基于跨模态特征交互融合分类模块的前馈网络模块，对若干抓取工件的视觉特征进行拼接处理，得到抓取工件的综合视觉特征；

基于跨模态特征交互融合分类模块的前馈网络模块，对若干抓取工件的触觉特征进行拼接处理，得到抓取工件的综合触觉特征；

基于跨模态特征交互融合分类模块的跨模态融合模块，对抓取工件的综合视觉特征与抓取工件的综合触觉特征进行融合处理，得到抓取工件的视触觉融合特征向量；

基于跨模态特征交互融合分类模块的MLP网络模块，对抓取工件的视触觉融合特征向量进行预测分类，得到抓取工件的当前抓取状态。

进一步，所述跨模态注意力模块的模态计算处理的表达式具体如下所示：

α＝1,…,A

m＝(V,T)

上式中，表示动态时序特征的查询向量，/>表示动态时序特征的键向量，/>表示动态时序特征的值向量，p和t分别表示为视觉特征和触觉特征的空间位置和对应图像帧的索引，λ表示当前跨模态注意力模块所在层数，α＝1,…,A表示多头注意力的索引，m表示模态类型，V和T分别表示视觉模态和触觉模态，/>表示查询向量的可学习的嵌入矩阵，/>表示键向量的可学习的嵌入矩阵，/>表示值向量的可学习的嵌入矩阵，LN(·)表示图层规范化，/>表示前一层跨模态注意力模块的模态计算结果。

进一步，所述矩阵计算处理的表达式具体如下所示：

上式中，head_α表示矩阵计算结果，Attention(·)表示注意力机制，Softmax(·)表示Softmax激活函数，表示动态时序特征的查询向量，/>表示动态时序特征的键向量，/>表示动态时序特征的值向量，D_h表示每个注意力头部的潜在维度，m'表示m相对的模态类型，p和t分别表示为视觉特征和触觉特征的空间位置和对应图像帧的索引，λ表示当前跨模态注意力模块所在层数，α＝1,…,A表示多头注意力的索引，m表示模态类型。

进一步，所述前馈网络模块的拼接处理的表达式具体如下所示：

MSA＝Concat(head₁,···,head_A)W^o

上式中，MSA表示抓取工件的综合视触觉特征，Concat(·)表示连接操作，W^o表示可学习参数，head₁,···,head_A表示矩阵计算结果。

进一步，所述MLP网络模块的预测分类的表达式具体如下所示：

y＝Softmax(Q₂·ReLu(Q₁·F_VT+b₁)+b₂)

上式中，y表示抓取工件的当前抓取状态，Softmax(·)表示Softmax激活函数，ReLu(·)表示ReLu激活函数，F_VT表示抓取工件的视触觉融合特征向量，Q₁、Q₂表示两个线性变换层的权重矩阵，b₁、b₂表示偏置向量。

本发明所采用的第二技术方案是：一种视触觉跨模态特征融合的工件抓取检测系统，包括：

预处理模块，用于获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，得到抓取工件的视觉特征与抓取工件的触觉特征；

捕捉模块，用于通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征；

预测模块，用于通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态。

本发明方法及系统的有益效果是：本发明通过获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，进一步通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，分割时空注意力模块通过分别独立地应用时间注意力和空间注意力，以强化视觉和触觉特征在时间和空间维度上的关联性，捕捉抓取动作的滑移阶段的潜在时序特征，实现更精细的时空特征建模，最后通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，跨模态特征交互融合分类模块先通过跨模态注意力机制，实现跨模态特征交互，再通过张量融合的方式，将视觉和触觉特征进行有效的融合，建立模态间的联系，从而提高当前工件的抓取状态的检测准确度。

附图说明

图1是本发明一种视触觉跨模态特征融合的工件抓取检测方法的步骤流程图；

图2是本发明一种视触觉跨模态特征融合的工件抓取检测系统的结构框图；

图3是本发明具体实施例提供的工件抓取预测的步骤框架示意图；

图4是本发明具体实施例提供的分割时空注意力模块的结构示意图；

图5是本发明具体实施例提供的跨模态特征交互融合分类模块的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图3，本发明提供了一种视触觉跨模态特征融合的工件抓取检测方法，该方法包括以下步骤：

S1、获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，得到抓取工件的视觉特征与抓取工件的触觉特征；

具体地，通过相机获取抓取工件的视觉视频图像数据；通过触觉传感器获取抓取工件的触觉视频图像数据；对抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据进行分辨率切分与图像分块处理，得到抓取工件的视觉特征与抓取工件的触觉特征。

在本发明实施例中，使用深度相机和触觉传感器分别同时录制机械臂抓取物体视频S_V与S_T，其分辨率为H×W。随后，每个视频被切分为T帧分辨率为H×W的RGB图像，并对图像进行分块处理，得到出视觉特征和触觉特征。

S2、通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征；

具体地，将抓取工件的视觉特征与抓取工件的触觉特征分别进行特征分别输入至分割时空注意力模块，所述分割时空注意力模块包括多头时间注意力模块、多头空间注意力模块和多层感知器模块；基于分割时空注意力模块的多头时间注意力模块，分别对抓取工件的视觉特征与抓取工件的触觉特征进行时间维度特征计算，得到抓取工件的视觉时间特征向量与抓取工件的触觉时间特征向量；基于分割时空注意力模块的多头空间注意力模块，分别对抓取工件的视觉特征与抓取工件的触觉特征进行空间维度特征计算，得到抓取工件的视觉空间特征向量与抓取工件的触觉空间特征向量；基于分割时空注意力模块的多层感知器模块，对抓取工件的视觉时间特征向量与抓取工件的视觉空间特征向量进行混合编码处理，得到抓取工件的视觉动态时序特征；基于分割时空注意力模块的多层感知器模块，对抓取工件的触觉时间特征向量与抓取工件的触觉空间特征向量进行混合编码处理，得到抓取工件的触觉动态时序特征。

在本发明实施例中，对提取出视觉特征和触觉特征本发明实施例将其输入到分割时空注意力模块。分割时空注意力模块的创新之处在于它能够分别独立地应用时间注意力和空间注意力，以此克服传统注意力机制仅在单一维度上操作的局限。分割时空注意力模块处理流程图如图4所示。分割时空注意力模块基于Transformer结构与多头注意力(Multi-head Self Attention)机制结合设计而成。给定注意力头的总数为A，对于每一个注意力头而言，在第l层编码块处，需要根据上一层编码块计算查询/键/值向量。并且按顺序处理时空维度的注意力，首先在时间上计算(从相同的空间索引中提取所有向量)，然后计算空间注意力(从相同的时间索引中提取所有向量)，并在这些计算之间引入残差连接。多层感知器(Multilayer Perceptron)用于实现空间和时间混合，分别负责捕捉全局的空间依赖和不同跨度的时间变化，将视觉特征和触觉特征中的信息编码为动态时序特征具体计算公式如下公式所示：

S3、通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态。

具体地，将抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征分别输入至跨模态特征交互融合分类模块，所述跨模态特征交互融合分类模块包括跨模态注意力模块、前馈网络模块、跨模态融合模块和MLP网络模块；基于跨模态特征交互融合分类模块的跨模态注意力模块，对抓取工件的视觉动态时序特征进行模态计算处理，得到抓取工件视觉动态时序特征的查询向量、抓取工件视觉动态时序特征的键向量和抓取工件视觉动态时序特征的值向量；基于跨模态特征交互融合分类模块的跨模态注意力模块，对抓取工件的触觉动态时序特征进行模态计算处理，得到抓取工件触觉动态时序特征的查询向量、抓取工件触觉动态时序特征的键向量和抓取工件触觉动态时序特征的值向量；将抓取工件视觉动态时序特征的查询向量、抓取工件触觉动态时序特征的键向量和抓取工件触觉动态时序特征的值向量进行矩阵计算处理，得到若干抓取工件的视觉特征；将抓取工件触觉动态时序特征的查询向量、抓取工件视觉动态时序特征的键向量和抓取工件视觉动态时序特征的值向量进行矩阵计算处理，得到若干抓取工件的触觉特征；基于跨模态特征交互融合分类模块的前馈网络模块，对若干抓取工件的视觉特征进行拼接处理，得到抓取工件的综合视觉特征；基于跨模态特征交互融合分类模块的前馈网络模块，对若干抓取工件的触觉特征进行拼接处理，得到抓取工件的综合触觉特征；基于跨模态特征交互融合分类模块的跨模态融合模块，对抓取工件的综合视觉特征与抓取工件的综合触觉特征进行融合处理，得到抓取工件的视触觉融合特征向量；基于跨模态特征交互融合分类模块的MLP网络模块，对抓取工件的视触觉融合特征向量进行预测分类，得到抓取工件的当前抓取状态。

在本发明实施例中，本发明实施例将分割时空注意力模块输出的视觉、触觉动态时序特征分别到视触觉特征交互融合模型中，如图5所示。现有的视触觉信息特征融合方法只是简单地将两种模态的特征拼接在一起，本发明实施例的方法利用跨模态注意力机制来捕捉和传递不同模态之间的相关性和互补性。通过计算每个模态中每个元素对于另一个模态中每个元素的注意力分数，建立模态间的强有力的联系。

在跨模态注意力机制中，本发明实施例引入了三个输入向量，即查询向量、键向量和值向量。每个输入向量都有不同的用途。具体来说，查询向量用于匹配键向量以确定关注权重，然后用于计算值向量的加权和以获得最终输出。每一个模态查询/键/值向量必须基于前一层跨模态特征交互编码器来计算，如下所示：

α＝1,…,A

m＝(V,T)

在得到各模态的查询向量、键向量和值向量后，本发明实施例将来自一种模态(例如视觉)的查询向量，与来自另一种模态(例如触觉)的键向量和值向量进行矩阵运算，计算出相应注意力头在跨模态特征交互后注意力的得分。具体公式如下所示：

将所有注意力头的结果连接起来，并通过前馈网络，得到综合视觉和触觉的特征信息。具体公式如下所示：

MSA＝Concat(head₁,···,head_A)W^o

最后将综合视觉和触觉的特征信息连接起来，并在把它们融合后投影到低维空间，得到新的视触觉融合特征向量F_VT。本发明实施例利用另一个MLP网络作为视触觉融合分类模型。该模型包括两个线性变换层和一个ReLU激活函数，以新的视触觉融合特征向量F_VT作为输入，经过全连接层后输出当前物体的抓取状态y。具体公式如下所示

y＝Softmax(Q₂·ReLu(Q₁·F_VT+b₁)+b₂)

上式中，y表示抓取工件的当前抓取状态，Softmax(·)表示Softmax激活函数，ReLu(·)表示ReLu激活函数，F_VT表示抓取工件的视触觉融合特征向量，Q₁、Q₂表示两个线性变换层的权重矩阵，b₁、b₂表示偏置向量，y的结果为0、1和2，其中，0代表不接触，1代表稳定抓取，2代表滑移。

综上所述，本发明实施例综合处理了由夹持器上方深度相机捕获的视觉视频图像S_V和夹持器手指上触觉传感器采集的触觉视频图像S_T，以评估当前抓取状态。该状态分为三类：不接触，稳定抓取，滑移。本发明实施例旨在通过深度学习技术，实现对抓取动作的精确评估和控制，通过视觉和触觉传感器实时监测工件的抓取状态，并根据需要调整抓取力度和位置，以确保抓取的稳定性和安全性。

因此，本发明实施例相比于现有技术存在以下有益效果：

1)本发明实施例综合考虑了视觉和触觉信息，并利用深度学习技术实现对抓取动作的精确评估和控制，提高了机器人抓取任务的执行效率和成功率。

2)本发明实施例提出了分割时空注意力模块，不仅能够分别独立地处理时间和空间维度的信息，克服了传统注意力机制仅在单一维度上操作的局限，增强了对抓取动作的时空特征的理解，尤其是对滑移过程中时序特征的敏感度，而且实现对全局上下文信息的理解和整合，更好地理解整体场景结构和复杂关系。

3)本发明实施例提出了跨模态特征交互特征，能够利用跨模态注意力机制来传递不同模态之间的相关性和互补性，更精确地建立模态间的联系，优化了对多模态数据处理的整体性能。

参照图2，一种视触觉跨模态特征融合的工件抓取检测系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述获取抓取工件的视觉视频图像数据与抓取工件的触觉视频图像数据并进行数据预处理，得到抓取工件的视觉特征与抓取工件的触觉特征这一步骤，其具体包括：

通过相机获取抓取工件的视觉视频图像数据；

通过触觉传感器获取抓取工件的触觉视频图像数据；

3.根据权利要求1所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述通过分割时空注意力模块对抓取工件的视觉特征与抓取工件的触觉特征分别进行特征捕捉处理，得到抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征这一步骤，其具体包括：

4.根据权利要求3所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述分割时空注意力模块的特征捕捉处理的表达式具体如下所示：

5.根据权利要求1所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述通过跨模态特征交互融合分类模块对抓取工件的视觉动态时序特征与抓取工件的触觉动态时序特征进行融合交互分类处理，得到抓取工件的当前抓取状态这一步骤，其具体包括：

6.根据权利要求5所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述跨模态注意力模块的模态计算处理的表达式具体如下所示：

α＝1，…，A

m＝(V，T)

上式中，表示动态时序特征的查询向量，/>表示动态时序特征的键向量，表示动态时序特征的值向量，p和t分别表示为视觉特征和触觉特征的空间位置和对应图像帧的索引，λ表示当前跨模态注意力模块所在层数，α＝1，…，A表示多头注意力的索引，m表示模态类型，V和T分别表示视觉模态和触觉模态，/>表示查询向量的可学习的嵌入矩阵，/>表示键向量的可学习的嵌入矩阵，/>表示值向量的可学习的嵌入矩阵，LN(·)表示图层规范化，/>表示前一层跨模态注意力模块的模态计算结果。

7.根据权利要求5所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述矩阵计算处理的表达式具体如下所示：

上式中，head_α表示矩阵计算结果，Attention(·)表示注意力机制，Softmax(·)表示Softmax激活函数，表示动态时序特征的查询向量，/>表示动态时序特征的键向量，/>表示动态时序特征的值向量，D_h表示每个注意力头部的潜在维度，m′表示m相对的模态类型，p和t分别表示为视觉特征和触觉特征的空间位置和对应图像帧的索引，λ表示当前跨模态注意力模块所在层数，α＝1，…，A表示多头注意力的索引，m表示模态类型。

8.根据权利要求5所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述前馈网络模块的拼接处理的表达式具体如下所示：

MSA＝Concat(head₁，…，head_A)W^o

上式中，MSA表示抓取工件的综合视触觉特征，Concat(·)表示连接操作，W^o表示可学习参数，head₁，…，head_A表示矩阵计算结果。

9.根据权利要求5所述一种视触觉跨模态特征融合的工件抓取检测方法，其特征在于，所述MLP网络模块的预测分类的表达式具体如下所示：

y＝Softmax(Q₂·ReLu(Q₁·F_VT+b₁)+b₂)

10.一种视触觉跨模态特征融合的工件抓取检测系统，其特征在于，包括以下模块：