CN117381799A

CN117381799A - 基于机器视觉的抓取装置控制方法、抓取装置及存储介质

Info

Publication number: CN117381799A
Application number: CN202311688210.XA
Authority: CN
Inventors: 万芳; 宋超阳
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117381799B

Abstract

本发明公开了基于机器视觉的抓取装置控制方法、抓取装置及存储介质，所述方法包括：获取机械爪的摄像头数据，根据机械爪的摄像头数据确定被抓取物体的位置和类别；控制机械爪抓取所述被抓取物体，抓取期间，根据机械爪的摄像头数据获取机械爪的柔性网状指尖的实时编码，根据所述机械爪的柔性网状指尖的实时编码实时获取机械爪所受的力和力矩，并根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作。本发明通过摄像头实时追踪自适应网状结构与物品接触时的形变，输入给经过训练的神经网络模型，预测出手指所施加的六维力和力矩，无需额外设置单独的触觉传感器以及融合算法的视触融合方法，能够以较低的成本实现高效率的抓取动作。

Description

基于机器视觉的抓取装置控制方法、抓取装置及存储介质

技术领域

本发明涉及机器人技术领域，尤其涉及的是基于机器视觉的抓取装置控制方法、抓取装置及存储介质。

背景技术

机器人的灵巧抓取与操作依赖于机器人对环境和物品的感知，而机器人对环境和物品的感知一直是机器人领域的难点，随着人工智能技术的发展，尤其是机器视觉、触觉传感器以及深度学习算力的大力发展，利用多模态感知进行抓取规划是当前机器人抓取的前沿热点方向。

视觉信息能够在抓取动作前较好地估计物体的姿态、形状等信息，具有成本低、应用广泛的优点，但是视觉传感器无法获得物体的质量、表面摩擦系数等影响抓取稳定性的关键因素，与视觉传感器不同，力触觉传感器通过与环境和物品的交互，可以获得物品的质量、表面摩擦系数等物理属性，同时可以在抓取过程中实时反馈抓取的力度。视觉信息和触觉信息具有较好的互补性，同时利用两种及以上模态的传感信息可以有效提高机器人灵巧手抓取的效率。

但是现有技术，这种需要分别采用一套视觉传感器、一套触觉传感器以及融合算法的视触融合方法，其具有成本高昂、部署难度大等缺点。

发明内容

本发明的目的是提供基于机器视觉的抓取装置控制方法、抓取装置及存储介质，其能通过较低的成本实现高效率的抓取动作。

本发明解决技术问题所采用的技术方案如下：

本发明提供基于机器视觉的抓取装置控制方法，所述基于机器视觉的抓取装置控制方法包括：

获取机械爪的摄像头数据，根据机械爪的摄像头数据确定被抓取物体的位置和类别；

控制机械爪抓取所述被抓取物体，在抓取期间，根据机械爪的摄像头数据获取机械爪的柔性网状指尖的实时编码，根据所述机械爪的柔性网状指尖的实时编码实时获取机械爪所受的力和力矩，并根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作。

进一步地，所述获取机械爪的摄像头数据，根据机械爪的摄像头数据确定被抓取物体的位置和类别，具体包括：

控制机械爪沿设定轨迹运动，获取所述机械爪沿设定轨迹运动的过程中机械爪的摄像头的视频数据；

根据所述视频数据的前后帧恢复遮挡区域的视野，根据恢复后的视频数据确定被抓取物体的位置和类别。

进一步地，所述根据所述视频数据的前后帧恢复遮挡区域的视野，具体包括：

获取所述机械爪沿设定轨迹运动的过程中机械爪的摄像头的视频数据的前后帧；

通过视频重绘模型根据所述视频数据的前后帧对被遮挡区域的图像进行重绘。

进一步地，所述根据所述机械爪的柔性网状指尖的实时编码实时获取机械爪所受的力和力矩，具体包括：

将机械爪的柔性网状指尖的实时掩码输入训练好的柔性力触觉感知模型；

所述柔性力触觉感知模型输出机械爪所受的力和力矩。

进一步地，所述根据所述机械爪的柔性网状指尖的实时掩码实时获取机械爪所受的力和力矩，具体包括：

获取存储的机械爪的柔性网状指尖的静态掩码，将机械爪的柔性网状指尖的实时掩码和静态掩码输入所述编码器；

所述编码器输出由均值和方差描述的高斯分布，将高斯分布的均值输入所述监督回归模型，所述监督回归模型输出机械爪所受的力和力矩，以及机械爪与被抓取物体的接触位置。

进一步地，所述根据机械爪的摄像头数据获取机械爪的柔性网状指尖的实时掩码，具体包括：

将机械爪的摄像头数据输入分割神经网络模型；

所述分割神经网络模型从机械爪的摄像头数据中分割出机械爪的柔性网状指尖的实时掩码。

进一步地，所述根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作，具体包括：

根据所述机械爪所受的力和力矩实时调整机械爪抓取的力度；

根据所述机械爪所受的力和力矩实时调整机械爪抓取的姿态，所述姿态包括位置和角度。

进一步地，所述分割神经网络模型包括XMem架构的神经网络。

此外，为实现上述目的，本发明还提供一种抓取装置，包括机械臂和机械爪，所述机械爪包括终端、机械臂连接部和多个机械爪手指，每个机械爪手指均包括固定部、摄像头和柔性网状指尖；

机械爪手指的固定部一端与机械臂连接部连接，另一端与柔性网状指尖固定连接，各个机械爪手指远离机械臂连接部的一端相互远离或靠近，以完成机械爪的松开和抓取；

摄像头位于所在的机械爪手指的固定部中，所述摄像头拍摄方向朝向所在的机械爪手指的柔性网状指尖；

所述机械臂连接部用于与机械臂的末端法兰固定连接，从而机械臂能通过运动带动机械爪改变姿态；

所述柔性网状指尖具体包括柔性材质的棱和梁组成的网状结构，网状结构的一端与所述固定部连接，所述柔性网状指尖用于对被抓取物体施加柔性的抓取力，并根据抓取力的反作用力发生变形；

所述终端用于获取各个摄像头的数据并控制机械爪的工作；

所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被所述处理器执行时控制终端实现如上所述的基于机器视觉的抓取装置控制方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质存储有基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被处理器执行时实现如上所述的基于机器视觉的抓取装置控制方法的步骤。

本发明采用上述技术方案具有以下效果：

本发明通过摄像头实时追踪自适应网状结构与物品接触时的形变，输入给经过训练的神经网络模型，预测出手指所施加的六维力和力矩，无需额外设置单独的触觉传感器以及融合算法的视触融合方法，能够以较低的成本实现高效率的抓取动作。

附图说明

图1是本发明较佳实施例中基于机器视觉的抓取装置控制方法的步骤流程图；

图2是本发明较佳实施例中基于机器视觉的抓取装置控制方法的流程示意图；

图3是本发明较佳实施例中机械爪的结构示意图；

图4是本发明较佳实施例中获取无遮挡图像的流程示意图；

图5是本发明较佳实施例中柔性力触觉感知模型的结构示意图；

图6是本发明较佳实施例中柔性力触觉感知模型训练的流程示意图；

图7是本发明测试例中的六维力和力矩实时信号图；

图8是本发明终端的较佳实施例的运行环境示意图。

标号说明：

1、机械臂连接部；10、存储器；20、处理器；21、固定部；22、摄像头；23、柔性网状指尖。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

请参见图1和图2，本申请的实施例一是基于机器视觉的抓取装置控制方法，抓取装置包括机械臂和如图3所示的机械爪，所述机械爪包括终端、机械臂连接部1和两个机械爪手指，每个机械爪手指均包括固定部21、摄像头22和柔性网状指尖23，所述方法包括步骤：

S1、获取机械爪的摄像头数据，根据机械爪的摄像头数据获取被抓取物体的位置和类别。

具体而言，视觉信息通常用在抓取动作发生前的规划阶段，在抓取时由于不可避免的出现机械爪的柔性网状指尖23遮挡被抓取的物品的问题。

为此，请参照图4，本实施例中，通过指内视觉穿透感知算法获取无遮挡的被抓取物体的图像。

具体而言，包括步骤：

S11、控制机械爪沿设定轨迹运动，获取所述机械爪沿设定轨迹运动的过程中机械爪的摄像头22的视频数据。

具体而言，本实施例中，机械爪包括两个柔性的机械爪手指，机械爪的摄像头22位于机械爪手指远离抓取任务的一端并拍摄机械爪手指，因此机械爪的手指遮挡了机械爪的摄像头22的拍摄区域。

为此，在实际使用中，需要将机械爪安装在机械臂的末端法兰上，并调整机械爪的初始姿态，使机械爪的初始状态面对抓取任务的工作区域。

之后控制机械臂带动机械爪运动一段预先设定的轨迹，在此运动的过程中，通过机械爪的摄像头22拍摄一段抓取任务的工作区域的视频数据，从而使得抓取物品出现在视频中，避免机械爪的柔性网状指尖23遮挡机械爪的摄像头22，造成无法定位被抓取物体的情况。

本实施例中，所述预先设定的轨迹具体是机械臂末端法兰带动机械爪沿轴向转动，该轴可以根据实际需要进行选择。

S12、根据所述视频数据前后帧恢复遮挡区域的视野，根据恢复后的视频数据获取被抓取物体的位置和类别。

具体而言，是将所述机械爪沿设定轨迹运动的过程中机械爪的摄像头22的视频数据，以及机械爪的柔性网状指尖23的图形输入视频重绘模型，视频重绘模型根据所述机械爪沿设定轨迹运动的过程中机械爪的摄像头22的视频数据前后帧的数据对视频数据的图像进行重建，从而能够得到抓取任务的工作区域无遮挡的图像。

在本实施例中，柔性网状指尖23的图形具体是柔性网状指尖23的静态图形掩码，其中，机械爪手指由四根棱和连接四根棱的梁组成，所述棱和梁组成网状结构，以用于抓取被抓取物体，网状结构与摄像头22通过连接件固定连接，所述棱和梁均为柔性材质，所述静态图形掩码即所述棱和梁在未变形情况下组成的图形掩码，由于白色网状结构与摄像头22是通过连接件固定的，机械臂运动过程中白色网状结构保持初始无形变状态，因此在整段视频文件中，掩码保持不变，可以通过一般的静态分割神经网络模型获得，本实施例的视频重绘模型可采用目前最先进的E2FGV模型。

所述获取被抓取物体，具体是获取被抓取物体的位置和类别。

值得说明的是，在本实施例中，所述遮挡具体是柔性网状指尖23对摄像头造成的遮挡，但其是为了便于理解所作出的示例性说明，在其他实施例中，抓取装置可能包括多个摄像头，其中，可能具有不包括对准柔性网状指尖23的摄像头，但其仍旧可能被其他外物所遮挡，此时也可能采用本实施例对于遮挡的重建方法，本发明对此不做限制。

S2、控制机械爪抓取所述被抓取物体，抓取期间，根据机械爪的摄像头数据获取机械爪的柔性网状指尖23的实时掩码，根据所述机械爪的柔性网状指尖23的实时编码实时获取机械爪所受的力和力矩，并根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作。

具体而言，本实施例中，通过分割神经网络用于从视频数据中分割得到包含柔性网状结构形变信息的实时掩码，本实施例中，分割神经网络具体是XMem架构的神经网络，来自Atkinson-Shiffrin记忆模型，传统的视频对象分割研究通常只使用一种类型的特征存储器10，对于超过一分钟的视频，单一的特征存储模型会紧密地关联内存消耗和准确性。相反，XMem架构的神经网络遵循Atkinson-Shiffrin模型的思路，设计了一种结构，其中包含多个独立但深度连接的特征存储器10：快速更新的感觉记忆、高分辨率的工作记忆和紧凑且持久的长期记忆。关键是，XMem架构的神经网络开发了一种记忆潜能算法，定期将活跃使用的工作记忆元素整合到长期记忆中，从而避免了内存爆炸，并最大程度地减少了长期预测的性能衰减，结合一种新的内存读取机制，XMem在长视频数据集上显著超越了最先进的性能，同时在短视频数据集上与最先进的方法（不适用于长视频）持平。

之后将机械爪的摄像头22获取的编码图样输入柔性力触觉感知模型，通过柔性力触觉感知模型获取柔性网状指尖23所受的力和力矩以及机械爪手指与被抓取物体的接触位置。

其中，请参照图5，柔性力触觉感知模型具体是基于变分自编码器的监督回归模型y=f(x)，其中，y=(y1, y2)， y1表示一个7维向量，包含6维力和力矩，和一个接触位置的维度，y2表示经过变分自编码器解码重建的掩码图像，柔性力触觉感知模型的输入x=(M,X)，其中M表示初始静态掩码，X表示柔性机械指在接触物品发生形变时的实时掩码。

本实施例中，柔性力触觉感知模型包括一个编码器、一个解码器和一个监督回归模型，将得到的实时掩码和静态掩码输入编码器P _φ，根据柔性力触觉感知模型的输入计算得到一个n维的均值Z _μ和一个n维的方差Z _σ，Z _μ和Z _σ唯一描述了一个n维空间的高斯分布，然后从这个n维高斯分布中随机采样一个n维的向量Z，将均值Z _μ作为所述监督回归模型的输入，监督回归模型输出包含6维力和力矩，和一个接触位置的维度的7维向量y1，随机采样的n维的向量Z输入解码器P _θ，解码器P _θ根据向量Z对实时掩码进行重建，得到重建后的实时掩码。

其中，请参照图6，所述柔性力触觉感知模型在训练时，包括步骤：

A1、将柔性的机械爪手指安装在传统六维力和力矩传感器上，利用指内摄像头22和上述传统传感器采集不同交互位置和接触力下的柔性网状结构形变的图片以及对应的六维力和力矩，构建视触觉数据集。

A2、根据视触觉数据集训练所述柔性力触觉感知模型。

训练时，将实时掩码与静态掩码合并作为变分自编码器的输入，获得隐空间的特征向量；将该隐空间的特征向量作为一个回归模型的输入，将力触觉信息作为输出；同时，将该隐空间的特征向量作为一个解码器模型的输入，将原始掩码作为输出，将两个输出值与训练集中的标签数据的差异作为优化目标，利用梯度下降法获得最终的柔性力触觉感知模型。

通过柔性力触觉感知模型得到6维力和力矩，和机械爪手指与被抓取物体的接触位置后，即可根据获取的信息对机械爪的抓取进行实时的控制，此外，六维的力和力矩之中，包括被抓取物体所受的重力，通过机械爪手指与被抓取物体的接触位置的变化情况，可以判断出被抓取物体是否发生滑动，以及被抓取物体的滑动速度，从而计算得到被抓取物体与机械爪手指之间的摩擦系数。

本实施例中一次抓取动作中，实时获取的6维力和力矩如图7所示，图7中，Fx、Fy和Fz分别表示机械爪手指在x、y和z轴上的受力，Tx、Ty和Tz分别表示机械爪手指在x、y和z轴上所受的力矩。

根据基于实时掩码解析得到的y1，可以在抓取的过程中对机械爪进行实时的调整与控制，例如，对于矿泉水瓶，应当从瓶子的两侧施力进行抓取，但在实际抓取过程中，可能发生机械爪抓取的角度与应当施加力的角度存在偏差，导致施加的力并非是从两侧对矿泉水瓶施加压力，而是存在一定的夹角，这时候就可以调整机械爪的姿态，使机械爪手指分别位于矿泉水瓶的两侧，从而机械爪手指从矿泉水瓶两侧对矿泉水瓶施力完成抓取。

此外，有时在抓取过程中，可能出现给的力过大或者过小的问题，这时候也可以根据y1的反馈，对机械爪施加的压力。

基于此，本实施例通过摄像头22实时追踪自适应网状结构与物品接触时的形变，输入给经过训练的神经网络模型，在实验中，其力预测的精度达到0.2N，以极低的成本实现了稳定性好、精度高的力触觉传感。

实施例二

请参见图3，基于上述方法，本发明还提供了一种抓取装置，包括机械爪和机械臂，所述机械爪包括终端、机械臂连接部1、传动装置3和两个机械爪手指，每个机械爪手指均包括固定部21、摄像头22和柔性网状指尖23；

机械爪手指的固定部21一端通过传动装置3与机械臂连接部1连接，另一端与柔性网状指尖23固定连接，两个机械爪手指远离机械臂连接部1的一端能够相互远离或靠近，从而完成张开或抓取；

摄像头22位于所在的机械爪手指的固定部21中，所述摄像头22拍摄方向朝向所在的机械爪手指的柔性网状指尖23；

所述机械臂连接部1用于与机械臂的末端法兰固定连接，从而机械臂能通过运动带动机械爪改变姿态；

所述柔性网状指尖23具体包括柔性材质的棱和梁组成的网状结构，所述网状结构为方锥形，网状结构的底部与所述固定部21连接，其用于对被抓取物体施加柔性的抓取力，并根据抓取力的反作用力发生变形。

请参见图8，所述终端分别与两个机械爪手指的摄像头以及机械臂连接部通信连接，以获取摄像头的摄像数据，并控制机械臂连接部工作，以控制机械爪的抓取和松开，所述终端包括：存储器10、处理器20及存储在所述存储器10上并可在所述处理器20上运行的基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被所述处理器20执行时控制终端实现如上所述的基于机器视觉的抓取装置控制方法的步骤。

本实施例的机械爪可以方便的替换现有刚性机械手的指尖，其部署简单，对现有工业自动化系统中的机械夹爪的升级成本低。

所述存储器10在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器10在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器10还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器10用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器10还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器10上存储有基于机器视觉的抓取装置控制程序，该基于机器视觉的抓取装置控制程序可被处理器20所执行，从而实现本申请中的基于机器视觉的抓取装置控制方法。

所述处理器20在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器或其他数据处理芯片，用于运行所述存储器10中存储的程序代码或处理数据，例如执行所述基于机器视觉的抓取装置控制方法等。

实施例三

本实施例提供一种存储介质，所述存储介质存储有基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被处理器执行时实现如上所述的基于机器视觉的抓取装置控制方法的步骤。

综上所述，本发明通过摄像头实时追踪自适应网状结构与物品接触时的形变，输入给经过训练的神经网络模型，预测出手指所施加的六维力和力矩，无需额外设置单独的触觉传感器以及融合算法的视触融合方法，能够以较低的成本实现高效率的抓取动作。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.基于机器视觉的抓取装置控制方法，其特征在于，所述基于机器视觉的抓取装置控制方法包括：

控制机械爪抓取所述被抓取物体，在抓取期间，根据机械爪的摄像头数据获取机械爪的柔性网状指尖的实时掩码，根据所述机械爪的柔性网状指尖的实时掩码实时获取机械爪所受的力和力矩，并根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作。

2.根据权利要求1所述的基于机器视觉的抓取装置控制方法，其特征在于，所述获取机械爪的摄像头数据，根据机械爪的摄像头数据确定被抓取物体的位置和类别，具体包括：

3.根据权利要求2所述的基于机器视觉的抓取装置控制方法，其特征在于，所述根据所述视频数据的前后帧恢复遮挡区域的视野，具体包括：

4.根据权利要求1所述的基于机器视觉的抓取装置控制方法，其特征在于，所述根据机械爪的摄像头数据获取机械爪的柔性网状指尖的实时掩码，具体包括：

将机械爪的摄像头数据输入分割神经网络模型；

5.根据权利要求4所述的基于机器视觉的抓取装置控制方法，其特征在于，所述分割神经网络模型包括XMem架构的神经网络。

6.根据权利要求1所述的基于机器视觉的抓取装置控制方法，其特征在于，所述根据所述机械爪的柔性网状指尖的实时掩码实时获取机械爪所受的力和力矩，具体包括：

所述柔性力触觉感知模型输出机械爪所受的力和力矩。

7.根据权利要求1所述的基于机器视觉的抓取装置控制方法，其特征在于，所述根据所述机械爪的柔性网状指尖的实时掩码实时获取机械爪所受的力和力矩，具体包括：

获取存储的机械爪的柔性网状指尖的静态掩码，将机械爪的柔性网状指尖的实时掩码和静态掩码输入编码器；

所述编码器输出由均值和方差描述的高斯分布，将高斯分布的均值输入监督回归模型，所述监督回归模型输出机械爪所受的力和力矩，以及机械爪与被抓取物体的接触位置。

8.根据权利要求1所述的基于机器视觉的抓取装置控制方法，其特征在于，所述根据所述机械爪所受的力和力矩实时调整机械爪的抓取动作，具体包括：

9.一种抓取装置，其特征在于，包括机械臂和机械爪，所述机械爪包括终端、机械臂连接部和多个机械爪手指，每个机械爪手指均包括固定部、摄像头和柔性网状指尖；

摄像头位于所在的机械爪手指的固定部中，所述摄像头的拍摄方向朝向所在的机械爪手指的柔性网状指尖；

所述终端用于获取各个摄像头的数据并控制机械爪的工作；

所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被所述处理器执行时控制终端实现如权利要求1-8任一项所述的基于机器视觉的抓取装置控制方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有基于机器视觉的抓取装置控制程序，所述基于机器视觉的抓取装置控制程序被处理器执行时实现如权利要求1-8任一项所述的基于机器视觉的抓取装置控制方法的步骤。