CN115958605B

CN115958605B - 单目红外热成像视觉机械手抓取物体姿态估计装置及方法

Info

Publication number: CN115958605B
Application number: CN202310028374.3A
Authority: CN
Inventors: 易诗; 程兴豪; 王铖
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2024-06-21
Anticipated expiration: 2043-01-09
Also published as: CN115958605A

Abstract

本发明提供了一种单目红外热成像视觉机械手抓取物体姿态估计装置及方法，属于人工智能技术领域，本发明提供了一种由单目红外热成像摄像头、激光测距模块、边缘计算平台、嵌入式处理器构成的特种机器人机械手自动抓取物体姿态估计装置，单目红外热成像摄像头能够在特种机器人工作的烟雾、燃爆环境下利用物体与环境温度差成像；激光测距模块可以辅助完成抓取目标距离测定；边缘计算平台部署所发明的算法流程；嵌入式处理器完成机械手运动控制，该装置具有轻量化，工作效率高的特点，适宜搭载于特种机器人平台。

Description

单目红外热成像视觉机械手抓取物体姿态估计装置及方法

技术领域

本发明属于通信技术领域，尤其涉及一种单目红外热成像视觉机械手抓取物体姿态估计装置及方法。

背景技术

工作于烟雾，燃爆等环境的特种机器人所搭载的机械手需要对目标进行快速，准确地抓取。因此需要对此类成像恶劣环境下的抓取物体进行物体姿态估计与抓取参数提取。然而，现有的机械手抓取物体姿态估计方法与装置对于上述需求普遍存在以下问题：(1)所搭载的视觉传感器无法在烟雾，燃爆环境下理想成像。具体来讲，目前工业界普遍采用的机械手抓取物体传感器为单目可见光(RGB)摄像头以及双目深度(RGBD)摄像头。上述各类视觉传感器在火灾现场的浓烟环境，事故现场的燃爆环境中，受到光照不足，烟雾浓度大，粉尘密度大等因素的影响，均无法理想成像，进而严重影响后续抓取物体姿态估计。(2)抓取物体姿态估计方法框架设计复杂，影响实时性。具体来讲，目前多数机械手抓取物体姿态估计方法均采用物体6D姿态估计方法(6D Object Pose Estimation)对所需抓取的物体进行姿态建模，虽然该方法具备抓取精度高的特点，但是，框架复杂，计算量大，实时性低，适用于工业生产线的机械手自动加工生产场景，不适用于特种机器人在复杂环境下的物体快速抓取。(3)装置机构复杂，难以轻量化，目前工业生产环境使用的机械手抓取物体姿态估计系统通常由于其框架对平台算力的要求而部署于服务器上，并且具有一套较为复杂的机电控制装置，不适宜于特种机器人的轻量化负载要求。

特种机器人自动抓取系统视觉感知部分功能包括目标定位、姿态估计、抓取点检测以及抓取规划四个步骤。其中目标定位，姿态估计最为关键，现有方案与装置采用的视觉感知传感器通常为单目可见光(RGB)摄像头，双目深度(RGBD)摄像头。

(1)单目RGB摄像头：

通过机械手搭载的单目RGB摄像头采集到图像数据进行目标检测与分割以确定抓取物体位置，采用目标检测方法包括SIFT、SURF、Faster RCNN、YOLO、SSD等目标检测算法，采用目标分割方法包括FCN、UNet、DeepLab、Mask RCNN等方法。确定目标位置与分割轮廓之后，进行6D姿态估计进行抓取物体姿态估计，采用算法包括SSD6D、PoseCNN、Deep6DPose等，根据姿态估计结果确定抓取点，进行机械手运动坐标求解，完成物体抓取。

(2)双目深度(RGBD)摄像头：

通过机械手搭载的双目深度(RGBD)摄像头采集到图像数据(RGB图像，深度图像)以及点云数据进行3D目标检测与3D目标分割以确定抓取物体的空间位置，采用的3D目标检测方法包括FPFH、SHOT等传统算法以及PointRCNN、VoxelNet等深度学习方法，采用3D目标分割方法包括PointNet、PointNet++、PointCNN等方法，确定目标3D空间位置与分割轮廓之后，同样进行6D姿态估计进行抓取物体空间姿态估计，根据姿态估计结果确定抓取点，进行机械手运动坐标求解，完成物体抓取。相比单目RGB摄像头，双目深度(RGBD)摄像头能在视觉定位与物体姿态估计环节提供三维空间信息，从而使抓取更为准确，但同时，系统复杂度与算法框架复杂度将增加。

现有技术一的缺点

1.机械手所搭载的RGB摄像头，RGB摄像头均不能在特种机器人工作的烟雾，燃爆环境下理想成像，上述恶劣成像环境中的烟雾，火焰，粉尘等干扰因素严重影响其成像质量，导致上述视觉传感器无法正常成像进行后续视觉任务。

2.上述方案中的视觉算法流程过于复杂，2D，3D目标检测与分割框架，6D姿态估计框架为保证检测，分割与姿态估计的精度往往采用深度网络，同时定位与姿态建模流程较多，导致计算量消耗大，实时性较差，模型部署困难，不适宜于特种移动机器人的工作需求。

3.部署装置难以轻量化，由于现有机械手物体抓取姿态估计系统算法流程复杂，因此普遍部署于工控机和服务器平台，而特种移动机器人普遍工作于复杂环境，狭小空间，因此要求轻量化负载，需要能够部署于轻量级边缘计算平台的视觉算法框架。

发明内容

针对现有技术中的上述不足，本发明提供的一种单目红外热成像视觉机械手抓取物体姿态估计装置及方法，解决了烟雾、燃爆环境下工作的特种机器人不能实时估计抓取物体姿态、自动抓取物体的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种单目红外热成像视觉机械手抓取物体姿态估计装置，所述装置搭载于烟雾、燃爆环境下工作的特种机器人所负载的机械手上，所述装置包括：

单目红外热成像摄像头，用于在烟雾、燃爆环境中成像，采集红外热成像视觉图像；

激光测距模块，搭载于单目红外热成像摄像头底端并配准其测距点和红外图像中心点相重合，用于对抓取物体进行测距；

边缘计算平台，用于根据红外成像视觉图像以及测距结果，对抓取的物体进行检测定位、姿态估计以及提取坐标参数，并进行机械手运动路径规划；

嵌入式微控制器，用于根据运动规划路径产生控制信号，控制机械手抓取物体。

本发明还提供了一种单目红外热成像视觉机械手抓取物体姿态估计装置的估计方法，所述装置搭载于烟雾、燃爆环境下工作的特种机器人所负载的机械手上，所述估计方法包括以下步骤：

S1、利用单目红外热成像摄像头在烟雾、燃爆环境中成像，采集红外热成像视觉图像；

S2、根据红外成像视觉图像，利用边缘计算平台对抓取的物体进行检测定位、姿态估计以及提取坐标参数；

S3、利用搭载于单目红外热成像摄像头底端并配准其测距点和红外图像中心点相重合的激光测距模块，对抓取物体进行测距，根据提取的坐标参数与获取的距离，进行机械手运动规划；

S4、根据运动规划路径产生控制信号，利用嵌入式微控制器控制机械手抓取物体。

本发明的有益效果：

(1)本发明中单目红外热成像摄像头可以在烟雾、燃爆环境下获取红外热成像图像，其成像质量受光照，烟雾，粉尘影响小，适宜于该环境下工作的特种机器人作业；激光测距模块用于测量抓取目标的距离；边缘计算平台上运行本发明所设计的抓取物体姿态估计方法；嵌入式微控制器产生机械手的控制信号。同时，本发明提出了一种基于红外显著目标检测+抓取物体确定+坐标映射与平移的算法流程用于红外视觉传感器所获取的红外热成像图像中所需抓取物体的姿态估计与抓取参数提取，其中，设计了轻量级高精度红外显著性目标检测网络-红外能量分布注意力红外显著目标检测网络Infrared energydistribution attention infrared saliency object detection net(IEDA-DetectionNet)用于检测与分割红外热成像图像中的显著性目标，再根据检测与分割的结果确定所需抓取的目标，之后根据目标在图像中的坐标系进行映射与平移参数，距离参数的提取，最终完成准确的抓取物体姿态估计与实时物体抓取。烟雾、燃爆环境下工作的特种机器人所搭载的机器手使用该装置与方法能够高效完成抓取物体的姿态估计与自动抓取，对抢险救灾、消防、排爆、安防等技术领域具有重大应用价值。

(2)本发明设计了一种搭载单目红外热成像摄像头、激光测距模块、边缘计算平台与嵌入式微控制器的单目红外热成像视觉机械手抓取物体姿态估计与抓取控制装置，以满足烟雾，燃爆环境下工作的特种机器人自动物体抓取需求。

(3)本发明设计了一种由红外显著性目标检测+抓取目标选定+目标抓取坐标映射与目标距离获取组成的核心算法框架，以替代计算复杂度高的目标定位与姿态估计框架，实现算法框架在边缘计算平台上的部署以及物体的实时性自动抓取。

(4)本发明设计了一种轻量级红外显著性目标检测网络，其中采用发明的红外能量分布增强注意力模块以提升网络所提取红外特征的边缘、对比度信息，并使用发明的全尺度连接方式将优化后的各个尺度的红外特征输入解码器中各个特征复用融合模块进行融合，以增强各个尺度上提取红外特征的表征能力，最终达到高效准确地检测与分割红外显著性目标。

(5)本发明设计了一种快速高效的目标抓取坐标映射与目标距离获取方式，以对抓取物体的姿态估计参数进行提取，控制机械手实时性抓取物体。

附图说明

图1为本发明的装置构成示意图。

图2为本发明中装置的工作流程图。

图3为本发明中红外显著性目标检测流程图。

图4为本发明中红外能量分布注意力红外显著目标检测网络框架图。

图5为本发明中红外能量分布增强注意力单元工作原理示意图。

图6为本发明中特征复用融合单元EFFM结构示意图。

图7为本发明中机械手选取抓取目标流程图。

图8为本发明中物体抓取点获取流程图。

图9为本发明中单目红外热成像视觉机械手物体姿态估计与抓取流程图。

图10为本发明的算法在设备上的部署与实施方案示意图。

图11为本发明中测试样例示意图。

图12为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，本发明提供了一种单目红外热成像视觉机械手抓取物体姿态估计装置，所述装置搭载于烟雾、燃爆环境下工作的特种机器人所负载的机械手上，所述装置包括：

本实施例中，本发明所设计的装置搭载于烟雾，燃爆环境下工作的特种机器人所负载的机械手上，辅助机械手完成自动抓取物体的姿态估计与抓取控制。装置组成如图1所示，装置的主体部分由单目红外热成像摄像头、激光测距模块、边缘计算平台以及嵌入式微控制器构成。整个装置搭载于特种机器人机械手上，其中，单目红外热成像摄像头用于在烟雾、燃爆环境中成像，提供红外热成像视觉图像。激光测距模块搭载于单目红外热成像摄像头底端并配准其测距点和红外图像中心点相重合，以便后期快速高效的对抓取物体进行测距。边缘计算平台用于部署抓取物体检测定位+姿态估计+坐标参数提取的算法框架，并进行机械手运动路径规划。嵌入式微控制器根据边缘计算平台提供的运动规划路径产生控制信号，控制机械手自动抓取物体。

本实施例中，整个装置的工作流程与每个功能模块所处的位置如图2所示。首先由机械手所搭载的单目红外热成像摄像头采集红外热成像图像；在边缘计算平台进行图像处理，其中，第一步进行手眼标定以确定单目红外热成像摄像头与机械手夹持器的位置坐标关系；第二步进行红外显著性目标检测对机械手所面对的可抓取红外显著性目标进行检测、定位与分割；第三步选定当前的抓取目标；第四步获取该目标对应红外摄像头的坐标关系，包括平面位置坐标、极坐标和距离；最后一步根据获取的坐标参数和距离进行机械手抓取目标的运动规划；嵌入式微控制器根据边缘计算平台提供的运动规划信息产生控制信号以控制机械手完成最终的物体自动抓取。

本实施例中，所述边缘计算平台包括：

标定子模块，用于对单目红外热成像摄像头与机械手进行手眼标定，确定单目红外热成像摄像头与机械手夹持器的位置坐标关系；

目标检测子模块，用于基于位置坐标关系，利用红外能量分布注意力红外显著检测网络对机械手所面对的可抓取红外显著性目标进行检测、定位与分割，得到若干个红外显著性目标检测结果；

选定目标子模块，用于基于若干个红外显著性目标检测结果，选定当前的抓取目标；

坐标提取子模块，用于根据选定的当前抓取目标进行物体姿态估计，获取抓取目标对单目红外摄像头的坐标关系；

运动规划子模块，用于根据获取的坐标关系与测距结果进行机械手抓取目标的运动规划。

本实施例中，本发明的核心创新算法流程在于边缘计算平台中的红外显著性目标检测、选定抓取目标、红外显著性目标抓取坐标映射与目标距离获取三个环节，如图3所示。其中，红外显著性目标检测目的在于对红外热成像视觉成像中的显著性目标进行定位、检测与分割，确定机械手在烟雾、燃爆环境下可能抓取目标的数量、位置以及形态分割。根据检测到的多个显著性红外目标进行进一步的选取，确定当前需要抓取的目标。核心算法最后一步在于对选定的抓取目标进行坐标提取与映射以及距离值的获取，以确定机械手与抓取目标位置坐标，各个关节转动角度以及抓取目标距离值。该核心算法流程简化了普遍使用的机械手自动物体抓取过程中目标定位、6D姿态估计、抓取点坐标映射的复杂过程，特别是根据红外热成像图像中物体温度所表现出的红外显著性信息，直接采用红外显著性目标检测方法完成了抓取目标的检测、定位与分割，并根据分割结果进行高效简洁的目标姿态估计，从而避免了使用计算量消耗大的6D姿态估计方法，使算法框架轻量化，易于部署在边缘计算平台。

本实施例中，所述红外能量分布注意力红外显著检测网络包括编码器和解码器；编码器逐个阶段提取红外显著性目标特征，由所提取的多尺度特征确定红外显著性目标所在位置，类别，以及其分割边缘；解码器根据其输入，逐级上采样并融合多尺度特征恢复特征图分辨率，最终获得完整的红外显著性目标检测，定位与分割结果。

所述编码器分为第一特征提取阶段、第二特征提取阶段、第三特征提取阶段和第四特征提取阶段4个特征提取阶段，并利用特征图下采样机制，提取4个不同尺度与感受野的红外特征图，在每个特征提取阶段的编码器与解码器中插入红外能量分布增强注意力单元，增强提取的红外特征，得到红外能量分布注意增强特征图，并通过全尺度聚合构架输入解码器的增强红外特征图进行多尺度复用；

所述解码器采用第一特征复用融合单元、第二特征复用融合单元、第三特征复用融合单元以及第四特征复用融合单元4个特征复用融合单元融合多尺度增强红外特征图，并通过逐级上采样机制恢复特征图分辨率，得到若干个红外显著性目标检测结果；

所述融合多尺度增强红外特征的表达式如下：

其中，Ffi'表示解码器中第i'阶段的多尺度融合特征图，i'∈[1..4]，Fused(·)表示解码器中融合模块的融合操作，Fei'、Fej Fer分别表示第i'、r和j阶段的红外能量分布注意力增强特征图，i',r,j∈[1..4]，Sj(·)表示第j阶段的上采样操作，Dr(·)表示第r阶段的下采样操作。

本实施例中，本发明核心算法流程中，采用红外显著性目标检测方法进行抓取物体的检测、定位与分割。不同于现行的机械手物体自动抓取方案中使用目标检测+分割的方式，显著性目标检测可以根据物体显著性特征(空间域、频域等)，快速有效地提取场景中有用的区域(目标区域等)进行进一步分析，包括检测具有显著性的物体并分割该物体准确区域。针对红外热成像视觉，抓取物体的显著性通常能够有效地由温差特征表现出来，并且由一个框架完成红外显著性物体的检测、定位与分割，可以进一步优化算法流程。本发明针对烟雾、燃爆环境下红外热成像视觉中红外显著性目标检测提出了一种轻量级，高精度的红外显著性目标检测网络，将其命名为红外能量分布注意力红外显著目标检测网络Infraredenergy distribution attention infrared saliency object detection net(IEDA-Detection Net)。该网络的特点在于轻量化，实时性高，易于部署在边缘计算平台，同时对细节不清晰，边缘模糊，环境温差对比度低情况下的红外显著性目标提高了检测与分割精度。在该网络中设计了红外能量分布增强注意力单元Infrared energy distributionenhancement attention module(IEDEAM)以提升提取红外特征中的细节、边缘、对比度等关键信息的表征能力，设计了全尺度特征聚合构架Full-scale feature aggregationarchitecture(FSFAA)充分融合与复用优化后的多尺度红外特征，并提出了一种简单高效的特征复用融合模块Efficient feature fusion module(EFFM)以自适应地融合多尺度特征。

本实施例中，本发明的红外能量分布注意力红外显著目标检测网络(IEDA-Detection Net)整体构架如图4所示。本发明的IEDA-Detection Net总体由编码器和解码器结构成，其中，编码器分为4个特征提取阶段，中间采用特征图下采样机制，从而提取4个不同尺度与感受野的红外特征图，在每个特征提取阶段的编码器与解码器中插入所发明的红外能量分布增强注意力单元以优化增强提取的红外特征，之后通过全尺度特聚合构架将输入解码器的增强红外特征进行多尺度复用。在解码器端，采用4个特征复用融合模块以融合多尺度增强红外特征，同时通过逐级上采样机制逐渐恢复特征图分辨率，最终获得红外显著性目标检测结果。

本实施例中，所述第一特征提取阶段包括两个卷积核为3、步长分别为2和1的第一残差块和第二残差块，所述第二残差块带有压缩激发注意力单元；

所述第二特征提取阶段包括1个卷积核尺寸为3、步长为1的第三残差块以及1个卷积核尺寸为5、步长为2的第四残差块，所述第四残差块带有压缩激发注意力单元；

所述第三特征提取阶段包括2个卷积核尺寸为3、步长为1的第五残差块，以及1个卷积核尺寸为5、步长为2的第六残差块构成，所述第五残差块和第六残差块均带有压缩激发注意力单元；

所述第四特征提取阶段包括5个卷积核尺寸为3、步长为1的第七残差块，以及1个核尺寸为5、步长为2的第八残差块，所述第七残差块和第八残差块均带有压缩激发注意力单元。

本实施例中，本发明的IEDA-Detection Net中编码器采用轻量级特征提取主干网络MobileNetV3-Large的针对红外显著性目标检测任务的剪裁版，在满足网络结构轻量化的同时，有效地提取多尺度红外图像特征。输入红外热成像视觉图像原始分辨率为384X288，特征初始化阶段采用1个卷积核尺寸为3，步长为2的卷积层，输出16个通道的特征图。下采样后特征图大小为192X144，进入第一特征提取阶段，该阶段由2个卷积核尺寸为3、步长为分别为2和1的第一残差块和第二残差块构成，其中第二残差块带有压缩激发注意力模块Squeeze and Excitation module(SEM)，输出24个通道的特征图。提取特征图下采样到大小为96X72后进入第二特征提取阶段，该阶段由1个卷积核尺寸为3，步长为1的第三残差块和1个卷积核尺寸为5，步长为2的第四残差块构成，其中第四残差块带有压缩激发注意力模块(SEM)，输出40通道的特征图。特征图下采样到大小为24X18后进入第三特征提取阶段，该阶段由2个卷积核尺寸为3，步长为1的第五残差块和1个卷积核尺寸为5，步长为2的第六残差块构成，其中第五与第六残差块带有压缩激发注意力模块(SEM)，输出80通道的特征图。特征图下采样到大小为12X9后进入第四特征提取阶段，该阶段由5个卷积核尺寸3，步长为1的第七残差块和1个核尺寸为5，步长为2的第八残差块构成，第七和第八残差块均带有压缩激发注意力模块(SEM)，输出112通道的特征图。值得注意的是，为满足红外显著性目标检测需求以及简化网络结构，MobileNetV3-Large 4个特征提取阶段之后的卷积层与池化层均被裁剪。

本实施例中，所述红外能量分布增强注意力单元包括：

小波变换特征能量分布系数计算子单元，用于通过对提取的红外特征图进行小波变换，分别得到红外特征图的低频分量特征图、水平高频分量特征图、垂直高频分量特征图以及对角线高频分量特征图，并根据所述低频分量特征图、水平高频分量特征图、垂直高频分量特征图以及对角线高频分量特征图，计算得到红外能量分布系数；

所述低频分量特征图、水平高频分量特征图、垂直高频分量特征图以及对角线高频分量特征图的表达式分别如下：

FLi＝dwt2_L(Fi)

FHi＝dwt2_H(Fi)

FVi＝dwt2_V(Fi)

FDi＝dwt2_D(Fi)

其中，FLi表示第i个通道特征图的小波变换低频分量，dwt2_L表示以Haar算子为小波基的2D小波变换提取低频分量操作，Fi表示第i个通道的特征图，FHi表示第i个通道特征图的小波变换水平高频分量，dwt2_H表示以Haar算子为小波基的2D小波变换提取水平高频分量操作，FVi表示第i个通道特征图的小波变换垂直高频分量，dwt2_V表示以Haar算子为小波基的2D小波变换提取垂直高频分量操作，FDi表示第i个通道特征图的小波变换对角线高频分量，dwt2_D表示以Haar算子为小波基的2D小波变换提取对角线高频分量操作；

所述红外能量分布系数的表达式如下：

其中，W表示小波变换分量上特征图能量总和，Norm(·)表示归一化操作，N表示特征通道数目，Sum(·)表示像素求和，WL、WH、WV和WD分别表示低频、水平、垂直与对角线分量的红外能量分布系数；

红外特征图增强重建子单元，用于根据红外能量分布系数进行红外特征图增强重建，得到红外能量分布注意增强特征图：

Fe＝RelU(FdwR+Fc)

Fc＝1×1Conv(ReLU(1×1Conv(F)))

其中，Fe表示红外能量分布注意增强特征图，RelU表示ReLU激活函数，FdwR表示小波重构红外特征图，Fc表示经过卷积层与激活函数处理的原始红外特征图，FL、FH、FV和FD分别表示低频、水平、垂直与对角线分量的小波变换红外特征图，1×1Conv表示卷积核尺寸为1、步长为1的卷积层，Idwt2表示以Haar算子为小波基的2D小波逆变换。

本实施例中，本发明的IEDA-Detection Net在编码器与解码器每个特征提取阶段中插入了发明的红外能量分布增强注意力单元Infrared energy distributionenhancement attention module(IEDEAM)。由于在烟雾，燃爆环境下采集的红外热成像视觉图像普遍存在细节不清晰、边缘模糊、温度对比度低的情况，因此，提出的红外能量分布增强注意力单元目的在于从红外能量分布的角度增强所提取的红外特征的细节、边缘、对比度等信息。本发明提出的红外能量分布增强注意力单元工作原理如图5所示。该红外能量分布增强注意力单元的工作流程分为两个阶段，阶段一：小波变换特征能量分布系数计算阶段，阶段二：红外特征图能量分布注意力增强重建阶段。

本实施例中，第一阶段小波变换特征能量分布系数计算目的在于通过对提取的红外特征图进行小波变换，得到红外特征图的低频分量特征图、水平高频分量特征图、垂直高频分量特征图与对角线高频分量特征图。其中，低频分量特征图反映了红外特征图中温差对比度信息、水平、垂直与对角线方向上的高频分量特征图分别反映了各个方向上红外特征的细节、边缘等信息。

本实施例中，在提取到4个分量的小波特征图之后进行红外能量分布系数计算，以确定各个分量上信息对红外特征的贡献度，从而确定当前红外特征中所包含的主要信息包含在哪个分量上，为后续的增强重阶段建奠定基础。即，低频、水平、垂直与对角线分量的红外能量分布系数决定了增强重建过程中各个小波分量特征信息对红外特征增强的贡献度。

本实施例中，第二阶段红外特征图能量分布注意力增强重建目的在于根据阶段一求得的红外能量分布系数进行红外特征图增强重建。4个分量上的小波变换红外特征图经过1个卷积核尺寸为1、步长为1的卷积层以及ReLU激活函数后，再经过1个卷积核尺寸为1、步长为1的卷积层，之后分别乘以各个分量上的能量分布系数进行特征图的重构，此时获得的小波重建红外特征图能够根据红外能量分布突出红外能量集中的信息。最后，将原始红外特征图经过1个卷积核尺寸为1、步长为1的卷积层以及ReLU激活函数后再经过1个卷积核尺寸为1、步长为1的卷积层的结果与小波重建红外特征图相加之后通过一个ReLU激活函数，获得红外能量分布注意力增强特征图，优化增强后的红外特征图能够增强红外特征中温度对比度、细节纹理、显著性物体边缘等信息。值得注意的是，每个阶段对应的红外能量分布增强注意力单元获得的优化增强特征图通道数量与该特征提取阶段通道数量一致。

本实施例中，每个阶段的红外能量分布注意力增强特征图输入至解码器端进行特征图分辨率的逐级恢复并获取最终的红外显著目标检测与分割的结果。在解码器部分，能够充分融合与复用多尺度多感受野的增强红外特征将对最终的检测与分割精度提升起到很大作用。因此，本发明在IEDA-Detection Net中设计了一种全尺度特征聚合构架Full-scale feature aggregation architecture(FSFAA)以在解码器输入部分充分融合与复用优化后的多尺度红外特征，全尺度特征聚合构架的特点在于将每个阶段的红外能量分布注意力增强特征图进行上/下采样使其每个通道的特征图大小依次对应于其每个特征提取阶段，之后在解码器中设计多个特征融合复用单元对不同阶段的红外能量分布注意力增强特征图进行融合与复用，从而在解码环节获得融合了多尺度多感受野的融合红外特征，增强了特征的表征能力。值得注意的是对于不同尺度的红外能量分布注意力增强特征图，上/下采样操作仅改变了其特征图大小，而没有改变其特征图通道数量。

本实施例中，各所述特征复用融合单元的结构相同，均包括输入端、分别与输入端连接的拼接路径和累加路径、分别与拼接路径和累加路径连接的ReLU激活函数层以及与所述ReLU激活函数层连接的输出端；

所述输入端，用于接收4个尺度的红外能量分布注意力增强特征；

所述拼接路径，用于将输出的融合特征图通道数量对应于编码器在该阶段提取的特征通道，并将获取的拼接路径融合特征表征为全局语义特征，所述拼接路径包括拼接层、2个卷积核尺寸为3、步长为1的卷积层、2个批归一化层以及1个ReLU激活函数；

所述累加路径，用于调整特征图通道至该阶段编码器提取红外特征的通道数目，将输出的融合特征图通道数量对应于编码器在该阶段提取的特征通道，并利用获取累加路径的融合特征表征局部细节特征；

所述ReLU激活函数层，用于将拼接路径融合特征与累加路径融合特征相加，得到自适应融合特征：

Ff＝ReLU(Fcat+Facc)

Fcat＝BN(3×3Conv(ReLU(BN(3×3Conv(Fin(n)))))

其中，Ff表示自适应融合特征，ReLU(·)表示ReLU激活函数，Fcat表示拼接路径获取的融合特征，Facc表示累加路径获取的融合特征，BN(·)表示批归一化操作，3×3Conv表示卷积核尺寸为3，步长为1的卷积操作，Fin(n)表示输入的n个尺度的红外能量分布注意力增强特征，n＝4；

所述输出层，用于基于自适应融合特征，输出融合多尺度增强红外特征图。

本实施例中，本发明的IEDA-Detection Net中的解码器部分，为了自适应地融合复用多尺度红外能量分布注意力增强特征，在解码器端设计了4个高效特征复用融合单元Efficient feature fusion module(EFFM)用于融合复用多尺度特征，并且逐级进行上采样操作，最终通过一个卷积核尺寸大小为3、步长为1的卷积层以及Softmax分类器获得红外显著目标检测分割结果。所设计的高效特征复用融合单元结构如图6所示。特征复用融合单元输入为4个尺度的红外能量分布注意力增强特征，内部分为两个路径，分别为拼接路径与累加路径，最后对两个路径的特征融合结果相加之后通过一个ReLU激活函数以获取自适应特征融合复用结果。

本实施例中，各特征复用融合单元中的拼接路径包括拼接层、2个卷积核尺寸为3、步长为1的卷积层、2个批归一化层以及1个ReLU激活函数，输出的融合特征图通道数量对应于编码器在该阶段提取的特征通道，该路径获取的融合特征能够较好表征全局语义特征。

本实施例中，各特征复用融合单元中的累加路径主要包括拼接层、5个卷积核尺寸为3、步长为1的卷积层以及1个批归一化层，其中位于输入位置的4个并行的卷积层用于调整特征图通道至该阶段编码器提取红外特征的通道数目，而最终输出的融合特征图通道数量对应于编码器在该阶段提取的特征通道，该路径获取的融合特征能够较好表征局部细节特征。

本实施例中，最终的自适应融合特征由拼接路径融合特征与累加路径融合特征相加之后通过一个ReLU激活函数获取。

本实施例中，所述选定目标子模块包括：

第一判断单元，用于基于若干个红外显著性目标检测结果，判断若为手动指定抓取目标，则利用手动选定当前的抓取目标；

第二判断单元，用于基于若干个红外显著性目标检测结果，判断若为自动选择抓取目标，则对分割出的显著性区域进行测量，并选定区域温度最高的目标进行抓取；

第三判断单元，用于判断抓取目标前方是否存在遮挡物，若是，则抓取遮挡物放至旁边，并选定当前的抓取目标，否则，直接选定当前的抓取目标。

本实施例中，得到红外显著性目标检测与分割结果后，可能定位分割出多个红外显著性目标，因此，需要确定当前需要抓取的单个目标。本发明为确定机械手当前抓取目标提出了一套流程，如图7所示。如流程图所示，由采集的红外热成像视觉图像中获取了红外显著性目标检测结果，在存在多个红外显著性目标的情况下进入抓取目标选定流程。首先根据是否手动指定了抓取目标，如果手动指定，即抓取指定的目标，如果自动选取抓取目标，即进行分割出的显著性区域测温，选定区域温度最高的目标进行抓取，接下来需要判断需要抓取目标前方是否存在遮挡物，如果存在，需要先行抓取遮挡物放至旁边，使其不遮挡需要抓取的目标，如果不存在，即抓取选定的目标。

本实施例中，所述坐标提取子模块包括：

抓取目标形心确定单元，用于根据选定的当前抓取目标，确定该抓取目标形心，并以该抓取目标形心为中心点做水平与垂直方向上相交的垂线；

抓取点确定单元，用于旋转所述垂线，并计算水平方向垂线到分割边缘的距离，选取其中最小距离的两个边缘点为物体抓取点，得到抓取目标对红外摄像头的坐标关系；

所述物体抓取点的表达式如下：

Dxmin＝Min(Dx(θ))θ∈(0,360)

Gl(x,y)＝(xl,yl)Dx＝Dxmin

Gr(x,y)＝(xr,yr)Dx＝Dxmin

其中，Dxmin表示水平垂线上抓取目标形心到水平方向两个边缘点的最小距离，Min(·)表示最小值操作，Dx(θ)表示以θ角进行旋转每次水平垂线上抓取目标形心到水平方向两个边缘点的距离，Gl(x,y)和Gr(x,y)分别表示抓取目标的左边抓取点与右边抓取点，(xl,yl)和(xr,yr)分别表示抓取目标的左边抓取点坐标与右边抓取点坐标，Dx表示水平垂线上形心到水平方向两个边缘点的距离，当抓取目标以θ角进行旋转的过程中，左右抓取点(Gl(x,y),Gr(x,y))之间水平垂线上形心到水平方向两个边缘点的距离Dx达到Dxmin情况下的左抓取点坐标(xl,yl)和右抓取点坐标(xr,yr)即确定为抓取目标的两个抓取点坐标。

本实施例中，在确定当前抓取目标之后，进入又一本发明关键步骤，即根据选定抓取物体的红外显著性目标检测结果进行物体姿态估计，以确定需要抓取的物体的位置和方向。为了避免网络结构复杂，计算量消耗大的6D姿态估计方法，本发明提出了一种根据红外显著性目标检测与分割结果直接进行红外图像中抓取物体姿态估计的方法。该方法首先根据需抓取物体的红外显著性目标检测与分割结果确定其方向与姿态，获取该物体的抓取点。抓取点的获取需要根据抓取物体相对红外热成像摄像头的摆放方向与物体自身的姿态、形态信息，而红外显著性目标分割所提供的抓取物体边缘、形心信息能够反映物体的姿态与形态，从而确定抓取点。物体抓取点获取流程如图8所示，采集的红外热成像视觉图像进行红外显著性目标检测之后获得了检测与分割的结果，然后选定当前需抓取目标，确定该目标形心，以该目标形心为中心点做水平与垂直方向上相交的垂线，之后旋转该垂线并计算水平方向垂线到分割边缘的距离，选取其中最小距离的两个边缘点为物体抓取点。其中，抓取目标形心为其分割形态的几何中心点，以形心为中心做水平与垂直方向上相交的垂线是为了估计抓取物体相对红外热成像摄像头的摆放姿态，将这两条垂线以形心为中心并以θ角进行旋转，以0.5度为步进，历遍0到360度，保存每次水平垂线上形心到水平方向两个边缘点的距离，该距离达到最小时，即确定了抓取物体的姿态，和在该物体姿态与物体形态下的最佳抓取点。

本实施例中，所述坐标提取子模块包括：

平面转动角度参数获取单元，用于根据选定的当前抓取目标，以单目红外热成像摄像头图像中心点(x0,y0)建立平面坐标，并计算平面坐标中心点与抓取物体形心坐标(xs,ys)的差值，得到平面转动角度参数：

Xt＝x0-xs

Yt＝y0-ys

其中，Xt为负数表示抓取物体位置相对红外热成像摄像头中心点偏右，机械手需向右平移Xt绝对值个像素，Xt为正数表示抓取物体位置相对红外热成像摄像头中心点偏左，机械手需向左平移Xt绝对值个像素，Yt为负数表示抓取物体位置相对红外热成像摄像头中心点偏上，机械手需向上平移Yt绝对值个像素，Yt为正数，表示抓取物体位置相对红外热成像摄像头中心点偏下，机械手需向下平移Yt绝对值个像素；

第一对齐单元，用于基于平面转动角度参数，将抓取物体形心坐标与红外摄像头图像中心坐标重合，使机械手的平面位置与抓取物体对齐；

极坐标转动角度参数计算单元，用于基于机械手的平面位置与抓取物体对齐，以单目红外热成像摄像头图像中心(θ,R)建立第一极坐标，并以抓取物体形心与抓取点建立第二极坐标(θs,Rs)，并计算第一极坐标和第二极坐标角度差值，得到极坐标转动角度参数θt：

θt＝θ0-θs

其中，θt为负数表示机械手夹持器需要逆时针转动θt的绝对值度，θt为正数表示机械手夹持器需要顺时针转动θt的绝对值度，θ0第一极坐标当前角度，θs表示第二极坐标当前角度。

第二对齐单元，用于基于极坐标转动角度参数θt，将机械手夹持器抓取角度与抓取物体抓取点对齐，完成抓取目标对红外摄像头坐标关系的获取。

本实施例中，确定抓取目标抓取点之后，进行抓取目标的位置，姿态坐标提取，为机械手红外热成像视觉下自动抓取物体提供运动路径规划参数，完成单目红外热成像视觉机械手的自动物体姿态估计与抓取工作。整个流程如图9所示，对采集的红外热成像视觉图像中检测出的需抓取的红外显著性目标并确定抓取点之后，以单目红外热成像摄像头图像中心点(x0,y0)建立平面坐标,并计算该平面坐标中心点与抓取物体形心坐标(xs,ys)的差值,以获取平面转动角度参数(Xt,Yt)。基于平面转动角度参数(Xt,Yt)，机械手完成平面坐标移动后抓取物体形心坐标与红外摄像头图像中心坐标重合，即完成了机械手的平面位置与抓取物体对齐。

本实施例中，机械手的平面位置与抓取物体对齐之后，以单目红外热成像摄像头图像中心点(θ,R)建立极坐标,并以抓取物体形心与抓取点建立极坐标(θs,Rs)，计算上述极坐标的角度差值以获取极坐标转动角度参数θt。基于极坐标转动角度参数θt机械手夹持器完成极坐标移动后，完成了机械手夹持器抓取角度与抓取物体抓取点的对齐。此时，使用激光测距模块获取的当前抓取物体测距值Dt，值得注意的是，激光测距模块在前阶段的校准过程中测距点已经和红外热成像摄像头中心点重合。最终，完成单目红外热成像视觉下的自动物体姿态估计与抓取。

本实施例中，本发明算法在装置上的部署与实施方案如图10所示。本发明提出的IEDA-Detection Net在服务器端进行训练与测试，获取最优模型，在训练环节，制作了特种机器人在烟雾、燃爆环境下红外热成像视觉抓取显著性物体数据集Infrared saliencyobject detection dataset in the smoke and explosion environment(S&E-IRDataset)，该数据集包括12660张在烟雾，燃爆环境下采集的红外热成像图像，以及对应的标签，图像分辨率为384X288，包括金属杯、工具、塑料瓶、金属瓶在内的20余种红外显著性目标。训练集，验证集与测试集的划分为7:2:1。模型训练过程中为了增广数据集以提升模型泛化性，采用了随机剪裁、水平翻转、亮度改变，加入高斯噪声4种数据集增广方式。模型训练使用显著性目标检测复合损失函数，由分类损失、中心损失以及分割损失构成，其中，分类损失指导模型正确地对红外显著性目标进行分类，中心损失引导模型确定每个红外显著性目标的中心位置，分割损失监督模型正确地对检测到的红外显著性目标进行边缘分割。模型训练使用的复合损失函数如下式：

Lt＝αLcls+βLcenter+ηLseg

其中，Lt、Lcls、Lcenter和Lseg分别表示复合损失、分类损失、中心损失以及分割损失，α，β，η为平衡分类损失、中心损失以及分割损失三个损失项的超参数，本发明中取值分别为0.6、0.15和0.25，Souti为第i个类别对应的正确类别Softmax函数输入,C为类别总数，Soutj为第j个类别对应的正确类别Softmax函数输入，N为特征层阶数，fj为第j阶特征向量，Center为该目标的中心位置点，M为M个样本，K为K个分割标签，yij为第i个样本的真实标签j，pij为第i个样本预测为第j个标签的概率。训练过程中使用随机梯度下降优化器Stochastic gradient descent optimisation(SGD),动量设置为0.9，权重衰减率设置为0.0005，初始学习率设置为0.01，并采用指数衰减方案随训练批次增加逐渐减小学习率，训练批次设置为120个批次。经过训练获得的IEDA-Detection网络模型，加载至边缘计算平台并在测试集上进行测试，取得如表1所示测试结果，表1为IEDA-Detection网络模型在边缘计算平台上测试结果，由在边缘计算平台上的测试结果可见，IEDA-Detection网络模型达到88.6％的平均像素精度，78.5％的平均交并比，并且参数量仅为5.6M，每秒浮点运算次数要求652M，帧率可达26.5fps。因此，所提出的IEDA-Detection网络具有检测分割精度高，轻量化，实时性的特点，适宜于部署在边缘计算平台进行红外显著性目标检测。

表1

获的服务器端训练好的IEDA-Detection网络模型之后，将其加载于本地装置(边缘计算平台)对红外热成像摄像头采集的红外热成像视频图像进行红外显著性目标检测、获取抓取目标、进行抓取目标的姿态与位置估计以获取抓取目标坐标映射参数和距离，最后发送控制信息至嵌入式处理器完成物体的自动抓取。

本实施例中，针对本发明提出的算法与装置进行了系统性的实验，将提出的算法部署于发明的装置上并负载在特种机器人机械臂上。在烟雾、燃爆环境中随机任意角度摆放1-12个大小不一，形状不规则的物体，距离30-60厘米进行自动抓取100次。测试结果如表2所示，表2为一发明算法与装置测试结果，由测试结果可见，本发明提出的算法与装置可以在较短平均抓取时间(2.69s)内达到93％的抓取物体姿态估计正确率与91％的自动抓取成功率，适宜于烟雾，燃爆现场工作的特种机器人进行单目红外热成像视觉抓取物体姿态估计与自动抓取。

表2

本实施例中，图11给出了一个本发明工作流程的完整测试样例，由该样例可见，该装置与算法能够在0.36s时刻完成红外热成像图像采集与红外显著性目标检测，在1.65s时刻完成获取抓取目标到坐标平移过程，在2.38s时刻成功完成机械手的抓取物体姿态估计与自动抓取，具有很高准确性与实时性。

本发明的有益效果是：

1、本发明提供了一种由单目红外热成像摄像头、激光测距模块、边缘计算平台、嵌入式处理器构成的特种机器人机械手自动抓取物体姿态估计装置。单目红外热成像摄像头能够在特种机器人工作的烟雾、燃爆环境下利用物体与环境温度差成像；激光测距模块可以辅助完成抓取目标距离测定；边缘计算平台部署所发明的算法流程；嵌入式处理器完成机械手运动控制，该装置具有轻量化，工作效率高的特点，适宜搭载于特种机器人平台。

2、根据红外热成像图像特点以及特种机器人自动抓取物体需求，提出了一套高效的单目红外热成像视觉抓取物体姿态估计核心算法流程，包括：红外显著性目标检测+抓取目标选定+目标抓取坐标映射与目标距离获取。不同于现存机械手自动抓取目标所包含的目标检测+目标分割+6D姿态估计算法流程，避免了复杂的算法框架与巨大的计算量，满足了边缘计算平台的部署需求与实时性工作需求。

3、本发明中算法关键环节在于红外显著性目标检测，本发明为红外显著性目标检测任务提出了轻量级红外显著性目标检测网络：红外能量分布注意力红外显著目标检测网络(IEDA-Detection Net)，该网络针对细节不清晰，边缘模糊，环境温差对比度低情况下的红外图像设计了红外能量分布增强注意力单元(IEDEAM)以提升提取红外特征中的细节、边缘、对比度等关键信息的表征能力，并设计了全尺度特征聚合构架(FSFAA)充分融合与复用优化后的多尺度红外特征，同时提出了一种简单高效的特征复用融合模块(EFFM)在解码器端自适应地融合多尺度特征。该网络参数量仅5.6M，每秒浮点运算次数要求仅652M，帧率可达26.5fps，平均像素精度达到88.6％，平均交并比达到78.5％，满足在边缘计算平台上高效精确地检测分割红外显著性目标的需求。

4、根据红外显著性目标的检测，定位，分割结果提出了一种实时性，高效的抓取物体抓取点选取，抓取物体姿态估计流程，从而获取了抓取物体的坐标映射和运动规划参数，并且避免了复杂的6D姿态估计方法，简化了抓取物体姿态估计流程，提高了系统的实时性。在测试环节，整个方法与装置达到了2.69s的平均抓取时间，93％的抓取物体姿态估计正确率，91％的自动抓取成功率。满足烟雾、燃爆现场工作的特种机器人进行单目红外热成像视觉抓取物体姿态估计与自动抓取的需求。

实施例2

如图12所示，本发明提供了一种单目红外热成像视觉机械手抓取物体姿态估计装置的估计方法，所述装置搭载于烟雾、燃爆环境下工作的特种机器人所负载的机械手上，所述估计方法包括以下步骤：

如图12所示实施例提供的估计方法可以执行上述方法实施例估计装置所示的技术方案，其实现原理与有益效果类似，此处不再赘述。

本领域技术人员应该很容易意识到，结合本发明所公开的实施例描述的各示意单元及算法步骤，本发明能够以硬件和/或硬件和计算机软件结合的形式来实现，某个功能以硬件还是计算机软件驱动的方式来执行，取决于技术方案的特定应用和设计约束条件，可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种单目红外热成像视觉机械手抓取物体姿态估计装置，其特征在于，所述装置搭载于烟雾、燃爆环境下工作的特种机器人所负载的机械手上，所述装置包括：

所述边缘计算平台包括：

所述红外能量分布注意力红外显著检测网络包括编码器和解码器；

所述融合多尺度增强红外特征的表达式如下：

其中，Ffi′表示解码器中第i′阶段的多尺度融合特征图，i′∈[1..4]，Fused(·)表示解码器中融合模块的融合操作，Fei′、Fej和Fer分别表示第i′、r和j阶段的红外能量分布注意力增强特征图，i′，r，j∈[1..4]，Sj(·)表示第j阶段的上采样操作，Dr(·)表示第r阶段的下采样操作；

所述选定目标子模块包括：

第三判断单元，用于判断抓取目标前方是否存在遮挡物，若是，则抓取遮挡物放至旁边，并选定当前的抓取目标，否则，直接选定当前的抓取目标；

所述坐标提取子模块包括：

所述物体抓取点的表达式如下：

Dxmin＝Min(Dx(θ))θ∈(0，360)

Gl(x，y)＝(xl，yl)Dx＝Dxmin

Gr(x，y)＝xr，yr)Dx＝Dxmin

其中，Dxmin表示水平垂线上抓取目标形心到水平方向两个边缘点的最小距离，Min(·)表示最小值操作，Dx(θ)表示以θ角进行旋转每次水平垂线上抓取目标形心到水平方向两个边缘点的距离，Gl(x，y)和Gr(x，y)分别表示抓取目标的左边抓取点与右边抓取点，(xl，yl)和xr，yr)分别表示抓取目标的左边抓取点坐标与右边抓取点坐标，Dx表示水平垂线上形心到水平方向两个边缘点的距离，当抓取目标以θ角进行旋转的过程中，左右抓取点(Gl(x，y)，Gr(x，y))之间水平垂线上形心到水平方向两个边缘点的距离Dx达到Dxmin情况下的左抓取点坐标(xl，yl)和右抓取点坐标(xr，yr)即确定为抓取目标的两个抓取点坐标；

运动规划子模块，用于根据获取的坐标关系与测距结果进行机械手抓取目标的运动规划；

所述坐标提取子模块包括：

平面转动角度参数获取单元，用于根据选定的当前抓取目标，以单目红外热成像摄像头图像中心点(x0，y0)建立平面坐标，并计算平面坐标中心点与抓取物体形心坐标(xs，ys)的差值，得到平面转动角度参数：

Xt＝x0-xs

Yt＝y0-ys

极坐标转动角度参数计算单元，用于基于机械手的平面位置与抓取物体对齐，以单目红外热成像摄像头图像中心(θ，R)建立第一极坐标，并以抓取物体形心与抓取点建立第二极坐标(θs，Rs)，并计算第一极坐标和第二极坐标角度差值，得到极坐标转动角度参数θt：

θt＝θ0-θs

其中，θt为负数表示机械手夹持器需要逆时针转动θt的绝对值度，θt为正数表示机械手夹持器需要顺时针转动θt的绝对值度，θ0第一极坐标当前角度，θs表示第二极坐标当前角度；

第二对齐单元，用于基于极坐标转动角度参数θt，将机械手夹持器抓取角度与抓取物体抓取点对齐，完成抓取目标对红外摄像头坐标关系的获取；

2.根据权利要求1所述的单目红外热成像视觉机械手抓取物体姿态估计装置，其特征在于，所述第一特征提取阶段包括两个卷积核为3、步长分别为2和1的第一残差块和第二残差块，所述第二残差块带有压缩激发注意力单元；

3.根据权利要求2所述的单目红外热成像视觉机械手抓取物体姿态估计装置，其特征在于，所述红外能量分布增强注意力单元包括：