CN116468793A

CN116468793A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN116468793A
Application number: CN202310397888.6A
Authority: CN
Inventors: 蒋刚; 郝兴安; 高嵩; 贾勇; 孙玥; 唐忠; 易诗; 姜杰; 彭悦; 王倩; 王铖; 程兴豪; 陈文源; 刘惠; 张鏊婷
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-21

Abstract

本申请提供一种图像处理方法、装置、电子设备及存储介质，本申请涉及图像处理领域，解决了对目标图像进行位姿估计的实时性和精度的问题。具体方案为：获取包括目标对象的RGB图像和红外图像；对RGB图像和红外图像进行融合，得到融合图像；对融合图像进行分割，得到目标对象；对目标对象进行分割，得到位姿估计结果。本申请实施例用于对包括目标对象的RGB图像和红外图像的处理过程。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理领域，具体而言，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着科技的迅速发展，机器人在生活、工业和军事等场景中都发挥着非常重要的作用。为了使机器人能够像人类一样工作，需要在许多方面都进行研究。具体的，在视觉方面的研究，机器人通过视觉感知才能识别物体然后完成后续任务。

其中，自主机器人将要涉及操纵的物体的平移和方向估计为6自由度，即6D姿态，物体的6D姿态估计能够为机器人提供物体相对于自身在空间坐标系下的位置。随着物体的6D姿态估计技术的不断提高，该技术的精度和运行速度都在提高，但如何兼顾高精度和实时估计的问题，仍亟待解决。

发明内容

本申请实施例的目的在于一种图像处理方法、装置、电子设备及存储介质，通过实时获取包括目标对象的RGB图像和红外图像，并对图像进行融合处理和分割处理，用以解决对目标对象进行位姿估计的精度问题。

第一方面，本申请实施例提供了一种图像处理方法，该方法包括：获取包括目标对象的RGB图像和红外图像；对RGB图像和红外图像进行融合，得到融合图像；对融合图像进行分割，得到目标对象；对目标对象进行位姿估计，得到位姿估计结果。

上述图像处理方法，通过实时获取目标对象的RGB图像和红外图像，先将RGB图像和红外图像进行融合，可以解决物体遮挡的问题，再对融合后的图像进行分割，可以实现目标对象与周围背景分离，最后对目标对象进行位姿估计，可以获得高精度的位姿估计结果。

结合第一方面，可选地，其中，获取包括目标对象的RGB图像和红外图像，包括：对可见光摄像头和红外摄像头进行空间同步和时间同步；基于可见光摄像头获取RGB图像，以及基于红外摄像头获取红外图像。

上述图像处理方法，通过对可见光摄像头和红外摄像头进行空间同步和时间同步，可以同时获取目标对象的RGB图像和红外图像。其中，RGB图像具有分辨率高和场景信息丰富的优点，红外图像具有检测、识别能力强和外界环境影响较小的优点，由此可以结合RGB图像和红外图像的互补性优势，提高位姿估计结果的精度。

结合第一方面，可选地，其中，对RGB图像和红外图像进行融合，得到融合图像包括：基于卷积神经网络对RGB图像进行特征提取，得到第一特征图像；基于卷积神经网络对红外图像进行特征提取，得到第二特征图像；对第一特征图像和第二特征图像进行融合，得到第三特征图像；基于卷积神经网络对第三特征图像进行特征提取，得到融合图像。

上述图像处理方法，通过对RGB图像和红外图像进行融合，得到融合图像。其中，融合图像结合了RGB图像和红外图像的互补性优势，融合图像具有目标明亮和背景丰富的特点。另外，融合图像可以解决物体遮挡的物体。

结合第一方面，可选地，其中，对融合图像进行分割，得到目标对象，包括：基于卷积神经网络对融合图像进行卷积，得到多个卷积结果；对多个卷积结果进行叠加，得到目标对象。

上述图像处理方法，通过对融合图像进行分割，可以将目标对象与周围背景分割，可以解决融合图像中重要关注的部分被次要信息干扰的问题。

结合第一方面，可选地，其中，多个卷积结果包括依次得到的第一层卷积结果、第二层卷积结果、第三层卷积结果和第四层卷积结果，对多个卷积结果进行叠加，得到目标对象，包括：对第四层卷积结果和第三层卷积结果进行叠加，得到第四特征图像；对第四特征图像和第二层卷积结果进行叠加，得到第五特征图像；对第五特征图像和第一层卷积结果进行叠加，得到第六特征图像；基于卷积神经网络对第六特征图像进行全连接，得到目标对象。

上述图像处理方法，通过将每个层的输出结果与每个特征层的上采样结果进行堆叠，可以提高图片分辨率。

结合第一方面，可选地，其中，对目标像素进行位姿估计，得到位姿估计结果，包括：获得目标对象的多个特征点，并对目标对象的多个特征点进行特征点提取，得到目标对象的多个特征点的信息，特征点的信息包括位置信息、方向信息和热辐射强度信息；基于特征点的信息，得到多个特征向量；计算多个特征向量的欧式距离并排序，得到特征点匹配结果；基于PNP位姿估计算法对特征点匹配结果进行位姿估计，得到位姿估计结果。

上述图像处理方法，通过融合图像的热辐射强度信息，可以基于目标对象热辐射强度密集稀疏程度结合得到特征点，提高位姿估计结果的精度。

结合第一方面，可选地，其中，基于特征点的信息，得到多个特征向量，包括：对特征点的信息进行编码，并基于平均池化操作对编码后的特征点的信息进行映射，得到特征向量。

第二方面，本申请实施例还提供了一种图像处理装置，包括获取模块，用于获取包括目标对象的红绿蓝RGB图像和红外图像；融合模块，用于对RGB图像和红外图像进行融合，得到融合图像；分割模块，用于对融合图像进行分割，得到目标对象；估计模块，用于对目标对象进行位姿估计，得到位姿估计结果。

上述实施例，提供的图像处理装置具有与上述第一方面，或第一方面的任意一种可选地实施方式所提供的一种图像处理方法相同的有益效果，此处不作赘述。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

上述实施例，提供的电子设备具有与上述第一方面，或第一方面的任意一种可选地实施方式所提供的一种图像处理方法相同的有益效果，此处不作赘述。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上面描述的方法。

上述实施例，提供的计算机可读存储介质具有与上述第一方面，或第一方面的任意一种可选地实施方式所提供的一种图像处理装置相同的有益效果，此处不作赘述。

综上所述，本申请提供一种图像处理方法、装置、电子设备及存储介质，能够同时满足高精度估计、实时运行速度快、克服复杂环境以及无视遮挡，该图像处理方法充分利用可见光摄像头和红外摄像头的有点，在复杂环境(例如烟雾、火宅、燃爆、恶劣天气和能见度低的环境)，依然讷讷够对目标对象进行估计，同时构建轻量级的网络架构，实时精准对目标对象进行位姿估计。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图；

图2为本申请实施例提供的图像处理方法的示意图；

图3为本申请实施例提供的可见光与红外图像融合网络的流程示意图；

图4为本申请实施例提供的增强型红外语义分割网络的流程示意图；

图5为本申请实施例提供的物体姿态预测网络的流程示意图；

图6为本申请实施例提供的图像处理方法的流程示意图；

图7为本申请实施例提供的图像处理装置的模块示意图；

图8为本申请实施例提供的电子设备的模块示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在本申请实施例的描述中，技术术语“第一”、“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

目前，为了解决物体的6D姿态估计技术的精度和实时估计的问题，在一现有技术中，可以利用红外图像的热辐射信息进行物体的6D姿态估计的研究。该位姿估计技术基于雷达点云数据和深度相机对物体进行位姿估计，但是该位姿估计技术中需要大量的计算，且达不到实施的效果，另外，在某些方面深度相机对存在遮挡的物体无法进行精确的位姿估计。

在另一现有技术中，可以利用单目相机对物体进行位姿估计，主要研究用于类级单目6D姿态估计并合度量形状检索的方法，以及一种通用的无模型6-Dof物体姿态估计器等。该方法是基于可见光图像进行姿态估计，计算量可以大幅减少，运行速度更快。但是由于可见光图像特征的局限性，面对特殊环境或有遮挡时无法进行位姿估计，从而无法实现高精度的估计。

由此，本申请实施例提供一种图像处理方法，该方法实时获取包括目标对象的RGB图像和红外图像，先将RGB图像和红外图像进行融合，解决物体遮挡的问题，再对融合后的图像进行分割，可以实现目标对象与周围背景分离，最后对目标对象进行位姿估计，可以获得高精度的位姿估计结果。

为便于对本实施例进行理解，首先对执行本申请实施例所公开的图像处理方法的电子设备进行详细介绍。

如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中，存储器111可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，简称EEPROM)等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是，但不限于，鼠标和键盘等。

上述的显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述图像处理方法的实现过程。

请参见图2示出的本申请实施例提供一种图像处理方法的流程图。该图像处理方法包括如下流程。

步骤S201：图像处理装置获取包括目标对象的红绿蓝RGB图像和红外图像。

示例性的，RGB图像和红外图像可以为同时间同地点获取的图像，其中，红外图像是通过测量目标对象向外辐射的热量而获得的，红外图像和灰度图像的数据格式相同，均属于单通道图像。另外，RGB图像也称为可见光图像，RGB图像为3通道图像，所以需要将RGB图像转换为单通道图像，以便于后续和红外图像进行融合。

其中，红外图像具有良好的目标检测和识别能力，可以避免外界环境的影响，例如烟雾、光照和雨天等环境。但红外图像也存在一些不足，例如像素分辨率低、对比度较差和背景纹理模糊等。相比于红外图像，RGB图像与人眼视觉特征一致，具有高的分辨率，可以反应丰富的场景信息，例如纹理信息和细节信息。但是RGB图像容易受到环境因素的影响，在受到环境因素干扰的情况下，RGB图像不能突出目标对象。

由此，本申请实施例中同时获取包括目标对象的RGB图像和红外图像，可以结合RGB图像和红外图像的互补性优势，从而得到目标明亮和背景丰富的图像。

步骤S202:图像处理装置对RGB图像和红外图像进行融合，得到融合图像。

示例性的，图像处理装置可以基于卷积神经网络对RGB图像和红外图像进行融合，融合图像结合了RGB图像和红外图像的互补性优势，融合图像具有目标明亮和背景丰富的特点。另外，融合图像可以解决物体遮挡的物体。

步骤203、图像处理装置对融合图像进行分割，得到目标对象。

示例性的，融合图像中包括目标图像和周围背景，周围背景会影响后续目标图像的位姿估计结果。由此，本申请实施例中可以基于卷积神经网络对融合图像进行分割，即对融合图像进行语义分割处理，将目标对象与周围背景分割，然后进一步提取目标对象的边缘像素点，达到目标对象与背景分割的效果。通过将融合图像中重点关注的对象与背景分割，可以解决融合图像中重要关注的部分被次要信息干扰的问题。

步骤204、图像处理装置对目标对象进行位姿估计，得到位姿估计结果。

示例性的，图像处理装置可以基于卷积神经网络对目标对象进行位姿估计，其中，位姿估计方法可以包括基于特征点的方法、基于直线和面的方法和基于深度学习的方法。具体的，基于特征点的方法中首先在图像中提取特征点，然后通过匹配相邻两帧图像的特征点，计算物体相对于相机的运动。基于直线和面的方法中首先提取物体表面上的直线和面信息，在图像中匹配相邻两帧的直线和面特征，从而计算土体相对于相机的运动。基于深度学习的方法中利用深度神经网络对图像进行端到端的学习，直接输出物体的三维姿态。

可选的，步骤201可以包括：图像处理装置对可见光摄像头和红外摄像头进行空间同步和时间同步，基于可见光摄像头获取RGB图像，以及基于红外摄像头获取红外图像。

示例性的，根据可见光摄像头和红外摄像头具体的相对安装位置以及初始定位，分别获取可见光摄像头和红外摄像头在场景下的位姿信息，该位姿信息包括可见光摄像头的坐标和红外摄像头的坐标。然后通过平移向量和旋转矩阵将可见光摄像头的坐标转换到红外摄像头坐标上，由此完成可见光摄像头和红外摄像头空间上的同步。

另外，同时触发可见光摄像头和红外摄像头，分别获取RGB图像和红外图像。通过将两个摄像头的相邻的时间戳匹配到相邻帧，由此完成可见光摄像头和红外摄像头空间上的同步。

由此，通过对可见光摄像头和红外摄像头进行空间同步和时间同步，可以保证两个摄像头的同时采集，以便后续对RGB图像和红外图像进行匹配。

示例性的，卷积神经网络(convolutional neural networks，CNN)，是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks，FNN)，是深度学习(deep learning)的代表算法之一。卷积神经网络可以包括输入层、多个卷积层以及池化层等。

其中，执行步骤S202的卷积神经网络也可以称为可见光与红外图像融合网络，如图3所示，该网络可以包括5个卷积层、4个最大池化层、2个SOCA自注意力模块、1个resnet残差网络、1个空洞卷积层、1个平均池化层和1个激活函数。

应用于图3所示的可见光与红外图像融合网络，步骤S202可以包括：

步骤S2021、图像处理装置基于卷积神经网络对RGB图像进行特征提取，得到第一特征图像。

其中，RGB图像的大小一般为512x512x2，经过5x5卷积层调整通道，可以生成512x512x16的特征图。然后经过3x3步长为2的最大池化层，进一步提取特征生成256x256x32的特征图。此时的RGB图像中部分插入了残差网络(residual network，Resnet)，可以避免随着网络加深后梯度消失的问题。然后特征图经过一个SOCA自注意力模块(attention module)，SOCA自注意力模块可以从众多信息中选择处对当前任务目标更关键的信息，输出一个大小为256x256x32的特征图，再经过5x5卷积层调整通道进一步提取特征，输出256x256x32的特征图，再经过3x3步长为2的最大池化层，输出256x256x64的特征图，也即第一特征图像。

步骤S2022、图像处理装置基于卷积神经网络对红外图像进行处理，得到第二特征图像。

示例性的，对应于步骤S2021中对RGB图像的处理，图像处理装置还基于卷积神经网络对红外图像进行处理。输入的红外图像先经过5x5卷积层调整通道，然后经过5x5步长为2的最大池化层，然后经过SOCA自注意力模块，再经过5x5卷积层调整通道，最后通过5x5步长为2的最大池化层，得到第二特征图像。

步骤S2023、图像处理装置将第一特征图像和第二特征图像进行融合，得到第三特征图像。

示例性的，将步骤S2021得到的第一特征图像和步骤S2022得到的第二特征图像进行融合，得到第三特征图像。

步骤S2024、图像处理装置基于卷积神经网络对第三特征图像进行特征提取，得到融合图像。

示例性的，将第三特征图像经过5x5卷积层调整通道，输出图像为256x256x128，然后经过一个3x3的空洞卷积，可以增加感受野和降低计算量，输出128x128x128的图像，接着再经过5x5平均池化抑制过拟合，输出128x128x256的图像，最后引入Tanh激活函数，使损失函数更快收敛，得到128x128x256的融合图像。

其中，本申请实施例中分别为内容预测与纹理预测进行关联度量，包括内容损失和纹理损失两部分。RGB图像和红外图像的内容损失L_content可以采用均方误差方式，内容损失的定义如下：

其中，n为卷积神经网络训练时一次性加载的数据集大小，即batchsize，标识卷积神经网络在第l层提取出来的融合图像特征表示，/>表示原始图像在第l层的特征表示。

另外，RGB图像和红外图像的纹理损失可以采用格雷矩阵计算，纹理损失的定义如下：

其中，表示第l层的通道数，/>表示第l层特征图的像素数，/>表示融合图像在第l层的特征表示的格雷矩阵，/>表示原始图像在第l层的特征表示的格雷矩阵。

由此，融合图像的总的损失函数为内容损失和纹理损失的线性加权和，即：

L_total＝αL_content+βL_surface

也可以是：

在该网络中通过增加SOCA注意力机制来提取图像更多的特征，可以更大程度的保留RGB图像或红外图像的细节信息，并能够使融合后的图像更加清晰。在增强了卷积神经网络鲁棒性的同时，给模型的优化指明方向而采用损失函数，可在深度卷积网络的迭代训练中完成RGB图像与红外图像的融合。

可选的，执行步骤S203的卷积神经网络也可以称为增强型红外语义分割网络(enhanced infrared semantic segmentation network，EISS-Net)，如图4所示，该网络可以包括上采样和下采样两个阶段，其中，上采样阶段包括3个卷积层、3个CBAM注意力模块和1个全连接层，下采样阶段可以包括4个卷积层、1个残差快和1个池化层。该网络的目的是对输入的图像进行语义分割处理，将目标对象与周围背景进行分割，然后进一步提取目标对象边缘像素点，达到目标对象与周围背景分割的效果。对增强型红外语义分割网络中引入了残差网络和混合注意力机制，其中，残差网络不增加另外的参数，比较容易改进，通过端到端的反向传播训练增加相应的深度以提高准确率，而由于深度增加造成的梯度消失问题由于其内部的跳跃连接机制得到了缓解，而注意力机制可以提高网络的敏锐度，合理使用视觉信息处理资源，然后集中关注重要且有用的信息部分。

应用于图4所示的增强型红外语义分割网络，步骤S203可以包括：

步骤S2031、图像处理装置基于卷积神经网络对融合图像进行卷积，得到多个卷积结果。

示例性的，图像处理装置对融合图像进行卷积得到多个卷积结果属于下采样过程。在增强型红外语义分割网络的下采样过程中，包括3个卷积层、1个残差块和1个池化层，其中，残差块包括两个3x3卷积层、一个1x1卷积层和一个Relu激活函数构成。融合图像在增强型红外语义分割网络的下采样过程中可以获得多个卷积结果。

步骤S2032、图像处理装置对多个卷积结果进行叠加，得到目标对象。

示例性的，图像处理装置对多个卷积结果进行叠加得到目标对象属于上采样过程，上采样过程旨在恢复融合图像的原有大小，为后续预测做准备。在上采样过程中，将下采样过程中多个层的输出结果与每个特征层的上采样结果进行堆叠，由此可以提高上采样过程中的图片分辨率。

可选的，多个卷积结果包括依次得到的第一层卷积结果、第二层卷积结果、第三层卷积结果和第四层卷积结果。

示例性的，在步骤S2024中得到的融合图像的大小为128x128x256，融合图像在经过一次大小为3x3、步长为2的卷积后，得到第一次卷积的结果64x64x128，然后再经过经过一次大小为3x3、步长为2的卷积后，得到第一层卷积结果F1(32x32x64)。将第一层卷积结果输入至残差块进行处理，得到结果16x16x32，结果16x16x32经过大小为3x3的卷积层后，得到第二层卷积结果F2(8x8x16)。第二层卷积结果再经过一次大小为3x3、步长为2的卷积层后，得到第三层卷积结果F3(4x4x8)。第三层卷积结果再经过大小为2x2、步长为2的池化层后，输出第四层卷积结果F4(2x2x8)。由此，完成下采样过程。

可选的，步骤S2032可以包括：

步骤S20321、对第四层卷积结果和第三层卷积结果进行叠加，得到第四特征图像。

示例性的，将第四层卷积结果采用双线性插值的方法进行上采样，输出4x4x8的特征图后，与第三层卷积结果进行叠加，输出大小为4x4x16的特征图，然后经过CBAM注意力模块和3x3卷积层调整通道，输出8x8x32的第四特征图像。

步骤S20322、图像处理装置对第四特征图像和第二层卷积结果进行叠加，得到第五特征图像。

示例性的，将第四特征图像和第二层卷积结果进行叠加，再经过CBAM注意力模块和3x3卷积层调整通道，得到的第五特征图像。

步骤S20323、图像处理装置对第五特征图像和第一层卷积结果进行叠加，得到第六特征图像。

示例性的，将第五特征图像和第一层卷积结果进行叠加，再经过CBAM注意力模块和3x3卷积层调整通道，得到32x32x128的第六特征图像。

步骤S20324、图像处理装置基于卷积神经网络对第六特征图像进行全连接，得到目标图像。

示例性的，图像处理装置经过全连接将第六特征图像展开成一维向量，并为分类器提供输入，通过softmax函数进行预测，输出32x32x128的目标对象。

其中，增强型红外语义分割网络的损失函数采用交叉熵的形式，用以表示真实值和预测值之间的距离，并用其进行反向传播，其计算方式为：其中，y表示类别的真实值，/>

表示预测值。

可选的，执行步骤S204的卷积神经网络也可以称为物体姿态预测网络，如图5所示，物体姿态预测网络的流程可以包括：(1)特征点选取；(2)特征提取；(3)特征点匹配；(4)减少误匹配；(5)PNP。其中，具体实现方式包括大小为3x3的卷积层、大小为2x2的池化层、全连接层和回归层。

可选的，步骤S204可以包括：

步骤S2041、图像处理装置获取目标对象的多个特征点，并对目标对象的多个特征点进行特征点提取，得到目标对象的多个特征点的信息，特征点的信息包括位置信息、方向信息和热辐射强度信息。

示例性的，图像处理装置获取增强型红外语义分割网络进行分割得到的目标对象，可以得到目标对象的多个特征点，例如300个特征点，依次对每个特征点进行位置和方向的提取。以某个图像特征点C_{i(i-1,…,300)}为例，i为大于1的整数，以特征点C_i为中心，构建一个半径为0.2的圆。然后比较圆内所有特征点位置处的特征矩阵T，其中，特征矩阵为特征矩阵T的特征值α和β表示x和y方向的梯度。圆内不同特征点的梯度可以为其中一个方向大和另外一个方向小。然后可以设置阈值A，阈值A可以用于筛选本申请实施例中感兴趣的特征点。在一个示例中，假设α>β，则满足α/β>A的点将被剔除。需要说明的是，特征矩阵的特征参数与特征点的个数无明显的函数关系。设定每帧图像提取的特征点的最低数量的阈值(例如200)，如果提取的特征点数量小于该阈值，则将阈值A以0.004的尺度递减，直到提取的特征点数量高于最低数量的阈值。

在得到感兴趣的多个特征点后，将多个特征点作为特征点信息提取结构的输入，以得到多个特征点的信息，其中，特征点的信息包括位置信息W_i、方向信息F_i和热辐射强度信息T_Pi，热辐射强度信息为融合图像特有的信息。特征点信息提取结构可以包括一个卷积层、一个2x2池化层、一个全连接层和一个回归层。其中，池化层通过降采样不断地减小输入数据的大小，以减少计算量。卷积层卷积核维度设置为1*3、步长为1，padding为0，并使用relu激活函数，另外使用全连接层可以提高整个特征点信息提取结果的鲁棒性。回归网络深度为3，输入层神经元个数为3，隐藏层神经元个数分别为5和3，输出层神经元个数为2，其中隐藏层之间采用relu函数。由此，通过特征点信息提取结构可以得到一个特征点的两个特征信息，分别为位置信息特征W_Pi、方向信息特征F_Pi。

步骤S2042、图像处理装置基于特征点的信息，得到多个特征向量。

示例性的，将W_Pi、F_Pi以及每个点的热辐射强度T_Pi相关联得到特征点C_i的特征信息抽象集合P_i，其中，基于特征信息抽象集合/>得到多个特征向量/>

步骤S2043、图像处理装置计算多个特征向量的欧式距离并排序，得到特征点匹配结果。

示例性的，在得到特征点对应的特征向量后，集中计算特征点之间的欧式距离，然后将所有的欧式距离进行排序，以获得两个特征点之间的相似程度。其中，将欧式距离最小的两个特征点作为匹配点进行匹配，描述距离度量为为目标图像t中特征点对应的特征向量，/>为目标图像t+1中特征点对应的特征向量。对选取的每个特征点计算匹配距离，将所有的匹配距离进行排序，选择距离最小或者满足阈值要求的特征点作为特征点匹配结果。

由于融合图像特征存在旋转和缩放等一些局部特性，导致特征点误匹配的情况广泛存在，进而出现许多不必要的特征匹配，影响匹配精度。为了减少特征点误匹配的出现，本申请实施例对匹配算法提出了改进，通过缩小特征点的匹配范围，减少特征点的误匹配。由于融合图像特有的热辐射强度信息，可以将图像轻易划分为目标对象以及周围背景。针对目标对象的热辐射强度密集稀疏程度结合上述得到的特征点，将整个待估计图像划分为大小不一的网格区域，保留热辐射强度较高特征点提取较密集的区域，并去除这些区域间的间隔区域，保留区域中的特征点个数最终为N<200,最后根据这些区域进行精准匹配，选取匹配区域特征点中距离最近的特征点作为匹配点。

步骤S2044、基于PNP位姿估计算法对特征点匹配结果进行位姿估计，得到位姿估计结果。

示例性的，由特征点C_i匹配结果像素坐标(X_i,Y_i)，目标对象在数据集中的平均长(l)和宽(w)对应特征向量得到一个目标对象的3D位姿预测框提议集合，该集合为

得到目标对象的3D位姿预测框体积集合先计算两个框的最小闭包区域面积(同时包含了预测框和真实框的最小框的面积)，再计算出3D交并比IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重(U就是并集)，最后用IoU减去该比重得到GIoU。计算预测框与真实框重合率最高，即GIoU最大的交并比记为GIoU_h，其中，其中，-1≤GIoU_h＜1，A^C是两个矩形的最小外接矩形的面积，由此可以得到物体预测位姿中心点坐标X_k和Y_k，其中，损失函数L_GIoU＝1-GIoU，且0＜L_GIoU≤2。

利用相机成像的相似三角形原理可以推测出目标对象在世界坐标系下的坐标，为由此采用PNP位姿估计算法：其中，P是世界坐标系中的点，P＇是与P相应的图像在像素坐标系的点，M₁是摄像头内部参数矩阵，M₂是摄像头外部参数矩阵。

由此可以得到世界坐标系到像素坐标系的投影矩阵，即目标对象的6D位姿信息得到了目标对象的位姿估计结果。/>

可选的，步骤S2042可以包括：图像处理装置对特征点的信息进行编码，并基于平均池化操作对编码后的特征点的信息进行映射，得到特征向量。

示例性的，在基于特征点特征信息抽象集合后，可以通过编码器对位置信息、方向信息和热辐射强度信息进行编码，其中，编码器可以使Resnet-18特征编码器。对特征点的信息进行编码后，使用平均池化操作将不同的特征点的信息都映射成对应的特征向量

由此，本申请实施例提供的图像处理方法的流程如图6所示，其中，RGB图像和红外图像进行时间和空间同步，通过图像融合网络(即可见光与红外图像融合网络)进行融合，得到融合图像，再通过增强型红外语义分割网络进行分割，得到目标对象，最后通过物体姿态预测网络进行位姿估计，得到目标对象的6D位姿。

请参见图6示出的本申请实施例提供的图像处理装置的结构示意图；本申请实施例提供了一种图像处理装置200，包括：获取模块210、融合模块220、分割模块230和估计模块240。

其中，获取模块210用于获取包括目标对象的红绿蓝RGB图像和红外图像。

融合模块220用于对RGB图像和红外图像进行融合，得到融合图像。

分割模块230用于对融合图像进行分割，得到目标对象。

估计模块240用于对目标对象进行位姿估计，得到位姿估计结果。

应理解的是，该装置与上述的图像处理方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图8示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器310执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质包括计算可读存储介质。该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取包括目标对象的红绿蓝RGB图像和红外图像；

对所述RGB图像和所述红外图像进行融合，得到融合图像；

对所述融合图像进行分割，得到所述目标对象；

对所述目标对象进行位姿估计，得到位姿估计结果。

2.根据权利要求1所述的方法，其特征在于，所述获取包括目标对象的RGB图像和红外图像，包括：

对可见光摄像头和红外摄像头进行空间同步和时间同步；

基于所述可见光摄像头获取所述RGB图像，以及基于所述红外摄像头获取所述红外图像。

3.根据权利要求1所述的方法，其特征在于，所述对所述RGB图像和所述红外图像进行融合，得到融合图像包括：

基于卷积神经网络对所述RGB图像进行特征提取，得到第一特征图像；

基于所述卷积神经网络对所述红外图像进行特征提取，得到第二特征图像；

对所述第一特征图像和所述第二特征图像进行融合，得到第三特征图像；

基于所述卷积神经网络对所述第三特征图像进行特征提取，得到所述融合图像。

4.根据权利要求1所述的方法，其特征在于，所述对所述融合图像进行分割，得到所述目标对象，包括：

基于卷积神经网络对所述融合图像进行卷积，得到多个卷积结果；

对所述多个卷积结果进行叠加，得到所述目标对象。

5.根据权利要求4所述的方法，其特征在于，所述多个卷积结果包括依次得到的第一层卷积结果、第二层卷积结果、第三层卷积结果和第四层卷积结果，所述对所述多个卷积结果进行叠加，得到所述目标对象，包括：

对所述第四层卷积结果和所述第三层卷积结果进行叠加，得到第四特征图像；

对所述第四特征图像和所述第二层卷积结果进行叠加，得到第五特征图像；

对所述第五特征图像和所述第一层卷积结果进行叠加，得到第六特征图像；

基于所述卷积神经网络对所述第六特征图像进行全连接，得到所述目标对象。

6.根据权利要求1所述的方法，其特征在于，所述对所述目标对象进行位姿估计，得到位姿估计结果，包括：

获得所述目标对象的多个特征点，并对所述目标对象的多个特征点进行特征点提取，得到所述目标对象的多个特征点的信息，所述特征点的信息包括位置信息、方向信息和热辐射强度信息；

基于所述特征点的信息，得到多个特征向量；

计算所述多个特征向量的欧式距离并排序，得到特征点匹配结果；

基于PNP位姿估计算法对所述特征点匹配结果进行位姿估计，得到位姿估计结果。

7.根据权利要求6所述的方法，其特征在于，所述基于所述特征点的信息，得到多个特征向量，包括：

对所述特征点的信息进行编码，并基于平均池化操作对编码后的特征点的信息进行映射，得到多个所述特征向量。

8.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取包括目标对象的红绿蓝RGB图像和红外图像；

融合模块，用于对所述RGB图像和所述红外图像进行融合，得到融合图像；

分割模块，用于对所述融合图像进行分割，得到所述目标对象；

估计模块，用于对所述目标对象进行位姿估计，得到位姿估计结果。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质包括计算机可读存储介质；所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的方法。