CN112115864B

CN112115864B - 红外图像及深度图像双模态目标分割方法及装置

Info

Publication number: CN112115864B
Application number: CN202010987023.1A
Authority: CN
Inventors: 刘博�; 张孟希; 周付根
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-05-17
Anticipated expiration: 2040-09-18
Also published as: CN112115864A

Abstract

本发明公开了一种红外图像及深度图像双模态目标分割方法及装置，方法包括：将红外图像及深度图像分别送入卷积神经网络，红外图像经过第i个卷积层后生成红外特征图序列R_i，深度图像经过第i个卷积层后生成深度特征图序列D_i；将D_i经过若干次卷积与线性修正后，与R_i相加得到T_i，将T_i经过池化操作或线性插值后得到分辨率相同的融合特征图序列F_i；将D_i经过池化和卷积后进行softmax处理得到深度引导向量V_F。相比于现有技术，本发明技术方案将深度图像进行HHA编码，更利于卷积神经网络特征的学习；将红外特征图序列和深度特征图序列进行逐级融合，并提出了采用分层累加多尺度特征融合方式，促进了目标特征提取，从而提升了目标分割的效能。

Description

红外图像及深度图像双模态目标分割方法及装置

技术领域

本发明涉及目标检测技术领域，特别是涉及一种红外图像及深度图像双模态目标分割方法。

背景技术

在现有技术中，图像中的目标分割通常基于颜色、形状和纹理的特征进行分割，相应的分割方法包括大津阈值分割、水域分割、背景减除法等。随着深度学习技术的快速发展，使用深度学习方法进行目标分割已成为图像分割领域的主流算法。相比于传统手工提取特征，卷积神经网络利用自身多层网络结构学习更高级复杂的特征，可实现更为精确的分割结果。

可见光图像在弱光照下无法清晰成像，使得红外图像成为进行全天候目标检测的手段。红外图像信噪比低、亮度分布不均匀，因此利用红外图像分割出的目标可能会存在明显的问题，比如人体部位不连贯、人体边缘不清晰等。深度图像可提供场景外的几何特征，将深度信息融入红外图像的目标分割，可以缓解单纯利用红外图像分割所产生的问题。

鉴于此，本发明提出一种红外图像及深度图像双模态目标分割方法，融合红外图像及深度图像两种模态的特征进行目标分割，以缓解现有技术的不足。

发明内容

第一方面，本发明提供了一种红外图像及深度图像双模态目标分割方法，包括：将红外图像及深度图像分别送入卷积神经网络，卷积神经网络包含5个卷积层，红外图像经过第i个卷积层后生成红外特征图序列R_i,深度图像经过第i个卷积层后生成深度特征图序列D_i，其中i＝1…5；将D_i经过若干次卷积与线性修正后，与R_i相加得到T_i，将T_i经过池化操作或线性插值后得到分辨率相同的融合特征图序列F_i；将D_i经过池化和卷积后进行softmax处理得到深度引导向量V_F；将F_i进行像素级相加得到融合特征图F_fuse；将V_F作为DMSW模块的引导向量，将F_fuse送入DMSW模块与RAM模块，再经softmax处理生成目标分割结果。

进一步地，将深度图像送入卷积神经网络前，还包括：对深度图像进行HHA编码，形成编码后的深度图像。

可选地，将F_i进行像素级相加得到融合特征图F_fuse的步骤，还包括：计算F₁₂、F₂₂、F₃₂及F₄₂，其中

计算F₁₃、F₂₃及F₃₃，其中

计算F₁₄及F₂₄，

F_fuse＝F₁₄+F₂₄。

第二方面，本发明提供了一种红外图像及深度图像双模态目标分割装置，包括：卷积神经网络，将红外图像及深度图像分别送入卷积神经网络，卷积神经网络包含5个卷积层，红外图像经过第i个卷积层后生成红外特征图序列R_i,深度图像经过第i个卷积层后生成深度特征图序列D_i，其中i＝1…5；中间级融合模块，将D_i经过若干次卷积与线性修正后，与R_i相加得到T_i，将T_i经过池化操作或线性插值后得到分辨率相同的融合特征图序列F_i；引导模块，将D_i经过池化和卷积后进行softmax处理得到深度引导向量V_F；后端融合模块，将F_i进行像素级相加得到融合特征图F_fuse；分割模块，将V_F作为DMSW模块的引导向量，将F_fuse送入DMSW模块与RAM模块，再经softmax处理生成目标分割结果。

进一步地，还包括HHA编码模块，将深度图像送入卷积神经网络前，对深度图像进行HHA编码，形成编码后的深度图像。

可选地，后端融合模块中计算融合特征图F_fuse的步骤，还包括：计算F₁₂、F₂₂、F₃₂及F₄₂，其中

计算F₁₃、F₂₃及F₃₃，其中

计算F₁₄及F₂₄，

F_fuse＝F₁₄+F₂₄。

本发明的有益效果如下：

本发明提供的技术方案可以包括以下有益效果：提出了一种红外图像及深度图像双模态目标分割方法，将红外图像及深度图像分别送入卷积神经网络，提取图像特征，利用DMSW模块与RAM模块进行目标分割。将深度图像进行HHA编码，更利于卷积神经网络特征的学习；将红外特征图序列和深度特征图序列进行逐级融合，并提出了采用分层累加多尺度特征融合方式，促进了目标特征提取，从而提升了目标分割的效能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一种实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例一种红外图像及深度图像双模态目标分割方法流程示意图；

图2为本发明第二实施例一种红外图像及深度图像双模态目标分割装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

实施例一：

图1是本发明第一实施例一种红外图像及深度图像双模态目标分割方法流程示意图，如图1所示，该方法包括如下四个步骤。

步骤S101：对深度图像进行HHA编码。

需要进行说明的是，深度图像的分辨率远不及可见光图像，成像质量也并不高，存在区域信息缺失。将深度图像送入卷积神经网络前进行HHA编码，可以丰富深度图像的信息。

具体地，深度图像编码HHA首先由深度图像和相机内参矩阵得到深度点云数据，其后计算每个像素点对应空间三维点的法向方向以及偏移量，再由两个阈值45°和15°分别做五次迭代，根据阈值找到“平行边”与“垂直边”的集合，然后最优化中立方向函数，计算旋转矩阵并配准，最后构造HHA数据。第一块H代表水平差异，是三维点的Z轴上的数据；第二块的H代表了三维点相对于地面的高度，是三维点Y轴上的数据；第三块的A，则代表了像素局部表面和推断重力方向之间的倾角。HHA这种对额外信息进行单独编码的方式可以有效提高深度图像使用的效果。

步骤S102：提取红外图像和深度图像的特征。具体地，将红外图像及深度图像分别送入卷积神经网络，卷积神经网络包含5个卷积层，红外图像经过第i个卷积层后生成红外特征图序列R_i，深度图像经过第i个卷积层后生成深度特征图序列D_i，其中i＝1…5；将D_i经过若干次卷积与线性修正后，与R_i相加得到T_i，将T_i经过池化操作或线性插值后得到分辨率相同的融合特征图序列F_i。

在一个具体的实施例中，深度图像与原始红外图像分别送入卷积神经网络，在送入前统一裁剪成256*256大小，通过五个卷积层提取图像特征。由于每个卷积层的卷积核数量不同，通过第i个卷积层后的通道数也不相同。R_i和D_i通过卷积层后的维度分别是：256*256*64、128*128*128、64*64*256、32*32*512、16*16*512，其中前两个维度代表图像大小，最后一个维度代表通道数。深度特征图序列D_i经过若干次卷积与线性修正，与R_i相加得到T_i。可选地，将D_i通过两次3*3卷积及一次线性修正。需要进行说明的是，线性修正在现有技术中为使用深度学习的Relu层进行数据处理，属于本领域技术人员公知常识范畴。将T_i经过池化操作或线性插值后得到分辨率均为64*64的图像序列F_i。具体地，前两个卷积层输出的特征图(维度为：256*256*64、128*128*128)通过池化操作降低分辨率，最后两个卷积层输出特征图(维度为：32*32*512、16*16*512)通过线性插值操作提高分辨率。需要进行说明的是，池化过程是一个降采样的过程。

步骤S103：分层累加进行特征融合。具体地，将F_i进行像素级相加得到融合特征图F_fuse的步骤包括：计算F₁₂、F₂₂、F₃₂及F₄₂，其中

计算F₁₃、F₂₃及F₃₃，其中

计算F₁₄及F₂₄，

F_fuse＝F₁₄+F₂₄。

需要进行说明的是，分层累加不同尺度下的融合特征更多交互，有助于多尺度下的特征兼容，直接累加F_i得到融合特征图F_fuse则达不到上述技术效果。

步骤S104：送入DMSW模块与RAM模块进行目标分割。具体地，将D_i经过池化和卷积后进行softmax处理得到深度引导向量V_F；将V_F作为DMSW模块的引导向量，将F_fuse送入DMSW模块与RAM模块，再经softmax处理生成目标分割结果。

需要进行说明的是，softmax在深度学习中有广泛的应用，softmax将多分类的输出数值转化为相对概率。DMSW的全称为Depth-induced Multi-Scale Weighting Module，在深度引导向量VF的引导下获取多尺度特征图。RAM模块的全称为Recurrent AttentionModule，RAM可以搜索以前记忆来协助当下的决策，它迭代地学习不同语义之间的时空依赖关系，并通过面向内存的场景理解逐步优化分割细节，这一模块有效提升了目标分割边缘清晰性。最后，经softmax处理生成最终目标分割结果。

实施例二：

图2为本发明第二实施例一种红外图像及深度图像双模态目标分割装置结构示意图，如图2所示，该装置包括：

HHA编码模块，将深度图像送入卷积神经网络前，对深度图像进行HHA编码，形成编码后的深度图像。

卷积神经网络，将红外图像及深度图像分别送入卷积神经网络，卷积神经网络包含5个卷积层，红外图像经过第i个卷积层后生成红外特征图序列R_i,深度图像经过第i个卷积层后生成深度特征图序列D_i，其中i＝1…5；

中间级融合模块，将D_i经过若干次卷积与线性修正后，与R_i相加得到T_i，将T_i经过池化操作或线性插值后得到分辨率相同的融合特征图序列F_i；

引导模块，将D_i经过池化和卷积后进行softmax处理得到深度引导向量V_F；

后端融合模块，将F_i进行像素级相加得到融合特征图F_fuse；

分割模块，将V_F作为DMSW模块的引导向量，将F_fuse送入DMSW模块与RAM模块，再经softmax处理生成目标分割结果。分割模块中包含DMSW模块与RAM模块。

需要进行说明的是，红外图像及深度图像通过不同的输入端进入卷积神经网络。

在一个可选的实施例中，后端融合模块中计算融合特征图F_fuse的步骤，还包括：计算F₁₂、F₂₂、F₃₂及F₄₂，其中

计算F₁₃、F₂₃及F₃₃，其中

计算F₁₄及F₂₄，

F_fuse＝F₁₄+F₂₄。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。