CN112750140A

CN112750140A - 基于信息挖掘的伪装目标图像分割方法

Info

Publication number: CN112750140A
Application number: CN202110078735.6A
Authority: CN
Inventors: 杨鑫; 梅海洋; 董文; 魏小鹏; 范登平
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-04
Anticipated expiration: 2041-01-21
Also published as: US20220230324A1; CN112750140B; US11816843B2

Abstract

本发明属于计算机视觉中的场景分割技术领域，一种基于信息挖掘的伪装目标图像分割方法。PFNet先后包含多层特征提取器、定位模块和聚焦模块，其中多层特征提取器使用传统的特征提取网络获取不同等级的上下文特征；定位模块首先使用RGB特征信息来初步确定图像中伪装目标的位置；聚焦模块则在图像RGB特征信息和初步位置信息的基础上，挖掘信息并去除干扰信息，一步步最终确定伪装目标的边界。本发明的方法将干扰信息的概念引入伪装目标分割问题，开发了一种新的信息探索和干扰信息去除策略，帮助伪装目标图像的分割。从结果上来看，PFNet分割结果十分优秀，并且伪装目标边界处的精细程度也令人满意。同时，该方法的适用性更广泛。

Description

基于信息挖掘的伪装目标图像分割方法

技术领域

本发明属于计算机视觉中的场景分割(SceneSegmentation)技术领域，实现结果为图像内容的分割，特别涉及一种真实环境图像中伪装目标的分割方法。

背景技术

二维图像分割是指把图像中属于不同物体的像素区分开，以此来确定环境图像中目标大小、形状和位置等信息的技术，是图像处理到图像分析的关键步骤，具有巨大的应用价值。近些年来，场景分割相关任务，如目标检测、深度估计、显著性区域检测和阴影检测等方法，都获得了显著的性能提升。

自然界中有相当多的生物进化出了高超的伪装本领，能将自己伪装以融入周围环境，这类生物在图像中的出现会在很大程度上影响场景的理解，进而影响各种计算机视觉任务和应用的准确性。目标的伪装能力使得图像中目标的区域呈现其周围场景的外观，并且大多数时候目标的伪装对人类的视觉系统来说都是一种挑战，场景的多样性、场景中伪装目标的多样性以及伪装目标本身形状的多样性决定了此类图像处理的难度，故而分割场景中的伪装目标是一个极具挑战的任务。由于目前还没有有效的方法能够区分图像中的伪装目标和图像背景，所以场景图像中伪装目标的存在会严重影响目前的计算机视觉系统。

与伪装目标分割相关的方法主要包括普通目标检测、显著性目标检测、特定区域分割和上下文特征学习等。

普通目标检测(Generic Object Detection)是根据几个预定义的常见目标类别，从自然图像中定位并分割目标，是计算机视觉领域中最基本和最具挑战性的问题之一。鉴于前面所述的伪装目标的特殊性，针对普通目标所设计的检测方法无法在伪装目标分割任务上获得理想结果。

显著性目标检测(SalientObjectDetection,SOD)旨在识别图像中视觉上最显著的目标对象，检测其位置、大小和形状，以此进一步帮助理解场景。传统SOD方法依赖人为设定的低级特征(例如颜色和对比度)，基于深度学习的SOD方法则采用自下而上和自上而下的显著性推断，结合局部像素的显著性估计以及全局目标的搜索，来进行显著性目标检测。很显然，所述“显著”与本发明要解决的伪装目标的特性相悖，显著性目标检测方法在此失效。

特定区域分割(Specific Region Segmentation,SRS)是指对场景中的特定区域进行分割，例如阴影、镜子、玻璃和水面等。该方法主要利用这类区域前景和背景之间的深度和内容的不连续性，然而对于伪装的目标来说，在这些方面的差异并不明显，而且伪装目标的结构通常更为复杂。因此，SRS方法并不能很好的解决伪装目标分割问题。

本发明基于对现有场景分割技术的调查与分析，受自然界中捕食者捕获猎物过程的启发，提出了基于信息挖掘的分割方法，确定并去除干扰信息，形成了分割场景中伪装目标的定位和聚焦网络(Positioning and FocusingNetwork)，即PFNet。我们观察到在自然界的捕食过程中，捕食者会首先从全局角度定位潜在猎物目标，然后聚焦潜在猎物，逐步完善观测和判断，最终确定猎物并实施抓捕，而对于识别或者分割来说主要的困难便是图像中的干扰信息，所以PFNet基于信息挖掘来完成图像中伪装目标的分割。PDNet的输入是包含伪装目标的RGB图像，输出是伪装目标的掩膜图像，掩膜图像中伪装目标区域的值为1，非伪装目标区域的值为0。实验证明，基于信息挖掘的本方法能够有效分割出不同场景下不同类型的伪装目标，帮助场景理解提升准确度。

发明内容

本发明的目的是对场景的RGB图像，创新性地使用信息挖掘的方式，实现伪装目标分割方法PFNet。PFNet先后包含多层特征提取器、定位模块(Positioning Module)和聚焦模块(FocusingModule)，其中多层特征提取器使用传统的特征提取网络获取不同等级的上下文特征；定位模块(Positioning Module)首先使用RGB特征信息来初步确定图像中伪装目标的位置；聚焦模块(FocusingModule)则在图像RGB特征信息和初步位置信息的基础上，挖掘信息并去除干扰信息，一步步最终确定伪装目标的边界。本发明所述方法适用于分割不同种类、位置和大小的伪装目标。

本发明的技术方案：

一种基于信息挖掘的伪装目标图像分割方法，步骤如下：

步骤1构建PFNet网络

伪装目标分割网络PFNet主要由多层特征提取器、一个定位模块(PositioningModule,PM)和三个聚焦模块(FocusingModule,FM)组成。

多层特征提取器主要基于传统的具有特征提取能力的网络ResNet-50实现，。其输入是包含有伪装目标的RGB图像，其提取到的多等级特征依次分等级送入一个定位模块和三个聚焦模块。

定位模块用来初步确定图像中潜在伪装目标的位置。它被设计成由一个通道注意力块和一个空间注意力块依次组成，两者均以non-local方式实现，来捕获通道和空间的long-range依赖关系，从全局角度增强最高级别特征的语义表示。对于给定的特征F∈R^C ^×H×W(C、H和W分表表示图像的通道数、高度和宽度)，我们首先重塑F获得Q(query)、K(key)和V(value)，其中{Q,K,V}∈R^C×N并且N＝H×W。之后我们对Q和K^T使用矩阵乘法，并用softmax层来计算通道注意力图X(X∈R^C×C)：

其中x_ij衡量j^th通道对i^th通道的影响。为了提高容错能力，我们给结果乘以可学习的缩放参数γ并进行表示映射，获得通道注意力块的输出F′(F′∈R^C×H×W)：

其中γ是初始化为1的逐步学习的权重参数。特征F′对特征图之间的long-rang语义依赖建模，比输入特征F更具判别力。之后我们将通道注意力块的输出送入空间注意力块。在空间注意力块里，首先使用三个1×1的卷积层处理F′并将结果分别重塑为新的Q′、K′和V′，其中

V′∈R^C×N。再将Q′^T乘以V′，使用softmax正则化生成空间注意力图X′(X′∈R^N×N):

其中x′_ij衡量j^th位置对i^th位置的影响。同时执行V′和X′^T的矩阵乘法，并将结果重塑为R^C×H×W。和上面通道注意力块相似，结果乘以可学习的缩放参数γ′并添加一个skip-connection生成空间注意块的输出F″(F″∈R^C×H×W)：

其中γ′同样被初始化为1。F″进一步获得所有位置之间的语义相关性，从而增强了特征的语义表示。在定位模块的最后，本方法使用步长为3的7×7的卷积确定潜在目标的初始位置。

聚焦模块用来获得对伪装目标更为准确的细节信息预测，消除伪装目标因与周围环境相似形成的干扰信息。在本方法的设计中，首先是干扰信息的发现部分，对较高级别的预测进行上采样，再使用sigmoid层进行归一化，使用归一化的结果图以及其反转的结果乘以当前级别的特征F_C，分别生成前景关注特征F_fa和背景关注特征F_ba。之后将两种类型的特征送入两个并行上下文探索块(ContextExploration,CE)中，分别获得假阳性干扰信息F_fpd和假阴性干扰信息F_fnd。其中CE块有四个上下文探索分支，每个分支使用3×3的卷积来缩减通道，k_i×k_i的卷积提取局部特征，扩张率为r_i的3×3扩张卷积来进行语境感知，设置k_i(i等于{1,2,3,4})为1,3,5,7，设置r_i(i等于{1,2,3,4})为1,2,4,8。第i个CE分支的输出送进第(i+1)个分支以获得在更大感受野中进行的处理。所有的四个分支的输出通过3×3卷积进行级联和融合。在发现干扰之后，使用如下方法去除干扰信息：

F_up＝U(CBR(F_h)),

F_r＝BR(F_up-αF_fpd),

F′_r＝BR(F_r+βF_fnd),

其中F_h和F_r′分别表示输入的高等级特征和微调后的输出特征；CBR表示卷积、批正则化和ReLU激活函数的结合；U是上采样；α,β是可学习的缩放参数。本方法在这里使用元素级减法运算抑制杂乱的背景信息(假阳性干扰)和元素级加法增强丢失的前景信息(假阴性干扰)。在聚焦模块的最后，通过对精细特征F_r′的卷积操作，可以获得更准确的预测结果。

步骤2训练过程

在训练时，首先将数据集的训练集数据送入网络的多层特征提取器，提取的结果先后分等级送入一个定位模块和三个聚焦模块；然后定位模块通过通道注意力块和空间注意力块对图像中的伪装目标进行初步定位，描绘模块反复挖掘伪装目标信息并去除环境干扰信息，最终获得精细的预测结果。为提升训练效果，定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督，对定位模块的输出使用二元交叉熵损失(l_bce)和IoU损失(l_iou)，即L_pm＝l_bce+l_iou；对聚焦模块来说，它处理的重点区域通常在目标的边界、细长的区域和孔洞处，本方法使用加权的二元交叉熵损失(l_wbce)和加权的IoU损失(l_wiou)，即L_fm＝l_wbce+l_wiou。整体的损失函数定义如下：

从而引导PFNet能够根据输入图像更好地预测最终的伪装目标分割结果。

本发明的有益结果：

(1)方法的创新

本发明将干扰(Distraction)信息的概念引入伪装目标分割问题，开发了一种新的信息探索和干扰信息去除策略，帮助伪装目标图像的分割。设计了一个新的伪装目标分割方法，定位和聚焦网络(PFNet)，方法首先通过探索long-range语义依赖关系来定位潜在的伪装目标，然后着重于干扰信息的发现和去除，以逐步完善分割结果，解决计算机视觉中伪装目标分割的问题。

(2)伪装目标分割的结果和效率

本发明作为首创在伪装目标分割中使用干扰信息挖掘的方法，克服了伪装目标分割的困难，帮助视觉系统区分伪装目标和背景内容，消除了伪装目标的干扰信息。本发明的方法依赖于对信息的感知，利用反复的干扰发现和去除来精确分割伪装目标，并用对比实验证明了PFNet伪装目标分割结果的准确性。对比实验中，PFNet在三个常用指标(S_α、

和

)上均获得了最佳性能，并且优势明显。从结果上来看，PFNet分割结果十分优秀，并且伪装目标边界处的精细程度也令人满意。

(3)适用性更广泛

本发明适用于多种类型的伪装目标的分割，PFNet在以下几种类型的图像上的性能优势明显：a)包含小体积伪装目标的图像；b)包含大体积伪装目标的图像；c)包含伪装目标区域内容与周围环境相似或边界不清晰的图像；d)包含被遮挡的伪装目标的图像。这证明了PFNet在不同场景下的有效性和实用性。

附图说明

图1为本发明PFNet的网络结构。

图2为本发明实施例的结果以及对比实验的结果展示，(a)为PFNet输出结果展示，(b)为对比试验结果展示。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

本实施例所使用的数据集有CHAMELEON(76张图像)、CAMO(1250张图像)和COD10K(5066张图像)，使用CAMO和COD10K的训练集划分，其余剩下的所有部分作为测试集。数据集中多种尺寸的图像在训练时会被统一缩放为416×416的尺寸，并且图像分割的输出结果会被重新调整为输入图像的原始大小。特征提取网络的参数由预训练的ResNet-50网络初始化，其他参数随机初始化。

PFNet中，伪装目标的图像通过多层特征提取器，其结果送入定位模块和聚焦模块。定位模块由通道注意力块和空间注意力块组成，捕获通道和空间位置方面的lang-range语义依赖性，以推断目标对象从全局来看的大致位置；聚焦模块基于前景注意力(背景注意力)功能执行多尺度上下文探索，以发现假阳性(假阴性)干扰信息，然后去除干扰信息以获得关于目标物体的更为纯净的分割。PFNet的实现基于PyTorch，使用了随机梯度下降优化器，其动量值为0.9，权重衰减为5×10^-4，学习率设置为0.001，批大小定为18，运行所在设备CPU为8核i7-9700K3.6GHz、64GB内存和GPU型号为NVIDIAGeForceRTX2080Ti。

图1是PFNet的网络结构展示。PFNet多层特征提取器、一个定位模块和三个聚焦模块组成。PDNet先对输入图像提取特征信息，定位模块预测伪装目标位置，聚焦模块确定其中的干扰信息并加以去除，生成伪装目标的掩膜图像作为最终伪装目标分割结果。

图2是本发明实施例结果以及对比实验结果的展示。图2(a)是本发明对网络输出结果的展示，最右侧一列是用作对比的人工标注掩膜图像；图2(b)是为了验证PFNet的有效性，与领域内的其他最新方法进行比较的结果展示。我们重新训练了领域内的其他用于分割的深度神经网络(SINet、MINet-R、F3Net、PraNEt和DSC)，并使用公开的可用代码在同样的数据集上训练和测试。

Claims

1.一种基于信息挖掘的伪装目标图像分割方法，其特征在于，步骤如下：

步骤1构建PFNet网络

伪装目标分割网络PFNet主要由多层特征提取器、一个定位模块和三个聚焦模块组成；

多层特征提取器基于具有特征提取能力的网络ResNet-50实现，其输入是包含有伪装目标的RGB图像，其提取到的多等级特征依次分等级送入一个定位模块和三个聚焦模块；

定位模块用来初步确定图像中潜在伪装目标的位置，主要由一个通道注意力块和一个空间注意力块依次组成，两者均以non-local方式实现，来捕获通道和空间的long-range依赖关系，从全局角度增强最高级别特征的语义表示；对于给定的特征F∈R^C×H×W，C、H和W分表表示图像的通道数、高度和宽度，首先重塑F获得Q、K和V，其中{Q，K，V}∈R^C×N并且N＝H×W；之后对Q和K^T使用矩阵乘法，并用softmax层来计算通道注意力图X，X∈R^C×C：

其中，x_ij衡量j^th通道对i^th通道的影响；为了提高容错能力，给结果乘以可学习的缩放参数γ并进行表示映射，获得通道注意力块的输出F′，F′∈R^C×H×W：

其中，γ是初始化为1的逐步学习的权重参数；特征F′对特征图之间的long-rang语义依赖建模，比输入特征F更具判别力；之后将通道注意力块的输出送入空间注意力块；在空间注意力块里，首先使用三个1×1的卷积层处理F′并将结果分别重塑为新的Q′、K′和V′，其中

V′∈R^C×N；再将Q′^T乘以V′，使用softmax正则化生成空间注意力图X′，X′∈R^N×N：

其中，x′_ij衡量j^th位置对i^th位置的影响；同时执行V′和X′^T的矩阵乘法，并将结果重塑为R^C×H×W；结果乘以可学习的缩放参数γ′并添加一个skip-connection生成空间注意块的输出F″，F″∈R^C×H×W：

其中，γ′同样被初始化为1；F″进一步获得所有位置之间的语义相关性，从而增强了特征的语义表示；在定位模块的最后，本方法使用步长为3的7×7的卷积确定潜在目标的初始位置；

聚焦模块用来获得对伪装目标更为准确的细节信息预测，消除伪装目标因与周围环境相似形成的干扰信息；在本方法的设计中，首先是干扰信息的发现部分，对较高级别的预测进行上采样，再使用sigmoid层进行归一化，使用归一化的结果图以及其反转的结果乘以当前级别的特征F_C，分别生成前景关注特征F_fa和背景关注特征F_ba；之后将两种类型的特征送入两个并行上下文探索块CE中，分别获得假阳性干扰信息F_fpd和假阴性干扰信息F_fnd；其中CE块有四个上下文探索分支，每个分支使用3×3的卷积来缩减通道，k_i×k_i的卷积提取局部特征，扩张率为r_i的3×3扩张卷积来进行语境感知，设置k_i为1，3，5，7，设置r_i为1，2，4，8，i等于{1，2，3，4}；第i个CE分支的输出送进第(i+1)个分支以获得在更大感受野中进行的处理；所有的四个分支的输出通过3×3卷积进行级联和融合；在发现干扰之后，使用如下方法去除干扰信息：

F_up＝U(CBR(F_h))，

F_r＝BR(F_up-αF_fpd)，

F′_r＝BR(F_r+βF_fnd)，

其中，F_h和F_r′分别表示输入的高等级特征和微调后的输出特征；CBR表示卷积、批正则化和ReLU激活函数的结合；U是上采样；α，β是可学习的缩放参数；本方法使用元素级减法运算抑制杂乱的背景信息和元素级加法增强丢失的前景信息；在聚焦模块的最后，通过对精细特征F_r′的卷积操作，获得更准确的预测结果；

步骤2训练过程

在训练时，首先将数据集的训练集数据送入网络的多层特征提取器，提取的结果先后分等级送入一个定位模块和三个聚焦模块；然后定位模块通过通道注意力块和空间注意力块对图像中的伪装目标进行初步定位，描绘模块反复挖掘伪装目标信息并去除环境干扰信息，最终获得精细的预测结果；为提升训练效果，定位模块和描绘模块在训练过程中的预测结果均受到训练集中对应的人工标注的掩膜图像的监督，对定位模块的输出使用二元交叉熵损失l_bce和IoU损失l_iou，即L_pm＝l_bce+l_iou；聚焦模块处理目标的边界、细长的区域和孔洞处，本方法使用加权的二元交叉熵损失l_wbce和加权的IoU损失l_wiou，即L_fm＝l_wbce+l_wiou；整体的损失函数定义如下：