CN116721112A

CN116721112A - 基于双分支解码器网络的水下伪装物体图像分割方法

Info

Publication number: CN116721112A
Application number: CN202311000476.0A
Authority: CN
Inventors: 檀盼龙; 柳逸文; 张晓宇; 杨诗博
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-08
Anticipated expiration: 2043-08-10
Also published as: CN116721112B

Abstract

本发明涉及计算机视觉技术领域，提供一种基于双分支解码器网络的水下伪装物体图像分割方法。该方法提出的解码器网络采用双分支结构，一支解码器使用通道注意力模块增强特征并接受边缘指导信息，另一支解码器使用空间注意力模块增强特征并接受全局指导信息，还在解码器每层之间提出信息交互模块，将两个分支的信息进行融合后输送到下一层解码器从而得到更好的信息融合效果，还提出选择性分支聚合模块中，其会自适应的学习如何在两个分支上权衡不同的注意力从而更好的对结果进行融合，最终产生双解码器注意力网络的预测图并接受真值图像的监督。本发明可以提高分割水下伪装目标时的准确性以及识别速度，提高水下目标识别任务的智能化水平。

Description

基于双分支解码器网络的水下伪装物体图像分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于双分支解码器网络的水下伪装物体图像分割方法。

背景技术

在计算机视觉领域中，图像的分割问题一直是学者们研究的热点，要求模型对图像中的目标进行像素级别的识别，即准确的判断出每个像素所属的类别，进而将整个图像划分成不同的区域。目前图像分割技术的研究主要可以分为三类，包括通用目标分割，显著目标分割和伪装目标分割。伪装目标分割技术要解决的问题是如何将伪装目标从背景中精确的分割出来。伪装目标的特点是其与周边环境在纹理、色彩、形状等方面具有高度的相似性，因此具有很大的挑战性，即使由人类观测者来执行，也同样难以很好的完成。同时，伪装目标分割技术又具有广泛的潜在应用前景，如医学影像中的息肉分割、农业中的蝗虫检测、搜索和救援工作、表面缺陷检测等等。

水下伪装目标分割技术即是在水下图像中进行伪装目标分割。我国拥有广阔的海洋面积和丰富的海洋资源，远洋深海战略意义重大。海洋生态的保护、资源的探测与开采、军事方面的海底环境探测与伪装水雷探测等均需要水下伪装目标分割技术的支持。但目前相关技术研究较少，水平距离实际应用仍有距离。通过深度学习进行水下伪装目标分割研究可以获得更高的识别成功率和抗干扰能力，相关研究技术有助于海洋资源利用和国防军工事业发展。

伪装物体检测的方法大致可以分为两类，即传统的伪装物体检测算法和基于深度学习的伪装物体检测算法。在早期的伪装物体检测研究中，主要采用手工设计的特征方法。

最近，许多基于卷积神经网络（CNN）的方法被提出来用于检测伪装物体，大大增强了这类物体的检测能力。伪装目标分割网络Anabranch Network（ANet）的特点在于同时有着分类网络和分割网络。其充分利用了分类流和分割流网络的优势，首先利用分类网络判断图像中是否存在伪装物体，如果不存在则不输出图像，如果存在再利用分割网络对伪装物体进行分割。而MirrorNet是一个受生物启发的网络，利用实例分割和对抗性攻击来分割伪装物体。该网络包括两个分割流，对抗流的输出与主流的结果相结合以提高分割的准确性。

引入深度学习之后，对伪装物体监测网络的性能虽然有所提升，但是总体上伪装物体粉各领域与通用物体分割领域准确率仍有较大差距，与一般的图像分割和突出物体分割任务相比，伪装物体与其背景表现出高度的相似性，导致经常出现错误分类的情况，即目标的一部分被错误地识别为背景，反之亦然。

发明内容

本发明旨在至少解决相关技术中存在的技术问题之一。为此，本发明提供一种基于双分支解码器网络的水下伪装物体图像分割方法。

本发明提供一种基于双分支解码器网络的水下伪装物体图像分割方法，包括：

S100：由现有数据集中获取伪装物体数据，组建伪装物体数据集和所述伪装物体数据集对应的标签集，通过深度学习框架训练所述伪装物体数据集和所述标签集；

S200：对深度学习框架引入边缘指导旁路，以获取所述深度学习框架的首层编码器输出结果为边缘指导信息；对深度学习框架引入全局指导旁路，以获取所述深度学习框架的末层编码器输出结果为全局指导信息；

S300：对于所述深度学习框架的每层神经网络均设置第一分支解码器和第二分支解码器，所述第一分支解码器接受所述边缘指导信息并通过通道注意力机制增强特征，所述第二分支解码器接受所述全局指导信息并通过空间注意力机制增强特征，获得双分支解码器网络；

S400：对于所述双分支解码器网络的每层神经网络均设置信息交互模块，通过所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息，获得双分支解码器聚合网络；

S500：筛选现有数据集中的水下伪装物体数据，组建水下伪装物体数据集，通过所述双分支解码器聚合网络训练所述水下伪装物体数据集并处理待分割图像获得分割结果。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，所述双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括：

S411：所述信息交互模块接收所述第一分支解码器的输出信息和所述第二分支解码器的输出信息，并在通道维度上进行连接，获得融合输出；

S412：将所述融合输出输入信息交互模块中的第一卷积层进行特征提取，获得融合特征；

S413：将所述融合输出输入信息交互模块中的第二卷积层和第三卷积层分别获得第一分支特征和第二分支特征；

S414：将所述第一分支特征和所述第二分支特征与所述融合特征进行跳跃连接，得到所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的融合结果。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，步骤S400中还包括：

对于所述双分支解码器网络设置选择性分支模块，所述选择性分支模块将所述第一分支解码器的输出信息和所述第二分支解码器的输出信息作为输入，通过选择性权重切换器自适应学习分配第一分支解码器和第二分支解码器的不同注意力。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，所述选择性分支模块的预测结果表示为：

其中，为选择性分支模块的预测结果，/>为卷积操作，/>为选择性权重切换器的输出结果，/>为第一分支解码器的输出信息，/>为第二分支解码器的输出信息，/>为第一分支解码器的输出信息经过卷积操作后的输出结果，/>为第二分支解码器的输出信息经过卷积操作后的输出结果，/>为元素乘法，/>为连接操作，/>为使用多滤波器的卷积层对第一分支解码器的输出信息经过卷积操作后的输出结果和第二分支解码器的输出信息经过卷积操作后的输出结果进行卷积操作后的输出结果。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，步骤S500中还包括：

通过混合损失函数对所述双分支解码器聚合网络处理待分割图像获得的分割结果与真实值的差距进行评估，所述混合损失函数包括二值交叉熵损失和交并比损失。

根据本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，所述混合损失函数表示为：

其中，为混合损失函数，/>为二值交叉熵损失，/>交并比损失，/>为所述分割结果中任一像素点的坐标表示，/>为标签作用于任一像素点的值，是分割结果即预测图判断所选像素点为伪装目标的概率，/>为分割结果图像对应的高度值，/>为分割结果图像对应的宽度值。

本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，提出了一种双解码器注意力网络，这一新颖的卷积神经网络结构，使用了非局部的注意力机制以定位伪装物体的全局位置，然后使用分别接受全局和边缘信息的双分支的解码器结构以及信息交互模块来确定伪装物体轮廓、细化分割结果，最终在选择性分支聚合模块得到伪装物体分割结果，通过本发明提出的网络模型，可以提高分割水下伪装目标时的准确性以及识别速度，从而提高水下目标识别任务的自动化、智能化水平。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于双分支解码器网络的水下伪装物体图像分割方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

在本发明实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1描述本发明的提供的实施例。

在一些实施例中，相比于图像分割的其他领域，目前COD领域数据集的数量相对较少，CAMO数据集包含1000张训练图片与250张测试图片，共1250张，包括两类伪装物体，即自然伪装物体和人工伪装物体。COD10K数据集共10000张图片，其中伪装图像5066张，分为10个超类78个子类，其被预先划分了训练集和测试集，训练集由六千张图片组成，测试集由四千张图片组成，其中伪装图像2026张，且提供了多种高质量的标注，最终的训练集由COD10K的训练集和CAMO的训练集的混合组成。

在一些实施例中，基于PyTorch深度学习框架进行训练，超参数的设置如下：训练epochs数量为80次、每次输入图像数量batch-size为8、初始学习率为0.0001、使用poly方式进行训练、学习率衰减为0.9、权重衰减设置为0.0005、输入图像分辨率为352×352、优化器选择随机梯度下降、动量为0.9，且使用了随机翻转的数据增强方法。

在一些实施例中，本发明提出的双解码器注意力网络（Dual-Decoder AttentionNetwork, DDANet）其中各组建的结构在下文中详细展示，网络框架由编码器网络和解码器网络两部分组成，编码器部分使用在ImageNet上进行过预训练ResNet-50作为骨干网络，负责提取输入图像中的特征；编码器网络共分五层，每一层都接受上一层输出的特征并做进一步的特征提取，同时将其结果输出到同层的解码器，也就是特征聚合模块中；同时双解码器注意力网络将ResNet-50的第一层修改为了更小分辨率，使得第一层输出的特征的分辨率从原本的176×176，变为了88×88，以减少边缘指导信息旁路的计算量。

进一步的，随着编码器网络层数的加深，网络会不可避免的丢失掉较先浅层网络所蕴含的物体边缘细节信息，从而容易发生边缘模糊现象造成结果变差，为了对这部分信息进行补充，双解码器注意力网络设计了边缘指导旁路，如图所示，将第一层编码器的结果在解码器的各个阶段作为补充信息输入。

进一步的，同样，对于伪装物体的全局信息双解码器注意力网络也设计了全局指导旁路，将最后一层编码器的结果在解码器的各个阶段作为补充信息输入，通过这样的设计，有效弥补了全局和边缘信息的丢失问题。

其中，双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。

进一步的，双解码器注意力网络引入了图像分割任务中两种常用的注意力机制，即空间注意力与通道注意力，从而提高网络的特征表达能力与对伪装物体的识别能力；简单的说，卷积神经网络中的注意力机制即是对提取到的特征赋予不同的权重，从而选择出对于任务更重要的通道和空间区域。但与经典的注意力模块如SE模块、CBAM模块不同，双解码器注意力网络中的空间注意力与通道注意力模块都是通过非局部方式实现的；非局部方式使用的是自注意力机制，因此具有更强的获得通道和空间位置方面的长范围的依赖关系的能力；相比于传统CNN网络多层卷积堆叠的方式，其通过查询的方式从全局角度建立了图像中每个像素或者区域之间的关联图，从而有效提升了CNN网络的感受野，另外双解码器注意力网络中空间注意力与通道注意力模块的作用是对从图像提取的最深层特征从全局角度进行语义增强，从而对潜在的伪装物体进行定位。

其中，步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括：

进一步的，在解码器每层之间设计信息交互模块，将两个分支的信息进行融合，从而得到更好的检测效果；同时通过卷积减少通道，从而实现一定程度上减少计算量，来自接受边缘指导信息的解码器分支的信息和接受全局指导信息解码器分支的信息可以在设计的信息交互模块中进行充分融合，实现伪装物体与环境进行交叉比较的第二阶段。

进一步的，首先对来自两个分支的输入在通道维度上进行连接并输入到第一个的卷积层中进行特征提取。随后分别输入到两个不同的/>卷积层中从而产生针对两个分支的不同输出结果，最后用连接的方式与第一个卷积层的结果进行跳跃连接，即可得到两个交互之后的输出结果。

其中，步骤S400中还包括：

其中，所述选择性分支模块的预测结果表示为：

进一步的，因为双解码器注意力网络采用了双分支的设计，所以需要一种合适的方式将两个分支的结果进行融合得到最终结果，直接将两个分支中的特征图进行相加可能会导致冗余和不一致。于是设计了选择性分支聚合(Selective Branch Aggregation，SBA)模块，可以自适应地学习如何更好的在两个分支的结果中分配权重并融合。

进一步的，选择性分支聚合将两个分支的输出结果作为输入，但在对二者做连接操作之前，使用选择性权重切换器自适应地学习如何在两个不同的分支上权衡不同的注意力，也就是权重。

进一步的，首先分别对两个分支的输出进行卷积，随后使用选择性权重切换器，这个过程通过对上述卷积结果进行元素乘法来实现；并在之后使用包含64个滤波器的卷积层进行卷积操作，从而减少通道数量；64个滤波器中的参数可对如何在两个不同的分支上权衡不同的注意力进行自适应学习；最后将选择性权重切换器的结果与两个分支的原始结果相加并卷积。随后再进行连接和卷积操作，得到最终预测结果。

其中，所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。

在一些实施例中，双解码器注意力网络还设置特征聚合模块（FeatureAggregation）承担解码器的角色，负责将同层的编码器提取到的特征与边缘指导或全局指导信息、上层特征聚合模块的结果、交互模块的输出相结合，综合利用所有信息来提高伪装物体检测效果，主要通过连接方式来完成，其中的上采样使用双线性插值实现。

进一步的，对于接受全局指导信息分支的特征聚合模块，也就是解码器来说，首先因为本层像素是上层特征的两倍，所以首先将交互模块信息与上层聚合模块结果进行连接并两倍上采样使之达到相同尺寸，称为邻接先验；同时对全局指导信息进行上采样操作使之达到相同尺寸，并与本层提取的特征和邻接先验连接，随后通过三层卷积层进行卷积操作得到最终结果。

进一步的，对于接受边缘指导信息分支的特征聚合模块，也就是解码器来说，首先因为本层像素是上层特征的两倍，所以首先将交互模块信息与上层聚合模块结果进行连接并两倍上采样使之达到相同尺寸，称为邻接先验，同时对边缘指导信息进行上采样操作使之达到相同尺寸，并与本层提取的特征和邻接先验连接，随后通过三层卷积层进行卷积操作得到最终结果。

在一些实施例中，从CAMO-TE、CHAMELEON-TE和COD10K-TE三个数据集中人工挑选水下图像，组成了新的共455张图像的水下伪装目标数据集，称为Aqua-Test数据集，包括海星、海马、章鱼和许多其他水下伪装生物种类。

在一些实施例中，将水下伪装物体图像输入训练好的双解码器注意力网络中即可获得图像的分割结果，应用本发明方法和其他伪装图像分割方法或语义分割方法，分别对水下伪装目标数据集中图像进行分割实验，并从分割结果的准确性，细节信息的完整性和边缘边界的清晰性评价这些方法的各自性能。

其中，步骤S500中还包括：

其中，所述混合损失函数表示为：

在一些实施例中，双解码器注意力网络的输出图像由选择性分支模块产生并接受监督，这里对输出结果使用包含两种损失的混合损失函数对结果与真实值的差距进行综合评估，包含的两种损失分别为二值交叉熵损失和交并比损失，来引导模型学习如何将伪装物体从背景中分割出来，这种混合损失的有效性也在一些显著性目标分割任务中得到了验证。

进一步的，二值交叉熵损失在二元分类任务中被广泛使用，而COD任务在像素级别上可同样被视为二元分类问题所以也同样适用，而交并比损失主要用于判断两个集合的相似程度，最近在目标检测和分割领域也被用做损失函数。对于损失函数的设计，我们考虑了微观和宏观两个层面的重要性，因此将二值交叉熵损失和交并比损失相加作为最终的损失函数，二者结合可以达到更好的损失评估效果。

本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，提出的解码器网络采用双分支结构，一支解码器使用通道注意力模块增强最深层特征并接受边缘指导信息，另一支解码器使用空间注意力模块增强最深层特征并接受全局指导信息，除此之外在解码器每层之间提出信息交互模块，将两个分支的信息进行融合后输送到下一层解码器从而得到更好的信息融合效果，双解码器的设计在可以更有效的利用不同分支中的信息实现互补，同时能较公平的利用两个分支中的信息，避免过分依赖其中一支，即使其中一支特征提取效果欠佳，也不会对结果造成过多影响；经过双分支三层解码器之后，两个分支的结果会输入到选择性分支聚合模块中，其会自适应的学习如何在两个分支上权衡不同的注意力从而更好的对结果进行融合，最终产生双解码器注意力网络的预测图并接受真值图像的监督。

本发明提供的一种基于双分支解码器网络的水下伪装物体图像分割方法，区域一致性较好，边缘清晰细节信息完整，相比之下，优于其他相关方法分割区域轮廓辨析能力，这一现象是由于本发明的非局部的注意力以及双分支的解码器等设计能够提高模型的伪装目标分割能力，本发明所提方法的有效性极强，通过实验结果表明,本发明方法较其他相关伪装物体图像分割模型能更有效地进行伪装物体分割任务。相较于其他现有方法，本发明所提方法使用了非局部的注意力机制以定位伪装物体的全局位置，然后使用分别接受全局和边缘信息的双分支的解码器结构以及信息交互模块来确定伪装物体轮廓、细化分割结果，最终在选择性分支聚合模块得到伪装物体分割结果，均有效提高了模型的水下伪装物体分割能力。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，包括：

S200：对所述深度学习框架引入边缘指导旁路，以获取所述深度学习框架的首层编码器输出结果为边缘指导信息；对所述深度学习框架引入全局指导旁路，以获取所述深度学习框架的末层编码器输出结果为全局指导信息；

2.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，所述双分支解码器聚合网络中引入的通道注意力机制和空间注意力机制均为非局部方式的自注意力机制。

3.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，步骤S400中所述信息交互模块融合所述第一分支解码器的输出信息和所述第二分支解码器的输出信息的步骤包括：

4.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，步骤S400中还包括：

5.根据权利要求4所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，所述选择性分支模块的预测结果表示为：

6.根据权利要求4所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，所述选择性分支模块还用于监督所述双分支解码器聚合网络处理待分割图像获得的分割结果。

7.根据权利要求1所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，步骤S500中还包括：

8.根据权利要求7所述的一种基于双分支解码器网络的水下伪装物体图像分割方法，其特征在于，所述混合损失函数表示为：