CN116229465A

CN116229465A - 一种船舶弱监督语义分割方法

Info

Publication number: CN116229465A
Application number: CN202310168650.6A
Authority: CN
Inventors: 苏丽; 徐加尧
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-06

Abstract

本发明公开了一种船舶弱监督语义分割方法，将待分割图像和经仿射变换后的待分割图像分别输入至预先训练的伪像素标签生成网络，分别生成伪像素级监督标签CAM；将CAM缩放至原输入图像的大小，在图像相同位置处求平均值，得到最终伪像素级监督标签CAM；利用显著性目标检测方法，生成待分割图像的显著图，根据设定阈值将显著图划分为前景和背景，生成前景区域与背景区域分离开的显著图；将所述显著图与最终伪像素级监督标签CAM进行比对，生成新的伪像素标签；将伪像素标签送入到全监督网络DeepLabv3中进行语义分割，生成分割掩码。本发明使得特征图激活范围扩大，生成覆盖面积更完整的定位图，使得最后的分割掩码质量更高。

Description

一种船舶弱监督语义分割方法

技术领域

本发明属于计算机视觉的图像分割领域，涉及一种船舶弱监督语义分割方法，特别是涉一种基于区域约束的船舶弱监督语义分割方法。

背景技术

图像的语义分割是计算机视觉的热点问题。根据监督方式的不同，图像语义分割又可以分为全监督图像语义分割和本发明研究的弱监督图像语义分割。前者是指标注方式为像素级的分类标注，需要大量人工标注的精细化标签，由于其具有强大的信息性，因此分割结果精确性相对较高。而后者是指标注方式为图像级标注，图像级标签只包含目标对象的类别信息，因此它的分割难度最大。例如，标注某张图片中出现了某一类或者某几类船，比如，集装箱船，散货船，帆船等。

目前，大多数图像弱监督语义分割方法都是针对CAM(类激活图)来设计的网络模型。在各类方法中，SEAM模型因其直观的思路和良好的分割效果而被广泛认可。由于SEAM模型使用的CAM方法仅能定位到最具判别性区域的问题，使得图像的激活范围较小，定位图质量较差，不能弥补判别区域与相邻非判别区域之间的差距。此外，SEAM训练时间过长，收敛较慢的问题也亟待解决。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于区域约束的船舶弱监督语义分割方法，具有简单结构的区域约束模块来扩展目标的激活区域，使得特征图激活范围扩大，生成覆盖面积更完整的定位图，使得最后的分割掩码质量更高，同时加快了网络的训练速度。

为解决上述技术问题，本发明的一种船舶弱监督语义分割方法，包括：

步骤1、获取待分割图像；

步骤2、将待分割图像和经仿射变换后的待分割图像分别输入至预先训练的伪像素标签生成网络，分别生成伪像素级监督标签CAM；将CAM缩放至原输入图像的大小，在图像相同位置处求平均值，得到最终伪像素级监督标签CAM；

其中，所述伪像素标签生成网络包括ResNet网络、Dropout层、全局平均池化层、Softmax函数和像素关系模块；所述ResNet网络包括Conv1至Conv6，Conv5和Conv6中均嵌入区域约束模块；所述伪像素标签生成网络的训练方法包括：

将图像输入到所述ResNet网络中，经过低级残差块Conv1、Conv2、Conv3、Conv4后生成中间特征图，将中间特征图依次输入到嵌有区域约束模块的高级残差块Conv5、Conv6生成改进的特征图；所述改进特征图经过Dropout层、卷积层得到原始CAM，原始CAM经全局平均池化层进行全局信息提取，使用Softmax函数进行概率预测，得到分类结果，输出定位置信图M；

提取Conv4和Conv5两层特征图拼接成中间特征图，中间特征图与定位置信图M输入PCM模块，得到有像素关系矩阵修正的CAM，根据设计的损失函数进行反向传播训练，得到伪像素级监督标签CAM；

步骤3、利用显著性目标检测方法，生成待分割图像的显著图，根据设定阈值将显著图划分为前景和背景，生成前景区域与背景区域分离开的显著图；将所述显著图与步骤2生成的最终伪像素级监督标签CAM进行比对，生成新的伪像素标签；

步骤4、将步骤3得到的伪像素标签送入到全监督网络DeepLab v3中进行语义分割，生成分割掩码。

进一步的，所述ResNet网络采用ResNet38。

进一步的，所述区域约束模块包括提取最大值、设置抑制率和最大值区域抑制。

进一步的，所述PCM模块的计算公式为：

其中，X∈C₁×H×W是将分类网络中某些特征图的集合连接成为一个中间特征图，H和W是该特征图的宽和高，C₁是特征图的通道数；Y∈C×H×W代表原始CAM，C是分类类别数；

采用特征图像素间特征相似度的余弦距离，g由一个1*1卷积来实现；再利用获得的像素关系矩阵与原CAM进行矩阵乘法，得到一个更为精细化的CAM，记为Y_pcm∈R^C×H×W。

进一步的，将所述显著图与步骤2生成的最终伪像素级监督标签CAM进行比对具体为：

当显著图认为该像素点是背景，但是CAM中该像素点所计算出的类别概率最大值大于设定的超参数β，则认为CAM的概率置信度更高，将其作为像素点的概率值；当显著图认为该像素点是前景，但是CAM中得分小于设定的超参数α，则将像素点设置为背景；最后，其余所有像素点都遵循显著图分类，当像素点在显著图中为背景时认定为背景，当像素点在显著图中为前景时等于CAM中对应值。

本发明的有益效果：本发明主要解决的问题是针对SEAM用于船舶图像弱监督语义分割任务出现的误分割背景问题和漏分割船舶轮廓问题，提供了一种具有简单结构的区域约束模块来扩展目标的激活区域。区域约束模块抑制了那些最具判别性的区域，将网络的注意力传播到邻近的判别区域，使得特征图激活范围扩大，生成覆盖面积更完整的定位图，使得最后的分割掩码质量更高，同时加快了网络的训练速度。

1、本发明引入区域约束模块，抑制了那些最具判别性的区域，将网络的注意力传播到邻近的判别区域，能够有效改善船舶图像误分割背景问题和漏分割船舶轮廓问题。

2、改进的CEAM模型主干网络用的是ResNet38，相较于ResNet101等其他更大更深的主干网络来说，可以大幅地减少参数量和计算量，加快了网络的训练收敛速度。

3、经过后处理的CEAM模型对于大目标和小目标物体都有更好的分割效果，并且对于多目标图像也具有较好的鲁棒性。

附图说明

图1是本发明一种基于区域约束的弱监督语义分割方法流程图；

图2是本发明一种于区域约束的弱监督语义分割方法的CEAM网络结构图；

图3是本发明一种基于区域约束的弱监督语义分割方法的区域约束模块；

图4是本发明一种基于区域约束的弱监督语义分割方法的PCM结构图；

图5是本发明一种基于区域约束的弱监督语义分割方法的部分显著图；

图6是本发明一种基于区域约束的弱监督语义分割方法的DeepLab v3+网络结构图。

具体实施方式

下面结合说明书附图和实施例对本发明做进一步说明。

本发明的总体流程：

首先，以共享权职的方式建立两条孪生分支，其中第二条分支的输入图像与第一条分支输入图像不同，是对第一条分支输入图像进行仿射变换(按照一定的比例对图片进行缩放)作为第二条分支的输入图像，两条分支后续的处理步骤相同，下面只描述其中一个分支。

步骤一、特征的提取

具体来说，首先将图片输入到经典ResNet网络中，经过Conv1、Conv2、Conv3、Conv4这四个低级残差块后生成了中间特征图，将该特征图依次输入到嵌有区域抑制模块的高级残差快Conv5、Conv6中生成了改进后的特征图，该特征图具有更高质量的定位区域。

步骤二、生成原始CAM

将步骤一改进后的特征图输入到Dropout层，对特征图每一通道以50％的概率置0，使得网络的泛化性能更强，不会过度依赖于某些局部特征。此外，再连接一个1*1卷积将特征图通道降至为C，这里的C是指分类的类别数量，以此得到CAM∈R^H×W×C，H和W分别代表CAM图的高和宽。

步骤三、生成置信图M

将步骤二中得到的CAM输入到全局平均池化层GAP进行全局信息提取，再使用Softmax函数σ进行概率预测，得到分类结果l＝σ(GAP(CAM))，输出定位置信图M。对于每个目标类别c，该类的定位置信图M^c为标准化的CAM的第c通道置信图，公式如下所示：

步骤四、改进原始的CAM

与此同时，提取Conv4和Conv5两层特征图拼接成中间特征图，与步骤三中标准化CAM所得到的定位置信图M共同作为PCM模块的输入，得到有像素关系矩阵修正的CAM。最终根据CEAM所设计的损失函数进行反向传播训练，得到高质量的伪像素级监督标签CAM。最后，两条分支生成的每个CAM缩放至原输入图像的大小，在图片相同的位置处进行像素值的叠加再除以2就得到了最终的伪像素CAM，至此，CEAM网络部分训练完成。

按照CAM网络结构，在卷积神经网络末端添加全局平均池化层得到对图像的分类预测向量Z，

和/>

分别表示经过孪生网络两个分支的原始CAM输出，y⁰和y^t则代表分别经过孪生网络两个分支被PCM模块修正过的CAM的输出。

步骤五、获取更高质量的伪像素标签

利用显著性目标检测技术，从CEAM网络中的输入图像中识别出最显著、包含信息最为丰富的区域，生成前景区域与背景区域分离开的灰度图。将该灰度图与步骤四生成的伪像素级监督标签CAM按一定规则算法进行比对，生成更高质量的伪像素标签。

步骤六、获取最终的分割掩码

最后，将伪像素标签送入到全监督网络DeepLab v3中进行语义分割，生成最终的分割掩码。

下面结合具体参数给出实施例：

弱监督语义分割需要对图中所有的船舶目标进行分类和分割尤其是前景和背景需要有效的区分，从可视化上来看就是对不同类别的目标产生不同颜色的掩码。SEAM模型利用分类网络生成类激活图，然后对CAM进行修正使其覆盖目标对象的大部分区域。理论依据是对于分割网络而言，相同的一张图片无论经过何种映射变化，理想的最终分割结果应该是随之进行等变映射。而对于分类网络涞水，则是趋于不变性，这也是分割网络和分类网络之间的本质性区别。本发明主要是利用了区域约束模块，强迫分类网络在训练过程中将注意力从最具判别性的区域转移到邻近区域，不再纠结于局部特征，而是覆盖更完整的目标对象，这样做能有效减少目标与背景的分割，误使得最后的分割掩码质量更高，同时加快了网络的训练速度。

本发明内容步骤如下：

1、图像特征的提取

特征提取的过程如图2所示，本方法使用ResNet-38作为特征提取网络。在Conv5和Conv6两个高级残差块中嵌入区域约束模块，删除ResNet-38网络中所有的全连接层，在Conv6残差快后添加概率为0.5的Dropout2d层对特征图每一通道以50％的概率置为0，使得网络的泛化性更强，不会过度依赖某些局部特征。此外，再连接一个1*1卷积将特征图通道降至为C，这里的C是指分类的类别数量(在本发明中为7)，以此得到CAM∈R^H×W×C，

其中，H和W分别代表CAM图的高和宽。然后连接平均池化层GAP(·)进行全局信息提取。再利用Softmax函数σ(·)进行概率预测，得到分类结果l＝σ(GAP(CAM))。

2、嵌入区域约束模块

区域约束模块的结构如图3所示，主要包括三部分：提取最大值、设置抑制率和最大值区域抑制。首先，对中间特征图F_in进行全局最大池化操作，提取出C个最大值元素，其中C是指中间特征图F_in的通道数。这些最大值元素所在的区域就是当前特征图中目标物体最具有判别性的区域，因此将C个最大值元素F_max作为约束区域的起始点。然后设置抑制率，本发明将其设计为一个超参数τ，代表对最大值元素的抑制程度，通过实验来选取最适合当前网络的超参数值。接着将抑制率扩展为通道数量为C的向量S，并与F_max相乘，所得结果作为中间特征图元素值的上界，记为

在中间特征图中，元素值大于上界的区域就是被约束的区域。最后将上界/>

扩展为与中间特征图F_in相同形状，并且逐元素比较取二者间的较小值，获得修正后的特征图。例如，将抑制率设置为0.75，那么中间特征图每个通道层的所有元素都不超过当前层最大元素值的75％，通过这种方式，沟通判别性区域与邻近的费判别性区域之间的关系。

3、原始CAM的修正

如图4，像素关系模块(PCM)可以保证捕获长距离像素与像素之间依赖关系的能力，细化后的每个像素特征是所有其他像素特征与原始像素特征的加权和，相似的语义特征之间相互增强，提高了类内的紧凑性和语义之间的一致性。PCM的计算公式为：

其中X∈C₁×H×W是将分类网络中某些特征图的集合连接成为一个中间特征图，H和W是该特征图的宽和高，C₁是特征图的通道数；Y∈C×H＝W代表原始CAM，C是分类类别数，在本发明中为21(包括背景类在内)；

采用特征图像素间特征相似度的余弦距离，g可以用一个1*1卷积来实现。再利用获得的像素关系矩阵与原CAM进行矩阵乘法，得到一个更为精细化的CAM，记为Y_pcm∈R^C×H×W。

4、通过孪生网络输出最终的CAM

如图1所示，在CAM中具有较高值的区域就是该类置信度更高的最具判别性目标区域。与此同时，提取Conv4和Conv5两层特征图拼接成中间特征图，与标准化CAM所得到的定位置信图M共同作为PCM模块的输入，得到由像素关系矩阵修正的CAM。最终根据SEAM所设计的损失函数进行反向传播训练，得到高质量的伪像素级监督标签CAM。

5、生成显著图对伪像素标签进行后处理

部分显著图如图5所示，具体来说，生成的显著图像素点的值在[0,255]之间，其值越小，则该像素点越趋近于背景，值越大越趋向于前景。首先，对显著图进行二分类处理,根据设定的阈值θ来划分显著图中的前景与背景。其次，本发明针对两种特殊情况进行特别处理，其一是当显著图认为该像素点是背景，但是CAM中该像素点所计算出的类别概率最大值大于超参数β，这种情况下我们认为CAM的概率置信度更高，因此将其作为像素点的概率值；其二是当显著图认为该像素点是前景，但是CAM中得分小于超参数α，同理，这种情况将像素点设置为背景。最后，其余所有像素点都遵循显著图分类，当像素点在显著图中为背景时认定为背景，当像素点在显著图中为前景时等于CAM中对应值。

6、用上述伪像素标签训练全监督网络，获得最终的分割掩码

DeepLab v3+使用的主干网络为Xception网络，进一步提升了网络的分割能力。并且DeepLab V3+引入了Encoder-Decode结构，具体如图6所示。Encoder与DeepLab v3相似，由深度卷积神经网络和ASPP模块构成。在Decoder中，通过融合高维特征图和低维特征图，使得上采样的过程中既有丰富的语义信息，又融合了空间位置信息,提升了分割的精度。

Claims

1.一种船舶弱监督语义分割方法，其特征在于，包括：

步骤1、获取待分割图像；

2.根据权利要求1所述的一种船舶弱监督语义分割方法，其特征在于：所述ResNet网络采用ResNet38。

3.根据权利要求1所述的一种船舶弱监督语义分割方法，其特征在于：所述区域约束模块包括提取最大值、设置抑制率和最大值区域抑制。

4.根据权利要求1所述的一种船舶弱监督语义分割方法，其特征在于：所述PCM模块的计算公式为：

其中，X∈C₁×H×W是将分类网络中某些特征图的集合连接成为一个中间特征图，H和W是该特征图的宽和高，C₁是特征图的通道数；Y∈C×H×W代表原始CAM，C是分类类别数；θ采用特征图像素间特征相似度的余弦距离，g由一个1*1卷积来实现；再利用获得的像素关系矩阵与原CAM进行矩阵乘法，得到一个更为精细化的CAM，记为Y_pcm∈R^C×H×W。

5.根据权利要求1所述的一种船舶弱监督语义分割方法，其特征在于：将所述显著图与步骤2生成的最终伪像素级监督标签CAM进行比对具体为：