CN117611600B

CN117611600B - 一种图像分割方法、系统、存储介质及设备

Info

Publication number: CN117611600B
Application number: CN202410085765.3A
Authority: CN
Inventors: 李军侠; 李进盼
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-03-29
Anticipated expiration: 2044-01-22
Also published as: CN117611600A

Abstract

本发明公开了一种图像分割方法、系统、存储介质及设备，本发明的分割模型分别采用Resnet50网络和Vision Transformer网络生成输入图像的第一CAM和第二CAM，将两个CAM中的值进行取最大值结合，基于结合后的第三CAM中每个类别的高鉴别性区域和低鉴别性区域，生成高鉴别性区域CAM和低鉴别性区域CAM，获得更均衡和更全面的分割结果，不会出现现有方法低覆盖率和准确性的问题。

Description

一种图像分割方法、系统、存储介质及设备

技术领域

本发明涉及一种图像分割方法、系统、存储介质及设备，属于图像处理领域。

背景技术

图像的弱监督语义分割旨在根据弱监督标签，对图像中的目标实现准确的像素级分类预测。目前常用的分割方法包括基于CNN（Convolutional Neural Network ，卷积神经网络）的方法和基于Vision Transformer的方法；其中，基于CNN的方法采用CAM（ClassActivation Map，类激活图）作为初始组件，由于CAM只关注于目标对象中最具鉴别性的部分区域，因此该方法利用这一特性获取小而精确的高鉴别性区域（在识别为当前类别的区域中，值排在前1/4的区域被认为是高鉴别性区域），即仅激活与目标相关的高鉴别性区域，因高鉴别性区域仅占据目标对象整体区域的一小部分，这就导致该方法能够预测出的目标区域太小，即低覆盖率；而基于Vision Transformer的注意力机制可以帮助CAM激活许多与目标相关的低鉴别性区域（在识别为当前类别的区域中，值排在1/4到5/6的区域被认为是低鉴别性区域），但同时也激活了一些非目标区域，从而导致该方法的预测精度较低，即低准确性。

发明内容

本发明提供了一种图像分割方法、系统、存储介质及设备，解决了背景技术中披露的问题。

为了解决上述技术问题，本发明所采用的技术方案是：

一种图像分割方法，包括：

获取待分割的图像；

将待分割的图像输入预先训练的分割模型，获得图像结果；

其中，分割模型中的图像处理过程为：

分别采用Resnet50网络和Vision Transformer网络，生成输入图像的第一CAM和第二CAM；其中，在生成第二CAM的过程中，将一个卷积层输出的特征作为一个块的输入；卷积层为Resnet50网络的卷积层，块为Vision Transformer网络的块；

遍历第一CAM中的值，将第一CAM中的值与第二CAM中对应位置处的值进行比较，获取最大值；

根据所有的最大值，生成第三CAM；

将第三CAM中每个类别的高鉴别性区域作为掩码生成第一权重，根据拼接的卷积层输出特征和第一权重，生成高鉴别性区域CAM；

将第三CAM中每个类别的低鉴别性区域作为掩码生成第二权重，根据拼接的块输出特征和第二权重，生成低鉴别性区域CAM；

将高鉴别性区域CAM和低鉴别性区域CAM相加，获得最终的结果。

在Resnet50网络和Vision Transformer网络中，如果第i个卷积层输出特征的尺寸与第m-1个块输出特征的尺寸一致，则将第i个卷积层输出的特征作为第m个块的输入。

根据拼接的卷积层输出特征和第一权重，生成高鉴别性区域CAM，包括：

根据拼接的卷积层输出特征和第一权重，生成Resnet50特征原型；

对Resnet50特征原型和拼接的卷积层输出特征进行余弦相似性的计算，获得第一余弦相似度图；

将第一余弦相似度图经过RELU函数处理，生成高鉴别性区域CAM。

卷积层输出特征拼接为：剔除第一个卷积层输出的特征，将剩余卷积层输出的特征进行拼接。

根据拼接的块输出特征和第二权重，生成低鉴别性区域CAM，包括：

根据拼接的块输出特征和第二权重，生成Vision Transformer特征原型；

对Vision Transformer特征原型和拼接的块输出特征进行余弦相似性的计算，获得第二余弦相似度图；

将第二余弦相似度图经过RELU函数处理，生成低鉴别性区域CAM。

块输出特征拼接为：将第m+1块输出的特征至最后一个块输出的特征进行拼接；其中，第m块为输入卷积层输出特征的块。

生成特征原型的公式为：

；

式中，P ^c为特征原型，M为当前图像中属于类别c的鉴别性区域的像素点的个数，(i,j)为像素点的坐标，R ^c为当前图像中属于类别c的鉴别性区域，为(i,j)位置对应的权重，H _(i,j)为拼接的卷积层输出特征在(i,j)位置上的值。

一种图像分割系统，包括：

图像获取模块，获取待分割的图像；

分割模块，将待分割的图像输入预先训练的分割模型，获得图像分割结果；

其中，分割模型中的图像处理过程为：

根据所有的最大值，生成第三CAM；

将高鉴别性区域CAM和低鉴别性区域CAM相加，获得最终的图像分割结果。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行图像分割。

一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行图像分割的指令。

本发明所达到的有益效果：本发明的分割模型分别采用Resnet50网络和VisionTransformer网络生成输入图像的第一CAM和第二CAM，将两个CAM中的值进行取最大值结合，基于结合后的第三CAM中每个类别的高鉴别性区域和低鉴别性区域，生成高鉴别性区域CAM和低鉴别性区域CAM，获得更均衡和更全面的分割结果，不会出现现有方法低覆盖率和准确性的问题。

附图说明

图1为图像分割方法的流程图；

图2为分割模型的结构示意图。

实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种图像分割方法，包括以下步骤：

步骤1，获取待分割的图像。

步骤2，将待分割的图像输入预先训练的分割模型，获得图像分割结果，具体是图像分割伪标签；

其中，分割模型中的图像处理过程为：

21）分别采用Resnet50网络和Vision Transformer网络，生成输入图像的第一CAM和第二CAM；其中，在生成第二CAM的过程中，将一个卷积层输出的特征作为一个块的输入；卷积层为Resnet50网络的卷积层，块为Vision Transformer网络的块；

22）遍历第一CAM中的值，将第一CAM中的值与第二CAM中对应位置处的值进行比较，获取最大值；

23）根据所有的最大值，生成第三CAM；

24）将第三CAM中每个类别的高鉴别性区域作为掩码生成第一权重，根据拼接的卷积层输出特征和第一权重，生成高鉴别性区域CAM；将第三CAM中每个类别的低鉴别性区域作为掩码生成第二权重，根据拼接的块输出特征和第二权重，生成低鉴别性区域CAM；其中，掩码是二值性的，只有0和1，权重的值和掩码一样。

25）将高鉴别性区域CAM和低鉴别性区域CAM相加，获得最终的图像分割伪标签。

上述方法的分割模型分别采用Resnet50网络和Vision Transformer网络生成输入图像的第一CAM和第二CAM，将两个CAM中的值进行取最大值结合，基于结合后的第三CAM中每个类别的高鉴别性区域和低鉴别性区域，生成高鉴别性区域CAM和低鉴别性区域CAM，获得更均衡和更全面的分割结果，不会出现现有方法低覆盖率和准确性的问题。

在实施上述方法之前，需要预先构建分割模型并对其进行训练，具体的模型结构可以如图2所示，分别以Resnet50和Vision Transformer作为骨干网络，以这两个骨干网络为基础的同时，结合多级特征融合、原型生成、相似度计算等组件，可构成了两个独立的模块，分别定义为基于Resnet50的鉴别区域扩展模块（DRE）和基于Vision Transformer的低鉴别区域校正模块（LRR），对两个模块间进行多次连接（特征注入，区域结合再划分），最终整体模型的输出是由两个模块的结果直接相加而成。

图2中模型的数据处理如下：

1、初始CAM的生成和结合

DRE中，采用Resnet50网络生成输入图像的初始CAM，即上文说的第一CAM，以及图中的CNN-CAM；LRR中，采用Vision Transformer网络生成输入图像的初始CAM，即上文说的第二CAM，以及图中的ViT-CAM；为了充分利用CNN-CAM和ViT-CAM中的高鉴别性区域和低鉴别性区域，通过取最大值，使两者结合成一个新的CAM，即上文说的第三CAM，以及图中的Fused-CAM；其中，在生成第二CAM的过程中，将一个卷积层输出的特征作为一个块（Trans-block）的输入。

结合图2进行进一步说明，图2中，S0~S4为Resnet50网络的卷积层，Trans-block为Vision Transformer网络的块，两者均进行特征提取，即输出特征。

DRE中，对于输入的图像，特征F为S4输出的特征，将一个权重为W的分类器被添加到Resnet50中，以对F进行加权和，经过全局平均池化（GAP）后，分类器的输出被池化为向量x，，x代表分类分数，直接与类标签（即图中的Class Labels）做分类损失L _CNN，即可获得CNN-CAM；其中，CNN-CAM由/>计算而得，并使用ReLU函数和最大值归一化对/>进行调整；例如，对于前景f类c，/>是CNN-CAM的第c个类激活映射，对于背景类b，按照/>（C是前景类的总数）得到背景激活映射M _b。

LRR中，ViT-CAM的生成过程也与上述过程相似，唯一不同之处在于特征F来自于最后一个Trans-block。为了充分利用CNN-CAM和ViT-CAM中的高鉴别性区域和低鉴别性区域，遍历CNN-CAM中的值，将CNN-CAM中的值与ViT-CAM中对应位置处的值进行比较，获取最大值，根据所有的最大值，生成Fused-CAM，

通过对其取最大值，使其结合成一个新的Fused-CAM ，用公式可表示为：；其中，分别CNN-CAM中的值、以及对应的ViT-CAM中的值，为/>中的最大值，即Fused-CAM中对应位置的值。

经过多次实验，发现S3输出的特征尺寸与第7个块输出特征的尺寸一致，因将S3输出的特征作为第8个块的输入，并且在输入之前，对特征依次进行卷积（Conv）、正则化（Norm）以及GLEU函数处理；这样便利用Resnet50特征的局部性来补充Vision Transformer特征的局部性不足的缺点。

2、DRE设计

剔除第一个卷积层输出的特征，将剩余卷积层输出的特征进行拼接，即将S1~S4输出的特征进行拼接（Feature splicing），生成多级特征（Hierarchical feature）H _DRE，将Fused-CAM中每个类别的高鉴别性区域作为掩码生成第一权重/>，根据H _DRE和，生成Resnet50特征原型（Prototype），/>，对Resnet50特征原型和H _DRE进行余弦相似性的计算，获得第一余弦相似度图，将第一余弦相似度图经过RELU函数处理，生成高鉴别性区域CAM，即图中的DRE-CAM；其中，特征原型为专业术语，就是当前图片中属于某一类的所有特征结合，得到的一个特征表示；/>为Resnet50特征原型，M1为当前图像中属于类别c的高鉴别性区域的像素点的个数，(i,j)为像素点的坐标，/>为当前图像中属于类别c的高鉴别性区域，/>为高鉴别性区域(i,j)位置对应的权重，即第一权重，/>为拼接的卷积层输出特征在高鉴别性区域(i,j)位置上的值。

DRE-CAM用公式可表示为：

；

表示DRE-CAM在类别c的(i,j)位置处的值，用该公式可得到和高鉴别区域语义相似的区域；理想情况下，DRE-CAM比初始的CNN-CAM会激活更多的区域，反之，CNN-CAM的激活区域的精度也要高于DRE-CAM。针对此问题，在CNN-CAM和DRE-CAM之间引入了一致性正则化损失/>，即训练时加了一个损失函数。因为该损失既可以帮助DRE-CAM抑制一些错误激活，又可以通过CNN-CAM间接保存和扩大Fused-CAM中的高鉴别性区域。

3、LRR设计

相比于高鉴别性区域，低鉴别性区域也同样重要， LRR主要致力于在校正一些错误的激活区域的同时挖掘潜在的目标特征，从而激活相关的低鉴别性区域。与DRE的Resnet50相比，Vision Transformer的注意力和特征更加专注于低鉴别性的区域。不同于DRE，将第9块（Trans-block）输出的特征至最后一个块（Trans-block）输出的特征进行拼接，共4个Trans-block输出的特征进行拼接，生成多级特征（Hierarchical feature）H _LRR，将Fused-CAM中每个类别的低鉴别性区域作为掩码生成第二权重，根据H _LRR和 />，生成Vision Transformer特征原型（Prototype），/>，接下来的步骤与DRE一样，对Vision Transformer特征原型和拼接的块输出特征进行余弦相似性的计算，获得第二余弦相似度图，将第二余弦相似度图经过RELU函数处理，生成低鉴别性区域CAM，即图中的LRR-CAM，一致性正则化损失/>也被应用于ViT-CAM和LRR-CAM之间；其中，/>为Vision Transformer特征原型，N为当前图像中属于类别c的低鉴别性区域的像素点的个数，/>为当前图像中属于类别c的低鉴别性区域，/>为低鉴别性区域(i,j)位置对应的权重，即第二权重，H _LRR(i,j)为拼接的卷积层输出特征在低鉴别性区域(i,j)位置上的值。

4、DRE-CAM和LRR-CAM以直接相加的方式得到最终的CAM，即图中的CL-CAM。

在模型训练之前，先构建训练集，具体使用PASCAL VOC（常见的目标检测数据集）2012数据集和MS COCO （常见的目标检测数据集）2014数据集。PASCAL VOC有三个数据集：训练集、验证集和测试集，每个集合分别包含1464、1449和1456张图像。PASCAL VOC数据集由包括背景在内的21个语义类别组成。遵循其他工作中的常见做法，本发明使用由10582张图像组成的增强训练集进行训练。MS COCO数据集拥有80个前景类别和一个背景类别。其中，MS COCO数据集的训练集拥有82081张图像，验证集拥有40137张图像。

模型训练的相关设置和参数的准备：DRE使用ImageNet预训练下的ResNet50作为主干网络，LRR使用Vision Transformer作为骨干网络（12个block）。采用选择随机裁剪来裁剪图像的方式来达到对输入图像的数据增强。裁剪的尺寸大小为464，这使得Resnet50中的拼接特征与Vision Transformer中任一block的输出特征间的尺寸都大小相同（即Resnet50的拼接特征尺寸刚好和Vision Transformer的拼接特征的尺寸相同）。最终将这两个模块结合起来得到整个模型，采用SGD优化器对整个模型在单个RTX 3090 Ti上进行6个epoch（中文含义为轮次）的训练，batch（中文含义为批量）大小为10，动量为0.9，权重衰减为1e-4。

模型训练好后，通过结合多个尺度下输入图像所生成的CAM，得到最终的CAM。最终的CAM通过IRN（全拼叫IRNet，是一种网络名称）优化以生成伪标签用于语义分割训练。对于语义分割训练，在PASCAL VOC 2012上，分别选择基于ResNet38的DeepLab-v1和基于ResNet101的DeepLab-v2作为分割网络，并分别在验证集和测试集上进行性能测试。对于MSCOCO 2014数据集，只需在训练集上训练模型，并使用DeepLab-v2在验证集上测试最终的分割性能。

训练好后，只需将待分割的图像输入分割模型，即可获得图像分割伪标签。本发明中，DRE挖掘高鉴别性区域的语义信息，并通过余弦相似性度量来激活相关像素，帮助网络生成覆盖率更高的高精度的激活图，解决传统的基于CNN的方法的低覆盖率问题，LRR主要从低区分性区域中捕获与原型相似的像素，以激活潜在的目标区域并抑制错误激活，解决传统的基于Vision Transformer的方法的过度激活的弊端，本发明将DRE和LRR结合，解决了现有方法存在的低准确性和低覆盖率的问题，可生成一个更均衡和更全面的CAM。

基于相同的技术方案，本发明还公开了上述方法的软件系统，一种图像分割系统，包括：

图像获取模块，获取待分割的图像。

其中，分割模型中的图像处理过程为：

根据所有的最大值，生成第三CAM；

上述系统中，各模块的数据处理流程与方法对应步骤的一致，这里不重复描述了。

上述系统的分割模型分别采用Resnet50网络和Vision Transformer网络生成输入图像的第一CAM和第二CAM，将两个CAM中的值进行取最大值结合，基于结合后的第三CAM中每个类别的高鉴别性区域和低鉴别性区域，生成高鉴别性区域CAM和低鉴别性区域CAM，获得更均衡和更全面的分割结果，不会出现现有方法低覆盖率和准确性的问题。

基于相同的技术方案，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行图像分割。

基于相同的技术方案，本发明还公开了一种计算机设备，包括一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行图像分割的指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种图像分割方法，其特征在于，包括：

获取待分割的图像；

将待分割的图像输入预先训练的分割模型，获得图像分割结果；

其中，分割模型中的图像处理过程为：

分别采用Resnet50网络和Vision Transformer网络，生成输入图像的第一类激活图和第二类激活图；其中，在生成第二类激活图的过程中，将一个卷积层输出的特征作为一个块的输入；卷积层为Resnet50网络的卷积层，块为Vision Transformer网络的块；

遍历第一类激活图中的值，将第一类激活图中的值与第二类激活图中对应位置处的值进行比较，获取最大值；

根据所有的最大值，生成第三类激活图；

将第三类激活图中每个类别的高鉴别性区域作为掩码生成第一权重，根据拼接的卷积层输出特征和第一权重，生成Resnet50特征原型，对Resnet50特征原型和拼接的卷积层输出特征进行余弦相似性的计算，获得第一余弦相似度图，将第一余弦相似度图经过RELU函数处理，生成高鉴别性区域类激活图；

将第三类激活图中每个类别的低鉴别性区域作为掩码生成第二权重，根据拼接的块输出特征和第二权重，生成Vision Transformer特征原型，对Vision Transformer特征原型和拼接的块输出特征进行余弦相似性的计算，获得第二余弦相似度图，将第二余弦相似度图经过RELU函数处理，生成低鉴别性区域类激活图；

将高鉴别性区域类激活图和低鉴别性区域类激活图相加，获得最终的图像分割结果。

2.根据权利要求1所述的图像分割方法，其特征在于，在Resnet50网络和VisionTransformer网络中，如果第i个卷积层输出特征的尺寸与第m-1个块输出特征的尺寸一致，则将第i个卷积层输出的特征作为第m个块的输入。

3.根据权利要求1所述的图像分割方法，其特征在于，卷积层输出特征拼接为：剔除第一个卷积层输出的特征，将剩余卷积层输出的特征进行拼接。

4.根据权利要求1所述的图像分割方法，其特征在于，块输出特征拼接为：将第m+1块输出的特征至最后一个块输出的特征进行拼接；其中，第m块为输入卷积层输出特征的块。

5.根据权利要求1所述的图像分割方法，其特征在于，生成特征原型的公式为：

；

6.一种图像分割系统，其特征在于，包括：

图像获取模块，获取待分割的图像；

其中，分割模型中的图像处理过程为：

根据所有的最大值，生成第三类激活图；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1~5所述的任一方法。

8.一种计算机设备，其特征在于，包括：

一个或多个处理器、以及一个或多个存储器，一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1~5所述的任一方法的指令。