CN113298084B

CN113298084B - 用于语义分割的特征图提取方法及系统

Info

Publication number: CN113298084B
Application number: CN202110356040.XA
Authority: CN
Inventors: 张宇昂; 杨青翰; 庄云亮; 吕蕾; 吕晨
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2023-04-07
Anticipated expiration: 2041-04-01
Also published as: CN113298084A

Abstract

本发明提供一种用于语义分割的特征图提取方法及系统，属于计算机视觉技术领域，将图片的残差网络特征图进行类别激活映射得到热力图；对残差网络特征图进行卷积操作，计算不同卷积特征图间同一位置像素点的相关性，得到第一特征图；对热力图进行卷积，与第一特征图进行第一次融合计算处理得第二特征图；将第二特征图进行卷积，计算不同的卷积特征图间同一位置像素点的相关性得第三特征图；将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终用于语义分割的特征图。本发明将十字注意力模块与弱监督语义分割类别激活映射CAM技术相结合，提高了网络的识别精度，减轻了人工标注的工作量，减少了网络分割时的计算量，提高了计算速度。

Description

用于语义分割的特征图提取方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于语义分割的特征图提取方法及系统。

背景技术

随着深度学习技术的快速发展，在语义分割领域的应用也日益广泛。如何在保持高分割精度的同时减少算法复杂度和训练难度成为相关学者重点关注的问题。

语义分割对训练数据集的精度要求很高，需要给定训练模型足够精确的分割图片，相对于简单的人工标注(例如对图像分类网络进行标注)，语义分割网络这种在像素级别进行分类的网络，需要进行大量的并且复杂的人工标注，并且对于某些特殊的图像(例如医学图像)，需要专业人士才能完成标注。深度学习中，经典的注意力机制例如自注意力机制，虽然效果很好，但是其过大的计算量让人们望而却步，造成了实际落地困难的问题。

发明内容

本发明的目的在于提供一种用于语义分割的特征图提取方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

第一方面，本发明提供一种用于语义分割的特征图提取方法，包括：

获取图片的残差网络特征图，进行类别激活映射，得到热力图；

对残差网络特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第一特征图；

对热力图进行卷积操作后，与第一特征图进行第一次融合计算处理，得到第二特征图；

将第二特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第三特征图；

将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图。

优选的，得到第一特征图包括：

将残差网络特征图分别通过两个1*1卷积得到两个通道数为C′的卷积特征图Q、K；

取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′；

将特征图K中和u位于同一行同一列的其他C′维的像素点向量加入到集合Ω_u＝R^(H ^+W-1)×C′，其中，H为图像的高度，W为图像的宽度；

计算得到

代表特征图Q中的像素点u与特征图K中与u在同一行和同一列的像素点之间的相关性，再经过softmax进行归一化，得到第一特征图A。

优选的，对热力图进行卷积操作后，与第一特征图进行第一次融合计算处理，得到第二特征图包括：

将热力图通过1*1卷积得到通道数为C的卷积特征图V；

将特征图V中与u位于同一行同一列的其他C维的像素点向量加入到集合Φ_u∈R^(H ^+W-1)×C中；

将第一特征图A与Φ_u相乘再加上初始的残差网络特征图，最终得到与输入图像尺寸相同的第二特征图。

优选的，得到第三特征图包括：

将第二特征图分别通过两个1*1卷积得到两个通道数为C″的卷积特征图Q′、K′；

取特征图Q′上任意一个C″维度的点u′，记为Q_u′∈R^C″；

将特征图K′中和u′位于同一行同一列的其他C″维的像素点向量加入到集合Ω_u′＝R^{(H+W-1)×C″}；

计算得到

代表特征图Q′中的像素点u′与特征图K′中与u′在同一行和同一列的像素点之间的相关性，再经过softmax进行归一化，得到第三特征图。

优选的，第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图包括：

将特征图V中与u′位于同一行同一列的其他C维的像素点向量加入到集合Φ_u″∈R^(H+W-1)×C中；

将第三特征图与Φ_u″相乘再加上初始的残差网络特征图，得到最终用于语义分割的特征图。

第二方面，本发明提供一种用于语义分割的特征图提取系统，包括：

获取模块，用于获取图片的残差网络特征图；

映射模块，用于进行类别激活映射，得到热力图；

第一计算模块，用于对残差网络特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第一特征图；

第二计算模块，用于对热力图进行卷积操作后，与第一特征图进行第一次融合计算处理，得到第二特征图；

第三计算模块，用于将第二特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第三特征图；

第四计算模块，用于将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图。

优选的，第一计算模块被配置为：

取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′；

计算得到

优选的，第二计算模块被配置为：

将热力图通过1*1卷积得到通道数为C的卷积特征图V；

优选的，第三计算模块被配置为：

取特征图Q′上任意一个C″维度的点u′，记为Q_u′∈R^C″；

计算得到

优选的，第四计算模块被配置为：

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于执行如上所述的用于语义分割的特征图提取方法的指令。

第四方面，本发明提供一种电子设备，包括如上所述的非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。

本发明有益效果：将弱监督语义分割CAM(类别激活映射)技术与注意力机制相结合，进行循环特征提取，进行了两次融合计算处理，提高了网络的识别精度，减轻了人工标注的工作量，减少了网络分割时的计算量，提高了计算速度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的用于语义分割的特征图提取系统的功能原理框图。

图2为本发明实施例所述的特征图Q和特征图K经过affinity操作得到特征图D的流程示意图。

图3为本发明实施例所述的特征图D经过softmax进行归一化后得到特征图A的流程示意图。

图4为本发明实施例所述的特征图A和特征图V经aggregation操作得到特征图H′的流程示意图。

图5为本发明实施例所述的类别激活映射CAM网络的框架结构示意图。

图6为本发明实施例所述的循环十字注意力模块的功能原理框图。

图7为本发明实施例所述的用于语义分割的特征图提取系统的功能原理框图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

如图1所示，本发明实施例1提供一种用于语义分割的特征图提取系统，该系统包括：

获取模块，用于获取图片的残差网络特征图；

映射模块，用于进行类别激活映射，得到热力图；

如图6所示，在本实施例1中，利用上述的系统实现了用于语义分割的特征图提取方法，该方法包括：

使用获取模块获取图片的残差网络特征图，利用映射模块进行类别激活映射，得到热力图；

使用第一计算模块对残差网络特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第一特征图；

使用第二计算模块对热力图进行卷积操作后，与第一特征图进行第一次融合计算处理，得到第二特征图；

使用第三计算模块将第二特征图进行卷积操作，计算得到的不同的卷积特征图间同一位置像素点的相关性，得到第三特征图；

使用第四计算模块将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图。

其中，在本实施例1中，利用第一计算模块得到第一特征图包括：

取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′；

计算得到

利用第二计算模块得到第二特征图包括：

将热力图通过1*1卷积得到通道数为C的卷积特征图V；

利用第三计算模块计算第三特征图包括：

取特征图Q′上任意一个C″维度的点u′，记为Q_u′∈R^C″；

计算得到

利用第四计算模块得到最终的用于语义分割的特征图包括：

实施例2

如图7所述，本发明实施例2提供一种用于语义分割的特征图提取系统，将图片输入该系统的主干网络，图片首先输入残差网络CNN，得到残差网络特征图，残差网络特征图分别输入CAM模块和循环十字注意力模块，CAM模块的输出再输入循环十字注意力模块的第一CrossNet单元，第一CrossNet单元的输出再输入第二CrossNet单元，最终得到用于语义分割的特征图。其中第一CrossNet单元和第二CrossNet单元对图像进行了两次循环处理，称为循环十字注意力机制。

在本实施例2中，利用本实施例所述的系统，实现用于语义分割的特征图提取方法，其步骤包括：

步骤一：将图片输入主干网络(主干网络的选择可以使resnet50，resnet101等等)得到特征图H。

步骤二：将特征图H分别输入CAM模块和循环十字注意力模块的第一CrossNet模块。

步骤三：输入CAM模块的特征图H经过处理得到Original CAM特征图(热力图)，并将其输入循环十字注意力模块的第一CrossNet模块。

步骤四：循环十字注意力模块的第一CrossNet模块将输入的特征图H和OriginalCAM特征图理后得到特征图H′，特征图H′上的各个像素点与其十字方向上的各个像素点有不同的关联度。将H′和Original CAM特征图输入循环十字注意力模块的第二个模块。

步骤五：循环十字注意力模块的第二个模块将输入的特征图H′和Original CAM特征图处理后得到特征图H″，特征图H″上的各个像素与其余像素都有不同的关联度。

特征图H″即我们最后输出的注意力图，H″可以用于语义分割领域，由此极大的降低了数据标注的困难，提高了分割精度且降低了模型训练计算量。

在本实施例2中，为了解决自注意力机制计算量过大的问题，提出了CrossNet(十字形网络)。CrossNet，同时输入经主干网络卷积后的特征图和经过CAM模块处理后的特征图。相比于之前其他的自注意力机制，此CrossNet极大的减小了网络的计算量。

如图6所示，在本实施例2中，CrossNet的工作流程如下：

将输入图片进行处理后得到特征图H，将H分别通过三个1*1卷积得到通道数分别C′、C′和C的特征图Q，K，V，其中Q和K经过Affinity操作得到特征图A，特征图A和V再进行Aggregation操作得到输入特征图H′。

如图2、图3所示，Affinity操作：取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′，其中C′代表特征图Q的通道数量。绿色和黄色是u所在行和列的其他像素点；在特征图K的相同位置上把和u同一行同一列的其他C′维的点加入到集合Ω_u＝R^{(H+W-1)×C′}，计算得到

(因为特征图上共有H*W个像素点，所以d_i,u∈R^{H×W×(H+W-1)})，d_i,u代表特征图Q中的像素点u与特征图K中与u在同一行和同一列的像素点之间的相关性，得到特征图D，特征图D再经过softmax进行归一化，得到A(attention map)，A_i,u∈R^{H×W×(H+W-1)}。

如图4所示，Aggregation操作：特征图V与特征图Q类似，将像素点u和其所在行和所在列的像素点向量加入到集合Φ_u＝R^(H+W-1)×C中。A代表了特征图上点u与十字方向上其他各点的关联度，让A与Φ_u相乘再加上初始的特征图H最终得到与输入图像尺寸相同的输出H′，其中，

本实施例2中，将CrossNet注意力模块与弱监督语义分割CAM(类别激活映射)技术相结合，提高了网络的识别精度，并且可以减轻人工标注的工作量，以及减少网络分割时的计算量。

如图5所示，CAM模块由于采用的数据集是图像分类网络的数据集，仅仅需要对图片进行简单的标签标注即可，相比于需要复杂的像素标注的语义分割网络数据集，CAM极大的减少了数据集标注的难度，可以得到的训练数据也更多。

由于要将特征图的图片特征向特征向量进行转换，使用了全连接层而导致网络丢失了对识别物体的位置信息，所以CAM中将卷积神经网络结构中的全连接层替换为全局平均池化层(GAP)，最后接一层全连接层用于进行图像分类。

CAM网络将图像分类网络框架中最后一层卷积层的特征图单独拿出来，再分别乘上GAP层与最后全连接层连接的权重矩阵W，最后叠加得到网络所关注物体的热力图。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于语义分割的特征图提取方法的指令，该方法包括：

实施例4

本发明实施例4提供一种电子设备，该电子设备包括一种非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。所述非暂态计算机可读存储介质包括用于语义分割的特征图提取方法的指令，该方法包括：

综上所述，本发明实施例所述的用于语义分割的特征图提取方法及系统，解决了自注意力机制计算量过大的问题，提出了循环十字形注意力网络，同时输入经主干网络卷积后的特征图和经过CAM模块处理后的特征图，相比于之前其他的自注意力机制，减小了网络的计算量，提高了计算速度。

CAM模块由于采用的数据集是图像分类网络的数据集，仅仅需要对图片进行简单的标签标注即可，相比于需要复杂的像素标注的语义分割网络数据集，CAM极大的减少了数据集标注的难度，可以得到的训练数据也更多。

用于图像分类的卷积神经网络的网络结构中，由于要将特征图的图片特征向特征向量进行转换，使用了全连接层而导致网络丢失了对识别物体的位置信息，所以CAM中将卷积神经网络结构中的全连接层替换为全局平均池化层(GAP)，最后接一层全连接层用于进行图像分类。CAM网络将图像分类网络框架中最后一层卷积层的特征图单独提取，再分别乘上GAP层与最后全连接层连接的权重矩阵W，最后叠加得到网络所关注物体的热力图。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于语义分割的特征图提取方法，其特征在于，包括：

将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图；

实现用于语义分割的特征图提取方法的具体步骤包括：

步骤一：将图片输入主干网络得到特征图H；

步骤二：将特征图H分别输入CAM模块和循环十字注意力模块的第一CrossNet模块；

步骤三：输入CAM模块的特征图H经过处理得到Original CAM特征图，并将其输入循环十字注意力模块的第一CrossNet模块；

步骤四：循环十字注意力模块的第一CrossNet模块将输入的特征图H和Original CAM特征图理后得到特征图H′，特征图H′上的各个像素点与其十字方向上的各个像素点有不同的关联度；将H′和Original CAM特征图输入循环十字注意力模块的第二个模块；

2.根据权利要求1所述的用于语义分割的特征图提取方法，其特征在于，得到第一特征图包括：

取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′；

计算得到

3.根据权利要求2所述的用于语义分割的特征图提取方法，其特征在于，对热力图进行卷积操作后，与第一特征图进行第一次融合计算处理，得到第二特征图包括：

将热力图通过1*1卷积得到通道数为C的卷积特征图V；

将特征图V中与u位于同一行同一列的其他C维的像素点向量加入到集合Φ_u∈R^(H+W-1)×C中；

4.根据权利要求3所述的用于语义分割的特征图提取方法，其特征在于，得到第三特征图包括：

取特征图Q′上任意一个C″维度的点u′，记为Q_u′∈R^C″；

将特征图K′中和u′位于同一行同一列的其他C″维的像素点向量加入到集合Ω_u′＝R^(H ^+W-1)×C″；

计算得到

5.根据权利要求4所述的用于语义分割的特征图提取方法，其特征在于，第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图包括：

将特征图V中与u′位于同一行同一列的其他C维的像素点向量加入到集合Φ_u″∈R^(H ^+W-1)×C中；

6.一种用于语义分割的特征图提取系统，其特征在于，包括：

获取模块，用于获取图片的残差网络特征图；

映射模块，用于进行类别激活映射，得到热力图；

第四计算模块，用于将第三特征图与卷积操作后的热力图进行第二次融合计算处理，得到最终的用于语义分割的特征图；

实现用于语义分割的特征图提取方法的具体步骤包括：

步骤一：将图片输入主干网络得到特征图H；

7.根据权利要求6所述的用于语义分割的特征图提取系统，其特征在于，第一计算模块被配置为：

取特征图Q上任意一个C′维度的点u，记为Q_u∈R^C′；

计算得到

8.根据权利要求7所述的用于语义分割的特征图提取系统，其特征在于，第二计算模块被配置为：

将热力图通过1*1卷积得到通道数为C的卷积特征图V；

9.根据权利要求8所述的用于语义分割的特征图提取系统，其特征在于，第三计算模块被配置为：

取特征图Q′上任意一个C″维度的点u′，记为Q_u′∈R^C″；

计算得到

10.根据权利要求9所述的用于语义分割的特征图提取系统，其特征在于，第四计算模块被配置为：