CN110163878A

CN110163878A - 一种基于双重多尺度注意力机制的图像语义分割方法

Info

Publication number: CN110163878A
Application number: CN201910452050.6A
Authority: CN
Inventors: 高科; 杨双; 张弛
Original assignee: Sichuan Zhiying Technology Co Ltd
Current assignee: Sichuan Zhiying Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-23

Abstract

本发明公开了一种基于双重多尺度注意力机制的图像语义分割方法，属于图像语义分割领域。该方法包括：对训练图像和测试图像进行预处理；构建图像语义分割模型；将预处理后的训练图像送入图像语义分割模型，得到预测输出；根据预测输出与真实值的差异计算损失函数值，并调优模型参数；待到达预定训练次数后，停止训练，并固定图像语义分割模型参数；输入预处理后的测试图像，利用图像语义分割模型参数输出测试图像的预测图，即为所述测试图像对应的图像语义分割结果图。本发明充分增强进而有效捕捉图像中的小目标信息，且可以通过不同尺度下目标周边的上下文信息的结合，解决易混淆目标的区分问题，进而可以得到较好的图像语义分割结果。

Description

一种基于双重多尺度注意力机制的图像语义分割方法

技术领域

本发明涉及一种图像语义分割技术，涉及图像语义分割领域，尤其涉及一种基于双重多尺度注意力机制的图像语义分割方法。

背景技术

近年来，深度学习技术在计算机视觉领域的许多研究问题中都得到了广泛应用。图像语义分割问题也从传统的依赖人为选取和设计局部窗口特征再做判别的方法，开始转向端到端的基于深度学习的方法。

图像语义分割的目的是对图像中的每一个像素都赋予一个类别标签，最终形成整幅图像的描述。当下比较流行的一种架构是基于全卷积神经网络的方法，该方法已经被验证可以在多个图像分割数据集上达到比较好的效果。该方法是可以认为是一种编码解码结构。编码部分对输入的图像进行特征编码，得到对图像的特征表示图；随后解码部分通过依赖上采样或反卷积等相关的操作，对特征表示图的分辨率进行提升，来最终得到和原始图像同样大小的预测输出图。该结构的好处是可以将图像的特征表示模块与语义分割结果图的生成模块分开，进而可以直接利用当下深度学习领域中的其他相关模型作为预训练模型对图像进行编码。

随着如上述全卷积神经网络为代表的深度学习方法在图像语义分割领域中的广泛应用，属于以往难以解决的部分语义分割问题也开始被广泛考虑。其中的一个显著问题是图像中的小目标的准确分割和对于表观相似的目标的区分。这也是多数当前图像分割方法所共同面对且当下远远没有得到解决的难题。

发明内容

针对图像语义分割问题中的上述难点，本发明提供的基于深度神经网络的图像语义特征提取方法有助于解决现有技术中图像语义分割准确率低、小目标分割不准确以及相似目标被混淆的问题。

为达到上述发明目的，本发明采用的技术方案为：

根据本发明的第一方面，提供一种基于双重多尺度注意力机制的图像语义分割方法，包括以下步骤：

步骤1：选择图像数据集，所述图像数据集包括训练图像和测试图像，对所述图像数据集的训练图像和测试图像进行预处理；

步骤2：构建双重多尺度注意力机制的图像语义分割模型，所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。

步骤3：将步骤1中预处理后的训练图像送入步骤2中的图像语义分割模型，得到预测输出；

步骤4：根据预测输出与真实值的差异计算损失函数值，并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数；

步骤5：待到达预定训练次数后，停止训练，并固定图像语义分割模型参数；

步骤6：输入预处理后的测试图像，利用步骤5中得到的图像语义分割模型参数输出测试图像的预测图，即为所述测试图像对应的图像语义分割结果图。

进一步的，所述预定训练次数为100-5000次。

进一步的，所述图像语义分割模型包括一个特征提取模块、第一多尺度注意力机制解码模块、第二多尺度注意力机制解码模块和一个预测模块。

进一步的，所述图像语义分割模型中，所述特征提取模块为残差网络结构，通过引入残差连接和跨层连接，从不同尺度提取图像的低层特征。

进一步的，所述图像语义分割模型中，第一多尺度注意力机制解码模块用于从不同粒度的特征图中提取图像中应当关注的区域；第二多尺度注意力机制解码模块用于融合不同粒度的特征图表达，得到能反映出图像中小目标细节的语义分割结果。

进一步的，所述第一多尺度注意力机制解码模块包括多个不同尺度，且不同尺度间依次作用去产生下一个尺度的特征图。

进一步的，所述第二多尺度注意力机制解码模块通过前一层所得到的不同尺度的特征图进行反卷积与上采样来得到与特征提取模块的输出相同大小的特征图。

进一步的，所述步骤1具体为：

对于训练图像，进行随机翻转，并将图像中随机选择区域裁剪为第一固定尺寸，作为步骤3的输入；

对于测试图像，不进行翻转，以图像中心为中心，裁剪为第二固定尺寸，作为步骤6的输入，

其中，第一固定尺寸与第二固定尺寸相同。

进一步的，所述步骤3具体为：

步骤3.1将预处理后的训练图像i送入特征提取模块，得到训练图像i的特征图F_i,其大小为H×W×C，其中H,W,C分别为特征图F_i的宽度、高度和通道数，其中，i为整数且i≧1；

步骤3.2对F_i分别进行下采样，得到多尺度金字塔其中N表示第N个尺度，N为整数，其中每两层之间通过1*1的卷积形式相连接，由粗粒度的下采样结果进行1*1的卷积后，得到的特征图进行通道维度的池化操作，得到H为1、W为1的特征图；

步骤3.3以步骤3.2中得到的特征图送经sigmoid激活函数，得到的值作为第一多尺度注意力机制解码模块的权值特征其中N表示该权值是由第N个尺度的特征图得到；

步骤3.4以权值特征与下采样得到的多尺度金字塔相加权，得到输入的训练图像i在不同尺度的特征响应图

步骤3.5对每一个加权之后得到的特征响应图进行反卷积，形成H和W与输入的训练图像i相同大小的特征图

步骤3.6引入第二重注意力机制，对每一个得到的特征图按照通道数分为两个部分，如一种划分方法为可将前个通道和后个通道换分开，则假设每个原始的的大小为H_i*W_i*C_H,则按照通道数划分后将得到两个大小为的特征图部分；

步骤3.7由上一步得到的两个特征图部分进行元素级别的相乘，得到大小不变的加权后的特征图这里的权值即为拆分后得到的两个特征图部分中的一方，而加权对象即为另一方。该自注意力形式的优点在于权值与被加权对象处于同一参数空间，因此不需担心因权值空间与被加权对象的空间存在较大差异而引起的“不适合加权”情况；

步骤3.8进一步跨层引入F_i，上采样得到原始图大小的特征图L_i；

步骤3.9融合与L_i，得到与原始图大小相同的输出预测图。

根据本发明的第二方面，提供一种基于双重多尺度注意力机制的图像语义分割装置，所述图像语义分割方法采用根据以上任一方面所述的方法来进行图像语义分割，所述图像语义分割装置包括：

预处理模块，用于选择图像数据集，所述图像数据集包括训练图像和测试图像，对所述图像数据集的训练图像和测试图像进行预处理；

模型构建模块，用于构建双重多尺度注意力机制的图像语义分割模型，所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。

预测输出模块，用于将预处理后的训练图像送入图像语义分割模型，得到预测输出；

参数调优模块，用于根据预测输出与真实值的差异计算损失函数值，并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数；

参数固定模块，用于待到达预定训练次数，如5000次后，停止训练，并固定图像语义分割模型参数；

预测图输出模块，用于在输入预处理后的测试图像，利用参数固定模块中得到的图像语义分割模型参数输出测试图像的预测图，即为所述测试图像对应的图像语义分割结果图。

本发明的有益效果为：本发明提供的基于双重多尺度注意力机制的图像语义分割方法，通过利用两个不同层次、不同位置和不同方式(下采样、上采样)的多尺度特征图的融合，可以一方面充分增强进而有效捕捉图像中的小目标信息，另一方面可以通过不同尺度下目标周边的上下文信息的结合，解决易混淆目标的区分问题，进行可以得到较好的图像语义分割结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1示出根据本发明的一种基于双重多尺度注意力机制的图像语义分割方法流程图；

图2示出根据本发明的一种基于双重多尺度注意力机制的图像语义分割装置模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

为解决现有技术中的图像分割方法无法准确分割出较小目标和相似目标的问题，本发明提出一种基于双重多尺度注意力机制的图像语义分割方法，一方面通过多尺度信息的融合，使网络充分提取不同尺度信息，增强细粒度的小目标信息；另一方面融合不同层级的上下文信息，帮助区分相似的目标，使得网络在做出语义分割的判断时，能够充分考虑不同尺度的上下文信息，辅助对于小目标和易混淆目标的语义判断。该发明提出的一种图像分割方法，能够广泛应用于一般性的图像语义分割领域。

如图1所示，基于双重多尺度注意力机制的图像语义分割方法，本发明包括如下步骤：

步骤1：选择训练数据；本实施例中选择PASCAL VOC 2012作为训练测试基准。

步骤2：构建特征提取模块。构建深度网络作为图像的编码网络，包括33个残差模块用以充分的提取不同尺度的特征并使模型尽可能的保留目标细节信息。其中的每个残差模块由1个1*1卷积层、1个3*3卷积层和1个1*1卷积层级联后与输入相加而形成。

步骤3：对特征提取模块进行预训练。利用ImageNet数据对上述步骤构建的特征提取模块进行预训练，使该模块能有一个比较好的初始值。

步骤4：将上述特征提取模块去掉最后一层用于分类的全连接层载入语义分割模型中，输入原始图像后，得到图像i的特征表示F_i，假设其维度为H*W*C。

步骤5：送入第一重多尺度注意力机制模块，从多个尺度层面提取图像特征。将步骤4中得到的特征图F_ii分别进行不同尺度的池化操作。如图1中选择了3个尺度，池化后的特征图大小分别为1*1*C，(H/4)*(W/4)*C,(H/2)*(W/2)*C，分别记为其中N表示第N个尺度。

在获取过程中，每一个粗粒度的特征图会经过池化操作，将H与W维度压缩为1,而同时保持C唯度不变，进而作为权值向量，与相乘，得到加权的

步骤6：对得到的进行上采样或反卷积，得到与原始图同样大小的特征图

步骤7：对施加自注意机制(送入第二多尺度注意力机制解码模块)。将在通道维度划分为两个部分，每个部分的高度与宽度信息与原始的H相同，而通道数各自是的通道数的一半，记为

步骤8：由得到加权后的特征图

步骤9：将所有尺度下的不同进行堆叠，然后进行卷积得到预测的语义分割图。

如图2所示，本发明还提供了一种基于双重多尺度注意力机制的图像语义分割装置，所述图像语义分割方法采用根据以上任一方面所述的方法来进行图像语义分割，所述图像语义分割装置包括：

预处理模块201，用于选择图像数据集，所述图像数据集包括训练图像和测试图像，对所述图像数据集的训练图像和测试图像进行预处理；

模型构建模块202，用于构建双重多尺度注意力机制的图像语义分割模型，所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分。

预测输出模块203，用于将预处理后的训练图像送入图像语义分割模型，得到预测输出；

参数调优模块204，用于根据预测输出与真实值的差异计算损失函数值，并通过对所述损失函数值的梯度的反向传播来调优图像语义分割模型参数；

参数固定模块205，用于待到达预定训练次数后，停止训练，并固定图像语义分割模型参数；

预测图输出模块206，用于在输入预处理后的测试图像，利用参数固定模块中得到的图像语义分割模型参数输出测试图像的预测图，即为所述测试图像对应的图像语义分割结果图。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于双重多尺度注意力机制的图像语义分割方法，其特征在于，包括以下步骤：

步骤1：选择图像数据集，所述图像数据集包括训练图像和测试图像，对所述图像数据集进行预处理；

步骤2：构建双重多尺度注意力机制的图像语义分割模型；

步骤3：将预处理后的训练图像送入图像语义分割模型，得到预测输出；

2.根据权利要求1所述的图像语义分割方法，其特征在于，所述图像语义分割模型包括特征提取模块、第一多尺度注意力机制解码模块、第二多尺度注意力机制解码模块和预测模块。

3.根据权利要求2所述的图像语义分割方法，其特征在于，所述图像语义分割模型中，所述特征提取模块为残差网络结构，通过引入残差连接和跨层连接，从不同尺度提取图像的低层特征。

4.根据权利要求2所述的图像语义分割方法，其特征在于，所述图像语义分割模型中，第一多尺度注意力机制解码模块用于从不同粒度的特征图中提取图像中应当关注的区域；第二多尺度注意力机制解码模块用于融合不同粒度的特征图表达，得到能反映出图像中小目标细节的语义分割结果。

5.根据权利要求2所述的图像语义分割方法，其特征在于，所述第一多尺度注意力机制解码模块包括多个不同尺度，且不同尺度间依次作用去产生下一个尺度的特征图。

6.根据权利要求2所述的图像语义分割方法，其特征在于，所述第二多尺度注意力机制解码模块通过前一层所得到的不同尺度的特征图进行反卷积与上采样来得到与特征提取模块的输出相同大小的特征图。

7.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤1具体为：

对于训练图像，进行随机翻转，并将图像中随机选择区域裁剪为第一固定尺寸，得到预处理后的训练图像；

对于测试图像，不进行翻转，以图像中心为中心，裁剪为第二固定尺寸，得到预处理后的测试图像，

其中，第一固定尺寸与第二固定尺寸相同。

8.根据权利要求1所述的图像语义分割方法，其特征在于，所述步骤3具体为：

步骤3.1将预处理后的训练图像i送入特征提取模块，得到训练图像i的特征图F_i，其大小为H×W×C，其中H，W，C分别为特征图F_i的宽度、高度和通道数，其中，i为整数且i≥1；

步骤3.6引入第二重注意力机制，对每一个得到的特征图按照通道数分为两个部分，每个原始的的大小为H_i*W_i*C_H，则按照通道数划分后将得到两个大小为的特征图部分；

步骤3.7由步骤3.6得到的两个特征图部分进行元素级别的相乘，得到大小不变的加权后的特征图这里的权值即为拆分后得到的两个特征图部分中的一方，而加权对象即为另一方；

步骤3.9融合与L_i，得到与原始图大小相同的输出预测图。

9.一种基于双重多尺度注意力机制的图像语义分割装置，所述图像语义分割方法采用根据权利要求1至8中任一项所述的方法来进行图像语义分割，所述图像语义分割装置包括：

模型构建模块，用于构建双重多尺度注意力机制的图像语义分割模型，所述图像语义分割模型包括特征提取模块、双重多尺度注意力机制解码模块、预测模块三个部分；

参数固定模块，用于待到达预定训练次数后，停止训练，并固定图像语义分割模型参数；