CN112233129A

CN112233129A - 基于深度学习的并行多尺度注意力机制语义分割方法及装置

Info

Publication number: CN112233129A
Application number: CN202011128413.XA
Authority: CN
Inventors: 周彦; 周振; 王冬丽
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-15
Anticipated expiration: 2040-10-20
Also published as: CN112233129B

Abstract

本发明公开了一种基于深度学习的并行多尺度注意力机制语义分割方法，首先对图像数据集进行预处理，提高模型的分割精度及其鲁棒性。以对第五层卷积层进行调整后的ResNet‑50为基础，再通过接在基网络的顶部的并行多尺度注意力模块用来聚合多尺度语义信息。最后通过双线性上采样恢复图像尺寸。本发明在原来每个并行的五个大小不同的卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制，增强五个并行膨胀卷积得到的特征图中的重要语义信息，抑制次要语义信息。

Description

基于深度学习的并行多尺度注意力机制语义分割方法及装置

技术领域

本发明属于深度学习及计算机视觉领域，具体涉及一种基于深度学习的并行多尺度注意力机制语义分割方法及装置。

背景技术

语义分割是一个基础且具有挑战性的任务，其目的就是需要预测每个像素的类别，即需要学习物体轮廓、物体位置和物体类别的高层语义信息和局部位置信息。作为计算机视觉最基本的任务之一，语义分割已经在自动驾驶、医学诊断、视频编辑、目标检测以及航空图像分析等领域得到了广泛的应用。近年来，随着深度卷积神经网络的发展，相较于随机森林等传统的机器学习方法，深度卷积神经网络具有更为强大的特征提取能力。尤其是全卷积网络FCN的出现，使语义分割实现了端到端的预测。随后语义分割的发展主要围绕如何获取更多的上下文信息和如何提升分辨率两个方面做改进。

一般来说网络越深感受野越大，但是实际网络中的感受野远小于理论上的感受野，这使得网络无法有效的融合全局特征信息。虽然全卷积网络FCN实现了语义分割领域端到端预测，但是FCN网络缺乏更大范围的捕获上下特征，而这些信息对提高语义分割精度是有帮助的。为了聚合更多的上下特征，文献“Rethinking Atrous ConvolutionforSemantic Image Segmentation”提出了空间金字塔池化ASPP模型用来融合不同区域的上下文特征。而虽然ASPP利用几个不同空洞率的卷积核能有效地捕获多尺度信息，但是在多尺度信息聚合阶段没有考虑到不同感受野捕获的特征之间的差异。

发明内容

针对ASPP模型现有技术的缺陷，本发明的目的在于通过设计EDS模块，希望能建立ASPP中多尺度特征图之间的相互依赖关系，通过学习的方式获取不同尺度信息的重要程度。本发明提出的并行多尺度注意力模块能够在捕获多尺度信息的同时，增强重要特征信息的表达并抑制次要信息。

为了实现上述技术目的，本发明的技术方案是，

一种基于深度学习的并行多尺度注意力机制语义分割方法，包括以下步骤：

步骤1：对训练集中的图像进行预处理；

步骤2：基于预处理后的图像对图像处理模型进行训练，其中图像处理模型是基于ResNet-50网络搭建，且第五层的卷积层的空洞率为2，步长为1；图像在由ResNet-50网络处理后再聚合多尺度语义信息，最后通过双线性上采样恢复图像尺寸，得到预测图；

步骤3：将预测图和由人工进行分割标记得到的真实标签图输入到交叉熵损失函数中，通过反向传播算法优化交叉熵损失函数来使图像处理模型得到的预测图不断逼近真实标签图，同时使用平均交并比作为模型的评估标准来对模型进行评估，并基于训练集中不同图像反复迭代来训练模型，在达到评估标准或最大迭代次数后完成训练；

步骤3：训练完成后即得到图像处理模型，将需要处理的图像输入图像处理模型，得到分割结果。

所述的方法，所述的步骤1中的预处理包括以下步骤：

在0.5到1.5倍之间随机缩小或放大图像，并在缩小后进行相应填充，或在放大后进行相应裁剪，以使图像回复原尺寸；然后进行水平翻转，再通过高斯滤波对图像进行平滑处理。

所述的方法，在图像缩小后进行相应填充时，是在缩小后的图像四周均匀填充灰度值为0的像素，直到图像恢复原尺寸；在放大后进行相应裁剪时，是将超过图像原尺寸大小的部分从图像四周均匀删除，直到图像恢复原尺寸。

所述的方法，所述的步骤2中聚合多尺度语义信息处理过程为；

首先由五个并行且大小不同的空洞卷积核所构成的ASPP模块对经ResNet-50网络处理后的图像提取特征，从而得到五张不同的特征图，然后通过计算其中一张特征图U∈R^H ^×W×C和V∈R^H×W×5C之间的相似度即EDS模块操作，使U成为带有注意力的特征图的U′，即：

U′＝F_eds(U,V)

其中，U为提取出的五张特征图中的一张，V为将五张特征图以串联形式拼接后的特征图，R表示特征图的大小，H，W，C分别表示特征图的高度，宽度，通道数，F_eds是EDS模块操作，U′是最终输出特征图；对每张特征图均执行同样的上述操作。

所述的方法，所述的ASPP模块中五个并行且大小不同的空洞卷积核包括：1×1的卷积核，3×3膨胀率为6的空洞卷积核，3×3膨胀率为12的空洞卷积核，3×3膨胀率为18的空洞卷积核，全局平均池化卷积核。

所述的方法，EDS模块操作包括以下步骤：

对ASPP模块产生的五张特征图分别单独执行以下操作：

首先将U顺着空间维度进行压缩，即将每个二维的特征通道利用全局平均池化将其变为一个实数，随后将输入至1x1的卷积，再进行Batch Normalization和ReLU操作，得到特征图X∈R^1×1×C：

其中AvgPool，f，

σ分别代表平均池化，卷积，Batch Normalization和ReLU操作；

然后将特征图V先进行1x1的卷积操作，随后进行如处理U的相同操作，最后得到特征图Y∈R^1×1×C：

然后计算特征图向量X＝[x₁,x₂…x_C]和Y＝[y₁,y₂…y_C]的相似度d(X,Y)：

其中x_C表示特征图X在对应的第C个通道上的值，y_C表示特征图Y在对应的第C个通道上的值；

求倒数以将相似度d(X,Y)的范围限定在(0～1)：

然后将相似度特征值λ乘以原来的特征图U，得到带有注意力机制的特征图U′，

U'＝λ×U

然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联形式进行拼接，再用1x1卷积将通道降为C，最后依次进行Batch Normalization、ReLU、Droupout(0.3)。

所述的方法，所述的步骤2中双线性上采样包括以下步骤：

将经过EDS模块处理后的特征图输入一个1x1的卷积得到一个具有k个通道的热图t，其中k为所要预测图像中的所需要识别分割的类别数，最后将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小，得到最终的预测图T＝{T₁,T₂,…,T_K}。

所述的方法，步骤3中所述的交叉熵损失函数L为：

其中p(x_i)是真实样本分布，q(x_i)是预测得到的样本分布，q(x_i)＝h_w,b(x_i)，h_w,b表示图像处理模型的前向传播，w和b表示需要训练的图像处理模型的权重和偏置；

new_w＝existing_w-new_lr×gradient

其中existing_w为当前图像处理模型的权重，new_lr为当前学习率，gradient为图像处理模型设置的梯度，new_w为经过一次反向传播算法后更新的权重。

所述的方法，步骤3中所述的反向传播算法，是通过poly学习策略更新当前学习率new_lr，表达式为：

new_lr＝base_lr*(1-iter/maxiter)^power

其中new_lr为当前学习率，power为常量，base_lr为初始学习率，iter为当前迭代步数，maxiter为最大迭代步数。

所述的方法，步骤3中所述的作为评估标准的平均交并比MeanIou为：

其中p_ii表示真正被预测正确的像素数量，p_ij表示本属于i类但被预测为j类的像素数量，p_ji表示本属于j类但被预测为i类的像素数量，k为所要预测图像的类别数。

一种基于深度学习的并行多尺度注意力机制语义分割装置，包括：

下采样特征提取模块，用于对图像进行特征提取并得到特征图；

双线性上采样模块，用于对特征图进行上采样以恢复至原始图片大小；

所述的下采样特征提取模块包括ResNet-50神经网络子模块，ASPP模块和EDS模块；

所述的ResNet-50神经网络子模块为基于ResNet-50网络搭建，且第五层的卷积层的空洞率为2，步长为1的神经网络模块，用于对原始图像进行初步特征提取；

所述的ASPP模块包括五个并行且大小不同的卷积核，用于对经ResNet-50神经网络子模块处理后的特征图进行特征提取以得到五张不同的特征图；

所述的EDS模块用于对五张不同的特征图与五张特征图以串联形式拼接后的特征图进行相似度计算，以得到五张带有注意力机制的特征图，最后进行拼接。

本发明的技术效果在于：

(1)本发明通过对图像进行预处理提高模型的精度同时能增强模型的鲁棒性。

(2)本发明通过构建基于深度学习的并行多尺度注意力机制语义分割结构，能够有效地对图像特征进行提取，提高语义分割的精度。

(3)本发明在将ResNet-50第五层卷积改为空洞率为2的卷积，这样可以在不增加计算量的同时增加感受野。此外，将原ResNet-50第五层的步长改为1，可以不降低图像的分辨率，提高分割精度。

(4)本发明改进了原来的ASPP结构，本方法在原来每个并行的五个大小不同卷积核得到的特征图后面增加了一个相似度EDS模块。通过添加这种注意力机制，增强五个并行大小不同卷积核得到的特征图中的重要语义信息，抑制次要语义信息。

附图说明

图1为本发明的图像处理过程图。

图2为本发明的总体流程图。

图3为本发明的并行多尺度注意力模块。

图4为本发明的EDS模块详细结构图。

图5为数据集中飞鸟原图A。

图6为飞鸟原图A的标签图。

图7为飞鸟原图A在deeplabv3模型下的分割预测图。

图8为飞鸟原图A在本发明神经网络框架下的分割预测图。

具体实施方式

下面结合附图对本实施例做进一步的描述。

本实施例所涉及的图像处理过程如图1所示，在图1的神经网络模型结构中包括图像预处理、下采样特征提取模块、并行多尺度注意力模块、上采样模型。其中并行多尺度注意力模块包括ASPP模块和EDS模块。

预处理阶段可以理解为一种数据增强，即对图像进行旋转、缩放、裁剪翻转。通过对图像进行预处理操作可以提高语义分割效果，增强模型的鲁棒性。具体来说，本实施例首先在0.5到1.5倍之间随机缩小或放大图像，并在缩小后进行相应填充，或在放大后进行相应裁剪，以使图像回复原尺寸；然后进行水平翻转，再通过高斯滤波对图像进行平滑处理。其中在图像缩小后进行相应填充时，是通过padding方式，即在缩小后的图像四周均匀填充灰度值为0的像素，直到图像恢复原尺寸。在放大后进行相应裁剪时，是将超过图像原尺寸大小的部分从图像四周均匀删除，即从图像四周同时删除一部分，直到图像恢复原尺寸。

然后对预处理后的图片进行下采样提取特征，首先输入基于ResNet-50搭建的神经网络框架。本实施例对ResNet-50的第五层进行了修改，将第五层的卷积层改为空洞率为2，同时将步长改为1，这样可以增加感受野同时不降低分辨率，减少边缘细节损失，提高分割精度。

参见图3，经过处理后的图像再输入并行多尺度注意力模块，本实施例的并行多尺度注意力模块设置在ResNet-50网络第五层之后，且包括ASPP模块和EDS模块，其中ASPP模块采用五个并行不同大小的卷积核分别提取特征，五个卷积核分别为1×1的卷积核，3×3膨胀率为6的空洞卷积核，3×3膨胀率为12的空洞卷积核，3×3膨胀率为18的空洞卷积核，全局平均池化卷积核。图像经ASPP模块处理后，得到五个特征图。

然后通过EDS模块计算五个并行特征图之间的相似度，以此方法来突出重要的特征并抑制次要特征。

参见图4，EDS模块的操作流程包括以下步骤：

以U∈R^H×W×C和V∈R^H×W×5C作为ASPP的输出，其中U为提取出的五张特征图中的一张，V为将五张特征图以串联形式拼接后的特征图，H，W，C分别表示特征图的高度，宽度，通道数，将U和V输入EDS模块，使U成为带有注意力的特征图的U′，整个转换过程即：

U′＝F_eds(U,V)

其中F_eds是EDS模块操作，U′是最终输出特征图。然后再将其余四个并行特征图分别来与V进行处理，以得到五个结果。

具体来说，在对一张特征图进行EDS模块处理时，为了聚集空间信息，首先将原ASPP产生的特征图U顺着空间维度进行压缩，将每个二维的特征通道利用全局平均池化将其变为一个实数，这个实数某种程度上具有全局的感受野。也就是说，通过全局平均池化得到的特征图在一定程度上能代表特征图U所携带的信息。随后将其输入1x1的卷积，再进行Batch Normalization和ReLU操作。最后得到特征图X∈R^1×1×C。计算操作如下：

其中AvgPool，f，

σ分别代表平均池化，卷积，Batch Normalization和ReLU操作。

为了使V的输出通道数和U的输出通道数相匹配，先将特征图V进行1x1的卷积操作，随后进行和V相同的操作。最后得到特征图Y∈R^1×1×C。计算操作如下：

其中AvgPool，f，

σ分别代表平均池化，卷积，Batch Normalization和ReLU操作。

然后计算特征图向量X＝[x₁,x₂…x_C]和Y＝[y₁,y₂…y_C]的相似度d(X,Y)，计算过程如下：

为了将相似度d(X,Y)的范围限定在(0～1)，再进行一次取倒数，计算如下：

最后将相似度特征值λ乘以原来的特征图U，得到带有注意力机制的特征图U′，计算过程如下：

U'＝λ×U

原ASPP模块剩下的四特征图也进行同样的操作得到相应的注意力特征图。然后将原来ASPP模块得到的5个特征图和经过EDS模块变换得到的5个注意力特征图以串联的形式进行拼接。最后，用1x1卷积将通道降为C，再进行Batch Normalization、ReLU、Droupout(0.3)。

完成特征提取后，再执行双线性上采样，首先用一个1x1的卷积得到一个k通道的热图t，其中k为所要预测图像的类别数，也即图像中的所需要进行识别分割的类别数，将热图t通过双线性上采样算法进行16倍上采样恢复到原图大小得到最终的预测图T＝{T₁,T₂,…,T_K}。

最后将得到的预测图和真实标签图输入到交叉熵损失函数中，通过反向传播算法优化交叉熵损失函数L的值来使本发明模型的预测图不断逼近真实图标签。其中真实标签图就是人为的对数据集中原始的输入图片进行分割上色标记所生成的标签图，这个标签图是百分之百分割正确的。交叉熵损失函数定义如下：

q(x_i)＝h_w,b(x_i)

其中p(x_i)是真实样本分布，q(x_i)是预测得到的样本分布，h_w,b表示图像处理模型的前向传播，w和b表示需要训练的图像处理模型的权重和偏置。整个模型的训练就是利用反向传播算法优化损失函数L中的权重w和偏置b，有

new_w＝existing_w-new_lr×gradient

其中existing_w为当前网络模型的权重，new_lr为当前学习率，gradient为网络模型设置的梯度，new_w为经过一次反向传播算法后更新的权重。偏置b是一个微调参数，反向传播时会自己调节，以实现更好的拟合数据。

本实施例采用poly学习策略来控制学习率，数学表达示定义如下：

new_lr＝base_lr*(1-iter/maxiter)^power

其中new_lr为当前学习率，power为常量设置为0.9，base_lr为初始学习率，在本实施例中设置为0.0053，iter为当前迭代步数，maxinter为最大迭代步数。

poly学习策略的目的是逐渐减小反向传播算法中的学习率来控制交叉熵损失函数L值的收敛速度。在模型训练前期，学习率较大，加速模型的训练来节约模型的训练时间。在模型训练后期，此时预测图比较接近真实图，再通过ploy学习策略来减小反向传播算法中的学习率，放慢模型训练速度来使模型训练更加精细化。

为了验证本发明模型在交叉熵损失函数和poly学习策略辅助下的图片分割效果。对分割效果图进行评估，本实施例采用平均交并比作(Miou)为主要评估标准，数学表达示定义如下：

其中p_ii表示真正被预测正确的像素数量，p_ij表示本属于i类但被预测为j类的像素数量，p_ji表示本属于j类但被预测为i类的像素数量。k+1表示的是一张图片中要预测的k个所需要进行识别分割的类别数和1个背景。

本实施例最终得到的基于深度学习的并行多尺度注意力机制语义分割装置，包括：

下采样特征提取模块包括ResNet-50神经网络子模块，ASPP模块和EDS模块；

ResNet-50神经网络子模块为基于ResNet-50网络搭建，且第五层的卷积层的空洞率为2，步长为1的神经网络模块，用于对原始图像进行初步特征提取；

ASPP模块包括五个并行且大小不同的卷积核，用于对经ResNet-50神经网络子模块处理后的特征图进行特征提取以得到五张不同的特征图；

EDS模块用于对五张不同的特征图与五张特征图以串联形式拼接后的特征图进行相似度计算，以得到五张带有注意力机制的特征图，最后进行拼接。

本实施例的效果验证：

根据Miou值和分割效果图进行分析。

图5为飞鸟图像A的原图；图6为飞鸟图像A的标签；图7为飞鸟图像A在deeplabv3模型下的分割预测图；图8为飞鸟图像A在本发明神经网络框架结构下的分割预测图。本实施例得到的Miou值为72.69％。通过对比分割预测图可以看出，本发明的神经网络框架结构能分割预测出鸟儿的尾巴，表明本发明采用的方法可以进一步提高分割效果。