CN111259983A

CN111259983A - 基于深度学习的图像语义分割方法及存储介质

Info

Publication number: CN111259983A
Application number: CN202010091095.8A
Authority: CN
Inventors: 程博; 管庆; 元楚楚; 潘晔; 胡全; 汪浩翔; 文卓豪; 雍怡然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-09
Anticipated expiration: 2040-02-13
Also published as: CN111259983B

Abstract

本发明公开了一种基于深度学习的图像语义分割方法及存储介质，图像语义分割方法包括在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型，并采用Imagenet‑1K数据集对预训练模型进行分类训练；将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型；通过翻转、旋转和缩放对数据集cityscapes进行扩充，并采用扩充后的数据集对语义分割模型进行训练，得到目标语义分割模型；将预处理后的新图片输入目标语义分割模型，在目标语义分割模型中进行一次前向传播，端到端地输出预测的语义分割结果。

Description

基于深度学习的图像语义分割方法及存储介质

技术领域

本发明涉及图像处理技术，具体涉及一种基于深度学习的图像语义分割方法及存储介质。

背景技术

当前绝大多数最佳的图像语义分割方法多是以deeplabv3+为基础的编码器-解码器框架。编码器部分：首先deeplabv3+通过在ImagNet数据集上预训练resnet得到特征提取网络，但下采样会降低特征的分辨率，导致信息丢失，于是将最后一个残差块的普通卷积替代为空洞卷积，这个残差块内的每个卷积都使用了不同的扩张率来捕捉多尺度的语境信息。然后，将提取的特征输入到ASPP模块。ASPP模块将输入的特征同时输出到五个模块中，第一个模块采用平均池化对特征进行融合，使得编码模块最后的特征图能够融合图像的多尺度信息，可以提高小目标的分割精度。第2到第5个模块采用了不同膨胀率的空洞卷积对特征进行提取，获得4种拥有不同感受野的特征，膨胀率分别是1，6，12，18。ASPP输出的特征通道数一般来说会很大，所以之后将这五个模块的输出作concat，然后通过一个1x1的卷积层，降低特征的通道数到需要的数值，最后得到编码部分的输出。

解码器部分：编码器输出的特征虽然能够提供丰富的语义信息，但是多次下采样操作会导致特征边界信息丢失，如果直接上采样到原图尺寸会导致语义分割结果的物体边界模糊，分割精度会很低。于是首先将编码模块的输出进行四倍的上采样操作，然后从特征提取网络中选择一张分辨率一致的特征图，这张特征图进行1x1的普通卷积扩大通道数并使之与四倍上采样得到的输出一致，然后将这两部分特征进行concat，最后通过3x3的普通卷积和四倍的上采样得到预测结果。

尽管空洞残差模块和ASPP使得deeplabv3+在图像语义分割上获得了较高的精度，但过大的计算量导致其无法进行实时的场景处理，同时大量的膨胀卷积会导致网格效应，同时直接将上下文特征concat后上采样的解码方式过于粗糙。

发明内容

针对现有技术中的上述不足，本发明提供的基于深度学习的图像语义分割方法及存储介质解决了现有技术中图像语义分割方法运算量大的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，提供一种基于深度学习的图像语义分割方法，其包括：

在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型，并采用Imagenet-1K数据集对预训练模型进行分类训练；

将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型；

通过翻转、旋转和缩放对数据集cityscapes进行扩充，并采用扩充后的数据集对语义分割模型进行训练，得到目标语义分割模型；

将预处理后的新图片输入目标语义分割模型，在目标语义分割模型中进行一次前向传播，端到端地输出预测的语义分割结果。

进一步，所述特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块；

所述采用扩充后的数据集对语义分割模型进行训练，得到目标语义分割模型进一步包括：

S1、于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图；

S2、将特征图输入轻量级ASPP模块进行融合，得到融合多尺度信息的高级特征；

S3、第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正，分别得到修正后的高级特征和低级特征；

S4、将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征；

S5、采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正，分别得到再次修正后的高级特征和低级特征；

S6、将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征，并对最终的高级特征进行上采样完成一次迭代，并将训练迭代次数累加一次；

S7、判断训练迭代次数是否大于等于预设迭代次数，若是，进入步骤S8，否则返回步骤S1；

S8、完成语义分割模型的训练，得到目标语义分割模型。

第二方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现图像语义分割方法的步骤。

采用上述方案后，本发明的有益效果为：

(1)本方案的语义分割方法采用预训练好的特征提取网络做基础模型进行特征提取，得到的特征经过轻量级ASPP模块可以在速度和精度上取得提升。

(2)现在常用的特征融合只是将高低级别特征做concat或者sum操作，无法剔除特征中伴有的噪声，而本方案在特征融合前分别让高低级特征经过空间注意力模块和双通道注意力模块，剔除特征中的噪声，在只消耗微量计算的情况下提升网络分割的精度。

附图说明

图1为基于深度学习的图像语义分割方法的流程图。

图2为本方案的语义分割模型的结构图。

图3为本方案的特征增强模块的结构图。

图4为本方案的双通道注意力模块的结构图。

图5为本方案的空间注意力模块的结构图。

图6为本方案的特征融合模块的结构图。

图7为本方案的轻量级ASPP模块的结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了基于深度学习的图像语义分割方法的流程图；如图1所示，该方法100包括步骤101至步骤104。

在步骤101中，在特征提取网络后串联一个平均全局池化层和一个输出为1000的全连接层作为分类的预训练模型，并采用Imagenet-1K数据集对预训练模型进行分类训练，参见表1。

表1为训练后的预训练模型

Imagenet-1K数据集包含1K个类别，由1,281,167张训练集，50000张验证集，100000张测试集组成。在对预训练模型进行分类训练时，其训练策略为：

输入为统一resize为224×224，batch_size为256，优化策略为SGD随机梯度下降法，正则项系数weight_decay为0.0001，动量参数power为0.9，损失函数为交叉熵损失函数，先使用0.1的学习率训练5轮，然后使用0.8的学习率训练80轮。

在步骤102中，将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型；语义分割模型的结构图可以参考图2。

其中，特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块，特征增强模块的结构图可以参考图3。

在步骤103中，通过翻转、旋转和缩放对数据集cityscapes进行扩充，并采用扩充后的数据集对语义分割模型进行训练，得到目标语义分割模型；

本实例中数据集cityscapes包含2975张训练集，500张验证集，1525张测试集。在训练集中随机选取一半进行-10和10度旋转，在训练集中随机选取一半进行0.5和2倍的缩放，通过旋转和缩放操作后，数据集cityscapes扩充为原来的3倍，在此基础上进行水平镜像翻转，训练集cityscapes扩充为原来的6倍。

在本发明的一个实施例中，所述采用扩充后的数据集对语义分割模型进行训练，得到目标语义分割模型进一步包括步骤S1至步骤S8。

在步骤S1中，于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图；

实施时，本方案优选所述特征提取网络由五部分串联构成，其中一、二部分均为步长为2的3x3标准卷积；

第三部分和第四部分相同，均由1个过渡层和2个密集连接层串联而成，过渡层由两个并联支路组成，两个支路的输入相同，一个支路是步长为2的3x3标准卷积串联一个步长为1的3x3标准卷积，另一个支路是步长为2的1x1标准卷积，两个支路的输出相加作为与其连接的密集连接层的输入，两个密集连接层都是由两个步长为1的3x3标准卷积串联而成的标准残差结构；

第五部分由1个过渡层、2个密集连接层和1个过渡层串联而成，第五部分的第一个过渡层和2个密集连接层与第三部分的组成结构相同，第二个过渡层由两个并联支路组成，两个支路的输入相同，一个支路是步长为1的3x3标准卷积串联一个步长为1的3x3标准卷积，另一个支路是步长为1的1x1标准卷积，两个支路的输出相加作为特征提取网络的输出。

在步骤S2中，将特征图输入轻量级ASPP模块进行融合，得到融合多尺度信息的高级特征。

在本发明的一个实施例中，所述轻量级ASPP模块(轻量级ASPP模块的结构图可以参考图7)包括三个支路，特征提取网络的输出作为轻量级ASPP模块的输入特征，输入特征并行输入到轻量级ASPP模块的三个支路进行处理：

第一个支路经过全局平均池化，步长为1的1x1标准卷积降维，上采样到输入时的分辨率，输出结果为aspp1；第二个支路直接经过步长为1的1x1标准卷积降维，输出结果为aspp2；

第三个支路先经过分组为4，膨胀率为4，步长为1的3x3卷积，输出记为temp1，temp1先经过步长为1的3x3标准卷积输出aspp3；temp1再经过分组为4，膨胀率为9，步长为1的3x3卷积，输出记为temp2，temp1与temp2逐点相加得到temp3，temp3先经过步长为1的3x3标准卷积输出aspp4，temp3再经过分组为4，膨胀率为16，步长为1的3x3卷积，输出记为temp4，temp3与temp4逐点相加得到temp5，temp5经过步长为1的3x3标准卷积输出aspp5；

将轻量级ASPP模块的输入特征、aspp1、aspp2、aspp3、aspp4和aspp5级联，aspp1、aspp2、aspp3、aspp4、aspp5通道都是128，然后接入到步长为1的3x3标准卷积降维到512，再经过步长为1的1x1标准卷积降维到32得到轻量级ASPP模块的输出。

采用上述结构的轻量级ASPP模块后，可以减轻原始ASPP导致的网格效应，可以提升精度。

在步骤S3中，第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正，分别得到修正后的高级特征和低级特征；

步骤S3中高级特征和特征提取网络中间部分跳接而来的低级特征均作为第一个特征增强模块的空间注意力模块和双通道注意力模块内均输入特征。

在步骤S4中，将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征；

在步骤S5中，采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正，分别得到再次修正后的高级特征和低级特征；

步骤S5中第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征均作为第二个特征增强模块的空间注意力模块和双通道注意力模块内均输入特征。

在步骤S6中，将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征，并对最终的高级特征进行上采样完成一次迭代，并将训练迭代次数累加一次。

如图3和图6所示，实施时，本方案优选两个特征融合模块得到高级特征的实现方法包括：

输入的高级特征首先经过上采样使分辨率与输入的低级特征相同，然后低级特征与高级特征级联，级联后先做3x3标准卷积混洗，然后作1x1标准卷积降维通道到32作为高级特征输出。

在步骤S7中，判断训练迭代次数是否大于等于预设迭代次数，若是，进入步骤S8，否则返回步骤S1；

在步骤S8中，完成语义分割模型的训练，得到目标语义分割模型。

在训练语义分割模型过程中，其训练策略为：

网络输入为随机裁剪后的1024*1024，batch_size为12，优化策略为SGD，正则项系数weight_decay为0.0001，动量参数power为0.9，

其中，初始学习率设置为0.005，分别在100轮、200轮、300轮、400轮迭代后对学习率进行衰减，衰减系数为0.1，损失函数为交叉熵损失。

在步骤104中，将预处理后的新图片输入目标语义分割模型，在目标语义分割模型中进行一次前向传播，端到端地输出预测的语义分割结果。

下面以一个小实例对步骤104进行说明，输入分辨率为2048*1024的图像首先经过特征提取网络得到分辨率为原图1/32的特征图，然后特征图经过轻量级ASPP模块得到融合多尺度信息的高级特征，通过空间注意力模块修正高级特征，通过双通道注意力模块修正由特征提取网络第四部分跳接后降维而来的低级特征，将修正后的高低级特征输入特征融合模块得到分辨率为原图1/16的高级特征。经过两次修正和融合后，特征图分辨率为原图1/8，接着经过一个3×3的卷积将特征通道数改为待分割类别的数目，再经过8倍上采样得到分割预测结果。

在本发明的一个实施例中，两个双通道注意力模块(双通道注意力模块的结构图可以参考图4)得到修正后低级特征进一步包括：

高级特征首先输入一个通道权值提取模块，所述通道权值提取模由两个并行支路组成：一个支路对高级特征做平均全局池化得到特征图

然后做1/4降维的全连接+relu激活得到特向向量

最后做一个升维4倍的全连接得到特征向量

另一个支路首先做极大值全局池化得到特征图

然后做降维的全连接+relu激活得到特向向量

最后做一个升维的全连接得到特征向量

接着将两个升维后的特征向量

和特征向量

相加，再做sigmoid归一化得到向量

将向量

与特征提取网络中间部分跳接而来的低级特征逐通道相乘，得到通道权重修改后的低级特征

实施时，本方案优选两个空间注意力模块(空间注意力模块的结构图可以参考图5)得到修正后高级特征进一步包括：

输入的低级特征首先经过1x1的标准卷积降维1/4，分辨率不变，得到特征图L^down，然后经过1x1的标准卷积升维4倍得到特征图L^up，对特征图L^up作sigmoid操作得到特征图

首先将输入的高级特征M与特征图

逐点相乘，得到空间权重修改后的高级特征

再将高级特征M与高级特征

逐点相加，得到修正过后的高级特征

本方案还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像语义分割程序，所述图像语义分割程序被处理器执行时实现图像语义分割方法的步骤。