CN117152438A

CN117152438A - 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法

Info

Publication number: CN117152438A
Application number: CN202311200605.0A
Authority: CN
Inventors: 季一木; 陈家园; 刘尚东; 曹埔铭; 吴隆基; 解学东; 何俊杰; 冯保龙
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-01

Abstract

本发明公开了一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，属于计算机技术领域；包括以下步骤：对输入的图像进行预处理；将预处理的后图像输入到采用DY‑MobileNetV2网络作为骨干网络构建的分割模型，对输入的图像进行像素分类；分割模型包括用于特征提取的DY‑MobileNetV2网络、金字塔空洞卷积层DASPP、DeepLabV3+网络模型的编、解码架构、以及作为知识蒸馏教师网络的SAM模型；输出分类结果，将每个像素所属的语义类别标注在原始图像上，形成语义分割图像；采用平均交并比计算对分割后的图像进行验证。本发明通过采用DY‑MobileNetV2网络替换原本DeepLabV3+中的Xception，对金字塔空洞卷积层DASPP进行改进，增强网络的特征表达能力，降低资源消耗；提升参数运算速度，增加参数计算量，从而提升网络分割的精确度。

Description

一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法。

背景技术

随着科学技术的快速发展，计算机视觉所需软硬件技术得到了飞速地提升，进一步带动了图像、视频领域相关应用算法的工程化推进，语义分割是计算机视觉领域中一项极为重要的任务分支。该研究任务的主要目的是使计算机能够准确地识别图像中每个像素点所属的类别，并且逐像素点地对图像进行标记。当前该技术较为契合的领域当属自动驾驶领域，但是由于车载算力不够运行语义分割大模型，因此轻量级语义分割网络亟待发展。

近年来，大量的语义分割算法被提出，特别是深度卷积神经网络的提出，更加促进了语义分割任务的进展。深度卷积神经网络能高效地提取和学习图像特征，FCN是第一个将CNN应用于语义分割任务的模型，通过将全连接层替换为卷积层，FCN可以接受任意大小的输入，并输出相同大小的分割结果。此外，FCN还采用了上采样策略，通过反卷积操作将特征图还原到原始大小。SegNet是一种基于编码器-解码器结构的深度神经网络，优化语义分割任务中的低分辨率和模糊边界问题。该网络采用了自动编码器(Autoencoder)的结构，其中编码器部分用于提取图像的特征，解码器部分用于将特征映射回像素级别的分割结果。U-Net网络同样是一种常用的编码-解码结构的网络，针对语义分割任务中的类别不平衡问题进行了优化。它的编码器部分类似于常规的CNN网络，但是解码器部分采用了对称的结构。通过上采样和跳跃连接的方式，U-Net将低层次特征与高层次特征相结合。DeepLab网络采用空洞卷积来扩大感受野，并且使用多尺度特征融合的方法，在不同尺度下对输入图像进行卷积，以提高模型的鲁棒性。PSPNet利用金字塔池化技术，以获取不同尺度下的上下文信息，以提高图像分割的准确性。此外，PSPNet还采用了ASPP技术，以扩大感受野大小，以获取更全面的上下文信息。Mask R-CNN网络结合了目标检测和语义分割任务，可同时对图像中的物体进行检测和分割。Mask R-CNN网络采用RoI Align技术，可准确地分割不同大小和比例的物体。HRNet网络采用高分辨率特征图来提高分割精度，并保持计算效率。此外，HRNet网络还采用多尺度融合技术，将不同分辨率的特征图融合，以提高模型的鲁棒性。但是这些模型都存在网络参数庞大，对设备性能要求较高的问题，并不能在边缘设备上运行。

因此，如何解决现有语义分割算法存在网络参数庞大，计算量大和图像推理速度较慢问题，从而提高网络分割的精确度是本发明想要解决的技术问题。

发明内容

本发明的目的在于提供一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，以解决上述背景技术中提出的问题和能实现的技术效果。

本发明目的是这样实现的：一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：该方法包括以下步骤：

步骤S1：对输入的图像进行预处理；

预处理包括图像缩放、裁剪、归一化，将图像调整为输入网络所需的大小和格式；

步骤S2：将预处理的后图像输入到采用DY-MobileNetV2网络作为骨干网络构建的分割模型，对输入的图像进行像素分类；

所述分割模型包括用于特征提取的DY-MobileNetV2网络，金字塔空洞卷积层DASPP，DeepLabV3+网络模型的编、解码架构，以及作为知识蒸馏教师网络的SAM模型；

步骤S3：输出分类结果，将每个像素所属的语义类别标注在原始图像上，形成语义分割图像；

步骤S4：采用平均交并比计算对分割后的图像进行验证。

优选的，所述DY-MobileNetV2网络采用新型动态卷积替换传统MobileNetV2网络的普通卷积，DY-MobileNetV2网络包括一层动态卷积层Conv2d以及七层具有逆残差结构的逆残差卷积层Bottleneck；

所述动态卷积层Conv2d通过n个具有相同维度的卷积核的线性混合W＝α₁W₁+…+α_nW_n来取代正常卷积中的静态卷积核，其中α₁,…,α_n是由输入相关的注意力模块生成的标量注意力；

所述逆残差卷积层Bottleneck采用七层卷积层，第一层卷积层、第二层卷积层以及第六层卷积层采用步长为1的3*3逆残差卷积核，第三层卷积层、第四层卷积层、第五层卷积层以及第七层卷积层采用步长为2的3*3逆残差卷积核。

优选的，所述金字塔空洞卷积层DASPP采用三个空洞卷积串联构成，三个空洞卷积的输出共享特征信息，每一个空洞卷积包括三个3*3卷积核。

优选的，所述三个3*3卷积核包括第一3*3卷积核、第二3*3卷积核以及第三3*3卷积核；

所述第一3*3卷积核的膨胀率为6，第二3*3卷积核的膨胀率为12，第三3*3卷积核的膨胀率为18；

所述膨胀率小的空洞卷积层输出与DY-MobileNetV2网络的输出结果相叠加，送入膨胀率更大的空洞卷积层中。

优选的，所述SAM模型作为知识蒸馏教师网络，对作为学生模型的DeepLabv3+网络进行简化；

SAM模型对图像进行处理后会输出软标签，对于一个对象，在判定其类概率时，会评估其属于每个类的概率：

其中，z_i是第i类的逻辑单元值，p_i是第i类的类概率以及k表示类别的数量，T为温度系数，用来控制输出概率的软化程度。

优选的，所述SAM模型对DeepLabv3+网络的简化结构采用蒸馏损失函数比较SAM模型与DeepLabv3+网络的预测结果；

蒸馏损失函数计算损失：

L_total＝α·L_KDp(u,T),p(z,T)+(1-α)·L_s(y,p(z,1))；

其中，u和z分别为教师和学生模型输出的逻辑单元，α是超参数，L_KD(p(u,T),p(z,T))表示SAM模型和DeepLabv3+网络在逻辑单元匹配时的蒸馏损失，L_s(y,p(z,1))是学生损失；

通过反向传播损失，并根据优化算法更新学生模型的参数，使得学生模型获得与教师模型接近的性能。

优选的，所述步骤S2中分割模型各个网络模型的具体操作如下：

首先，将输入图像进行预处理，包括图像缩放、裁剪、归一化操作，使得图像调整为网络所需的输入大小和格式；

其次，对输入的图像用DY-MobileNetV2网络进行特征提取，经过一层动态卷积层和七层具有逆残差结构卷积层Bottleneck后输出两个特征图，分别是含有较少语义特征的浅层次特征图和含有较丰富的深层次特征图；

深层次特征图输入金字塔空洞卷积层DASPP，经过不同膨胀率的空洞卷积模块处理后将输出堆叠，再由1×1卷积层进行通道数调整后输出至解码网络；DY-MobileNetV2网络输出的浅层次特征图输入到DeepLabV3+网络模型的解码网络中，与经过4倍上采样过后的深层次特征图进行堆叠并通过3*3卷积处理，将浅层次特征图中的空间信息和深层次特征图中的语义信息进行融合；

接着4倍上采样恢复图像原始大小并逐像素点分类，输出带有语义信息的图像；

在训练阶段将DeepLabV3+分割模型的输出与SAM模型软标签输出输入蒸馏损失函数中计算损失，反向传播并迭代优化分割模型。

优选的，所述步骤S4中采用平均交并比计算对分割后的图像进行验证具体操作为：

统计图像中逐像素类别的IoU值，取平均记作mIoU，公式如下：

其中，k为预测的类别数量；p_ii为将i预测为i的数量；p_ij为将i预测为j的数量；p_ji为将j预测为i的数量。

与现有技术相比，本发明具有如下改进及优点：1、通过采用DY-MobileNetV2网络替换原本DeepLabV3+中的Xception，并对金字塔空洞卷积层DASPP进行改进，增强网络的特征表达能力，降低资源消耗；同时优化后分割模型具有简洁的网络设计，参数运算速度快以及参数计算量大，从而提升网络分割的精确度。

2、通过采用知识蒸馏教师网络SAM模型作为教师网络，简化DeepLabV3+网络的架构，降低网络计算量，减少网络参数；进一步提升网络分割的精确度，使得分割模型在嵌入式设备中计算力较低的平台也能够使用。

附图说明

图1为分割模型的网络结构图。

图2为金字塔空洞卷积层DASPP的结构图。

图3为知识蒸馏教师网络SAM模型的结构图。

具体实施方式

以下结合附图对本发明做进一步概述。

如图1所示，一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，该方法包括以下步骤：

步骤S1：对输入的图像进行预处理；

分割模型包括用于特征提取的DY-MobileNetV2网络、金字塔空洞卷积层DASPP、DeepLabV3+网络模型的编、解码架构、以及作为知识蒸馏教师网络的SAM模型；

图像输入语义分割模型中首先要经过骨干网络进行特征提取，但现代最先进的网络需要高计算资源，这已经超出了许多移动和嵌入式应用程序的能力范围。因此，在主干网络的选取上，本发明采用了更为轻量级并经过优化的DY-MobileNetV2网络。

DY-MobileNetV2网络采用新型动态卷积替换传统MobileNetV2网络的普通卷积，DY-MobileNetV2网络包括一层动态卷积层Conv2d以及七层具有逆残差结构的逆残差卷积层Bottleneck；动态卷积层Conv2d通过n个具有相同维度的卷积核的线性混合W＝α₁W₁+…+α_nW_n来取代正常卷积中的静态卷积核，其中α₁,…,α_n是由输入相关的注意力模块生成的标量注意力；由于n个卷积核W₁,…,W_n的加法性质以及紧凑的注意力模块设计，动态卷积可以在很小的额外乘加成本下提高特征学习能力其次。在动态卷积核的方案中，将静态卷积核分割成多个具有相同维度的小核单元。

进一步，逆残差卷积层Bottleneck采用七层卷积层，第一层卷积层、第二层卷积层以及第六层卷积层采用步长为1的3*3逆残差卷积核，第三层卷积层、第四层卷积层、第五层卷积层以及第七层卷积层采用步长为2的3*3逆残差卷积核。

优化后的DY-MobileNetV2网络由一层动态卷积层Conv2d与七层具有逆残差结构卷积层Bottleneck组成，减少了特征图的通道数量，从而降低资源消耗，提高实时性，相比于原始的MobileNetV2网络，优化后的DY-MobileNetV2网络由于具有更简洁的网络设计，在参数量以及运算速度上都优于原始网络结构。

表1为DY-MobileNetV2网络的网络架构

Input	Operator	t	c	n	s
						224²×3	DY-Conv	-	32	1	2
112²×32	bottleneck	1	16	1	1
						112²×16	bottleneck	6	24	2	2
56²×24	bottleneck	6	32	3	2
						28²×32	bottleneck	6	64	4	2
14²×64	bottleneck	6	96	3	1
						14²×96	bottleneck	6	160	3	2

随着扩张率的增加，空洞卷积的非零像素采样变得越来越稀疏。空洞卷积得到的信息在同等计算条件下丢失严重，这种情况不利于模型的学习和训练；因此，针对此问题发明改进了金字塔空洞卷积层DASPP。

进一步，如图2所示，金字塔空洞卷积层DASPP采用三个空洞卷积串联构成，三个空洞卷积的输出共享特征信息，每一个空洞卷积包括三个3*3卷积核；三个3*3卷积核为第一3*3卷积核、第二3*3卷积核以及第三3*3卷积核；

第一3*3卷积核的膨胀率为6，第二3*3卷积核的膨胀率为12，第三3*3卷积核的膨胀率为18；具有较小扩张率的空洞卷积的输出与骨干网络的结果输出相叠加，然后将其送入膨胀率更大的空洞卷积层中，以达到更好的特征提取效果；将上一层膨胀率处理过的特征图叠加到本层，再用空洞卷积处理，这种方式可以提高网络特征提取能力，有效防止空洞卷积得到的信息丢失。相比于传统的金字塔空洞卷积层，密集型金字塔空洞卷积层DASPP由于采用串联级联结构，各空洞卷积之间的输出会共享特性信息，因此对于提取上下文信息更为有利。使用DY-MobileNetV2网络作为的骨干网络输出深层次特征层经过膨胀率不同的空洞卷积，将各输出进行堆叠之后，由1×1卷积层进行通道数调整然后输入到解码网络中。

当下，一些轻量化的分割网络为了减少模型的计算和存储资源需求，往往采取一些牺牲精度的手段，如采用较浅的网络层次或降低分辨率等；因此，出于保证精度的考虑，本方法引入了知识蒸馏的思想，知识蒸馏是一种模型压缩和迁移学习的技术，旨在将一个复杂的模型的知识传递给一个简化的模型，以提高简化模型的性能。

本方法引入SAM模型作为教师网络，DeepLabv3+网络作为学生模型，如图2所示，教师网络对图像进行处理后会输出软标签，即对于一个对象，在判定其类概率时，会评估其属于每个类的概率：

其中，z_i是第i类的逻辑单元值，p_i是第i类的类概率以及k表示类别的数量，T为温度系数，用来控制输出概率的软化程度。通过蒸馏损失函数比较学生模型的预测结果与教师模型的预测结果，并计算损失：

L_total＝α·L_KDp(u,T),p(z,T)+(1-α)·L_s(y,p(z,1))；

其中，u和z分别为教师和学生模型输出的逻辑单元，α是超参数，L_KD(p(u,T),p(z,T))表示教师模型和学生模型在逻辑单元匹配时的蒸馏损失，L_s(y,p(z,1))是学生损失。

分割网络的的整体工作流程如下：首先，将输入图像进行预处理，包括图像缩放、裁剪、归一化操作，使得图像调整为网络所需的输入大小和格式；

在训练阶段还会将DeepLabV3+分割模型的输出与SAM模型软标签输出输入蒸馏损失函数中计算损失，反向传播并迭代优化分割模型。

步骤S4：采用平均交并比计算对分割后的图像进行验证；

平均交并比计算，是语义分割的标准评价指标之一，也称作杰卡德系数，通常被称为PASCALVOC交并比度量；计算每幅图像像素级别的预测空间集合和标注空间集合的交集与并集的比值。在评估语义分割准确性能时，通常情况下通过统计图像中逐像素类别的IoU值，然后取平均记作mIoU，公式如下：

本发明实验的算法编程语言使用python3.6，深度学习框架使用pytorch 1.1.0，在实验过程中，首先对于输入图像进行调整尺寸大小操作，批处理大小(batch)设置为8，然后输入到骨干网络，骨干网络由原本DeepLabV3+中的Xception替换成了改进版DY-MobileNetV2网络。对于骨干网络处理得到的特征图，将其中含有高层语义特征的特征图进一步输入到密集型金字塔空洞卷积网络中。经过不同膨胀率的空洞卷积处理以及堆叠，然后对输出使用1×1卷积层进行通道数调整。最终，将骨干网络输出特征图中的含有较低语义特征的特征图和空洞卷积处理过的特征图输入到解码器中，在进行上采样的调整之后恢复成原始图像尺寸输出，得到分割后的图像。本发明最终在Cityscapes数据集上得到验证，对比原始的网络，本发明在保证mIoU不过多降低的情况下，大大减少了参数量。

其中，参数量的计算方式如下所示，k_i×k_i代表第i个卷积核大小，输入输出通道数分别为M_i、N_i，kernel代表了网络中所有的卷积核个数。参数量的大幅度降低意味着对于算力有限的边缘设备也较为友好。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：该方法包括以下步骤：

步骤S1：对输入的图像进行预处理；

步骤S4：采用平均交并比计算对分割后的图像进行验证。

2.根据权利要求1所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述DY-MobileNetV2网络采用新型动态卷积替换传统MobileNetV2网络的普通卷积，DY-MobileNetV2网络包括一层动态卷积层Conv2d以及七层具有逆残差结构的逆残差卷积层Bottleneck；

3.根据权利要求2所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述金字塔空洞卷积层DASPP采用三个空洞卷积串联构成，三个空洞卷积的输出共享特征信息，每一个空洞卷积包括三个3*3卷积核。

4.根据权利要求3所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述三个3*3卷积核包括第一3*3卷积核、第二3*3卷积核以及第三3*3卷积核；

5.根据权利要求1所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述SAM模型作为知识蒸馏教师网络，对作为学生模型的DeepLabv3+网络进行简化；

6.根据权利要求5所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述SAM模型对DeepLabv3+网络的简化结构采用蒸馏损失函数比较SAM模型与DeepLabv3+网络的预测结果；

蒸馏损失函数计算损失：

Ltotal

7.根据权利要求1所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述步骤S2中分割模型各个网络模型的具体操作如下：

8.根据权利要求1所述的一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法，其特征在于：所述步骤S4中采用平均交并比计算对分割后的图像进行验证具体操作为：

统计图像中逐像素类别的IoU值，取平均记作mIoU，公式如下：