CN112164065B

CN112164065B - 一种基于轻量化卷积神经网络的实时图像语义分割方法

Info

Publication number: CN112164065B
Application number: CN202011036023.XA
Authority: CN
Inventors: 刘发贵; 唐泉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-10-13
Anticipated expiration: 2040-09-27
Also published as: CN112164065A

Abstract

本发明公开一种基于轻量化卷积神经网络的实时图像语义分割方法。所述方法包括以下步骤：构建轻量化卷积神经网络；训练构建的轻量化卷积神经网络；使用训练完成的轻量化神经网络对给定场景中图像进行语义分割。本发明在所构建的卷积神经网络中，融合了多路处理机制，能有效编码像素的多空间尺度特征，解决多尺度目标区分困难的问题。同时，本发明结合深度卷积(depth‑wise convolution)大大减少了模型参数，所构建的轻量化卷积神经网络仅有90万参数，远低于现有方法，实现了模型轻量化的目的，满足实时性处理要求。另外，本发明的轻量化卷积神经网络基于全卷积网络，实现了端到端训练和推理，极大地简化了模型的训练和部署过程。

Description

一种基于轻量化卷积神经网络的实时图像语义分割方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于轻量化卷积神经网络的实时图像语义分割方法。

背景技术

图像语义分割的目的是为图像中的每一个像素点赋予一个语义类别的标记，属于像素级的稠密分类任务。整体来看，语义分割是为实现全面场景理解铺平道路的基础任务之一，越来越多的应用也从图像数据中获取知识，包括自动驾驶、人机交互、室内导航、图像编辑、增强现实和虚拟现实等。

图像语义分割方法可以分为两类：一类是传统方法，如基于阈值的分割、基于边缘的分割、基于区域的分割、基于图论的分割、基于能量泛函的分割等；另一类是基于深度学习的方法。近年来，随着深度神经网络的发展，深度学习在计算机视觉领域表现出越来越大的优势。深度卷积网络对于图像数据尤其有效，可以用于高效地提取图像中的像素特征，克服了传统方法严重依赖人工选取特征的局限，得到较好的分割效果。

Jonathan Long等人在《Fully Convolutional Networks for SemanticSegmentation》一文中提出使用全卷积网络(Fully Convolutional Networks,FCN)进行语义分割，极大地推动了近年来基于深度学习的语义分割技术发展。基于FCN的各种模型显著提升了语义分割的准确率，但是这类模型通常具有上百万的模型参数，推理效率低下，严重阻碍了其实际应用。在诸如自动驾驶、室内导航、增强现实和虚拟现实等领域，需要准确而高效的语义分割机制，实现低延迟处理的目的。

发明内容

为了实现准确且高效的各类场景语义分割，克服场景中目标尺度呈现显著变化的问题，本发明提供一种基于轻量化卷积神经网络的图像语义分割方法。通过构建轻量化卷积神经网络，提取像素的多尺度特征，增强像素特征的区分能力，达到准确而高效语义分割的目的。

本发明的目的至少通过如下技术方案之一实现。

一种基于轻量化卷积神经网络的实时图像语义分割方法，包括以下步骤：

S1、构建轻量化卷积神经网络；

S2、训练构建的轻量化卷积神经网络；

S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割。

进一步地，步骤S1包括以下步骤：

S1.1、构建多尺度处理单元，用于获取像素的多尺度特征；

S1.2、使用构建的多尺度处理单元替换残差网络基本块(Basic block ofResNet)第一个标准3×3卷积，得到金字塔表征模块；

S1.3、按网络结构和参数设置构建轻量化卷积神经网络；第一层为标准3×3卷积，作为初始层将像素特征维度扩展至16；然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征，捕获长距离像素依赖关系，增强像素特征的区分能力，提升多尺度目标的分割性能；

S1.4、使用双线性差值函数作为上采样算子，恢复分割结果的分辨率使其和输入图像的分辨率相同。

进一步地，多尺度处理单元包括4个并行卷积层分支，分别为标准1×1卷积，空洞率(dilation rate)为{r₁,r₂,r₃}的3个空洞卷积(dilated convolution)；所述空洞卷积同时为深度卷积(depth-wise convolution)；多尺度处理单元在通道维度连接4个并行卷积层分支输出，通过一个标准1×1卷积映射后得到输出；多尺度处理单元共2个卷积层。

进一步地，金字塔表征模块通过使用多尺度处理单元替换残差网络(ResNet18)基本块(Basic Block)的第一个标准3×3卷积得到；所述金字塔表征模块共3个卷积层；所述轻量化卷积神经网络使用参数化修正线性单元(parametric rectifier linearity unit,PReLU)作为激活函数。

进一步地，所述卷积神经网络共计27个卷积层，网络结构和参数设置如下：

第1层为标准3×3卷积，步长为2，输出通道数为16；第2层～第4层包括一个金字塔表征模块，步长为1，输出通道数为32；第5层～第7层包括一个金字塔表征模块，步长为2，输出通道数为32；第8层～第16层包括三个金字塔表征模块，步长为1，输出通道数为64；第17层～第19层包括一个金字塔表征模块，步长为2，输出通道数为64；第20层～第25层包括两个金字塔表征模块，步长为1，输出通道数为128；第26层、第27层均为分类层，分别包括一个标准3×3卷积和一个1×1卷积；所述神经网络的下采样倍数为8，即输出特征图的分辨率为输入图像的1/8。

进一步地，第2层～第7层的金字塔表征模块空洞率为{1,2,4}；第8层～第19层的金字塔表征模块空洞率为{3,6,9}；第20层～第22层的金字塔表征模块空洞率为{7,13,19}，第23层～第25层的金字塔表征模块空洞率为{13,25,37}。

进一步地，步骤S2包括以下步骤：

S2.1、输入训练图像和对应的语义分割标注；

S2.2、使用交叉熵损失函数训练轻量化卷积神经网络的参数，具体如下：

其中，N表示语义类别数目；y_i表示像素类别标注，若像素属于类别i，则y_i＝1，否则y_i＝0；表示轻量化卷积神经网络的预测输出，即预测像素属于类别i的概率；

S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛。

进一步地，步骤S3包括以下步骤：

S3.1、输入待分割图像；

S3.2、轻量化卷积神经网络进行前行传播，获取每个像素预测类别的概率分布；

S3.3、选择概率值最大的类别作为轻量化卷积神经网络的预测类别。

与现有方法相比，本发明具有如下优点和效果：

本发明在所构建的卷积神经网络中，融合了多路处理机制，能有效编码像素的多空间尺度特征，解决多尺度目标区分困难的问题。同时，本发明结合深度卷积(depth-wiseconvolution)大大减少了模型参数，所构建的轻量化卷积神经网络仅有90万参数，远低于现有方法，实现了模型轻量化的目的，满足实时性处理要求。另外，本发明的轻量化卷积神经网络基于全卷积网络，实现了端到端训练和推理，极大地简化了模型的训练和部署过程。

附图说明

图1为本发明实施例中多尺度处理单元的结构示意图；

图2为本发明实施例中残差网络基本块的结构示意图；

图3为本发明实施例中金字塔表征模块的结构示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图和实施例对本发明的具体实施进行进一步的详细说明，但本发明的实施和保护不限于此。

首先说明附图中英文缩写的含义：

Conv：指卷积层(Convolution)。

BN：指归一化层(Batch normalization)。

Concat：指将特征图在通道维度连接的运算(Concatenation)。

PReLU：参数化修正线性单元(Parametric rectifier linearity unit)。

ReLU：修正线性单元(Rectifier linearityunit)。

DWC：深度卷积(Depth-wise convolution)。

r_i：空洞率(Dilation rate)。

实施例：

S1、构建轻量化卷积神经网络，包括以下步骤：

S1.1、构建多尺度处理单元，用于获取像素的多尺度特征；

如图1所示，多尺度处理单元包括4个并行卷积层分支，分别为标准1×1卷积，空洞率(dilation rate)为{r₁,r₂,r₃}的3个空洞卷积(dilated convolution)；所述空洞卷积同时为深度卷积(depth-wise convolution)；多尺度处理单元在通道维度连接4个并行卷积层分支输出，通过一个标准1×1卷积映射后得到输出；多尺度处理单元共2个卷积层。

图3所示的金字塔表征模块通过使用多尺度处理单元替换图2所示的残差网络(ResNet18)基本块(Basic Block)的第一个标准3×3卷积得到；所述金字塔表征模块共3个卷积层。

S1.3、如表1所示，按网络结构和参数设置构建轻量化卷积神经网络；第一层为标准3×3卷积，作为初始层将像素特征维度扩展至16；然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征，捕获长距离像素依赖关系，增强像素特征的区分能力，提升多尺度目标的分割性能；

表1网络结构和参数设置

所述轻量化卷积神经网络使用参数化修正线性单元(parametric rectifierlinearity unit,PReLU)作为激活函数。

S2、训练构建的轻量化卷积神经网络，包括以下步骤：

S2.1、输入训练图像和对应的语义分割标注；

S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛。

S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割，包括以下步骤：

S3.1、输入待分割图像；

本实施例中，本发明的轻量化卷积神经网络仅包括90万模型参数，在Cityscapes这一多目标复杂街道场景数据集上，取得平均交并比(mean intersection over union,mIoU)73.9％的分割性能；Genshun Dong等人2020年在《Real-Time High-PerformanceSemantic Image Segmentation of Urban Street Scenes》一文中所述方法以620万模型参数在Cityscapes数据集取得mIoU 73.6％的分割性能，本发明在不损失分割性能的情况下，模型参数仅为其14.5％，极大提升了计算效率；Yu Wang等人在《Lednet:A LightweightEncoder-Decoder Network for Real-Time Semantic Segmentation》一文中所述方法包含94万模型参数，在Cityscapes数据集取得mIoU 69.2％，本发明以相似参数规模取得了mIoU 4.7％的性能提升；在NVIDIA RTX 2080Ti单显卡环境下，输入图像分辨率为1024×1024时，本发明所述方法分割速度为42帧每秒(frame per second,FPS)，完全满足实时性处理要求。

Claims

1.一种基于轻量化卷积神经网络的实时图像语义分割方法，其特征在于，包括以下步骤：

S1、构建轻量化卷积神经网络；包括以下步骤：

S1.1、构建多尺度处理单元，用于获取像素的多尺度特征；

S1.2、使用构建的多尺度处理单元替换残差网络基本块第一个标准3×3卷积，得到金字塔表征模块；

S1.4、使用双线性差值函数作为上采样算子，恢复分割结果的分辨率使其和输入图像的分辨率相同；

S2、训练构建的轻量化卷积神经网络；包括以下步骤：

S2.1、输入训练图像和对应的语义分割标注；

S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛；

S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割；包括以下步骤：

S3.1、输入待分割图像；

2.根据权利要求1所述的一种基于轻量化卷积神经网络的实时图像语义分割方法，其特征在于，多尺度处理单元包括4个并行卷积层分支，分别为标准1×1卷积，空洞率为{r₁,r₂,r₃}的3个空洞卷积；所述空洞卷积同时为深度卷积；多尺度处理单元在通道维度连接4个并行卷积层分支输出，通过一个标准1×1卷积映射后得到输出；多尺度处理单元共2个卷积层。

3.根据权利要求2所述的一种基于轻量化卷积神经网络的实时图像语义分割方法，其特征在于，金字塔表征模块通过使用多尺度处理单元替换残差网络基本块的第一个标准3×3卷积得到；所述金字塔表征模块共3个卷积层；所述轻量化卷积神经网络使用参数化修正线性单元作为激活函数。

4.根据权利要求3所述的一种基于轻量化卷积神经网络的实时图像语义分割方法，其特征在于，所述卷积神经网络共计27个卷积层，网络结构和参数设置如下：

5.根据权利要求4所述的一种基于轻量化卷积神经网络的实时图像语义分割方法，其特征在于，第2层～第7层的金字塔表征模块空洞率为{1,2,4}；第8层～第19层的金字塔表征模块空洞率为{3,6,9}；第20层～第22层的金字塔表征模块空洞率为{7,13,19}，第23层～第25层的金字塔表征模块空洞率为{13,25,37}。