CN112164065B - 一种基于轻量化卷积神经网络的实时图像语义分割方法 - Google Patents
一种基于轻量化卷积神经网络的实时图像语义分割方法 Download PDFInfo
- Publication number
- CN112164065B CN112164065B CN202011036023.XA CN202011036023A CN112164065B CN 112164065 B CN112164065 B CN 112164065B CN 202011036023 A CN202011036023 A CN 202011036023A CN 112164065 B CN112164065 B CN 112164065B
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- convolutional neural
- convolution
- lightweight convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于轻量化卷积神经网络的实时图像语义分割方法。所述方法包括以下步骤:构建轻量化卷积神经网络;训练构建的轻量化卷积神经网络;使用训练完成的轻量化神经网络对给定场景中图像进行语义分割。本发明在所构建的卷积神经网络中,融合了多路处理机制,能有效编码像素的多空间尺度特征,解决多尺度目标区分困难的问题。同时,本发明结合深度卷积(depth‑wise convolution)大大减少了模型参数,所构建的轻量化卷积神经网络仅有90万参数,远低于现有方法,实现了模型轻量化的目的,满足实时性处理要求。另外,本发明的轻量化卷积神经网络基于全卷积网络,实现了端到端训练和推理,极大地简化了模型的训练和部署过程。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于轻量化卷积神经网络的实时图像语义分割方法。
背景技术
图像语义分割的目的是为图像中的每一个像素点赋予一个语义类别的标记,属于像素级的稠密分类任务。整体来看,语义分割是为实现全面场景理解铺平道路的基础任务之一,越来越多的应用也从图像数据中获取知识,包括自动驾驶、人机交互、室内导航、图像编辑、增强现实和虚拟现实等。
图像语义分割方法可以分为两类:一类是传统方法,如基于阈值的分割、基于边缘的分割、基于区域的分割、基于图论的分割、基于能量泛函的分割等;另一类是基于深度学习的方法。近年来,随着深度神经网络的发展,深度学习在计算机视觉领域表现出越来越大的优势。深度卷积网络对于图像数据尤其有效,可以用于高效地提取图像中的像素特征,克服了传统方法严重依赖人工选取特征的局限,得到较好的分割效果。
Jonathan Long等人在《Fully Convolutional Networks for SemanticSegmentation》一文中提出使用全卷积网络(Fully Convolutional Networks,FCN)进行语义分割,极大地推动了近年来基于深度学习的语义分割技术发展。基于FCN的各种模型显著提升了语义分割的准确率,但是这类模型通常具有上百万的模型参数,推理效率低下,严重阻碍了其实际应用。在诸如自动驾驶、室内导航、增强现实和虚拟现实等领域,需要准确而高效的语义分割机制,实现低延迟处理的目的。
发明内容
为了实现准确且高效的各类场景语义分割,克服场景中目标尺度呈现显著变化的问题,本发明提供一种基于轻量化卷积神经网络的图像语义分割方法。通过构建轻量化卷积神经网络,提取像素的多尺度特征,增强像素特征的区分能力,达到准确而高效语义分割的目的。
本发明的目的至少通过如下技术方案之一实现。
一种基于轻量化卷积神经网络的实时图像语义分割方法,包括以下步骤:
S1、构建轻量化卷积神经网络;
S2、训练构建的轻量化卷积神经网络;
S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割。
进一步地,步骤S1包括以下步骤:
S1.1、构建多尺度处理单元,用于获取像素的多尺度特征;
S1.2、使用构建的多尺度处理单元替换残差网络基本块(Basic block ofResNet)第一个标准3×3卷积,得到金字塔表征模块;
S1.3、按网络结构和参数设置构建轻量化卷积神经网络;第一层为标准3×3卷积,作为初始层将像素特征维度扩展至16;然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征,捕获长距离像素依赖关系,增强像素特征的区分能力,提升多尺度目标的分割性能;
S1.4、使用双线性差值函数作为上采样算子,恢复分割结果的分辨率使其和输入图像的分辨率相同。
进一步地,多尺度处理单元包括4个并行卷积层分支,分别为标准1×1卷积,空洞率(dilation rate)为{r1,r2,r3}的3个空洞卷积(dilated convolution);所述空洞卷积同时为深度卷积(depth-wise convolution);多尺度处理单元在通道维度连接4个并行卷积层分支输出,通过一个标准1×1卷积映射后得到输出;多尺度处理单元共2个卷积层。
进一步地,金字塔表征模块通过使用多尺度处理单元替换残差网络(ResNet18)基本块(Basic Block)的第一个标准3×3卷积得到;所述金字塔表征模块共3个卷积层;所述轻量化卷积神经网络使用参数化修正线性单元(parametric rectifier linearity unit,PReLU)作为激活函数。
进一步地,所述卷积神经网络共计27个卷积层,网络结构和参数设置如下:
第1层为标准3×3卷积,步长为2,输出通道数为16;第2层~第4层包括一个金字塔表征模块,步长为1,输出通道数为32;第5层~第7层包括一个金字塔表征模块,步长为2,输出通道数为32;第8层~第16层包括三个金字塔表征模块,步长为1,输出通道数为64;第17层~第19层包括一个金字塔表征模块,步长为2,输出通道数为64;第20层~第25层包括两个金字塔表征模块,步长为1,输出通道数为128;第26层、第27层均为分类层,分别包括一个标准3×3卷积和一个1×1卷积;所述神经网络的下采样倍数为8,即输出特征图的分辨率为输入图像的1/8。
进一步地,第2层~第7层的金字塔表征模块空洞率为{1,2,4};第8层~第19层的金字塔表征模块空洞率为{3,6,9};第20层~第22层的金字塔表征模块空洞率为{7,13,19},第23层~第25层的金字塔表征模块空洞率为{13,25,37}。
进一步地,步骤S2包括以下步骤:
S2.1、输入训练图像和对应的语义分割标注;
S2.2、使用交叉熵损失函数训练轻量化卷积神经网络的参数,具体如下:
其中,N表示语义类别数目;yi表示像素类别标注,若像素属于类别i,则yi=1,否则yi=0;表示轻量化卷积神经网络的预测输出,即预测像素属于类别i的概率;
S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛。
进一步地,步骤S3包括以下步骤:
S3.1、输入待分割图像;
S3.2、轻量化卷积神经网络进行前行传播,获取每个像素预测类别的概率分布;
S3.3、选择概率值最大的类别作为轻量化卷积神经网络的预测类别。
与现有方法相比,本发明具有如下优点和效果:
本发明在所构建的卷积神经网络中,融合了多路处理机制,能有效编码像素的多空间尺度特征,解决多尺度目标区分困难的问题。同时,本发明结合深度卷积(depth-wiseconvolution)大大减少了模型参数,所构建的轻量化卷积神经网络仅有90万参数,远低于现有方法,实现了模型轻量化的目的,满足实时性处理要求。另外,本发明的轻量化卷积神经网络基于全卷积网络,实现了端到端训练和推理,极大地简化了模型的训练和部署过程。
附图说明
图1为本发明实施例中多尺度处理单元的结构示意图;
图2为本发明实施例中残差网络基本块的结构示意图;
图3为本发明实施例中金字塔表征模块的结构示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图和实施例对本发明的具体实施进行进一步的详细说明,但本发明的实施和保护不限于此。
首先说明附图中英文缩写的含义:
Conv:指卷积层(Convolution)。
BN:指归一化层(Batch normalization)。
Concat:指将特征图在通道维度连接的运算(Concatenation)。
PReLU:参数化修正线性单元(Parametric rectifier linearity unit)。
ReLU:修正线性单元(Rectifier linearityunit)。
DWC:深度卷积(Depth-wise convolution)。
ri:空洞率(Dilation rate)。
实施例:
一种基于轻量化卷积神经网络的实时图像语义分割方法,包括以下步骤:
S1、构建轻量化卷积神经网络,包括以下步骤:
S1.1、构建多尺度处理单元,用于获取像素的多尺度特征;
如图1所示,多尺度处理单元包括4个并行卷积层分支,分别为标准1×1卷积,空洞率(dilation rate)为{r1,r2,r3}的3个空洞卷积(dilated convolution);所述空洞卷积同时为深度卷积(depth-wise convolution);多尺度处理单元在通道维度连接4个并行卷积层分支输出,通过一个标准1×1卷积映射后得到输出;多尺度处理单元共2个卷积层。
S1.2、使用构建的多尺度处理单元替换残差网络基本块(Basic block ofResNet)第一个标准3×3卷积,得到金字塔表征模块;
图3所示的金字塔表征模块通过使用多尺度处理单元替换图2所示的残差网络(ResNet18)基本块(Basic Block)的第一个标准3×3卷积得到;所述金字塔表征模块共3个卷积层。
S1.3、如表1所示,按网络结构和参数设置构建轻量化卷积神经网络;第一层为标准3×3卷积,作为初始层将像素特征维度扩展至16;然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征,捕获长距离像素依赖关系,增强像素特征的区分能力,提升多尺度目标的分割性能;
表1网络结构和参数设置
S1.4、使用双线性差值函数作为上采样算子,恢复分割结果的分辨率使其和输入图像的分辨率相同。
所述轻量化卷积神经网络使用参数化修正线性单元(parametric rectifierlinearity unit,PReLU)作为激活函数。
S2、训练构建的轻量化卷积神经网络,包括以下步骤:
S2.1、输入训练图像和对应的语义分割标注;
S2.2、使用交叉熵损失函数训练轻量化卷积神经网络的参数,具体如下:
其中,N表示语义类别数目;yi表示像素类别标注,若像素属于类别i,则yi=1,否则yi=0;表示轻量化卷积神经网络的预测输出,即预测像素属于类别i的概率;
S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛。
S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割,包括以下步骤:
S3.1、输入待分割图像;
S3.2、轻量化卷积神经网络进行前行传播,获取每个像素预测类别的概率分布;
S3.3、选择概率值最大的类别作为轻量化卷积神经网络的预测类别。
本实施例中,本发明的轻量化卷积神经网络仅包括90万模型参数,在Cityscapes这一多目标复杂街道场景数据集上,取得平均交并比(mean intersection over union,mIoU)73.9%的分割性能;Genshun Dong等人2020年在《Real-Time High-PerformanceSemantic Image Segmentation of Urban Street Scenes》一文中所述方法以620万模型参数在Cityscapes数据集取得mIoU 73.6%的分割性能,本发明在不损失分割性能的情况下,模型参数仅为其14.5%,极大提升了计算效率;Yu Wang等人在《Lednet:A LightweightEncoder-Decoder Network for Real-Time Semantic Segmentation》一文中所述方法包含94万模型参数,在Cityscapes数据集取得mIoU 69.2%,本发明以相似参数规模取得了mIoU 4.7%的性能提升;在NVIDIA RTX 2080Ti单显卡环境下,输入图像分辨率为1024×1024时,本发明所述方法分割速度为42帧每秒(frame per second,FPS),完全满足实时性处理要求。
Claims (5)
1.一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,包括以下步骤:
S1、构建轻量化卷积神经网络;包括以下步骤:
S1.1、构建多尺度处理单元,用于获取像素的多尺度特征;
S1.2、使用构建的多尺度处理单元替换残差网络基本块第一个标准3×3卷积,得到金字塔表征模块;
S1.3、按网络结构和参数设置构建轻量化卷积神经网络;第一层为标准3×3卷积,作为初始层将像素特征维度扩展至16;然后连续使用8个金字塔表征模块用于有效编码像素的多尺度特征,捕获长距离像素依赖关系,增强像素特征的区分能力,提升多尺度目标的分割性能;
S1.4、使用双线性差值函数作为上采样算子,恢复分割结果的分辨率使其和输入图像的分辨率相同;
S2、训练构建的轻量化卷积神经网络;包括以下步骤:
S2.1、输入训练图像和对应的语义分割标注;
S2.2、使用交叉熵损失函数训练轻量化卷积神经网络的参数,具体如下:
其中,N表示语义类别数目;yi表示像素类别标注,若像素属于类别i,则yi=1,否则yi=0;表示轻量化卷积神经网络的预测输出,即预测像素属于类别i的概率;
S2.3、使用梯度下降法训练轻量化卷积神经网络至收敛;
S3、使用训练完成的轻量化神经网络对给定场景中图像进行语义分割;包括以下步骤:
S3.1、输入待分割图像;
S3.2、轻量化卷积神经网络进行前行传播,获取每个像素预测类别的概率分布;
S3.3、选择概率值最大的类别作为轻量化卷积神经网络的预测类别。
2.根据权利要求1所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,多尺度处理单元包括4个并行卷积层分支,分别为标准1×1卷积,空洞率为{r1,r2,r3}的3个空洞卷积;所述空洞卷积同时为深度卷积;多尺度处理单元在通道维度连接4个并行卷积层分支输出,通过一个标准1×1卷积映射后得到输出;多尺度处理单元共2个卷积层。
3.根据权利要求2所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,金字塔表征模块通过使用多尺度处理单元替换残差网络基本块的第一个标准3×3卷积得到;所述金字塔表征模块共3个卷积层;所述轻量化卷积神经网络使用参数化修正线性单元作为激活函数。
4.根据权利要求3所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,所述卷积神经网络共计27个卷积层,网络结构和参数设置如下:
第1层为标准3×3卷积,步长为2,输出通道数为16;第2层~第4层包括一个金字塔表征模块,步长为1,输出通道数为32;第5层~第7层包括一个金字塔表征模块,步长为2,输出通道数为32;第8层~第16层包括三个金字塔表征模块,步长为1,输出通道数为64;第17层~第19层包括一个金字塔表征模块,步长为2,输出通道数为64;第20层~第25层包括两个金字塔表征模块,步长为1,输出通道数为128;第26层、第27层均为分类层,分别包括一个标准3×3卷积和一个1×1卷积;所述神经网络的下采样倍数为8,即输出特征图的分辨率为输入图像的1/8。
5.根据权利要求4所述的一种基于轻量化卷积神经网络的实时图像语义分割方法,其特征在于,第2层~第7层的金字塔表征模块空洞率为{1,2,4};第8层~第19层的金字塔表征模块空洞率为{3,6,9};第20层~第22层的金字塔表征模块空洞率为{7,13,19},第23层~第25层的金字塔表征模块空洞率为{13,25,37}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036023.XA CN112164065B (zh) | 2020-09-27 | 2020-09-27 | 一种基于轻量化卷积神经网络的实时图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036023.XA CN112164065B (zh) | 2020-09-27 | 2020-09-27 | 一种基于轻量化卷积神经网络的实时图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164065A CN112164065A (zh) | 2021-01-01 |
CN112164065B true CN112164065B (zh) | 2023-10-13 |
Family
ID=73861275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036023.XA Active CN112164065B (zh) | 2020-09-27 | 2020-09-27 | 一种基于轻量化卷积神经网络的实时图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164065B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651468B (zh) * | 2021-01-18 | 2024-06-04 | 佛山职业技术学院 | 一种多尺度轻量化图像分类方法及其存储介质 |
CN114781483B (zh) * | 2022-03-18 | 2024-05-28 | 华南理工大学 | 一种基于卷积神经网络的草菇生长状态识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
-
2020
- 2020-09-27 CN CN202011036023.XA patent/CN112164065B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
CN109215034A (zh) * | 2018-07-06 | 2019-01-15 | 成都图必优科技有限公司 | 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
FTPN: Scene Text Detection With Feature Pyramid Based Text Proposal Network;FAGUI LIU 等;《IEEEAcess》;第44219-44228页 * |
基于深度卷积网络的高分遥感图像语义分割;蔡烁;胡航滔;王威;;信号处理(12);第84-90页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112164065A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN110781776B (zh) | 一种基于预测和残差细化网络的道路提取方法 | |
CN108288035A (zh) | 基于深度学习的多通道图像特征融合的人体动作识别方法 | |
CN109035251B (zh) | 一种基于多尺度特征解码的图像轮廓检测方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN111563909A (zh) | 一种复杂街景图像语义分割方法 | |
CN109801297B (zh) | 一种基于卷积实现的图像全景分割预测优化方法 | |
CN113052106B (zh) | 一种基于PSPNet网络的飞机起降跑道识别方法 | |
CN112164065B (zh) | 一种基于轻量化卷积神经网络的实时图像语义分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN115331183A (zh) | 改进YOLOv5s的红外目标检测方法 | |
CN111008979A (zh) | 一种鲁棒的夜晚图像语义分割方法 | |
CN111414938B (zh) | 一种板式换热器内气泡的目标检测方法 | |
CN115775316A (zh) | 基于多尺度注意力机制的图像语义分割方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN111881743A (zh) | 一种基于语义分割的人脸特征点定位方法 | |
CN114972753A (zh) | 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统 | |
CN113486894B (zh) | 一种卫星图像特征部件语义分割方法 | |
CN114092467A (zh) | 一种基于轻量化卷积神经网络的划痕检测方法及系统 | |
CN116935178A (zh) | 一种基于多尺度空洞注意力的跨模态图像融合方法 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116342877A (zh) | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 | |
CN113012158B (zh) | 基于深度稠密网络与边缘距离图加权的图像协同分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |