CN115082928B - 面向复杂场景的不对称双分支实时语义分割网络的方法 - Google Patents

面向复杂场景的不对称双分支实时语义分割网络的方法 Download PDF

Info

Publication number
CN115082928B
CN115082928B CN202210723314.9A CN202210723314A CN115082928B CN 115082928 B CN115082928 B CN 115082928B CN 202210723314 A CN202210723314 A CN 202210723314A CN 115082928 B CN115082928 B CN 115082928B
Authority
CN
China
Prior art keywords
feature map
asymmetric
feature
module
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210723314.9A
Other languages
English (en)
Other versions
CN115082928A (zh
Inventor
陈波
孙孟凡
李伟
冯莉尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210723314.9A priority Critical patent/CN115082928B/zh
Publication of CN115082928A publication Critical patent/CN115082928A/zh
Application granted granted Critical
Publication of CN115082928B publication Critical patent/CN115082928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉理解领域,尤其涉及面向复杂场景的不对称双分支实时语义分割网络的方法;包括以下步骤:基于特征共享的下采样模块获取低分辨率图像;基于更宽通道的轻量级双分支模块提取高级语义特征和低级细节特征;使用特征指导融合模块多尺度融合两个分支的语义和空间信息;基于特征恢复模块得到最终分割结果图。本发明通过共享浅层信息和特征指导的方式充分融合语义信息和空间信息,并基于不对称残差瓶颈模块作为语义分支的核心特征提取单元,最后结合多尺度信息完成密集特征的提取,解决了复杂场景中目标类别混淆、形状不规则和物体遮挡干扰,以及大部分的语义分割网络复杂度较高,无法实时高效地应用到移动/嵌入式平台中的技术问题。

Description

面向复杂场景的不对称双分支实时语义分割网络的方法
技术领域
本发明涉及计算机视觉理解领域,尤其涉及面向复杂场景的不对称双分支实时语义分割网络的方法。
背景技术
语义分割是计算机视觉中发展最快的领域之一,且被广泛应用于各种场景。近几年,基于深度卷积神经网络的语义分割模型实现了越来越高的精度表现,例如DeepLab系列,但高精度的模型往往伴随着着复杂的网络结构和惊人的计算开销,进而严重影响到了网络的运行时间和推理速度,使其在一些需要实时预测的现实场景中,例如现实增强、自动驾驶汽车等,迫于算力有限无法应用部署,人工智能技术的应用发展在一定程度上受到了限制,网络的轻量化和实时性成为了新的研究方向。
要减少语义分割的计算开销实现轻量化,目前有以下两种方式:(1)减小图片大小:通过裁剪、缩放等方式降低输入图片的大小,能最直接地从根源减少模型的计算量,但是图像经过裁剪后会丢失掉大量的空间细节信息,尤其是准确的边界形状信息,导致分割结果不准确;(2)降低模型复杂度:通过减少通道数,卷积核数目和大小,替换卷积结构等方式来降低模型复杂度,从而提高模型的推理速度,是目前最常用的方式,但需求充分利用资源,过度地追求紧凑的网络结构会产生模型空间信息丢失,感受野不足等问题,从而导致网络特征提取能力减弱,影响分割精度。现有网络为了弥补空间信息的丢失而多次引入浅层特征信息,但会在高分辨特征图上产生额外的计算,拖慢模型速度,且丢掉的空间信息难以通过引入浅层修复。
此外,在实际应用过程中,实时分割网络的分割效果往往达不到研究精度,常常会出现边界不清,错误分类的问题,主要原因在于真实的复杂环境存在非结构化、目标多样化、形状不规则化以及物体遮挡等多种干扰因素,因此需要使网络具备多尺度的上下文信息和高分辨率特征图来确保网络区分不同特征的能力,给图像语义分割任务带来巨大的挑战。
因此,如何在不超出资源预算的前提下进一步提升模型的特征表示能力,做到性能和效率的平衡,以及合理整合局部特征和全局特征,使之能够应对复杂环境下目标类别混淆的情况,仍是一个亟待解决的问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种面向复杂场景的不对称双分支实时语义分割网络的方法,拟解决真实复杂场景中目标类别混淆问题,为移动\嵌入式场景下实现高效图像语义分割提出一种可行方案。
面向复杂场景的不对称双分支实时语义分割网络的方法,包括以下步骤:
步骤1:对原始输入图像进行预处理操作,得到输入图像,基于特征共享的下采样模块对输入图像进行下采样,得到第三特征图;
步骤2:基于宽通道的轻量级双分支模块提取步骤1得到的特征图的高级语义特征和低级细节特征;
步骤3:使用特征指导融合模块对两个分支模块的语义信息和空间信息进行多尺度融合,得到第十四特征图;
步骤4:基于步骤3中的第十四特征图和特征恢复模块得到最终分割结果图。
优选的,所述步骤1包括如下步骤:
步骤1.1:对原始输入图像进行预处理操作,得到大小为1024×2048的输入图像;
步骤1.2:利用一个标准2D卷积对通道数为3,大小为1024×2048的输入图像进行2倍的下采样,得到通道数为32,分辨率为512×1024的第一特征图;
步骤1.3:利用一个深度可分离卷积对第一特征图进行2倍的下采样,得到通道数为48,分辨率为256×512的第二特征图;
步骤1.4:利用一个深度可分离卷积对第二特征图进行2倍的下采样,得到通道数为384,分辨率为128×256的第三特征图。
优选的,所述步骤2包括以下步骤:
步骤2.1:利用双分支模块的细节分支单元对步骤1中得到的第三特征图进行通道降维,得到通道数为128,分辨率为128×256的第四特征图;
步骤2.2:利用第一组不对称残差瓶颈模块对第三特征图进行卷积,第一组不对称残差瓶颈模块对第三特征图进行2倍的下采样,得到通道数为384,图像尺寸为64×128的第五特征图;
步骤2.3:利用第二组不对称残差瓶颈模块对第五特征图进行卷积,第二组不对称残差瓶颈模块对第五特征图进行2倍的下采样,得到通道数为576,图像尺寸为32×64的第六特征图;
步骤2.4:利用第三组不对称残差瓶颈模块对第六特征图进行卷积,分辨率保持不变,得到通道数为768,图像尺寸为32×64的第七特征图;
步骤2.5:利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取,分辨率保持不变,得到通道数为128,图像尺寸为32×64的第八特征图。
优选的,所述步骤3包括以下步骤:
步骤3.1:采用一个下采样单元对第四特征图进行4倍的下采样,得到通道数为128,分辨率为32×64的第九特征图;
步骤3.2:采用双线性差值方式对第八特征图进行4倍的上采样,得到通道数为128,分辨率为128×256第十特征图;
步骤3.3:基于Sigmoid函数得到第八特征图和第十特征图的特征关键信息,并将特征关键信息分别与第九特征图和第四特征图以向量相乘的方式进行特征指导,得到低分辨率的第十一特征图和高分辨率的第十二特征图;
步骤3.4:采用双线性差值方式对第十一特征图完成4倍上采样,得到第十三特征图,将第十三特征图和第十二特征图相加,得到通道数为128,分辨率为128×256的第十四特征图。
优选的,所述步骤4包括以下步骤:
步骤4.1:使用两个深度可分离卷积对第十四特征图进行卷积,分别率保持不变,得到通道数为128,分辨率为128×256的第十五特征图;
步骤4.2:利用逐点卷积对第十五特征图进行分割类别映射,得到通道数为C,分辨率为128×256的第十六特征图,所述通道数为C中的C指分割类别数;
步骤4.3:采用双线性插值的方式对第十六特征图进行8倍上采样,将第十六特征图的分辨率恢复至与原始输入图像的分辨一致,得到最终分割结果图。
优选的,步骤1.1中所述的预处理包括:在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度。
优选的,所述不对称残差瓶颈模块由两个深度可分离卷积构成,所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积,并引入分组卷积和跳跃连接操作构成。
优选的,第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均由三个串联而成不对称残差瓶颈模块组成;
每一组中第一个不对称残差瓶颈模块的处理结果传输给第二个不对称残差瓶颈模块,第二个不对称残差瓶颈模块的处理结果传输给第三个不对称残差瓶颈模块,由第三个不对称残差瓶颈模块输出最终的结果;
每一组中的第一个不对称残差瓶颈模块的步长设置为2或1,其余两个的步长设置为1;当每一组中的第一个不对称残差瓶颈模块进行下采样时,此时所设置的步长为2;当每一组中的第一个不对称残差瓶颈模块不进行下采样时,此时所设置的步长为1;
优选的,所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2,4,6的空洞深度可分离卷积和一个全局池化单元组成。
优选的,所述下采样单元由步长皆为2的深度可分离卷积层和平均池化层构成。
本发明的有益效果包括:
本发明从轻量级模型设计的角度出发,设计了一种高效轻量的非对称残差瓶颈模块,以串行和并行两种堆叠方向设计深度可分离卷积,串行结构在更宽的信道上提取特征,并行结构通过特征重用丰富信息流,从而提高网络的表示能力和信息容量,补偿近似卷积带来的性能缺失。整个分割网络结构,基于不对称的编码器-解码器结构和特征共享的双分支结构堆叠所提出的非对称残差瓶颈模块,实现更快的模型前向推理速度,并结合多尺度信息完成密集特征的提取,最后利用特征指导的方式充分融合语义信息和空间信息,进一步提高了网络对不同尺度特征的判别能力,实现了精度和效率的平衡,使其成为真实复杂场景中实现实时语义分割任务的一种解决方案。
附图说明
图1为本发明所述的面向复杂场景的不对称双分支实时语义分割网络架构图;
图2为本发明所述的用于语义特征提取的不对称残差瓶颈模块的结构图;
图3为本发明所述的用于整合不同尺度信息的轻量级空洞空间金字塔池化单元结构图;
图4为本发明所述的用于特征融合的多尺度特征指导融合模块结构图;
图5为本发明所述网络与其他轻量级分割网络在Cityscapes数据集上的分割可视化结果对比图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于本发明的附图中出现了大量的英文,因此对附图中的因为作出一下解释:
深度可分离卷积(Depthwise Separable Convolutions,DSConv),该结构包括深度卷积(Depthwise Convolution,DWConv),和逐点卷积(也称呼为1×1卷积,PointwiseConvolution,PWConv);
ARBlock—不对称残差瓶颈模块(Asymmetrical Residual-bottleneck Block,ARBlock);
LASPP—轻量级空洞空间金字塔池化单元(Light Atrous Spatial PyramidPooling,LASPP);
GPW—分组逐点卷积(Group Pointwise Convolution,PWConv,GPW);BN—批归一化层(Batch Normalization,BN);
ReLU—一种非线性激活函数,是固有名称;g—分组卷积的分组数;Stride/s—卷积核滑动的步长,s取1或者2;Concat/C(图3)—通道拼接操作;GAPooing—全局平均池化(Global Average Pooling);Average Pooling—平均池化操作;Up—UpSampling Unit(上采样单元,也就是发明中所述非线性差值操作);Down—DownSampling Unit(下采样单元);Softmax—是一种激活函数,固有名称。
下面结合附图对本发明的实施例作进一步的详细说明:
参见附图1所示,本发明所提出的不对称双分支实时语义分割网络结构与传统的编码器-解码器结构类似,但本发明的不对称双分支实时语义分割网络结构,是由一个较大的特征共享的双分支编码器端和一个小的解码器端组成,解码器端主要用于还原特征图像尺寸,并没有过多卷积操作导致额外参数产生。编码器端包括共享下采样模块,双分支模块(语义分支、细节分支)、以及特征指导融合模块三个基本组件,负责密集特征的提取,解码器端包括特征恢复模块,负责将融合后的特征映射到分割类别,并上采样单元恢复到原始特征图尺寸得到最后的分割结果。整个网络结构大量使用深度可分离卷积代替标准卷积操作,极大地减少了网络的复杂程度,核心语义特征提取单元是由提出的轻量级非对称残差瓶颈模块堆叠而成,该瓶颈块在更宽通道上进行特征编码和特征复用,由此补偿使用近似卷积带来的性能缺失。
面向复杂场景的不对称双分支实时语义分割网络的方法,包括以下步骤:
步骤1:对原始输入图像进行预处理操作,得到输入图像,基于特征共享的下采样模块对输入图像进行下采样,得到第三特征图;
所述步骤1包括如下步骤:
步骤1.1:对原始输入图像进行预处理操作,得到大小为1024×2048的输入图像;
所述的预处理包括:在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度;
步骤1.2:利用一个卷积核大小为3×3,步长为2的标准2D卷积对通道数为3,大小为1024×2048的输入图像进行2倍的下采样,该标准2D卷积使用批量归一化(BN)和非线性激活函数ReLU,得到通道数为32,分辨率为512×1024的第一特征图;
步骤1.3:利用一个卷积核大小为3×3,步长为2的深度可分离卷积对第一特征图进行2倍的下采样,在深度卷积与逐点卷积之后都使用批量归一化(BN)和非线性激活函数ReLU,得到通道数为48,分辨率为256×512的第二特征图;
步骤1.4:利用一个卷积核大小为3×3,步长为2的深度可分离卷积对第二特征图进行2倍的下采样,在深度卷积与逐点卷积之后都使用批量归一化(BN)和非线性激活函数ReLU,得到通道数为384,分辨率为128×256的第三特征图;
步骤2:基于宽通道的轻量级双分支模块提取步骤1得到的特征图的高级语义特征和低级细节特征;
所述步骤2包括以下步骤:
步骤2.1:利用双分支模块的细节分支单元(由一个卷积核个数为128的1×1逐点卷积构成)对步骤1中得到的第三特征图进行通道降维,得到通道数为128,分辨率为128×256的第四特征图;
步骤2.2:利用第一组不对称残差瓶颈模块对第三特征图进行卷积,第一组不对称残差瓶颈模块对第三特征图进行2倍的下采样,得到通道数为384,图像尺寸为64×128的第五特征图;
步骤2.3:利用第二组不对称残差瓶颈模块对第五特征图进行卷积,第二组不对称残差瓶颈模块对第五特征图进行2倍的下采样,得到通道数为576,图像尺寸为32×64的第六特征图;
步骤2.4:利用第三组不对称残差瓶颈模块对第六特征图进行卷积,分辨率保持不变,得到通道数为768,图像尺寸为32×64的第七特征图;
步骤2.5:利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取,分辨率保持不变,得到通道数为128,图像尺寸为32×64的第八特征图。所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2,4,6的空洞深度可分离卷积和一个全局池化单元组成;
所述不对称残差瓶颈模块由两个深度可分离卷积构成,所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积,并引入分组卷积和跳跃连接操作构成。
第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均有三个串联而成不对称残差瓶颈模块组成;
每一组中第一个不对称残差瓶颈模块的处理结果传输给第二个不对称残差瓶颈模块,第二个不对称残差瓶颈模块的处理结果传输给第三个不对称残差瓶颈模块,由第三个不对称残差瓶颈模块输出最终的结果;
每一组中的第一个不对称残差瓶颈模块的步长设置为2或1,其余两个的步长设置为1;当每一组中的第一个不对称残差瓶颈模块进行下采样时,此时所设置的步长为2;当每一组中的第一个不对称残差瓶颈模块不进行下采样时,此时所设置的步长为1;
参见附图2所示,所述不对称残差瓶颈模块包括两个深度可分离卷积层,以不对称的残差瓶颈结构进行堆叠,假设输入张量F∈RH×W×C,输出张量G∈RH'×W'×N,H,H',W,W',C,N分别代表输入、输出特征图的高度,宽度以及通道数。体系结构可被描述为:
其中PW(·)和DW(·)表示逐点卷积操作和深度卷积操作,GPW(·)表示分组逐点卷积,分组数g为1时退化成普通的逐点卷积;
所述不对称残差瓶颈模块的第一个深度可分离卷积采取串联的方式堆叠,先使用一个3×3深度卷积在高维通道上提取空间特征,再使用分组逐点卷积在编码通道信息的同时降低通道维度,形成瓶颈结构,分组卷积能进一步降低计算量;
所述不对称残差瓶颈模块的第二个深度可分离卷积采取并联的方式堆叠,先使用一个逐点卷积在低维通道上产生一半输出特征图,再使用3×3深度卷积生成另一半输出特征图,最后将两部分拼接,起到复用特征自身特征,丰富信息流的作用;
所述不对称残差瓶颈模块在每一层卷积层后使用BN层,但只在第一个深度卷积和第二个逐点卷积后使用非线性激活函数;
所述不对称残差瓶颈模块当输入特征图和输出特征图尺寸相同时,采用残差连接实现梯度回传。
如图3所示,给出了本发明中的轻量级空洞空间金字塔池化单元LASPP的结构示意图:
所述LASPP结构由一个1x1卷积和三个空洞率分别为2,4,6的3x3空洞深度可分离卷积和一个全局池化单元组成,形成空间金字塔结构,每个操作都生成128个特征图,全局池化层先使用双线性插值将特征图由原本的1×1分辨率恢复至32×64的分辨率尺寸,然后通过Concat函数将所有特征图按通道进行拼接,最后利用1×1卷积完成通道融合和降维。
所述LASPP结构将每一层在每个深度卷积层后使用ReLU激活函数和BN归一化操作,空洞卷积(Dilated Convolution)能够在不增加计算负担的前提下扩大网络感受野(Receptive Filed,卷积层输出特征图上的像素点对原始输入图像感知的区域);
步骤3:使用特征指导融合模块对两个分支模块的语义信息和空间信息进行多尺度融合,得到第十四特征图;
所述步骤3包括以下步骤:
步骤3.1:采用一个下采样单元对第四特征图进行4倍的下采样,得到通道数为128,分辨率为32×64的第九特征图;
步骤3.2:采用双线性差值方式对第八特征图进行4倍的上采样,得到通道数为128,分辨率为128×256第十特征图;
步骤3.3:基于Sigmoid函数得到第八特征图和第十特征图的特征关键信息,并将特征关键信息分别与第九特征图和第四特征图以向量相乘的方式进行特征指导,得到低分辨率的第十一特征图和高分辨率的第十二特征图;
步骤3.4:采用双线性差值方式对第十一特征图完成4倍上采样,得到第十三特征图,将第十三特征图和第十二特征图相加,并仅在此处之后使用ReLU非线性激活函数,但在每一层卷积层之后使用BN层,得到通道数为128,分辨率为128×256的第十四特征图;
下采样单元由步长都为2,卷积核大小都为3×3的深度可分离卷积层和平均池化层构成;
步骤4:基于步骤3中的第十四特征图和特征恢复模块得到最终分割结果图;
所述步骤4包括以下步骤:
步骤4.1:使用两个深度可分离卷积对第十四特征图进行卷积,分别率保持不变,得到通道数为128,分辨率为128×256的第十五特征图;
步骤4.2:利用逐点卷积对第十五特征图进行分割类别映射,得到通道数为C,分辨率为128×256的第十六特征图,所述通道数为C中的C指分割类别数;
步骤4.3:采用双线性插值的方式对第十六特征图进行8倍上采样,将第十六特征图的分辨率恢复至与原始图像的分辨率一致,得到最终分割结果图。
参见图5所示,为了验证本发明设计网络的准确性和实时性,在Cityscapes数据集上对模型进行训练和评估,在测试集上实现了69.78%的分割精度,在单个GTX 1080Ti GPU下,512×1024和1024×2048的输入分辨率下分别169.7FPS和58.8FPS的推理速度,且模型大小仅为1.44M,成为在移动\嵌入式场景下实现语义分割的可行办法。图5从上往下展示了输入图像、标注图像和ERFNet、ESPNetV2、DeeplabV3+、本发明设计ARSSNet四个网络的最佳预测可视化结果,明显可见其余网络分割结果存在界限模糊的问题,对相似但标签不同的物体无法正确分割,且在真实场景下也有更准确的分割结果,尤其是在小目标物体的分割上,不仅能够正确的对物体进行像素级分类,而且对于相邻区域的物体也能更好地区分,避免边界的锯齿化。
综上所述,本发明设计的实时语义分割网络通过共享浅层信息和特征指导的方式充分融合语义信息和空间信息,设计不对称残差瓶颈模块作为核心特征提取单元,并结合多尺度信息完成密集特征的提取。本发明在保证尽可能实时轻量的同时,细化复杂环境下物体边界的分割,在模型精度和效率之间达到平衡,成为一种在真实复杂场景中高效应用语义分割的可行方案。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (6)

1.面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,包括以下步骤:
步骤1:对原始输入图像进行预处理操作,得到输入图像,基于特征共享的下采样模块对输入图像进行下采样,得到第三特征图;
步骤2:基于宽通道的轻量级双分支模块提取步骤1得到的特征图的高级语义特征和低级细节特征;
步骤3:使用特征指导融合模块对两个分支模块的语义信息和空间信息进行多尺度融合,得到第十四特征图;
步骤4:基于步骤3中的第十四特征图和特征恢复模块得到最终分割结果图;
所述步骤2包括以下步骤:
步骤2.1:利用双分支模块的细节分支单元对步骤1中得到的第三特征图进行通道降维,得到通道数为128,分辨率为128×256的第四特征图;
步骤2.2:利用第一组不对称残差瓶颈模块对第三特征图进行卷积,第一组不对称残差瓶颈模块对第三特征图进行2倍的下采样,得到通道数为384,图像尺寸为64×128的第五特征图;
步骤2.3:利用第二组不对称残差瓶颈模块对第五特征图进行卷积,第二组不对称残差瓶颈模块对第五特征图进行2倍的下采样,得到通道数为576,图像尺寸为32×64的第六特征图;
步骤2.4:利用第三组不对称残差瓶颈模块对第六特征图进行卷积,分辨率保持不变,得到通道数为768,图像尺寸为32×64的第七特征图;
步骤2.5:利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提取,分辨率保持不变,得到通道数为128,图像尺寸为32×64的第八特征图;
所述不对称残差瓶颈模块由两个深度可分离卷积构成,所述深度可分离卷积包括以串行和并行的方式拼接的深度卷积和逐点卷积,并引入分组卷积和跳跃连接操作构成;
所述步骤3包括以下步骤:
步骤3.1:采用一个下采样单元对第四特征图进行4倍的下采样,得到通道数为128,分辨率为32×64的第九特征图;
步骤3.2:采用双线性差值方式对第八特征图进行4倍的上采样,得到通道数为128,分辨率为128×256第十特征图;
步骤3.3:基于Sigmoid函数得到第八特征图和第十特征图的特征关键信息,并将特征关键信息分别与第九特征图和第四特征图以向量相乘的方式进行特征指导,得到低分辨率的第十一特征图和高分辨率的第十二特征图;
步骤3.4:采用双线性差值方式对第十一特征图完成4倍上采样,得到第十三特征图,将第十三特征图和第十二特征图相加,得到通道数为128,分辨率为128×256的第十四特征图;
所述步骤4包括以下步骤:
步骤4.1:使用两个深度可分离卷积对第十四特征图进行卷积,分别率保持不变,得到通道数为128,分辨率为128×256的第十五特征图;
步骤4.2:利用逐点卷积对第十五特征图进行分割类别映射,得到通道数为C,分辨率为128×256的第十六特征图,所述通道数为C中的C指分割类别数;
步骤4.3:采用双线性插值的方式对第十六特征图进行8倍上采样,将第十六特征图的分辨率恢复至与原始输入图像的分辨一致,得到最终分割结果图。
2.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,所述步骤1包括如下步骤:
步骤1.1:对原始输入图像进行预处理操作,得到大小为1024×2048的输入图像;
步骤1.2:利用一个标准2D卷积对通道数为3,大小为1024×2048的输入图像进行2倍的下采样,得到通道数为32,分辨率为512×1024的第一特征图;
步骤1.3:利用一个深度可分离卷积对第一特征图进行2倍的下采样,得到通道数为48,分辨率为256×512的第二特征图;
步骤1.4:利用一个深度可分离卷积对第二特征图进行2倍的下采样,得到通道数为384,分辨率为128×256的第三特征图。
3.根据权利要求2所述的面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,步骤1.1中所述的预处理包括:在0.5到2之间随机调整大小、平移或裁剪、随机水平翻转、改变颜色、改变通道噪声以及改变亮度。
4.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,第一组不对称残差瓶颈模块、第二组不对称残差瓶颈模块以及第三组不对称残差瓶颈模块均有三个串联而成不对称残差瓶颈模块组成;
每一组中第一个不对称残差瓶颈模块的处理结果传输给第二个不对称残差瓶颈模块,第二个不对称残差瓶颈模块的处理结果传输给第三个不对称残差瓶颈模块,由第三个不对称残差瓶颈模块输出最终的结果;
每一组中的第一个不对称残差瓶颈模块的步长设置为2或1,其余两个的步长设置为1。
5.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2,4,6的空洞深度可分离卷积和一个全局池化单元组成。
6.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法,其特征在于,所述下采样单元由步长皆为2的深度可分离卷积层和平均池化层构成。
CN202210723314.9A 2022-06-21 2022-06-21 面向复杂场景的不对称双分支实时语义分割网络的方法 Active CN115082928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210723314.9A CN115082928B (zh) 2022-06-21 2022-06-21 面向复杂场景的不对称双分支实时语义分割网络的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210723314.9A CN115082928B (zh) 2022-06-21 2022-06-21 面向复杂场景的不对称双分支实时语义分割网络的方法

Publications (2)

Publication Number Publication Date
CN115082928A CN115082928A (zh) 2022-09-20
CN115082928B true CN115082928B (zh) 2024-04-30

Family

ID=83255867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210723314.9A Active CN115082928B (zh) 2022-06-21 2022-06-21 面向复杂场景的不对称双分支实时语义分割网络的方法

Country Status (1)

Country Link
CN (1) CN115082928B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612288B (zh) * 2023-07-19 2023-11-07 南京信息工程大学 一种多尺度轻量级实时语义分割方法、系统
CN116895050B (zh) * 2023-09-11 2023-12-08 四川高速公路建设开发集团有限公司 一种隧道火灾识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740465A (zh) * 2018-12-24 2019-05-10 南京理工大学 一种基于实例分割神经网络框架的车道线检测算法
CN111241958A (zh) * 2020-01-06 2020-06-05 电子科技大学 一种基于残差-胶囊网络的视频图像鉴别方法
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法
CN113888557A (zh) * 2021-09-22 2022-01-04 山东师范大学 一种基于rgb-d特征融合的场景语义分割方法及系统
CN114067153A (zh) * 2021-11-02 2022-02-18 暨南大学 基于并行双注意力轻量残差网络的图像分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740465A (zh) * 2018-12-24 2019-05-10 南京理工大学 一种基于实例分割神经网络框架的车道线检测算法
CN111241958A (zh) * 2020-01-06 2020-06-05 电子科技大学 一种基于残差-胶囊网络的视频图像鉴别方法
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法
CN113888557A (zh) * 2021-09-22 2022-01-04 山东师范大学 一种基于rgb-d特征融合的场景语义分割方法及系统
CN114067153A (zh) * 2021-11-02 2022-02-18 暨南大学 基于并行双注意力轻量残差网络的图像分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DABNet: Depth-wise Asymmetric Bottleneck for Real-time Semantic Segmentation;Gen Li, Inyoung Yun, Jonghyun Kim, Joongkyu Kim;《Computer Vision and Pattern Recognition》;20191001;全文 *
Filter Pruning Without Damaging Networks Capacity;Yuding Zuo等;《 IEEE Access 》;20200511;全文 *
面向图像理解的轻量级网络关键技术研究与原型实现;孙孟凡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20230115;全文 *

Also Published As

Publication number Publication date
CN115082928A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN115082928B (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN113344188A (zh) 基于通道注意力模块的轻量级神经网络模型
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN113486897A (zh) 一种卷积注意力机制上采样解码的语义分割方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN111915660A (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN112700418B (zh) 一种基于改进编解码网络模型的裂缝检测方法
CN112489050A (zh) 一种基于特征迁移的半监督实例分割算法
CN115424059B (zh) 一种基于像素级对比学习的遥感土地利用分类方法
CN115239564B (zh) 一种结合语义信息的矿井图像超分辨率重建方法
CN115546650A (zh) 基于yolo-v网络的检测遥感影像中舰船方法
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN114693966A (zh) 一种基于深度学习的目标检测方法
CN113902753A (zh) 基于双通道和自注意力机制的图像语义分割方法及系统
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法
CN116452900A (zh) 一种基于轻量级神经网络的目标检测方法
CN116310334A (zh) 一种图像分割方法、装置、设备及可读存储介质
CN114119627B (zh) 基于深度学习的高温合金微观组织图像分割方法及装置
Huang et al. Lidar-camera fusion based high-resolution network for efficient road segmentation
CN115409813A (zh) 一种基于gan及注意力融合机制的快速表面缺陷检测方法及系统
CN112488115B (zh) 一种基于two-stream架构的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant