CN111191674A - 基于密集连接带孔卷积网络的初级特征提取器及提取方法 - Google Patents

基于密集连接带孔卷积网络的初级特征提取器及提取方法 Download PDF

Info

Publication number
CN111191674A
CN111191674A CN201911208300.8A CN201911208300A CN111191674A CN 111191674 A CN111191674 A CN 111191674A CN 201911208300 A CN201911208300 A CN 201911208300A CN 111191674 A CN111191674 A CN 111191674A
Authority
CN
China
Prior art keywords
feature
network
primary
decoder
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911208300.8A
Other languages
English (en)
Inventor
田萱
王亮
孟祥光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Forestry University
Original Assignee
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Forestry University filed Critical Beijing Forestry University
Priority to CN201911208300.8A priority Critical patent/CN111191674A/zh
Publication of CN111191674A publication Critical patent/CN111191674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Abstract

本发明属于图像信息处理技术领域,公开了一种基于密集连接带孔卷积网络的初级特征提取器及提取方法,初级特征解码器由多个不同卷积核的反卷积层组成,输出的特征图由多个反卷积层进行处理;特征结合层:由kernel为1×1、stride为1卷积层构成,进行降维处理;特征还原器由多个不同卷积核的反卷积层组成。本发明以DenseNet的密集连接方式连接带孔卷积并以此来构建DenseAtrousCNet的网络结构,能够同时获得带孔卷积和DenseNet的优势,既保留了传统神经网络的优点,又能够捕获更多的稠密特征,提升图像语义信息的利用率,而实现真正意义上的端到端的图像语义分割。

Description

基于密集连接带孔卷积网络的初级特征提取器及提取方法
技术领域
本发明属于图像信息处理技术领域,尤其涉及一种基于密集连接带孔卷积网络的初级特征提取器及提取方法。
背景技术
目前,最接近的现有技术:传统的图像语义分割方法虽然也能做简单的语义分割,但是面对背景复杂或多个目标的图片时,存在网络运算量大、分割效果不明显和分割结果粗糙等问题,不利于图像批量处理,同时也不适应智能时代的需要,由此导致了传统的图像语义分割方法不能满足时代需求的局面。深度学习(Deep Learning,DL)技术被广泛研究和应用后,大量基于深度学习的图像语义分割方法(Image Semantic Segmentation basedon Deep Learning,ISSbDL)被提出,极大地改善了这种尴尬的状况。
FCN是ISS领域具有代表性的网络模型,它在VGG-16网络基础上进行改进,使用卷积层替换全连接层,使用跨层(skip layer)组合中间卷积层的特征图,能从抽象特征中恢复出像素类别,把图像级分类进一步延伸到像素级分类。DeepLab-V1在FCN的基础上结合了Hole算法,使用双线性插值算法对输出特征进行上采样,然后用全连接CRF来构建像素点并求解。DeepLab-V2网络使用带孔卷积来保持池化操作后的感受野,使用带孔空间金字塔池化进行多尺度特征整合。CRF_RNN把CRF的学习、推理、求解等过程迭代建模为RNN的相关运算,再将其嵌入到CNN模型中。Mask-RCNN能够完成分类、回归和分割三项任务,解决了特征图与原始图像中感兴趣区域不对准的问题,促进了图像语义分割的发展。但是,图像数据经过大量池化操作后,图像会被压缩,导致特征图的分辨率不断降低,部分像素的空间位置信息也严重丢失;而Dense Block使用过多则会导致特征的通道数急速上升。
综上所述,现有技术存在的问题是:
(1)现有图像数据经过大量池化操作后,特征图的分辨率不断降低,部分像素的空间位置信息严重丢失。
(2)现有Dense Block使用过多会导致特征的通道数急速上升,而通道数上升过快会导致图像特征变得繁杂、冗余,低级图像特征信息变多,而高阶图像语义信息的提取率变低。
解决上述技术问题的难度:池化操作必然会压缩图像,进而降低特征图分辨率。因此,改进神经网络的结构才能有效缓解特征图分辨率的速度。
解决上述技术问题的意义:能够增加有效的图像特征,有利于提取更多的高阶图像语义信息。
发明内容
针对现有技术存在的问题,本发明提供了一种基于密集连接带孔卷积网络的初级特征提取器及提取方法。
本发明是这样实现的,一种基于密集连接带孔卷积网络的初级特征提取器,所述基于密集连接带孔卷积网络的初级特征提取器包括解码器模块,所述解码器模块使用多个反卷积层进行特征解码,包括初级特征解码器、特征结合层和特征还原器;
所述初级特征解码器由多个不同卷积核的反卷积层组成,输出的大小为32×32的特征图由多个反卷积层进行处理;
所述特征结合层:由kernel为1×1、stride为1卷积层构成,进行降维处理;
所述特征还原器由多个不同卷积核的反卷积层组成;特征结合层所输出的特征图经过特征还原器中的多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理。
进一步,初级特征解码器达到4倍上采样效果后,特征图的分辨率变为128×128。
进一步,所述特征结合层结合不同的特征图;编码器中的初级特征提取器所输出的特征图与解码器中的初级特征解码器所输出的特征图进行特征结合,组合后的特征图分辨率为128×128。
进一步,所述特征还原器对特征图进行4倍上采样处理后,特征图分辨率恢复为512×512,得到最终的分割结果。
进一步,所述基于密集连接带孔卷积网络的初级特征提取器还通过网络信号连接解码器模块,所述编码器模块包括:
初级特征提取器,使用DenseAtrousCNet作为初级特征提取器;
特征再编码器,提取出图像的稠密特征并对特征图进行4倍下采样处理;
特征组合层,用于两条并行网络路线输出的特征图进行特征组合,组合后的特征图将被送入解码器模块进行特征解码。
进一步,初级特征提取器由多个串联的DenseBlock组成,每个DenseBlock以密集连接方式对多个带孔卷积进行连接,DenseAtrousCNet提取出初级图像特征并对原始图像进行4倍下采样处理,经过DenseAtrousCNet后特征图分辨率变为128×128。
进一步,特征再编码器由两条并行的网络线路组成,一条网络路线由“一个kernel为3×3、stride为2、padding为0的带孔卷积”和“一个DenseGobalASPP”组成,提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率变为32×32;
另一条网络路线由两个串联DenseGobalASPP组成,提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率同样也变为32×32。
本发明的另一目的在于提供一种所述基于密集连接带孔卷积网络的初级特征提取器的数据处理方法,所述数据处理方法包括:
初级特征解码器输出的大小为32×32的特征图由多个反卷积层进行处理;
由kernel为1×1、stride为1卷积层构成的特征结合层,进行降维处理;
由多个不同卷积核的反卷积层组成特征还原器对特征结合层所输出的特征图经过多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理。
本发明的另一目的在于提供一种实现所述数据处理方法的信息数据处理终端。
本发明的另一目的在于提供一种应用所述基于密集连接带孔卷积网络的初级特征提取器的图像语义分析系统。
综上所述,本发明的优点及积极效果为:
本发明以DenseNet和带孔卷积为基础,以密集连接的方式连接多个带孔卷积,设计了一种密集连接带孔卷积网络DenseAtrousCNet用在编码器-解码器模型中作为初级特征提取器,进行初级特征提取,以扩大网络的感受野和捕获更多的稠密特征,提高了分割准确率。
本发明的DenseAtrousCNet能够在不增加网络深度、不增加模型计算量的情况下,既扩大网络的感受野,又捕获更多的密集特征,有效保存图像的细节信息和部分像素的空间位置信息,能够为以后的分割过程提供更多的有效信息。
附图说明
图1是本发明实施例提供的基于密集连接带孔卷积网络的初级特征提取器的结构示意图;
图中:1、密集连接带孔卷积网络模块;2、卷积层。
图2是本发明实施例提供的DenseAtrousCNet框架结构示意图。
图3是本发明实施例提供的Dense Block原理示意图。
图4是本发明实施例提供的DenseASPPDeconvNet的基本框架图。
图5是本发明实施例提供的DenseASPPDeconvNet的基本处理流程图。
图6是本发明实施例提供的不同算法中分割结果的比较示意图。
图7是本发明实施例提供的DenseASPPDeconvNet模型的分割结果比较示意图。
图8是本发明实施例提供的DenseASPPDeconvNet使用不同模块组合的中mIoU比较示意图。
图9是本发明实施例提供的DenseASPPDeconvNet使用不同模块组合时的mIoU随epoch的变化情况示意图。
图10是本发明实施例提供的各类经典ISS算法在不同目标类别中IoU的比较示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于密集连接带孔卷积网络的初级特征提取器及提取方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于密集连接带孔卷积网络的初级特征提取器包括解码器模块,所述解码器模块使用多个反卷积层进行特征解码,包括初级特征解码器、特征结合层和特征还原器。
所述初级特征解码器由多个不同卷积核的反卷积层组成,输出的大小为32×32的特征图由多个反卷积层进行处理。
所述特征结合层:由kernel为1×1、stride为1卷积层构成,进行降维处理。
所述特征还原器由多个不同卷积核的反卷积层组成;特征结合层所输出的特征图经过特征还原器中的多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理。
进一步包括:密集连接带孔卷积网络层1、卷积层2。
密集连接带孔卷积网络层1,使用1×1的卷积用于降低通道数。
下面结合附图对本发明的技术方案作进一步的描述。
如图2所示,本发明实施例提供的密集连接带孔卷积网络模块(DenseAtrousCNet)1包括稠密块(Dense Block),Transition层。密集连接带孔卷积网络模块(DenseAtrousCNet)1使用1×1的卷积用于降低通道数,以减少模型参数大小和计算量。
稠密块(Dense Block),用于实现特征提取和特征融合。
Transition层连接两个相邻的稠密块(Dense Block),用于压缩网络模型的大小。
如图3所示,稠密块(Dense Block)由四个卷积核为3×3的带孔卷积的通过密集连接的方式构成。每个Dense Block均输出数个特征图,由于特征重用,随着网络层数的增加,DenseBlock的输入特征会越来越稠密。
本发明所改进的编码器-解码器模型(DenseASPPDeconvNet网络模型)的基本框架如图4所示,主要为解码器和编码器两个模块,下面将对两个模块进行分别分析,假设原始输入图像的分辨率为512×512。
(1)编码器模块
在DenseASPPDeconvNet网络模型中,对于编码器模块,主要包括DenseAtrousCNet和DenseGobalASPP两个网络模型,其核心包括初级特征提取器、特征再编码器和特征结合层三个部分,基本框架如下:
1)初级特征提取器
改进后的编码器使用DenseAtrousCNet作为初级特征提取器,DenseAtrousCNet由多个串联的DenseBlock组成,每个DenseBlock以密集连接方式对多个带孔卷积进行连接,DenseAtrousCNet提取出初级图像特征并对原始图像进行4倍下采样处理,经过DenseAtrousCNet后特征图分辨率变为128×128。
2)特征再编码器
特征再编码器由两条并行的网络线路组成,其关键模块是DenseGobalASPP。其中一条网络路线由“一个kernel为3×3、stride为2、padding为0的带孔卷积”和“一个DenseGobalASPP”组成,该路线会提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率变为32×32。另一条网络路线由两个串联DenseGobalASPP组成,该路线能够提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率同样也变为32×32。
3)特征组合层
两条并行网络路线(特征再编码器)输出的特征图会进行特征组合,组合后的特征图将被送入解码器模块进行特征解码。
(2)解码器模块
在DenseASPPDeconvNet网络模型中,对于解码器模块,其主要结构是反卷积层,使用多个反卷积层进行特征解码,其核心包括初级特征解码器、特征结合层和特征还原器三个部分,基本框架如下:
1)初级特征解码器
在改进后的解码器模块中,初级特征解码器由多个不同卷积核的反卷积层组成,编码器输出的大小为32×32的特征图会在初级特征解码器中由多个反卷积层进行处理,达到4倍上采样效果以后,特征图的分辨率变为128×128。
2)特征结合层
特征结合层主要由一个“kernel为1×1、stride为1卷积层”构成,主要进行降维处理,结合不同的特征图。“编码器中的初级特征提取器所输出的特征图”会与“解码器中的初级特征解码器所输出的特征图”进行特征结合,组合后的特征图分辨率为128×128。
3)特征还原器
在改进后的解码器模块中,特征还原器也是由多个不同卷积核的反卷积层组成。解码器中的特征结合层所输出的特征图(分辨率为128×128)会经过特征还原器中的多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理后,特征图分辨率恢复为512×512,得到最终的分割结果。
DenseASPPDeconvNet的处理流程:
本发明所改进的编码器-解码器模型(DenseASPPDeconvNet网络模型)的基本处理流程如图5所示,假设原始输入图像的分辨率大小为512×512,由图可知DenseASPPDeconvNet网络模型大致分为三条路线,每条路线的数据流向如下:
路线一:
Figure BDA0002297435730000081
路线二:
Figure BDA0002297435730000082
Figure BDA0002297435730000083
路线三:
Figure BDA0002297435730000084
Figure BDA0002297435730000085
下面结合实施例对本发明作进一步描述。
实施例1:不同算法的分割结果展示
FCN-8s是经典的ISS算法,而DeconvNet是最具代表性的基于编码器-解码器模型的ISS算法,为了对比、分析DenseASPPDeconvNet的可视化分割结果,我们选择FCN-8s、DeconvNet与本文算法的分割结果进行对比。
图6展示了DenseASPPDeconvNet的分割结果与FCN-8s、DeconvNet的分割结果的对比情况。图6中第一列为原始图像,第二列为对经过标注后的图像标签,第三列为FCN-8s网络后所产生的分割结果,第四列为DeconvNet网络后所产生的分割结果,第五列为本发明所提出的DenseASPPDeconvNet所产生的分割结果。
从图6中可以看出,与其它算法相比,本发明提出的算法所产生的分割结果更接近于真实标注,分割边界较为连续、光滑,经分析和对比,可以得出:
①与FCN-8s网络相比,本发明提出的算法的分割效果明显优于FCN-8s网络,本发明算法的分割效果提升显著,分割边界更为精细,对图像中物体的分割效果更为显著,对图像细节更为敏感。
与DeconvNet网络相比,本发明算法的分割准确率有一定提升,对图像中各物体的分割效果都有一定提高,相比之下,本发明算法对图像细节的分割效果更好,图像细微之处的分割边界也更光滑。
(2)DenseASPPDeconvNet模型的分割结果展示
图7展示了本发明所提出的DenseASPPDeconvNet网络模型在PASCAL VOC 2012数据集中的分割结果。
从图7中可以看出DenseASPPDeconvNet网络模型所提取出的稠密特征图能够辅助分割,网络模型能够正确分割出图像中的主要目标物体,可以提取出图像中的不同语义信息,目标物体的分割效果良好。
DenseASPPDeconvNet网络模型能够正确识别并分割出图像中的物体,通过图7经过分析,可以得出:
DenseASPPDeconvNet对图像中各类目标物体的分割效果较好;
当图像中出现多个目标物体时,DenseASPPDeconvNet也能对其进行正确分割,对多数量、多目标物体的图像也拥有一定的分割效果。
综上所述,DenseASPPDeconvNet所产生的分割图像较为清晰,分割曲线较为光滑,分割边界较为连续、光滑,分割结果非常接近真实标注。总体来说,DenseASPPDeconvNet的分割结果较为精细,网络模型的分割性能整体表现较好。
实施例2
在本发明提出的DenseASPPDeconvNe中,使用DenseAtrousCNet代替传统的DCNN进行初级特征提取,使用DenseGobalASPP代替传统的ASPP对初级特征提取进行再编码,因此,本发明将在PASCAL VOC 2012数据集中,对DenseAtrousCNet和DenseGobalASPP两个模块的作用和效果进行检验。
采用本发明提出的网络框架结构,将DenseAtrousCNet、DenseGobalASPP、DCNN和ASPP四种模块分别进行组合,对比分析实验结果。首先介绍在不同带孔率下四种不同模块组合的mIoU比较,然后对四种不同模块组合训练过程中的mIoU变化曲线进行分析与比较,最后对四种组合的综合性能进行比较分析。
上述四种模块构成的四种组合形式有DACNet+DGASPP,DCNN+DGASPP,DACNet+ASPP和DCNN+ASPP。每种组合所代表的含义如下:
DACNet+DGASPP表示由DenseAtrousCNet和DenseGobalASPP组合成DenseASPPDeconvNet网络模型的编码器模块;
DCNN+DGASPP表示由DCNN和DenseGobalASPP组合成DenseASPPDeconvNet网络模型网络的编码器模块;
DACNet+ASPP表示由DenseAtrousCNet和ASPP组合成DenseASPPDeconvNet网络模型的编码器模块;
DCNN+ASPP表示由DCNN和ASPP组合成DenseASPPDeconvNet网络模型的编码器模块。
实验过程中,将卷积的类型设置为Atrous Convolution(3,6,12,18)和AtrousConvolution(6,12,18,24)两种,每种类型所代表的含义如下:
Atrous Convolution(3,6,12,18)代表使用带孔率分别为3、6、12、18的带孔卷积;
Atrous Convolution(6,12,18,24)代表使用带孔率分别为6、12、18、24的带孔卷积。
从理论上分析,一个5×5的卷积可以用两个3×3的卷积进行代替,一个7×7的卷积可以用三个3×3的卷积进行代替,使用3×3的卷积操作代替卷积核较大的卷积操作既可以减少网络模型的参数量,又不会影响网络模型的分割准确率。为了便于进行统一的实验性能比较,实验测试过程中将统一采用卷积核为3×3的带孔卷积与卷积核为1×1的一般卷积,其它实验参数也保持一致。
(1)不同组合在不同带孔率下的mIoU比较
图8展示了在DenseASPPDeconvNet网络中,不同模块进行组合后mIoU的对比情况。从图8中可以看出,在同等条件下、同一网络结构中,不但DenseAtrousCNet所表现的mIoU高于DCNN,而且DenseGobalASPP所表现的mIoU也高于ASPP。
四种组合中,Atrous Convolution(3,6,12,18)所表现的mIoU要均高于AtrousConvolution(6,12,18,24)。在所有组合中,使用Atrous Convolution(3,6,12,18)所构成的DACNet+DGASPP的mIoU在这些组合中表现最佳,其mIoU为77.5%。
依据图8中表现出的各项性能数据,经分析可以看出,使用本发明所提出的DenseAtrousCNet作为初级特征提取器进行特征提取和特征编码时,性能要高于传统的DCNN;使用本发明所提出的DenseGobalASPP进行特征再编码时,性能要高于传统的ASPP。
(2)不同组合mIoU变化曲线的分析与比较
为了进一步对DenseAtrousCNet、DenseGobalASPP、DCNN和ASPP的分割性能进行分析与对比,下面测试将统一使用卷积核为3×3的Atrous Convolution(3,6,12,18)来构建网络结构。
图9所显示了四种不同组合的mIoU曲线随着epoch次数的变化情况,由图9可知,DACNet+DGASPP的mIoU最高,准确率上升较快,整体效果优于其它组合。从图9中可以看出,由于DenseAtrousCNet能够捕获更多的稠密特征和图像语义信息,DenseGobalASPP能够有效地进行特征融合并充分利用图像上下文,使用由DenseAtrousCNet和DenseGobalASPP所构成的编码器模块在进行图像语义分割时,其分割效果要优于由DCNN或ASPP所构成的编码器模块。这也说明了本发明所提出的DenseAtrousCNet和DenseGobalASPP能够提高图像语义分割的准确率,各个模块的分割性较好。
(3)不同模块组合的综合性能比较
本节将对本发明所提出的DenseASPPDeconvNet网络模型进行综合性能分析,包括分析网络模型的平均交并比(mIoU)、像素准确率(PA)和分割速度等。
本发明的实验均统一在DenseASPPDeconvNet网络使用卷积核为3×3的AtrousConvolution(3,6,12,18)上进行,并且由DenseGobalASPP、DenseAtrousCNet、DCNN、ASPP四种不同模块组合后来构建DenseASPPDeconvNet的编码器。其中DGASPP代表本发明所提出的DenseGobalASPP网络,DACNet代表本发明所提出的DenseAtrousCNet网络。
表1为在DenseASPPDeconvNet网络模型中,使用DenseGobalASPP、DenseAtrousCNet、DCNN、ASPP这几种模块组合后来构建DenseASPPDeconvNet的编码器时,不同模块分割准确率与分割速度的比较。
表1 DenseASPPDeconvNet使用不同模块组合时的综合性能比较
Figure BDA0002297435730000121
注a:“√”代表该类方法使用了纵坐标所对应的网络模块,
注b:“×”代表该类方法没有使用纵坐标所对应的网络模块。
表1中,Ours-1方法代表由DenseGobalASPP和DenseAtrousCNet来构建DenseASPPDeconvNet的编码器。从表1中可以看出,Ours-1方法也是四种组合中在所有评价指标表现均为最好的方法,其mIoU为77.5%、PA为93.7%、分割速度为0.15s(默认输入图片分辨率为512×512),mIoU和PA表现最高,分割速度也最快,在四种组合中综合性能表现最好。
DenseAtrousCNet和DenseGobalASPP能够获得更稠密的特征图和更大的感受野,更有助于提高ISS的分割准确率。从表1中可以看出,DenseAtrousCNet所表现的性能优于DCNN,DenseGobalASPP所表现的性能优于ASPP。以上论证也进一步说明了本发明所提出的DenseAtrousCNet网络在进行初级特征提取和特征编码的性能要优于经典的DCNN,使用DenseGobalASPP将初级特征转变为稠密特征时的性能要优于传统的ASPP。
实施例1
为了全面评估DenseASPPDeconvNet,并且进一步分析DenseASPPDeconvNet对每一类目标物体的分割效果,本发明将在PASCAL VOC2012数据集中对本发明所提出的DenseASPPDeconvNet与经典ISS算法在每类目标物体中的IoU分别进行展示,对其进行详细地分析和对比。
主要对比的经典ISS算法有FCN、Deeplab、SegNet和DeconvNet,其中,FCN是使用DL技术进行ISS最具代表性的算法;Deeplab使用CRF和ASPP来辅助进行图像分割,是最经典的ISS算法之一;SegNet和DeconvNet是最具代表性的基于编码器-解码器模型的ISS算法。
图10给出了不同算法在不同类别的目标物体中IoU的比较,其中红色柱状图代表本发明所提出的DenseASPPDeconvNet网络模型,蓝色柱状图代表DeconvNet网络,绿色柱状图代表Deeplab网络,黄色柱状图代表FCN网络。
从图10中可以看出,在这20类目标物体中,DenseASPPDeconvNet与其它算法相比,在绝大多数种类物体中的IoU均有所提升。其中,与FCN、Deeplab相比,DenseASPPDeconvNet在每一类物体中的IoU都比其要高,IoU有显著提升,优越性十分明显。与经典的编码器-解码器模型的DeconvNet相比,以上20类物体中除飞机(aeroplane)与摩托车(motor bike)外,DenseASPPDeconvNet所表现的IoU都比DeconvNet要高。FCN、Deeplab和DeconvNet都是经典的图像语义分割算法,DeconvNet更是经典的编码器-解码器模型,本发明所提出的网络模型与其相比IoU均有所提升。
为了进一步评估DenseASPPDeconvNet,并且全面分析DenseASPPDeconvNet的分割效果,表2不仅提供了DenseASPPDeconvNet与经典ISS算法在PASCAL VOC 2012数据集中对每一类目标物体的IoU具体值,还提供了每类算法的mIoU具体值。表2中的算法包括SegNet、FCN、Deeplab、DeconvNet等,从表2中可以得到,DenseASPPDeconvNet的mIoU(%)为77.5%,DeconvNet的mIoU(%)为74.8%,Deeplab的mIoU(%)为66.4%,FCN网络的mIoU(%)为62.2%,SegNet网络的mIoU(%)为59.9%。在这四种算法中,DenseASPPDeconvNet的mIoU(%)最高,效果表现最好。
表2各经典ISS算法在不同目标类别中IoU的比较
Figure BDA0002297435730000131
Figure BDA0002297435730000141
实施例2:与各经典ISS算法的综合性能比较
本发明进一步分析DenseASPPDeconvNet的综合性能,将通过与经典ISS算法的综合性能进行详细地比较,进而说明本发明算法的分割效果。表3中给出了在图像语义分割领域中一些经典算法的分割性能,主要比较因素有mIoU(%)、分割速度、分割频率,其中,分割频率(fps)是指一秒钟内分割图像的数量。
从表3中可以发现,在分割准确率方面,本发明算法(DenseASPPDeconvNet)由于捕获的特征更为稠密、图像上下文利用更为合理、网络感受野更大等优势,其mIoU表现最好,分割准确率最高。在分割速度方面,本发明所提出的算法的分割速度要高于FCN-8s、CRF_RNN、DeepLab和DPN等网络;而SegNet和Bayesian_SegNet主要适用于在线视频处理和无人驾驶等领域,其完全对称的网络结构更利于提升分割速度,主要关注分割速度,因此,本发明算法的分割速度比其要低。总体说来,本发明所提算法的准确率较高,分割速度较快,整体效果表现较好。
表3各类经典ISS算法的分割性能比较
Figure BDA0002297435730000151
注a:“N/A”代表该项指标在相关文献中未提及或无法复现该项指标。
实施例3:与其它ISS算法的mIoU比较
为了更全面、更深刻地展示本文算法,表4给出了其它图像语义分割算法与本文所提出的算法在mIoU(%)上的对比情况,从表4中经分析,可以得出:
SDS、TTI_zoomout、TTI_zoomout_16这三种算法在ISS过程中需要产生大量的目标候选区域,捕获的特征不够稠密、感受野不够大且无法有效利用全局特征。本发明算法使用带孔卷积拥有更大的感受野,使用DenseAtrousCNet来产生更稠密的图像特征,局部特征和全局特征的利用率更为合理。因此,本发明算法的mIoU比这三种方法要高很多,分割效果明显比其要好。
MSRA_BoxSupS算法使用弱监督方式进行特征学习,而DeepLab-LargeFOV,DeepLab–Attention和DeepLabCOCO-LargeFOV等算法使用ASP进行特征融合、并使用CRF来捕获图像上下文。由于本发明算法使用DenseGobalASPP进行特征融合,进行全监督学习,图像上下文利用更为合理,特征融合更为有效,更能提高分割准确率。因此,本发明算法的mIoU比这四种算法要高。
与CentraleSuperBoundaries++算法相比较,本发明所提算法的mIoU也在一定程度上有所提高,整体的分割效果差别不大。但是,与LRR算法相比,由于LRR把特征图表示为一组基函数的线性组合,并且使用跨层方式引入边界信息,可以利用图像上下文对粗糙分割结果进行再精细化处理,故而本发明提出的算法比LRR算法的mIoU稍低。DFN(Discriminative Feature Network)算法是计算机视觉国际会议CVPR 2018的最新算法,DFN使用具有全局信息和通道注意力模型的Smooth Network来提升类内一致性,在图像语义分割过程中融合了低层特征与高层特征,其分割准确率比本文算法要高。
表4各类算法的mIoU比较
Figure BDA0002297435730000161
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于密集连接带孔卷积网络的初级特征提取器,其特征在于,所述基于密集连接带孔卷积网络的初级特征提取器包括解码器模块,所述解码器模块使用多个反卷积层进行特征解码,包括初级特征解码器、特征结合层和特征还原器;
所述初级特征解码器由多个不同卷积核的反卷积层组成,输出的大小为32×32的特征图由多个反卷积层进行处理;
所述特征结合层:由kernel为1×1、stride为1卷积层构成,进行降维处理;
所述特征还原器由多个不同卷积核的反卷积层组成;特征结合层所输出的特征图经过特征还原器中的多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理。
2.如权利要求1所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,初级特征解码器达到4倍上采样效果后,特征图的分辨率变为128×128。
3.如权利要求1所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,所述特征结合层结合不同的特征图;编码器中的初级特征提取器所输出的特征图与解码器中的初级特征解码器所输出的特征图进行特征结合,组合后的特征图分辨率为128×128。
4.如权利要求1所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,所述特征还原器对特征图进行4倍上采样处理后,特征图分辨率恢复为512×512,得到最终的分割结果。
5.如权利要求1所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,所述基于密集连接带孔卷积网络的初级特征提取器还通过网络信号连接解码器模块,所述编码器模块包括:
初级特征提取器,使用DenseAtrousCNet作为初级特征提取器;
特征再编码器,提取出图像的稠密特征并对特征图进行4倍下采样处理;
特征组合层,用于两条并行网络路线输出的特征图进行特征组合,组合后的特征图将被送入解码器模块进行特征解码。
6.如权利要求5所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,初级特征提取器由多个串联的DenseBlock组成,每个DenseBlock以密集连接方式对多个带孔卷积进行连接,DenseAtrousCNet提取出初级图像特征并对原始图像进行4倍下采样处理,经过DenseAtrousCNet后特征图分辨率变为128×128。
7.如权利要求6所述的基于密集连接带孔卷积网络的初级特征提取器,其特征在于,特征再编码器由两条并行的网络线路组成,一条网络路线由“一个kernel为3×3、stride为2、padding为0的带孔卷积”和“一个DenseGobalASPP”组成,提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率变为32×32;
另一条网络路线由两个串联DenseGobalASPP组成,提取出图像的稠密特征并对特征图进行4倍下采样处理,特征图被处理后分辨率同样也变为32×32。
8.一种如权利要求1所述基于密集连接带孔卷积网络的初级特征提取器的数据处理方法,其特征在于,所述数据处理方法包括:
初级特征解码器输出的大小为32×32的特征图由多个反卷积层进行处理;
由kernel为1×1、stride为1卷积层构成的特征结合层,进行降维处理;
由多个不同卷积核的反卷积层组成特征还原器对特征结合层所输出的特征图经过多个反卷积层进行反卷积操作,对特征图进行4倍上采样处理。
9.一种实现权利要求8所述数据处理方法的信息数据处理终端。
10.一种应用权利要求1~8任意一项所述基于密集连接带孔卷积网络的初级特征提取器的图像语义分析系统。
CN201911208300.8A 2019-11-30 2019-11-30 基于密集连接带孔卷积网络的初级特征提取器及提取方法 Pending CN111191674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911208300.8A CN111191674A (zh) 2019-11-30 2019-11-30 基于密集连接带孔卷积网络的初级特征提取器及提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911208300.8A CN111191674A (zh) 2019-11-30 2019-11-30 基于密集连接带孔卷积网络的初级特征提取器及提取方法

Publications (1)

Publication Number Publication Date
CN111191674A true CN111191674A (zh) 2020-05-22

Family

ID=70709484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911208300.8A Pending CN111191674A (zh) 2019-11-30 2019-11-30 基于密集连接带孔卷积网络的初级特征提取器及提取方法

Country Status (1)

Country Link
CN (1) CN111191674A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694306B2 (en) 2020-06-12 2023-07-04 Samsung Electronics Co., Ltd. Image processing apparatus and method of operating the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694306B2 (en) 2020-06-12 2023-07-04 Samsung Electronics Co., Ltd. Image processing apparatus and method of operating the same

Similar Documents

Publication Publication Date Title
CN112634276B (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN110120011B (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
CN108596330B (zh) 一种并行特征全卷积神经网络装置及其构建方法
Zhou et al. HFNet: Hierarchical feedback network with multilevel atrous spatial pyramid pooling for RGB-D saliency detection
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN112541503A (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN110580704A (zh) 基于卷积神经网络的et细胞图像自动分割方法及系统
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN115359370B (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN113362239A (zh) 一种基于特征交互的深度学习图像修复方法
CN111191674A (zh) 基于密集连接带孔卷积网络的初级特征提取器及提取方法
CN113592878A (zh) 一种紧致的多尺度视频前景分割方法
Nascimento et al. Combining attention module and pixel shuffle for license plate super-resolution
CN115345801B (zh) 一种基于图像去噪思想的图像压缩及滤镜去除方法及系统
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN116310324A (zh) 一种基于语义分割的金字塔跨层融合解码器
Li et al. Single image deraining using multi-scales context information and attention network
CN116524180A (zh) 基于轻量级主干结构的戏曲舞台场景分割方法
CN112488115B (zh) 一种基于two-stream架构的语义分割方法
CN115330631A (zh) 一种基于堆叠沙漏网络的多尺度融合去雾方法
CN115082306A (zh) 一种基于蓝图可分离残差网络的图像超分辨率方法
CN114332103A (zh) 一种基于改进FastFCN的图像分割方法
CN111126451A (zh) 一种对偶式语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination