CN113191367B - 基于密集尺度动态网络的语义分割方法 - Google Patents

基于密集尺度动态网络的语义分割方法 Download PDF

Info

Publication number
CN113191367B
CN113191367B CN202110574529.4A CN202110574529A CN113191367B CN 113191367 B CN113191367 B CN 113191367B CN 202110574529 A CN202110574529 A CN 202110574529A CN 113191367 B CN113191367 B CN 113191367B
Authority
CN
China
Prior art keywords
dynamic local
filter
network
ddlac
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110574529.4A
Other languages
English (en)
Other versions
CN113191367A (zh
Inventor
李志强
陈曦
刘敏
郑来文
刘小平
姜宛玥
李庆利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Huanghuai University
Original Assignee
East China Normal University
Huanghuai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University, Huanghuai University filed Critical East China Normal University
Priority to CN202110574529.4A priority Critical patent/CN113191367B/zh
Publication of CN113191367A publication Critical patent/CN113191367A/zh
Application granted granted Critical
Publication of CN113191367B publication Critical patent/CN113191367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

基于密集尺度动态网络的语义分割方法,解决了现有DCNN在语义分割时定位精度及同类对象的大尺度变化导致分割困难问题,属于语义分割技术领域。本发明提供一种密集尺度模块DSM,包括按顺序依次连接的n层并行单元,每层并行单元包括m个深度动态局部空洞卷积DDLAC和一个1×1卷积;每个DDLAC是通过将深度空洞卷积调整为由动态局部和有条件参数化卷积而生成的,包括条件滤波器生成网络CFGN和对应的动态局部滤波操作单元DLFO;将骨干网输出的特征图输入到每个CFGN中以生成滤波器集合。将骨干网输出的特征图输入到DSM的第一个DLFO中,每个DLFO在对应的滤波器集合的基础上进行分割,经过n层并行单元生成精细的分割图。

Description

基于密集尺度动态网络的语义分割方法
技术领域
本发明涉及基于密集尺度动态网络的语义分割方法,属于语义分割技术领域。
背景技术
语义分割在许多应用中起着重要作用,例如自动驾驶,医学影像,机器人视觉等。尽管基于深度卷积网络(DCNN)的语义分割算法的性能优于传统算法,但仍然面临两个重大挑战:1)大多数DCNN具有空间不变性,这种不变性降低了分割时的定位精度;2)在图像数据中,同类对象的大尺度变化导致分割困难。
当前主流的DCNN由空间域共享的滤波器(权重)组成。它们对局部图像变换具有空间不变性。这种不变性指的是:图像中的对象经过旋转或平移后,仍然能够被DCNN准确识别。这种不变性使得DCNN具有强大的数据抽象能力,非常适合分类任务;但不利于语义分割,因为这会导致分割时的定位精度降低。最近的研究表明,用于语义分割的理想滤波器应在空间上变化,以捕获不同位置的独特特征。而理想的DCNN应该是动态的,它可以将信息从共享空间域DCNN的通道维度转换为空间维度,并自动将不同的滤波器分配给空间维度上的不同对象区域。
物体的大尺度变化是指同一类别物体表现为十分多样的尺寸,大小差别极大。这是由于物体到相机的距离不同而引起的。这导致难以分割过大的或极小物体。大物体可能会超出DCNN的感受野,从而导致不连续的预测。小物体在感受野中的占比非常小,导致在感受野内看不见。
发明内容
针对现有DCNN在语义分割时定位精度及同类对象的大尺度变化导致分割困难问题,本发明提供一种基于密集尺度动态网络的语义分割方法。
本发明的一种基于密集尺度动态网络的语义分割方法,包括:
S1、将待分割的语义图像输入至骨干网中,得到特征图xA
S2、将特征图输入至密集尺度模块DSM对输入图像进行语义分割,获取最终分割图,包括:
所述密集尺度模块DSM包括按顺序依次连接的n层并行单元,每层并行单元包括m个深度动态局部空洞卷积和一个1×1卷积,每层并行单元的输出为m个深度动态局部空洞卷积DDLAC的输出与1×1卷积的乘积;每个深度动态局部空洞卷积DDLAC包括条件滤波器生成网络CFGN和动态局部滤波操作单元DLFO;
特征图xB输入至深度动态局部空洞卷积DDLAC的动态局部滤波操作单元DLFO中,第1层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为所述特征图xA,第2层至第n层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为前一层并行单元的输出;
特征图xA同时输入至各深度动态局部空洞卷积DDLAC的条件滤波器生成网络CFGN中,每个条件滤波器生成网络生成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F,实现动态获取不同的滤波器;
每个深度动态局部空洞卷积DDLAC利用动态局部滤波操作单元DLFO从特征图xB中提取出形状为(H,W,CB,Kh×Kω)的数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘,作为深度动态局部空洞卷积DDLAC的输出;
Kh表示滤波器内核高度,Kω表示滤波器内核宽度,H表示特征图xB的高度,W表示特征图xB的宽度,CB表示特征图xB的通道数。
第n层并行单元的输出为最终分割图。
作为优选,所述条件滤波器生成网络CFGN生成动态局部滤波器集合F的过程包括:
根据特征图xA生成类别概率图PA
αi,j,n表示PA中的元素,N表示感受野的数量;
初始化滤波器生成形状为(Kh,Kω,CB,N)的可学习滤波器集FL,FL(c,n)表示可学习滤波器集FL中形状为(Kh,Kω)的滤波器,c∈{1,2,…,CB};
使用αi,j,n参数化相应的滤波器FL(c,n)来生成条件动态局部滤波器F(i,j,c):
Figure BDA0003083727230000021
i∈{1,2,…,H},j∈{1,2,…,W};
所有条件动态局部滤波器F(i,j,c)组成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F。
作为优选,
Figure BDA0003083727230000022
其中,Sample(·)表示采样操作,Softmax(·)表示回归模型,
Figure BDA0003083727230000023
表示1×1的卷积。
作为优选,所述动态局部滤波操作单元DLFO从特征图xB中提取出数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘的过程包括:
提取特征图xB中每个像素xB(i,j,c)的带洞图像块Pat(i,j,c),Pat(i,j,c)具有Kh×Kω个元素,Pat(i,j,c)中的元素为:
Figure BDA0003083727230000031
其中x(·)表示Pat(i,j,c)中的元素,rh表示带洞率的高度,rω表示带洞率的宽度;
所有带洞图像块Pat(i,j,c)形成形状为(H,W,CB,Kh×Kω)的数据块Pat,该数据块Pat与形状为(Kh×Kω,H,W,CB)的动态局部滤波集F的乘积为:
Output=Pat·F。
作为优选,n为至少大于2的整数,m为至少大于5的整数。
本发明的有益效果:本发明提出了一个密集尺度的动态网络(DsDNet),包括一个密集尺度模块(DSM)和一个骨干网,可以动态地将不同的滤波器分配给不同的类对象区域,减轻定位精度降低的问题;并且可以生成比大多数多尺度方法(例如:空洞金子塔结构(ASPP)和DenseASPP)更密集的尺度和更大的感受野,解决了同类目标对象大尺度变化导致的分割困难问题。
附图说明
图1是本发明的原理示意图;
图2中,(a)是密集尺度模块的原理示意图,(b)为图1简化版本,从不同的DDLAC得到的多重尺度特征被重复融合;
图3中,(a)是DDLAC中CFGN的原理示意图,(b)是DDLAC的DLFO的原理示意图;
图4是本发明与对照方法对ADE20K数据集进行语义分割后的对比,其中(a)是输入的语义图像,(b)是正确分割图,(c)是对照方法的分割效果图,(d)是本发明的方法分割的效果图。
图5是本发明的DDLAC与空洞可分卷积ASC对比,其中(a)是输入的语义图像,(b)是利用空洞可分卷积ASC获得结果,(c)是本发明的DDLAC获得的结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明的一种基于密集尺度动态网络的语义分割方法,包括:
步骤一、将待分割的语义图像输入至骨干网中,得到特征图;
步骤二、将特征图输入至密集尺度模块DSM对输入图像进行语义分割,获取最终分割图,包括:
本实施方式的密集尺度模块DSM包括按顺序依次连接的n层并行单元,每层并行单元包括m个深度动态局部空洞卷积和一个1×1卷积,每层并行单元的输出为m个深度动态局部空洞卷积DDLAC的输出与1×1卷积的乘积;每个深度动态局部空洞卷积DDLAC包括条件滤波器生成网络CFGN和动态局部滤波操作单元DLFO;
特征图xB输入至深度动态局部空洞卷积DDLAC的动态局部滤波操作单元DLFO中,第1层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为所述特征图xA,第2层至第n层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为前一层并行单元的输出;
特征图xA同时输入至各深度动态局部空洞卷积DDLAC的条件滤波器生成网络CFGN中,每个条件滤波器生成网络生成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F,实现动态获取不同的滤波器;
每个深度动态局部空洞卷积DDLAC利用动态局部滤波操作单元DLFO从特征图xB中提取出形状为(H,W,CB,Kh×Kω)的数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘,作为深度动态局部空洞卷积DDLAC的输出;
Kh表示滤波器内核高度,Kω表示滤波器内核宽度,H表示特征图xB的高度,W表示特征图xB的宽度,CB表示特征图xB的通道数。
第n层并行单元的输出为最终分割图。
本实施方式的步骤一中,可采用HRNet或ResNet作为DsDNET的骨干网。来自骨干网的输出特征图输入到三个分支中。第一个分支是在训练阶段,利用辅助损失函数在逐像素交叉熵损失的监督下提高骨干网输出特征图的质量,以获得更好的对象类概率。其目的在于改进特征图以在第二分支中更好地产生滤波器。第二分支将特征图输入到DSM中每个DDLAC的条件滤波器生成网络(CFGN)中以生成滤波器集合。在第三分支中,将特征图输入到DSM的第一层并行单元的DDLAC中,并通过DDLAC的一系列动态局部滤波操作(DLFO)生成精细的分割图。
密集尺度模块DSM中,让x代表输入特征图,yn代表来自DSM的第n个并行结构的输出特征图。输出特征图yn,yn-1,…,y2和y1可以表示如下:
Figure BDA0003083727230000051
其中
Figure BDA0003083727230000052
Figure BDA0003083727230000053
分别表示第n个并行结构中的1×1卷积和DDLAC,并且1=r1≤r2…≤rm。m表示每个并行结构中的DDLAC的数量,n表示并行结构的数量,r1、r2…rm表示每个DDLAC的带洞率。在这项工作中,所有DDLAC都是正方形滤波器,因此DDLAC的滤波器内核大小为K=Kh=Kw,Kh表示内核高度,Kw表示内核宽度,并且带洞率为r=rh=rω,rh表示带洞率的高度,rω表示带洞率的宽度。
如果删除所有1×1卷积和快速连接,DSM将简化为图3(b)的版本。其核心是将来自不同感受野的特征图进行反复融合。
DSM可以生成超密集尺度和大的感受野。具体而言,DDLAC的感受野大小受其内核大小和带洞率控制。对于具有带洞率r和内核大小K的DDLAC,其感受野大小为:
R=(r-1)×(K-1)+K.
将两个DDLAC串联在一起可以产生更大的感受野。假设本实施方式串联两个DDLAC,其感受野大小分别为R1R1和R2R2,新的感受野大小为:
R3=R1+R2-1
DSM生成的不同感受野的数量为:
N=mn
最大感受野大小Rmax为:
Figure BDA0003083727230000061
其中u表示第u个并行结构。随着m和n的增加,本实施方式的DSM将通过超密集感受野提取超高密度特征。
深度动态局部空洞卷积(DDLAC)是通过将深度空洞卷积调整为由动态局部和有条件参数化卷积而生成的。它由条件滤波器生成网络(CFGN)和动态局部滤波操作(DLF0)组成。具体为:
空洞卷积可以在不增加参数的情况下任意改变其感受野大小。考虑到三维深度空洞卷积,形状为(H,W,CB)的输入特征图xB中像素x(i,j,c)的空洞卷积输出y(i,j,c)定义为:
Figure BDA0003083727230000062
其中rh和rω是带洞率的高度和宽度;H,W和CB是xB的高度,宽度和通道数;F(l,b,c)表示在位置(l,b)且内核高度为Kh且宽度为Kω的滤波器F(c)。另外,i∈{1,2,…,H},j∈{1,2,…,W},l∈{-(Kh-1)/2,1-(Kh-1)/2,…,(Kh-1)/2},b∈{-(Kω-1)/2,1-(Kω-1)/2,…,(Kω-1)/2},并且c∈{1,2,…,CB}。由所有滤波器F(c)组成滤波器集F。因为F的深度属性,从而具有形状(Kh,Kω,D1=1,D2=1,CB)而不是(Kh,Kω,D1=1,D2=1,CB,Co),D1表示在空间维的高度维上使用滤波器的数量,D2表示在空间维的宽度维上使用滤波器的数量。Co代表深度滤波器组的数量。假设D1=1和D2=1,这表示在所有通道的空间域中共享一个滤波器。假设D1=H且D2=W,表示滤波器在不同的空间位置上是变化的。
如果本实施方式的滤波器集F为动态局部滤波器集,即D1=H和D2=W,则DDLAC可表示为:
Figure BDA0003083727230000063
其中F(l,b,i,j,c)表示滤波器F(i,j,c)在(l,b,i,j,c)处的参数,F(i,j,c)∈F。
本实施方式的DDLAC中的条件滤波器生成网络CFGN生成动态局部滤波器集合F的过程包括:
如图3(a)所示,根据特征图xA生成类别概率图PA,xA是骨干网的输出特征图。假设在语义分割任务中要分割N个类别,本实施方式使用xA粗略地预测每个像素的类概率。具体来说,通过采样(上采样或下采样),卷积和Softmax运算使xA成为类概率图PA
Figure BDA0003083727230000071
其中,Sample(·)表示采样操作,目的是将特征图xA的高度和宽度采样成与图4(b)所示的另一个特征图xB的高度和宽度相同;Softmax(·)表示回归模型,
Figure BDA0003083727230000072
表示1×1的卷积,目的是将xA的通道数减少到N。这样,PA的形状就为(H,W,N)。
αi,j,n表示PA中的元素,N表示感受野的数量;
初始化滤波器生成形状为(Kh,Kω,CB,N)的可学习滤波器集FL,FL(c,n)表示可学习滤波器集FL中形状为(Kh,Kω)的滤波器,c∈{1,2,…,CB};
使用αi,j,n参数化相应的滤波器FL(c,n)来生成条件动态局部滤波器F(i,j,c):
Figure BDA0003083727230000073
i∈{1,2,…,H},j∈{1,2,…,W};
所有条件动态局部滤波器F(i,j,c)组成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F。
为实现DDLAC的卷积滤波运算,本实施方式中动态局部滤波操作单元DLFO从特征图xB中提取出数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘的过程包括:
需要提取输入特征图xB中每个像素xB(i,j,c)的带洞图像块Pat(i,j,c)。它可以通过图像块提取操作来实现,如图3(b)所示。Pat(i,j,c)具有(Kh×Kω)个元素,可以用矩阵描述为:
Figure BDA0003083727230000074
其中x(·)表示Pat(i,j,c)中的元素,rh表示带洞率的高度,rω表示带洞率的宽度,元素x(·)中的第一项在每列中随着行数的增加加1,第二项在每行中随着列数的增加加1,第三项不随行数、列数的变化而改变;
所有带洞图像块Pat(i,j,c)形成形状为(H,W,CB,Kh×Kω)的数据块Pat,该数据块Pat与形状为(Kh×Kω,H,W,CB)的动态局部滤波集F的乘积为:
Output=Pat·F (6)
其中Output是DDLAC的输出特征图,其形状为(H,W,CB)。
本实施方式在TensorFlow框架上实现本实施方式的方法,并在配备有两个Inteli7-4960x CPU,两个32GB内存和8块NVIDIA GTX Geforce 1080Ti GPU的工作站上进行了训练。在训练中,初始学习率设置为0.01,乘以
Figure BDA0003083727230000081
以实现随着迭代次数的增加不断衰减。优化器是使用没有权重衰减的Adam。将最终损失函数的权重设置为1,将辅助损失函数的权重设置为0.4,以提高粗分类概率。ImageNet用于预训练本实施方式的骨干网。HRNetV2-W48用作所有三个数据集的骨干网。为了进行比较,ResNet101也用作ADE20K数据集的骨干网。
在训练阶段,将输入图像随机翻转并从0.5缩放到2.0进行数据增强。输入图像的裁剪大小在Cityscapes和ADE20K上为1024×1024,在PASCAL VOC 2012上为512×512。批处理大小为8。
HRNetV2-W48的头部由两个stride-23×3卷积组成,将输入图像分辨率降低到1/4。对于PASCAL VOC 2012,本实施方式对其进行了修改,使其包含了stride-13×3和stride-23×3,仅将分辨率降低到1/2。因此,对于三个数据集,输入到DDLAC中的特征图的大小均为256×256。
CPU用于推断,在尺度(0.5;0.75;1;1.25;1.5;1.75;2)上的平均预测分割图作为最终的预测图。使用平均交并比(mIoU)作为分割精度评价标准。
之后本实施方式与最先进的Cityscapes做比较。Cityscapes数据集是一个城市场景基础数据集,其中包含5000个高质量像素级别的精细注释图像和20000个粗略注释图像。共有30个类别,同时只有19个类别用于语义分割。而精细注释的图像集由2975、500和1525高分辨率(2048×1024)的街道场景图像组成,分别用于训练,验证和测试。粗略注释的图像集只能用于训练。另外,在本实施方式的实验中,Mapillary Vistas数据集也用于预训练从而与最先进的方法进行比较。
通过Subsec中详细的参数研究,本实施方式选择了性能最佳的DsDNet与其他最先进方法进行比较。在使用粗略注释的图像集或Mapillary Vistas数据集训练模型的情况下,本实施方式将模型的结果与其他最新先进的模型的结果在Cityscapes测试集上进行了比较。表1展示了本实施方式的方法获得了最先进的效果。很明显,在包括人行道,建筑,杆子,交通信号灯,交通标志,植被,地形,人,汽车,卡车,公共汽车和自行车的12个类别排名第一。这些类中的大多数要么是小对象类,要么是大对象类,或者是少数类。图5也直观地显示了本实施方式的方法比DenseASPP更能区分杆子,交通信号灯,公共汽车,人行道和边界区域。本实施方式的详细结果可在官方匿名结果网站上找到。
表1
Figure BDA0003083727230000091
本实施方式与最先进的PAS-CAL VOC 2012做比较。PASCAL VOC 2012是用于语义分割的基准数据集,具有21个对象类和一个背景类。它最初包含用于训练的1464张图像,用于验证的1449张图像和用于测试的1456张图像。该数据集通过额外的注释进行了扩充,最终产生了10582张用于训练的图像。在没有对MS-COCO数据集进行预训练的情况下,本实施方式将模型的结果与那些高级模型在PASCAL VOC 2012测试集上进行了比较。表2显示,本实施方式方法产生的mIOU为86.1%,可以在网站上找到它,并取得了较高的准确性。具体而言,在瓶子,椅子,桌子,马,摩托车,人,沙发,火车和电视这9类中排名第一。本实施方式也将在本实施方式再MS-COCO上进行预训练的方法的分割结果提交给官方评估服务器。mIoU为88.7%,可在网站上找到。
表2
Figure BDA0003083727230000092
本实施方式与最先进的ADE20K做比较。ADE20K数据集是一个挑战场景解析的数据集,包含了150个类,由20K/2K/3K图像组成,分别用于训练,验证和测试。表3记录了不同方法在ADE20K验证集上的结果。它表明本实施方式的有骨干网(ResNet101或HRNetV2-48)的DSM的表现要优于其他方法。此外,图4还表明,本实施方式的方法在分割属于小类且同时也是少数类的杆子方面要优于CaC-Net。
表3
Figure BDA0003083727230000101
本实施方式用ASPP和DenseASPP中的DDLAC替换了空洞可分卷积(ASC),并用DSM中的ASC替换了DDLAC。对于DSM,本实施方式选择了最佳性能设置。对于ASPP,本实施方式使用两个版本:ASPP-1和ASPP-2。ASPP-1包含具有卷积速率的四个卷积(6、12、18、24)。ASPP-2由1×1卷积和三个具有膨胀率的卷积组成(6、12、18)。本实施方式使用HRNetV2-W48作为骨干网。ASC和DDLAC的核大小相同,为3×3。本实施方式找Cityscapes验证集进行了性能比较。每个模型都在Cityscapes训练集中进行了10万次迭代训练。
从表4中可以看出,本实施方式的DDLAC优于ASC。具体而言,用ASPP-1,ASPP-2和DenseASPP中的DDLAC代替ASC可使结果分别提高约0.4%,0.3%和0.6%的mIoU。用DSM中的ASC替换DDLAC会使结果恶化约0.6%。本实施方式的DSM优于DenseASPP 1.3%。
表4
Figure BDA0003083727230000102
本实施方式在Cityscapes验证集进行消融研究。通过参考ASPP和DenseASPP中空洞卷积的膨胀率,本实施方式将DSM中DDLAC的膨胀率设置为(1,3,6,12,18,24...)。实验设计的目的是为了研究DSM中n和m的值逐渐增加时DDCNet的性能。每个具有不同设置n,m和膨胀率的DDCNet在Cityscapes训练集上进行10万次迭代训练。表5显示了对Cityscapes验证集的评估结果。在一个训练步骤(梯度更新)上花费的运行时间(以秒为单位)用于衡量计算效率。
如表5所示,最佳结果来自m=6,n=5和膨胀率(1,3,6,12,18,24)的设置。排名第二的结果来自m=7,n=4和膨胀率(1、3、6、12、18、24、30)的设置。
表5
Figure BDA0003083727230000111
本实施方式的实证分析如下。由于输入到DDLAC的特征图的大小为256×256,因此大于256的大小的感受野将在输入的特征图之外提取信息,从而失去精确捕获特征的能力。当m=6和n=5时,最大感受野大小为244,并且不同尺度的数目为7776。当m=7和n=4时,最大感受野大小为243,并且不同尺度的数目为2401。两种设置都具有良好的效果,这是因为它们的最大感受野大小都小于256,以及它们的密度尺度。因为m=6和n=5的设置具有比m=7和n=4的设置更大的尺度,所以具有更好的结果。当设置m=6且n<5或设置m=7且n<4时,相应模型中的最大感受野大小和不同尺度的数目可能都不够,这会导致结果稍差。当设置m=6且n>5或设置m=7且n>4时,许多感受野大于256,这也会使模型的性能恶化。当设置m<6和ri<24时,具有不同膨胀率的DDLAC的多样性不足以提取场景图像中足够的上下文特征,这也会导致结果稍差。另外,表5显示,随着m和n值的增加,模型的大小和运行时间正在缓慢增加。因此,本实施方式的模型可以设置相对较大的m和n值。但是,当m>7且n>3或m=7且n>6时,GPU的内存无法承受。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。

Claims (4)

1.一种基于密集尺度动态网络的语义分割方法,其特征在于,所述方法包括:
S1、将待分割的语义图像输入至骨干网中,得到特征图xA
S2、将特征图输入至密集尺度模块DSM对输入图像进行语义分割,获取最终分割图,包括:
所述密集尺度模块DSM包括按顺序依次连接的n层并行单元,每层并行单元包括m个深度动态局部空洞卷积和一个1×1卷积,每层并行单元的输出为m个深度动态局部空洞卷积DDLAC的输出与1×1卷积的乘积;每个深度动态局部空洞卷积DDLAC包括条件滤波器生成网络CFGN和动态局部滤波操作单元DLFO;
特征图xB输入至深度动态局部空洞卷积DDLAC的动态局部滤波操作单元DLFO中,第1层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为所述特征图xA,第2层至第n层并行单元的深度动态局部空洞卷积DDLAC中输入的特征图xB为前一层并行单元的输出;
特征图xA同时输入至各深度动态局部空洞卷积DDLAC的条件滤波器生成网络CFGN中,每个条件滤波器生成网络生成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F,实现动态获取不同的滤波器;
每个深度动态局部空洞卷积DDLAC利用动态局部滤波操作单元DLFO从特征图xB中提取出形状为(H,W,CB,Kh×Kω)的数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘,作为深度动态局部空洞卷积DDLAC的输出;
Kh表示滤波器内核高度,Kω表示滤波器内核宽度,H表示特征图xB的高度,W表示特征图xB的宽度,CB表示特征图xB的通道数;
第n层并行单元的输出为最终分割图;
所述条件滤波器生成网络CFGN生成动态局部滤波器集合F的过程包括:
根据特征图xA生成类别概率图PA
αi,j,n表示PA中的元素,表示感受野的数量;
初始化滤波器生成形状为(Kh,Kω,CB,N)的可学习滤波器集FL,FL(c,n)表示可学习滤波器集FL中形状为(Kh,Kω)的滤波器,c∈{1,2,...,CB};
使用αi,j,n参数化相应的滤波器FL(c,n)来生成条件动态局部滤波器F(i,j,c):
Figure FDA0003698295610000011
i∈{1,2,...,H},j∈{1,2,...,W};
所有条件动态局部滤波器F(i,j,c)组成形状为(Kh×Kω,H,W,CB)的动态局部滤波器集合F;
Figure FDA0003698295610000021
其中,Sample(·)表示采样操作,Softmax(·)表示回归模型,
Figure FDA0003698295610000023
表示1×1的卷积;
所述动态局部滤波操作单元DLFO从特征图xB中提取出数据块,并与相对应的条件滤波器生成网络CFGN生成的动态局部滤波器集合F进行相乘的过程包括:
提取特征图xB中每个像素xB(i,j,c)的带洞图像块Pat(i,j,c),Pat(i,j,c)具有Kh×Kω个元素,Pat(i,j,c)中的元素为:
Figure FDA0003698295610000022
其中x(·)表示Pat(i,j,c)中的元素,rh表示带洞率的高度,rω表示带洞率的宽度;
所有带洞图像块Pat(i,j,c)形成形状为(H,W,CB,Kh×Kω)的数据块Pat,该数据块Pat与形状为(Kh×Kω,H,W,CB)的动态局部滤波集F的乘积为:
Output=Pat·F。
2.根据权利要求1所述的一种基于密集尺度动态网络的语义分割方法,其特征在于,n为至少大于2的整数,m为至少大于5的整数。
3.根据权利要求1所述的一种基于密集尺度动态网络的语义分割方法,其特征在于,所述S1中的骨干网利用分割的语义图像与对应特征图组成的训练集进行训练,训练时,利用辅助损失函数,在逐像素交叉熵损失的监督下骨干网输出的特征图。
4.根据权利要求3所述的一种基于密集尺度动态网络的语义分割方法,其特征在于,所述骨干网采用高分辨率网络HRNet或残差网络ResNet实现。
CN202110574529.4A 2021-05-25 2021-05-25 基于密集尺度动态网络的语义分割方法 Active CN113191367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110574529.4A CN113191367B (zh) 2021-05-25 2021-05-25 基于密集尺度动态网络的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110574529.4A CN113191367B (zh) 2021-05-25 2021-05-25 基于密集尺度动态网络的语义分割方法

Publications (2)

Publication Number Publication Date
CN113191367A CN113191367A (zh) 2021-07-30
CN113191367B true CN113191367B (zh) 2022-07-29

Family

ID=76985118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110574529.4A Active CN113191367B (zh) 2021-05-25 2021-05-25 基于密集尺度动态网络的语义分割方法

Country Status (1)

Country Link
CN (1) CN113191367B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762263A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种用于小尺度相似结构的语义分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN111898439A (zh) * 2020-06-29 2020-11-06 西安交通大学 基于深度学习的交通场景联合目标检测和语义分割方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232394B (zh) * 2018-03-06 2021-08-10 华南理工大学 一种多尺度图像语义分割方法
CN109559320B (zh) * 2018-09-18 2022-11-18 华东理工大学 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
US10964017B2 (en) * 2018-11-15 2021-03-30 General Electric Company Deep learning for arterial analysis and assessment
CN109711413B (zh) * 2018-12-30 2023-04-07 陕西师范大学 基于深度学习的图像语义分割方法
CN111369563B (zh) * 2020-02-21 2023-04-07 华南理工大学 一种基于金字塔空洞卷积网络的语义分割方法
CN111476249B (zh) * 2020-03-20 2021-02-23 华东师范大学 多尺度大感受野卷积神经网络的构建方法
CN111862143B (zh) * 2020-07-13 2024-03-19 郑州信大先进技术研究院 一种河堤坍塌自动监测方法
CN111833273B (zh) * 2020-07-17 2021-08-13 华东师范大学 基于长距离依赖的语义边界增强方法
CN111860386B (zh) * 2020-07-27 2022-04-08 山东大学 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN112464745B (zh) * 2020-11-09 2023-07-07 中国科学院计算机网络信息中心 一种基于语义分割的地物识别与分类方法和装置
CN112396613B (zh) * 2020-11-17 2024-05-10 平安科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN111898439A (zh) * 2020-06-29 2020-11-06 西安交通大学 基于深度学习的交通场景联合目标检测和语义分割方法

Also Published As

Publication number Publication date
CN113191367A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN108876792B (zh) 语义分割方法、装置和系统及存储介质
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111259905A (zh) 一种基于下采样的特征融合遥感图像语义分割方法
CN108241854B (zh) 一种基于运动和记忆信息的深度视频显著性检测方法
CN109509149A (zh) 一种基于双通道卷积网络特征融合的超分辨率重建方法
CN113345082A (zh) 一种特征金字塔多视图三维重建方法和系统
Zhou et al. RSANet: towards real-time object detection with residual semantic-guided attention feature pyramid network
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN110517270A (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
JP2021039758A (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
CN113191367B (zh) 基于密集尺度动态网络的语义分割方法
CN116958687A (zh) 一种基于改进detr的面向无人机的小目标检测方法及装置
Zhao et al. Improved edge-guided network for single image super-resolution
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN113962878B (zh) 一种低能见度图像去雾模型方法
CN110751271A (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN114694176A (zh) 一种基于深度学习的轻量级人体姿态估计方法
Jiang et al. An improved action recognition network with temporal extraction and feature enhancement
CN116797830A (zh) 一种基于YOLOv7的图像风险分类方法及装置
CN116109826A (zh) 一种道路裂缝检测方法
Gao et al. Multi-branch aware module with channel shuffle pixel-wise attention for lightweight image super-resolution
CN110163800A (zh) 一种基于多帧图像超分辨的芯片显微相位恢复方法和装置
CN114332989A (zh) 一种多任务级联卷积神经网络的人脸检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant