CN109670506B - 基于克罗内克卷积的场景分割方法和系统 - Google Patents
基于克罗内克卷积的场景分割方法和系统 Download PDFInfo
- Publication number
- CN109670506B CN109670506B CN201811309245.7A CN201811309245A CN109670506B CN 109670506 B CN109670506 B CN 109670506B CN 201811309245 A CN201811309245 A CN 201811309245A CN 109670506 B CN109670506 B CN 109670506B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- kronecker
- aggregation
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002776 aggregation Effects 0.000 claims abstract description 71
- 238000004220 aggregation Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000010586 diagram Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 86
- 230000010339 dilation Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 101150064138 MAP1 gene Proteins 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 101100456045 Schizosaccharomyces pombe (strain 972 / ATCC 24843) map3 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000916 dilatatory effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 101100075995 Schizosaccharomyces pombe (strain 972 / ATCC 24843) fma2 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000013047 polymeric layer Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于克罗内克卷积的场景分割方法,包括:构建具有残差结构的克罗内克卷积层;以该克罗内克卷积层和标准卷积层构建特征提取子网络,以原始图像为输入,通过该特征提取子网络输出抽象特征图;以该克罗内克卷积层构建树形特征聚合模块,以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;以该聚合特征图为输入,通过该场景分割子网络输出该原始图像的场景分割结果。
Description
技术领域
本方法属于机器学习和计算机视觉领域,特别是涉及一种基于克罗内克卷积和树形结构特征聚合模块的场景分割方法和系统。
背景技术
场景分割是计算机视觉领域非常重要并且极具挑战的任务,并且在生产和生活中具有广泛的应用价值,如无人驾驶、机器人导航、视频编辑等。场景分割的目标是对场景图像中的每个像素点分配其所属类别。最近,基于全卷积网络的场景分割方法取得显著的进步。然而,现在的主流方法都是通过迁移分类网络过来,通过去除最大池化层和全连接层,以及增加反卷积层以生成分割结果。但是分类与分割之间还是有很大区别,比如经典的分类网络会对原始输入下采样32倍,这样有助于提取到更适合用来分类的特征,但这种网络模型忽视了位置信息,恰恰相反的是,分割则需要很精准的位置信息,具体到像素级的位置信息。当前有研究者提出膨胀卷积在一定程度上解决了这个问题,它可以增加滤波器的感受野同时保持特征图的分辨率,并且取得了比较好的分割性能。但膨胀卷积有个缺点,其膨胀系数比较大的情况下,它会损失了许多局部细节信息。特别地,并且当膨胀因子接近特征图的尺寸时,一个3×3卷积退化成1×1卷积。
此外,对于场景分割网络,场景当中的物体经常是有多个尺度呈现,还有个特点是场景的层次化结构,比如对于Cityscapes数据集,一般来说,在图像中心位置通常是远处的车子,其尺度较小;而在图像两侧区域通常是近处的车子,其尺度较大。为了解决上述两个问题,很多现有的方法都是通过在基本特征提取子网络使用膨胀卷积,然后利用跨层特征融合去分割多尺度物体。但膨胀卷积忽视的局部细节信息和简单的跨层融合分割多尺度物体在一定程度上阻碍了分割性能。
发明内容
针对上述问题,本发明提出一种基于克罗内克卷积的场景分割方法,包括:构建具有残差结构的克罗内克卷积层;以该克罗内克卷积层和标准卷积层构建特征提取子网络;以原始图像为输入,通过该特征提取子网络输出抽象特征图;以该克罗内克卷积层构建树形特征聚合模块;以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;以该克罗内克卷积层构建场景分割子网络;以该聚合特征图为输入,通过该场景分割子网络输出该原始图像的场景分割结果。
进一步地,该克罗内克卷积层的形式化表示为其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数。
进一步地,该特征提取子网络包括5个阶段,阶段1包括3层级联的3×3标准卷积层,阶段2包括多个级联的第一瓶颈模块,阶段3包括多个级联的该第一瓶颈模块,阶段4包括多个级联的第二瓶颈模块,阶段5包括多个级联的该第二瓶颈模块;其中该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
进一步地,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
进一步地,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
本发明还公开了一种基于克罗内克卷积的场景分割系统,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层;
特征提取子网络,用于输入原始图像以输出抽象特征图,其中该征提取子网络包括该克罗内克卷积层和标准卷积层;
树形特征聚合模块,用于输入该抽象特征图以输出聚合特征图,其中该树形特征聚合模块包括多层该克罗内克卷积层;
场景分割子网络,用于输入该聚合特征图以输出该原始图像的场景分割结果,其中该场景分割子网络包括多层该克罗内克卷积层。
附图说明
图1为本发明基于克罗内克卷积的场景分割方法整体框架图。
图2A是现有技术的膨胀卷积示意图;
图2B是本发明的克罗内克卷积示意图;
图3为本发明提出的特征提取子网络结构示意图;
图4为本发明提出的树形结构特征聚合模块示意图;
图5、6是本发明的场景分割方法与现有技术的性能比较图。
图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。
图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。
图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于克罗内克卷积(Kronecker Convolution)的场景分割方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
本发明的基于克罗内克卷积的场景分割方法和系统,包括对原始图像利用克罗内克卷积进行特征学习,将得到的特征输入到树形结构特征聚合模块学习层次化的上下文信息,然后将得到特征和上下文信息输入到场景分割子网络,得到原始图像的场景分割结果。本发明提出了一种用于特征抽取的克罗内克卷积,可以在不增加额外参数的情况下增加滤波器的感受野,并且能够捕捉局部信息,同时获得更高的分割精度。此外,本发明还提出了树形结构特征聚合模块去分割多尺度物体和捕捉层次化的上下文信息,这极大地提高了现有基于全卷积的场景分割模型的性能。
克罗内克积是张量积的特殊形式,具体为两个任意大小的矩阵间的运算。克罗内克卷积核的形式化表达为:
其中K(c1,c2)是标准的卷积核,c1∈[1,CA],c1∈[1,CB]。这里CA和CB分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,假设标准的卷积核是k×k,则克罗内克卷积核被扩展成(2k+1)r1×(2k+1)r1;其中r1和r2是本发明提出的克罗内克卷积层的两个超参数,r1为克罗内克卷积层的扩张因子,r2为克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数,表示进行克罗内克积运算。
假设标准卷积在输入特征图对应的卷积块的中心坐标是(pt,qt),输入特征图Yt对应的采样点(xijuv,yijuv)为:
xijuv=pt+ir1+u,yijuv=qt+jr1+v
其中,i,j∈[-k,k]∩Z,u,v∈[0,r2-1]∩Z;
对应的克罗内克卷积运算的形式化为:
图1为本发明基于克罗内克卷积的场景分割方法整体框架图。如图1所示,具体来说,本发明的基于克罗内克卷积的场景分割方法包括:
步骤S1,构建克罗内克卷积层;
本发明提出一种新的卷积方式,克罗内克卷积,用于扩大标准卷积的感受野,同时不增加其参数数量。此外,本发明提出的克罗内克卷积与整个场景分割网络是兼容的,可以插入到场景分割网络中形成一个完整的结构,并进行端对端的训练,这里端对端是一个专有名词,指的是在场景分割网络的结构中从原始图像输入到最终的输出结果可以使用一个统一的场景分割网络实现,不需要分成多个阶段进行训练。
图2A是现有技术的膨胀卷积示意图,图2B是本发明的克罗内克卷积示意图。图2A显示了3×3的膨胀卷积,f为膨胀卷积的膨胀因子;如图2B所示,克罗内克卷积核的形式化表达为:其中K(c1,c2)是标准的卷积核,c1∈[1,CA],c1∈[1,CB]。这里CA和CB分别对应卷积输入特征图和输出特征图的通道数。F矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,假设标准的卷积核是k×k,则克罗内克卷积核被扩展成(2k+1)r1×(2k+1)r1;其中r1和r2是本发明提出的克罗内克卷积层的两个超参数,r1为克罗内克卷积层的扩张因子,r2为克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
步骤S2,通过特征提取子网络,输入原始RGB图像I,输出抽象特征图fl;
图3为本发明提出的特征提取子网络结构示意图。如图3所示,本发明的场景分割方法中,特征提取子网络包括5个阶段,每个阶段都包括多个标准卷积层,或多个标准卷积和多个克罗内克卷积;值得注意的是,在特征提取子网络的高阶段,其特征图的通道非常大,典型情况,对于特征提取子网络在阶段4的特征通道数为1024,在阶段5的特征通道数为2048。如果直接使用克罗内克卷积对这些特征进行再学习,这些数量巨大的参数中包含了大量的冗余,同时也会降低整个场景分割网络的分割速度,增加运算复杂度。为了解决这个问题,本发明将克罗内克卷积加入到一种带“瓶颈”的结构中,这种带“瓶颈”的结构可以称之为瓶颈模块,瓶颈模块的开头和结尾,分别是标准的1x1卷积层,瓶颈模块开头的1x1卷积层用于降低降低输入特征图的通道数,而瓶颈模块结尾的1x1卷积层用于恢复输出特征图的通道数;瓶颈模块可以极大的减少特征提取子网络的参数数量。
本发明的场景分割网络中,特征提取子网络的阶段1包括依次排列的3个标准的3×3卷积层;阶段2~阶段5包括多个瓶颈模块,其中阶段2和阶段3采用一种瓶颈模块,称之为第一瓶颈模块,第一瓶颈模块包括2个标准的1×1卷积层和1个标准的3×3卷积层,阶段4和阶段5采用另一种瓶颈模块,称之为第二瓶颈模块,第二瓶颈模块包括2个标准的1×1卷积层和1个克罗内克卷积层;将原始RGB图像I作为阶段1的输入,获得阶段1输出的图像特征图1(feature map1),并将图像特征图1(feature map1)作为阶段2的输入,以此类推,以阶段2输出的图像特征图2(feature map2)、阶段3输出的图像特征图3(feature map3)和阶段4输出的图像特征图4(feature map4)作为输入,分别获取阶段3输出的图像特征图3(feature map3)、阶段4输出的图像特征图4(feature map4)和阶段5输出的图像特征图5(feature map5),并以图像特征图5为抽象特征图fl;
步骤S3,通过树形结构特征聚合模块,输入抽象特征图fl,输出聚合特征图fc;
目前大部分的场景分割框架都基于全卷积神经网络框架,该框架主要包括两个串联的子网络,即特征提取子网络和场景分割子网络;当给定原始场景图像I,通过场景分割网络N,获取原始场景图像I的场景分割结果J,可以将场景分割网络N分解为特征提取子网络Nfea和场景分割子网络Nseg,因此场景分割网络N可以表示为:J=Nseg(Nfea(I));其中Nfea(I)代表从特征提取子网络得到的抽象特征图fl,这些特征图中包含了从原始场景图像I中学习得到的语义概念和空间位置信息。
本发明的场景分割方法,在特征提取子网络和场景分割子网络之间加入了树形结构特征聚合模块。图4为本发明提出的树形结构特征聚合模块结构示意图。如图4所示,树形特征聚合模块包括多层级联的聚合层,聚合层包括克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图树形结构特征聚合模块包括多个克罗内克卷积层,采用级联递归的方式。本发明的树形结构特征聚合模块具有如下扩展规则:
通过树形结构特征聚合模块的第1层聚合层f1(·),输入上一子网络输出的特征图x,输出第1层聚合层f1(x)的上下文信息特征图x1,其中f1(·)包括克罗内克卷积层、批归一化层和ReLU激活函数;通过树形结构特征聚合模块的第2层聚合层f2(·),以x1作为输入,输出第2层聚合层f2(x1)的上下文信息特征图x2;以此类推,以第n-1层聚合层fn-1(·)输出的上下文信息特征图xn-1为第n层聚合层fn-1(·)的输入,输出第n层聚合层fn(xn-1)的上下文信息特征图xn;以x、x1、……、xn作为输入,通过级联层g,得到树形结构特征聚合模块的最终输出Hn(x);具体到本发明的的场景分割方法,将特征提取子网络输出的抽象特征图fl作为输入,通过树形结构特征聚合模块,最终输出聚合特征图fc。
步骤S4,通过场景分割子网络,输入聚合特征图fc,获得输入原始RGB图像I的预测场景分割结果J;
场景分割子网络包括多层标准的3×3卷积层和一层标准的1×1卷积层。
本发明还公开了一种基于克罗内克卷积的场景分割系统,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层;
特征提取子网络,用于输入原始RGB图像I输出抽象特征图fl;
树形特征聚合模块,用于输入抽象特征图fl以输出聚合特征图fc;
场景分割子网络,用于输入该聚合特征图fc以输出该原始图像I的场景分割结果J。
为使本发明的上述特征和效果能阐述的更加明确,下文特列举相关实验对本发明的场景分割方法进行进一步说明。
一、数据集
本发明的相关实验采用PASCALVOC 2012语义分割数据集、Cityscapes数据集和PASCAL-Context数据集。
PASCALVOC 2012语义分割数据集包含20类前景物体和1个背景类;原始数据集包含1464张训练图片、1449张验证图片和1456张测试图片,扩展的训练集增强到10582张图片,本发明利用其中21类物体的平均的像素级的交并比(mean IoU)进行评估;
Cityscapes数据集包含来自50个不同城市的街道场景。这个数据集被分成三个子集,其中训练集包括2975张图片,验证集包括500张图片,测试集包括1525张图片。本发明利用数据集中高质量的19类像素集进行标注。性能采用所有类的交并比的平均值;
PASCAL-Context数据集包括训练集和验证集,训练集包括4998张图像,验证集包括5105张图像,PASCAL-Context数据集为整个场景提供了详细的语义标注,本发明的场景分割方法,采用了其中最常见的59类和1个背景类。
二、克罗内克卷积有效性实验验证:
如图5所示,本发明提出的克罗内克卷积比起对应的膨胀卷积性能分别高出0.8%,1.7%,0.7%,1.5%,1.6%,膨胀系数从4到12。这些结果表面本发明提出的克罗内克卷积比起膨胀卷积性能更好。
三、树形特征聚合模块有效性实验验证:
TFA_S是TFA中配置一个比较小的因子(r1,r2)={(6,3),(10,7),(20,15)}
TFA_L是TFA中配置一个比较大的因子(r1,r2)={(10,7),(20,15),(30,25)}
如图6所示,可以知道KC+TFA_S相对于基准模型有6.87%的提升,相对于Baseline+TFA_S有1.06的提升;而KC+TFA_L相对于基准模型有6.87%的提升,相对于Baseline+TFA_L有1.59%的提示。这说明我们提出的克罗内克卷积和树形特征聚合模块都可以改善分割质量,而且本发明提出的树形聚合模块有很强的泛化能力。
四、与其他方法比较:
这一部分是本发明的场景分割方法与其他先进方法进行对比的实验结果。
图7是本发明的场景分割方法在PASCAL VOC 2012数据集上的实验结果图。图8是本发明的场景分割方法在Cityscapes数据集上的实验结果图。图9是本发明的场景分割方法在PASCAL-Context数据集上的实验结果图。
如图7、图8和图9所示,可以看出,本发明的场景分割方法在PASCAL VOC 2012数据集、Cityscapes数据集和PASCAL-Context数据集这三个权威的语义分割数据集上都取得了非常好的性能,这也进一步验证了本发明的有效性。
Claims (8)
1.一种基于克罗内克卷积的场景分割方法,其特征在于,包括:
构建具有残差结构的克罗内克卷积层,该克罗内克卷积层的形式化表示为其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,该扩展矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
以该克罗内克卷积层和标准卷积层构建特征提取子网络;以原始图像为输入,通过该特征提取子网络输出抽象特征图;
以该克罗内克卷积层构建树形特征聚合模块;以该抽象特征图为输入,通过该树形特征聚合模块输出聚合特征图;
以该聚合特征图为输入,通过场景分割子网络输出该原始图像的场景分割结果。
2.如权利要求1所述的场景分割方法,其特征在于,该特征提取子网络包括5个阶段,阶段1包括3层级联的3×3标准卷积层,阶段2包括多个级联的第一瓶颈模块,阶段3包括多个级联的该第一瓶颈模块,阶段4包括多个级联的第二瓶颈模块,阶段5包括多个级联的该第二瓶颈模块;其中
该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;
该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
3.如权利要求1所述的场景分割方法,其特征在于,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
4.如权利要求1所述的场景分割方法,其特征在于,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
5.一种基于克罗内克卷积的场景分割系统,其特征在于,包括:
克罗内克卷积层构建模块,用于构建具有残差结构的克罗内克卷积层,该克罗内克卷积层的形式化表示为其中K(c1,c2)为标准卷积核,c1、c2为该克罗内克卷积层的通道索引,c1∈[1,CA],c1∈[1,CB],CA为输入K(c1,c2)的特征图的通道数,CB为K(c1,c2)输出的特征图的通道数,F为二维的扩展矩阵,该扩展矩阵是右上角为r2×r2大小的全1矩阵与右下角为(r1-r2)×(r1-r2)大小的零矩阵的组合,满足当K(c1,c2)为k×k时,使K1(c1,c2)被扩展为(2k+1)r1×(2k+1)r1;k为标准卷积的核大小,r1为该克罗内克卷积层的扩张因子,r2为该克罗内克卷积层的共享因子,c1、c2、CA、CB、k、r1、r2为正整数;
特征提取子网络,用于输入原始图像以输出抽象特征图,其中该特 征提取子网络包括该克罗内克卷积层和标准卷积层;
树形特征聚合模块,用于输入该抽象特征图以输出聚合特征图,其中该树形特征聚合模块包括多层该克罗内克卷积层;
场景分割子网络,用于输入该聚合特征图以输出该原始图像的场景分割结果,其中该场景分割子网络包括多层该克罗内克卷积层。
6.如权利要求5所述的场景分割系统,其特征在于,该特征提取子网络包括5个子模块,子模块1包括3层级联的3×3标准卷积层,子模块2包括多个级联的第一瓶颈模块,子模块3包括多个级联的该第一瓶颈模块,子模块4包括多个级联的第二瓶颈模块,子模块5包括多个级联的该第二瓶颈模块;其中
该第一瓶颈模块包括级联的一层1×1标准卷积层、一层3×3标准卷积层和一层1×1标准卷积层;
该第二瓶颈模块包括级联的一层1×1标准卷积层、一层该克罗内克卷积层和一层1×1标准卷积层。
7.如权利要求5所述的场景分割系统,其特征在于,该树形特征聚合模块包括级联的聚合层,该聚合层包括该克罗内克卷积层、批归一化层和ReLU激活函数,并以每一层聚合层的输出作为下一层聚合层的输入;该树形特征聚合模块中所有聚合层的输出与该抽象特征图通过级联层进行合并,得到该聚合特征图。
8.如权利要求5所述的场景分割系统,其特征在于,该场景分割子网络包括级联的多层3×3标准卷积层和一层1×1标准卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811309245.7A CN109670506B (zh) | 2018-11-05 | 2018-11-05 | 基于克罗内克卷积的场景分割方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811309245.7A CN109670506B (zh) | 2018-11-05 | 2018-11-05 | 基于克罗内克卷积的场景分割方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670506A CN109670506A (zh) | 2019-04-23 |
CN109670506B true CN109670506B (zh) | 2021-04-06 |
Family
ID=66141823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811309245.7A Active CN109670506B (zh) | 2018-11-05 | 2018-11-05 | 基于克罗内克卷积的场景分割方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670506B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797882B (zh) * | 2019-07-30 | 2024-07-26 | 华为技术有限公司 | 图像分类方法及装置 |
CN111291760B (zh) * | 2020-02-12 | 2023-10-17 | 北京迈格威科技有限公司 | 图像的语义分割方法、装置及电子设备 |
CN111461129B (zh) * | 2020-04-02 | 2022-08-02 | 华中科技大学 | 一种基于上下文先验的场景分割方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101537174B1 (ko) * | 2013-12-17 | 2015-07-15 | 가톨릭대학교 산학협력단 | 스테레오스코픽 영상에서의 주요 객체 검출 방법 |
US10176408B2 (en) * | 2015-08-14 | 2019-01-08 | Elucid Bioimaging Inc. | Systems and methods for analyzing pathologies utilizing quantitative imaging |
CN107564013B (zh) * | 2017-08-02 | 2020-06-26 | 中国科学院计算技术研究所 | 融合局部信息的场景分割修正方法与系统 |
CN107564007B (zh) * | 2017-08-02 | 2020-09-11 | 中国科学院计算技术研究所 | 融合全局信息的场景分割修正方法与系统 |
CN108427921A (zh) * | 2018-02-28 | 2018-08-21 | 辽宁科技大学 | 一种基于卷积神经网络的人脸识别方法 |
CN108664974A (zh) * | 2018-04-03 | 2018-10-16 | 华南理工大学 | 一种基于rgbd图像与全残差网络的语义分割方法 |
-
2018
- 2018-11-05 CN CN201811309245.7A patent/CN109670506B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109670506A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | RFBNet: deep multimodal networks with residual fusion blocks for RGB-D semantic segmentation | |
Zhou et al. | Contextual ensemble network for semantic segmentation | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
JP6395158B2 (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
CN109670506B (zh) | 基于克罗内克卷积的场景分割方法和系统 | |
CN113313164B (zh) | 一种基于超像素分割与图卷积的数字病理图像分类方法及系统 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN110096961B (zh) | 一种超像素级别的室内场景语义标注方法 | |
CN106204499A (zh) | 基于卷积神经网络的单幅图像去雨方法 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
Ma et al. | An improved ResNet-50 for garbage image classification | |
CN112784929A (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
Suo et al. | Group structured dirty dictionary learning for classification | |
CN107463932A (zh) | 一种使用二进制瓶颈神经网络来抽取图片特征的方法 | |
CN115131558B (zh) | 一种少样本环境下的语义分割方法 | |
CN110084136A (zh) | 基于超像素crf模型的上下文优化室内场景语义标注方法 | |
CN115082966A (zh) | 行人重识别模型训练方法、行人重识别方法、装置和设备 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及系统 | |
CN116612385B (zh) | 基于深度高分辨率关系图卷积的遥感影像多类信息提取方法与系统 | |
CN110110775A (zh) | 一种基于超连接网络的匹配代价计算方法 | |
He et al. | Classification of metro facilities with deep neural networks | |
WO2020093211A1 (zh) | 基于克罗内克卷积的场景分割方法和系统 | |
CN110826545A (zh) | 一种视频类别识别的方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |