CN108830855B - 一种基于多尺度低层特征融合的全卷积网络语义分割方法 - Google Patents
一种基于多尺度低层特征融合的全卷积网络语义分割方法 Download PDFInfo
- Publication number
- CN108830855B CN108830855B CN201810281580.4A CN201810281580A CN108830855B CN 108830855 B CN108830855 B CN 108830855B CN 201810281580 A CN201810281580 A CN 201810281580A CN 108830855 B CN108830855 B CN 108830855B
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- pooling
- feature fusion
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000007499 fusion processing Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度低层特征融合的全卷积网络语义分割方法,首先用全卷积神经网络对输入图像进行密集特征的提取;然后对提取的特征图像进行多尺度特征融合处理。其步骤包括对输入特征图进行多尺度池化,形成多条处理分支,然后对各分支中池化后尺度不变的特征图进行低层特征融合处理,对于池化后尺度缩小的特征图,则进行低层特征融合上采样处理,接着分别经过3×3卷积层以学习更深层次的特征及减少输出特征图的通道数,之后再把各分支的输出特征图以通道数拼接的方式结合在一起,并经过类别卷积层和双线性插值上采样处理后,得到跟原图像等尺寸的得分图。结合局部低层特征信息和全局多尺度图像信息,使图像语义分割的效果更为显著。
Description
技术领域
本发明涉及机器学习与计算机视觉技术领域,具体涉及一种基于多尺度低层特征融合的全卷积网络语义分割方法。
背景技术
近年来,随着科学技术的发展,计算机的性能得到了快速的提高,机器学习、计算机视觉、人工智能等领域也得到迅猛的发展,图像语义分割也就作为其中的一个重要的研究课题。所谓图像语义分割,就是将一幅图像按照自己既定的标准,被划分为若干个小块,每个小块内部的像素具有一定的相关性,并标出每一块的语义,如:天空、草原、沙发、床等等。从技术的角度来看,图像语义分割在一定程度上类似于数据处理中的聚合,聚成各个不同的类别,并标示出来。从应用的角度上看,图像语义分割也经常作为底层来为高层智能化图像处理服务。
对于图像语义分割的研究历史而言,可以以深度学习出现作为界限,划分成两个不同的时代。在尚未普及深度学习理论时,语义标注研究使用传统的方法来进行分割、识别与分类,专注于图像特征的描述、提取和学习预测。而现在的图像的语义分割任务大部分都是在深度学习的技术下进行的,使用深度神经网络能很好地捕捉到数据中的深层次关系,不仅是人类定义的类别之间的不同之处,连人类都察觉不到的差别也能通过深度神经网络的深层次特征提取来获得,并且可以对不同的类别加以区分,以达到更好的语义分割效果。
基于深度神经网络的语义分割技术有很多种类型,能完成各种不同的语义分割任务。其中经典的深度神经网络有Karen Simonyan和Andrew Zisserman在2014年发表的论文中提出的VGG网络(K.Simonyan and A.Zisserman.Very deep convolutional networksfor large-scale image recognition.CoRR,abs/1409.1556,2014.),该论文提出深度是获取好的分割结果的关键,然而深度对结果的影响还是会饱和的,所以它提出16层的特征提取网络结构,其中使用多个3×3的小尺寸卷积过滤器来替换原来大尺寸的卷积核,最后再接上两个全连通层作优化学习,以提供限定维度的特征向量给最后的分类器进行分类识别。以其为基础,J.Long等人认为最后两个全连接层会对丰富的特征图信息进行压缩,造成特征信息的丢失,因此提出全卷积的神经网络(J.Long,E.Shelhamer,andT.Darrell.Fully convolutional networks for semantic segmentation.In CVPR,pages 3431–3440,2015.),简称FCN网络。该网络将VGG网络中的后几个全连通层改为了卷积层,实现了一种端到端的语义分割方式,可以直接输出一张像素级别的预测图,而不仅仅是一个特征向量。其中反卷积层的应用还方便了网络参数的学习,能够很好的利用已经训练好的supervised pre-training的网络,不用再从头开始训练,只需要微调即可。而chen等人则在这基础上,提出基于带“洞”卷积层的全卷积神经网络(L.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille.Semantic image segmentation with deepconvolutionalnets and fully connected crfs.CoRR,abs/1412.7062,2014.),简称deeplab_largeFOV网络,且在其后加上了全连通的条件随机场进行优化。虽然这些算法都在一定程度上扩大了全卷积神经网络的感受野,但是很容易使分割物体的边缘变得非常粗糙,而且在对小尺度物体的分割识别方面显得力不从心。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于多尺度低层特征融合的全卷积网络语义分割方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于多尺度低层特征融合的全卷积网络语义分割方法,所述的语义分割方法包括以下几个步骤:
S1、对输入的图像使用全卷积神经网络进行密集特征的提取;
S2、对提取的特征进行多尺度特征融合处理,所述多尺度特征融合包括池化层、特征融合层和3×3卷积层的处理;
S3、多尺度特征融合后的图像通过3×3卷积层、类别卷积层和双线性插值上采样处理,得到跟原图像等尺寸的得分图,以此实现对图像的语义分割任务。
进一步地,所述的全卷积神经网络利用deeplab_largeFOV(vgg16)网络的前5个模块,获取稠密的高层特征信息,实现密集特征的提取。在这前5个模块中,每个模块都是由2-3个卷积层和relu层的集合与一个最大池化层组成。由于前3个模块中的池化层步长是2,而后两个大层中的池化层步长是1,因此在第四个池化层之后,即从第5个模块开始,小卷积层都是带“洞”的,这样可以使感受野与预训练的网络(FCN网络)保持一致,而且还能在一定程度上扩大感受野,获取更多全局信息。
进一步地,所述的多尺度特征融合,所述多尺度特征融合包括池化层、特征融合层和3×3卷积层的处理,首先需要对输入特征图进行多尺度池化,即对输入特征图的多个副本分别进行不同形式的池化处理,从而形成多条处理分支;然后对各分支中池化后尺度不变的特征图进行低层特征融合处理,对于池化后尺度缩小的特征图,则需要进行低层特征融合上采样处理,使得各分支特征图的尺寸保持一致;再分别将特征融合后的特征图输入到3×3卷积层,通过限制卷积核的个数,减少输出特征图的通道数目;之后再把各分支的输出特征图以通道数拼接的方式结合在一起,得到融合多尺度低层特征的图像。
进一步地,所述的多尺度池化方法,对输入特征图的多个副本分别进行不同形式的池化处理,其中包括传统的最大值池化和新型的相似度矩阵池化。通过利用不同尺寸的池化核和不同移动步长的池化窗口,可以获取丰富的多尺度图像信息,然而各分支池化后特征图的尺寸会因此而不一样。
进一步地,所述的相似度矩阵池化方法,首先需要让基于低层特征生成的相似度矩阵进行二值化处理,再把该矩阵当作权重矩阵,对输入特征图进行均值池化处理。
进一步地,所述的低层特征融合和低层特征融合上采样低层特征融合是针对相似度矩阵池化后特征图尺寸没有发生变化的情况所实施的处理方式,而低层特征融合上采样则是针对相似度矩阵池化后特征图尺寸缩小的情况所实施的尺寸复原的处理方法。另外,对于最大值池化后的特征图,不需要进行任何特征融合处理,直接输入到3×3卷积层。低层特征融合和低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理。HOG特征又名方向梯度直方图特征(Histograms of Oriented Gradients),它是经过计算图像中各局部区域的梯度方向直方图来构成特征描述向量。由于该特征主要针对一块局部区域,因此与池化后尺寸缩小的特征图中每个特征点相对应。
进一步地,基于低层HOG特征的相似度矩阵,该矩阵对不同尺度的输入特征图由不同的大小对应。对原尺度大小的特征图,可使用步长为1的相似度矩阵进行反卷积操作,该矩阵的尺寸大小与之前的池化窗口保持一致。而对于经过池化缩小的特征图,则需要使用与池化窗口步长一致的相似度矩阵,进行反卷积上采样处理。
进一步地,基于低层HOG特征的相似度矩阵的生成方法,首先需要利用hog特征提取算法提取原图像中每个块区域的HOG特征,该块区域的尺寸大小受待特征融合的特征图的尺寸大小的影响;然后利用滑动窗口中每一个块区域的梯度方向直方图信息,经由以下公式,可求得尺度大小为T×T的相似度矩阵W:
其中,Dis(i,O)是指滑动窗口中块区域i和中心块区域O之间特征向量的欧氏距离,Xik是指滑动窗口中任意一个块区域i的特征向量中第k个分量的值,n是指该特征向量的总维度数。Syn(I,O)是指与滑动窗口的块区域i相对应的相似度矩阵中I点的值,代表HOG特征图的滑动窗口中块区域i和中心块区域O的特征相似度;若两个块区域特征越相似,则Syn(I,O)值越大;另外,越靠近中心块区域O,相似度的比例系数越大。其中α可以取5,10或20的值,以提升hog特征信息对图像的表达能力。Ix和Iy分别代表相似度矩阵中点I的行索引和列索引,Ox和Oy分别代表相似度矩阵的中心点O的行索引和列索引(x,y∈[1,T])。
进一步地,所述的3×3卷积层,该卷积层的卷积核数目与处理分支的数目有关,通过限制卷积核的个数,可减少输出特征图的通道数目。由于本发明使用deeplab_largeFOV(vgg16)网络进行稠密特征提取,为了使用该网络的权重模型进行训练学习,整个多尺度特征融合模块输出特征图的维度必须与其保持一致,因此该3×3卷积层的卷积核个数为1024/n(n为处理分支的数目)。
本发明相对于现有技术具有如下的优点及效果:
1)本发明通过多尺度池化的方式,能获取更多的全局特征信息,提升对多尺度物体的识别效果,也能对位置关系不符的识别问题做出改善,包括对含有小尺寸物体的场景理解的优化,进而提高图像语义分割的精度。
2)通过低层特征融合方法,可以使得高层的多尺度特征与低层的良好特征相融合,加强全卷积网络对局部边缘的敏感性,解决全卷积网络由于聚合大量的上下文信息而导致的边缘模糊化问题。
附图说明
图1是本发明公开的一种基于多尺度低层特征融合的全卷积网络语义分割方法的流程图;
图2是本发明的基于多尺度低层特征融合的全卷积网络的原理图;
图3是本发明的实施例的多尺度特征融合的原理图;
图4是本发明的实施例的基于相似度矩阵的特征融合层的原理图;
图5是本发明的实施例的相似度矩阵池化方法的原理图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,图1为本发明的基于多尺度低层特征融合的全卷积神经网络的一个实施例的流程图。该实施例包括以下步骤:
1)对输入的图像使用全卷积神经网络进行密集特征的提取;
2)对提取的特征进行多尺度特征融合处理;
3)多尺度特征融合后的图像通过3×3卷积层、类别卷积层和双线性插值上采样处理,得到跟原图像等尺寸的得分图,以此实现对图像的语义分割任务。
图像的语义分割是一个典型的通过密集特征提取来对各像素点进行语义类别预测的问题,因此要提高每个像素的类别预测精准度,便需要利用全局而又不失精细的特征表达。本发明便是运用先进的全卷积神经网络来提取图像的稠密特征信息,再此基础上经过多尺度的池化处理,对包括密集特征的特征图进行多尺度的缩放和尺度不变的特征聚合处理,这样不仅能使特征图包括更丰富的全局特征信息,还能让特征表达更具鲁棒性。然而,虽然通过全卷积神经网络可以获取稠密的全局特征信息,当其中的每一个神经元都有很大的感受野,很容易会使分割物体的边缘变得异常粗糙,在聚合繁多的上下文信息的同时,会造成边缘的模糊效应。
因此本发明将局部的低层特征信息融入到全卷积神经网络的训练中,利用对边缘敏感的局部低层信息对全局高层特征进行优化学习,使得对物体边缘有更优良的特征表达,从而提升对不同场景的理解能力,加强最终的图像语义分割效果。
如图2所示,本发明的一个实施例的基础架构便是基于现今具有领先地位的全卷积神经网络——deeplab_largeFOV(vgg16)网络,通过使用该网络的前5个模块的结构,可以获取到高度稠密的特征信息。其中每个模块都是由2-3个卷积层(包括relu层)和一个最大池化层组成。由于前3个模块中池化层的步长是2,而后两个大层中池化层的步长是1,因此在第四个池化层之后,即从第5个模块开始,小卷积层都是带“洞”的,这样可以使感受野与预训练的网络(FCN网络)一致,而且还能在一定程度上扩大感受野,获取更丰富的全局特征信息。
接着需要把全卷积神经网络提取出来的特征图输入到本发明提出的多尺度特征融合模块,之后紧接的3×3卷积层、类别卷积层和双线性插值上采样则是沿用全卷积神经网络所使用的一般方法。
多尺度特征融合模块的具体实施例如图3所示。该模块包括池化层、特征融合层和3×3卷积层。
在池化层中,需要进行多尺度池化,即对输入特征图的多个副本分别进行不同形式的池化处理,从而形成多条处理分支。该实施例一共有四个分支,各分支所使用的池化核尺寸分别是5×5、3×3、3×3和9×9。经过多尺度池化后,各分支的输出特征图的尺寸变化分别是尺寸缩小一半、尺寸不变、尺寸不变和尺寸缩小到四分之一,即池化核的移动步长分别为2、1、1、4。其中分支1、2、4都是使用二值化后的相似度矩阵进行均值池化处理,而分支3则使用最大值池化方法。
相似度矩阵池化方法的一个实施例如图5所示。该方法首先需要将基于低层特征的相似度矩阵进行二值化处理,然后以二值化后的相似度矩阵作为权重矩阵进行均值池化操作。其中二值化的方式有很多种。在该实施例中,二值化方式是通过设置一个合理的阀值来实现的,大于或等于该阀值的数值设为1,而小于该阀值的数值则设为0。值得注意的是,图5中所进行的操作是原尺寸池化,这里所使用的相似度矩阵和后继的特征融合方法所使用的相似度矩阵都是以相同大小的块区域为单位的hog特征图所得来的,因此相似度矩阵可以共享;然而,对于尺寸缩小的池化操作,使用的相似度矩阵中每个点所代表的特征区域尺寸不同,所以需要使用跟之后特征融合过程不一样的相似度矩阵。
在特征融合层中,需要对各分支中相似度矩阵池化后尺度不变的特征图进行低层特征融合处理,如图3的分支2;对于相似度矩阵池化后尺度缩小的特征图,则需要进行低层特征融合上采样处理,使得各分支特征图的尺寸保持一致,如图3的分支1和4;对于最大值池化后的特征图,则不需要进行任何特征融合处理,直接输入到3×3卷积层,如图3的分支3。在图3的实施例中,分支1使用步长为2的5×5相似度矩阵,分支2使用步长为1的3×3相似度矩阵,分支4使用步长为4的9×9相似度矩阵。
低层特征融合和低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理。HOG特征又名方向梯度直方图特征(Histograms of OrientedGradients),它是经过计算图像中各局部区域的梯度方向直方图来构成特征描述向量。由于该特征主要针对一块局部区域,因此与池化后缩小的特征图的每个特征点相对应。该特征本质上是通过统计图像局部区域的梯度方向信息以作为该局部图像区域的表征,即表示着边缘的结构特征,因此可以有效地描述图像中局部的形状信息,融合之后将能够对高层全局特征边缘不敏感的缺点进行完善。
另外,HOG算法是在粗糙的空间区域抽样,并通过精细地计算各局部区域的梯度方向直方图来实现对局部图像梯度信息的统计与量化,因此得到的特征描述向量既能够描述局部图像的内容,又能够在一定程度上抑制平移和旋转带来的影响。而且在包括众多细胞单元的块状区域统一进行的gamma校正归一化操作,可以使图像本身具有相当好的光学和几何形变的不变性,抵消光照变化对图像造成的影响,从而降低描述图像特征的表征向量的维度,不仅能提高后续语义分割的准确率,又可以减少相似度矩阵的生成时间。
如图4所示,为了生成相似度矩阵,必须先使用HOG算法,以原图像为输入,生成一幅由8×8大小的细胞单元组成的特征向量图。对于原尺度池化的特征图,其中的每一个像素点即对应HOG特征图的每一个细胞单元,因为经过全卷积神经网络的前5个模块处理之后,特征图的尺寸只有原图像的八分之一。而对于池化后尺寸缩小一半的特征图,其中的每个像素点对应HOG特征图中由2×2个细胞单元组成的块区域;同理,对于池化后尺寸缩小到四分之一的特征图,其中的每个像素点则对应HOG特征图中由4×4个细胞单元组成的块区域。当然,在将细胞单元组合成块区域之后,必须对块内梯度方向直方图进行归一化操作,以降低局部的光照变化和前景-背景对比度变化对梯度强度变化的影响。其中归一化方法是L2-Norm with Hysteresis threshold。
在得到相应块区域的特征向量(特征描述子)之后,可以基于相应滑动窗口中每一个块区域的梯度方向直方图,经由以下公式,求得与以O点为中心的滑动窗口相对应的尺度为T×T的相似度矩阵W:
其中,Dis(i,O)是指滑动窗口中块区域i和中心块区域O之间特征向量的欧氏距离,Xik是指滑动窗口中任意一个块区域i的特征向量中第k个分量的值,n是指该特征向量的总维度数。Syn(I,O)是指与滑动窗口的块区域i相对应的相似度矩阵中I点的值,代表HOG特征图的滑动窗口中块区域i和中心块区域O的特征相似度;若两个块区域特征越相似,则Syn(I,O)值越大;另外,越靠近中心块区域O,相似度的比例系数越大。其中α可以取5,10或20的值,以提升HOG特征信息对图像的表达能力。Ix和Iy分别代表相似度矩阵中点I的行索引和列索引,Ox和Oy分别代表相似度矩阵的中心点O的行索引和列索引(x,y∈[1,T])。
在得到相似度矩阵之后,需要把它融入特征图当中。把相似度矩阵池化层输出的特征图作为输入,其中每个点所代表的特征向量与对应的相似度矩阵进行反卷积操作,得到以该点为中心的低层特征响应矩阵,再让这些矩阵在相应位置和输入特征图进行求和运算,之后再根据每个点实际得到的响应数进行归一化操作。
对于原尺寸池化后输入的特征图,经过低层特征融合层以后,输出特征图的尺寸并没有发生变化;而对于池化后尺寸缩小的输入特征图,通过低层特征融合上采样层之后,输出特征图的尺寸恢复到池化之前的尺寸大小。
在紧接的3×3卷积层中,需要对输入特征图进行卷积操作,输出特征图的尺寸与输入特征图一致。该层的卷积核数目与处理分支的数目有关,由于本专利使用deeplab_largeFOV(vgg16)网络进行稠密特征提取,为了使用该网络的权重模型进行训练学习,整个多尺度特征融合模块输出特征图的维度必须与其保持一致,因此该3×3卷积层的卷积核个数为1024/n(n为处理分支的数目)。由于该实施例包括4条分支,因此每条分支的3×3卷积层中卷积核的个数都是256。
综上所述,本发明提出的基于多尺度低层特征融合的全卷积神经网络方法可用于多种类型的图像语义分割任务。该发明不仅能够提升高层特征对全局上下文信息的表征能力,而且可以在一定程度上改善由全卷积神经网络各神经元过大的感受野,而导致的分割物体边缘粗糙化的状况,从而提高不同场景下图像语义分割的精度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包括在本发明的保护范围之内。
Claims (4)
1.一种基于多尺度低层特征融合的全卷积网络语义分割方法,其特征在于,所述的语义分割方法包括下列步骤:
S1、对输入的图像使用全卷积神经网络进行密集特征的提取;
S2、对提取的特征进行多尺度特征融合处理,所述的多尺度特征融合处理包括池化层、特征融合层和3×3卷积层的处理,过程如下:首先需要对输入特征图进行多尺度池化,即对输入特征图的多个副本分别进行不同形式的池化处理,从而形成多条处理分支;然后对各分支中池化后尺度不变的特征图进行低层特征融合处理,对于池化后尺度缩小的特征图,则需要进行低层特征融合上采样处理,使得各分支特征图的尺寸保持一致;再分别将特征融合后的特征图输入到3×3卷积层,通过限制卷积核的个数,减少输出特征图的通道数目;之后再把各分支的输出特征图以通道数拼接的方式结合在一起,得到融合多尺度低层特征的图像;
其中,所述的低层特征融合和所述的低层特征融合上采样的基本原理都是利用融合HOG特征信息的相似度矩阵进行反卷积处理;
所述的相似度矩阵的生成方法如下:
首先需要利用HOG特征提取算法提取原图像中每个块区域的HOG特征,该块区域的尺寸大小受待特征融合的特征图的尺寸大小的影响;
然后利用滑动窗口中每一个块区域的梯度方向直方图信息,经由以下公式,可求得尺度大小为T×T的相似度矩阵W:
其中,Dis(i,O)是指滑动窗口中块区域i和中心块区域O之间特征向量的欧氏距离,Xik是指滑动窗口中任意一个块区域i的特征向量中第k个分量的值,n是指特征向量的总维度数,Syn(I,O)是指与滑动窗口的块区域i相对应的相似度矩阵中I点的值,代表HOG特征图的滑动窗口中块区域i和中心块区域O的特征相似度;若两个块区域特征越相似,则Syn(I,O)值越大;另外,越靠近中心块区域O,相似度的比例系数越大,其中α取5、10或20的值,以提升HOG 特征信息对图像的表达能力,Ix和Iy分别代表相似度矩阵中点I的行索引和列索引,Ox和Oy分别代表相似度矩阵的中心点的行索引和列索引,x,y∈[1,T];
S3、多尺度特征融合后的图像通过3×3卷积层、类别卷积层和双线性插值上采样处理,得到跟原图像等尺寸的得分图,以此实现对图像的语义分割任务。
2.根据权利要求1所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法,其特征在于,所述的多尺度池化通过利用不同尺寸的池化核和不同移动步长的池化窗口,获取多尺度图像信息,所述的多尺度池化包括最大值池化方法和相似度矩阵池化方法。
3.根据权利要求2所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法,其特征在于,所述的相似度矩阵池化方法首先让基于低层特征生成的相似度矩阵进行二值化处理,再把该矩阵当作权重矩阵,对输入特征图进行均值池化处理。
4.根据权利要求1所述的一种基于多尺度低层特征融合的全卷积网络语义分割方法,其特征在于,所述的全卷积神经网络利用deeplab_largeFOV网络的前5个模块,获取稠密的高层特征信息,实现密集特征的提取,在这前5个模块中,每个模块都是由2或3个卷积层和relu层的集合与一个最大池化层组成,并且前3个模块中的池化层步长是2,而后2个模块中的池化层步长是1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281580.4A CN108830855B (zh) | 2018-04-02 | 2018-04-02 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281580.4A CN108830855B (zh) | 2018-04-02 | 2018-04-02 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108830855A CN108830855A (zh) | 2018-11-16 |
CN108830855B true CN108830855B (zh) | 2022-03-25 |
Family
ID=64155292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810281580.4A Expired - Fee Related CN108830855B (zh) | 2018-04-02 | 2018-04-02 | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830855B (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636807A (zh) * | 2018-11-27 | 2019-04-16 | 宿州新材云计算服务有限公司 | 一种图像分割与像素复原的葡萄病害叶片分割法 |
CN109522966B (zh) * | 2018-11-28 | 2022-09-27 | 中山大学 | 一种基于密集连接卷积神经网络的目标检测方法 |
CN109598728B (zh) | 2018-11-30 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、诊断系统及存储介质 |
CN111259686B (zh) | 2018-11-30 | 2024-04-09 | 华为终端有限公司 | 一种图像解析方法以及装置 |
CN109784223B (zh) * | 2018-12-28 | 2020-09-01 | 珠海大横琴科技发展有限公司 | 一种基于卷积神经网络的多时相遥感影像匹配方法及系统 |
CN109784402A (zh) * | 2019-01-15 | 2019-05-21 | 中国第一汽车股份有限公司 | 基于多层次特征融合的快速无人车驾驶场景分割方法 |
CN109840913B (zh) * | 2019-01-21 | 2020-12-29 | 中南民族大学 | 一种乳腺x线图像中肿块分割的方法和系统 |
CN109978819B (zh) * | 2019-01-22 | 2022-11-15 | 江南大学 | 一种基于低尺度血管检测分割视网膜血管的方法 |
CN109872364B (zh) * | 2019-01-28 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 图像区域定位方法、装置、存储介质和医学影像处理设备 |
CN109948517A (zh) * | 2019-03-18 | 2019-06-28 | 长沙理工大学 | 一种基于密集全卷积网络的高分辨率遥感图像语义分割方法 |
CN109934241B (zh) * | 2019-03-28 | 2022-12-09 | 南开大学 | 可集成到神经网络架构中的图像多尺度信息提取方法 |
CN111553362B (zh) * | 2019-04-01 | 2023-05-05 | 上海卫莎网络科技有限公司 | 一种视频处理方法、电子设备和计算机可读存储介质 |
CN110136062B (zh) * | 2019-05-10 | 2020-11-03 | 武汉大学 | 一种联合语义分割的超分辨率重建方法 |
CN110163852B (zh) * | 2019-05-13 | 2021-10-15 | 北京科技大学 | 基于轻量化卷积神经网络的输送带实时跑偏检测方法 |
CN110263809B (zh) * | 2019-05-16 | 2022-12-16 | 华南理工大学 | 池化特征图处理方法、目标检测方法、系统、装置和介质 |
CN110298841B (zh) * | 2019-05-17 | 2023-05-02 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110263644B (zh) * | 2019-05-21 | 2021-08-10 | 华南师范大学 | 基于三胞胎网络的遥感图像分类方法、系统、设备及介质 |
CN110119728B (zh) * | 2019-05-23 | 2023-12-05 | 哈尔滨工业大学 | 基于多尺度融合语义分割网络的遥感图像云检测方法 |
CN110309855B (zh) * | 2019-05-30 | 2021-11-23 | 上海联影智能医疗科技有限公司 | 图像分割的训练方法、计算机设备及存储介质 |
CN110211164B (zh) * | 2019-06-05 | 2021-05-07 | 中德(珠海)人工智能研究院有限公司 | 基于神经网络学习基础图形的特征点算子的图片处理方法 |
CN110232693B (zh) * | 2019-06-12 | 2022-12-09 | 桂林电子科技大学 | 一种结合热力图通道及改进U-Net的图像分割方法 |
CN110458841B (zh) * | 2019-06-20 | 2021-06-08 | 浙江工业大学 | 一种提高图像分割运行速率的方法 |
CN112258561B (zh) * | 2019-07-22 | 2023-08-25 | 复旦大学 | 针对图像拼接的匹配点获取方法 |
CN110647889B (zh) * | 2019-08-26 | 2022-02-08 | 中国科学院深圳先进技术研究院 | 医学图像识别方法、医学图像识别装置、终端设备及介质 |
CN110599500B (zh) * | 2019-09-03 | 2022-08-26 | 南京邮电大学 | 一种基于级联全卷积网络的肝脏ct图像的肿瘤区域分割方法及系统 |
CN110648316B (zh) * | 2019-09-07 | 2021-02-26 | 创新奇智(成都)科技有限公司 | 一种基于深度学习的钢卷端面边缘检测方法 |
CN112529904A (zh) * | 2019-09-18 | 2021-03-19 | 华为技术有限公司 | 图像语义分割方法、装置、计算机可读存储介质和芯片 |
CN110751154B (zh) * | 2019-09-27 | 2022-04-08 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN110826632B (zh) * | 2019-11-11 | 2024-02-13 | 深圳前海微众银行股份有限公司 | 图像变化检测方法、装置、设备及计算机可读存储介质 |
CN111027570B (zh) * | 2019-11-20 | 2022-06-14 | 电子科技大学 | 一种基于细胞神经网络的图像多尺度特征提取方法 |
CN111091122B (zh) * | 2019-11-22 | 2024-01-05 | 国网山西省电力公司大同供电公司 | 一种多尺度特征卷积神经网络的训练和检测方法、装置 |
CN111080588A (zh) * | 2019-12-04 | 2020-04-28 | 南京航空航天大学 | 基于多尺度神经网络的快速胎儿mr图像大脑提取方法 |
CN111047569B (zh) * | 2019-12-09 | 2023-11-24 | 北京联合大学 | 图像处理方法及装置 |
CN111200716B (zh) * | 2020-01-08 | 2021-10-26 | 珠海亿智电子科技有限公司 | 特征映射缩放的精度补偿方法、系统及存储介质 |
CN111242288B (zh) * | 2020-01-16 | 2023-06-27 | 浙江工业大学 | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 |
CN111738012B (zh) * | 2020-05-14 | 2023-08-18 | 平安国际智慧城市科技股份有限公司 | 提取语义对齐特征的方法、装置、计算机设备和存储介质 |
CN113724181A (zh) * | 2020-05-21 | 2021-11-30 | 国网智能科技股份有限公司 | 一种输电线路螺栓语义分割方法及系统 |
CN111782874B (zh) * | 2020-06-30 | 2023-01-17 | 科大讯飞股份有限公司 | 视频检索方法、装置、电子设备和存储介质 |
CN112150493B (zh) * | 2020-09-22 | 2022-10-04 | 重庆邮电大学 | 一种基于语义指导的自然场景下屏幕区域检测方法 |
CN112419745A (zh) * | 2020-10-20 | 2021-02-26 | 中电鸿信信息科技有限公司 | 一种基于深度融合网络的高速公路团雾预警系统 |
CN112418228B (zh) * | 2020-11-02 | 2023-07-21 | 暨南大学 | 一种基于多种特征融合的图像语义分割方法 |
CN112568908A (zh) * | 2020-12-14 | 2021-03-30 | 上海数创医疗科技有限公司 | 采用多尺度视野深度学习的心电波形定位加分类模型装置 |
CN112561877B (zh) * | 2020-12-14 | 2024-03-29 | 中国科学院深圳先进技术研究院 | 多尺度双通道卷积模型训练方法、图像处理方法及装置 |
CN112862842B (zh) * | 2020-12-31 | 2023-05-12 | 青岛海尔科技有限公司 | 图像数据的处理方法和装置、存储介质及电子装置 |
CN113570589B (zh) * | 2021-08-03 | 2022-04-19 | 河海大学 | 一种基于特征融合的深度学习sar影像溢油区识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101036A1 (en) * | 2015-12-16 | 2017-06-22 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
CN107316001A (zh) * | 2017-05-31 | 2017-11-03 | 天津大学 | 一种自动驾驶场景中小且密集的交通标志检测方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
-
2018
- 2018-04-02 CN CN201810281580.4A patent/CN108830855B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101036A1 (en) * | 2015-12-16 | 2017-06-22 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
CN107316001A (zh) * | 2017-05-31 | 2017-11-03 | 天津大学 | 一种自动驾驶场景中小且密集的交通标志检测方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于活动轮廓模型的血管分割方法研究;鲍盈含;<<中国优秀硕士学位论文全文数据库 信息科技辑>>;20150115(第1期);参见正文15-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108830855A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830855B (zh) | 一种基于多尺度低层特征融合的全卷积网络语义分割方法 | |
WO2022000426A1 (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN106919920B (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
CN109886161B (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
Mao et al. | Deep residual pooling network for texture recognition | |
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN106156777B (zh) | 文本图片检测方法及装置 | |
CN111353544B (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110929099B (zh) | 一种基于多任务学习的短视频帧语义提取方法及系统 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
Wan et al. | Generative adversarial multi-task learning for face sketch synthesis and recognition | |
CN113762138A (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN115565071A (zh) | 高光谱图像Transformer网络训练及分类方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN113947814A (zh) | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN114842478A (zh) | 文本区域的识别方法、装置、设备及存储介质 | |
CN108664968B (zh) | 一种基于文本选取模型的无监督文本定位方法 | |
Özyurt et al. | A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 | |
CN110210311B (zh) | 一种基于通道特征融合稀疏表示的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220325 |
|
CF01 | Termination of patent right due to non-payment of annual fee |