CN111079767B - 一种用于分割图像的神经网络模型及其图像分割方法 - Google Patents
一种用于分割图像的神经网络模型及其图像分割方法 Download PDFInfo
- Publication number
- CN111079767B CN111079767B CN201911332559.3A CN201911332559A CN111079767B CN 111079767 B CN111079767 B CN 111079767B CN 201911332559 A CN201911332559 A CN 201911332559A CN 111079767 B CN111079767 B CN 111079767B
- Authority
- CN
- China
- Prior art keywords
- intelligent selection
- module
- unit
- output
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 46
- 238000003062 neural network model Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 46
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 239000011800 void material Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 14
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种用于分割图像的神经网络模型及其图像分割方法、设备及可读存储介质,包括智能选择模块,该智能选择模块进一步包括特征提取单元和智能选择单元。由于特征提取单元采用多尺度的空洞卷积,获得了输入特征图不同尺度的信息,为后面特征筛选提供大量丰富的特征信息;而智能选择单元通过训练一个权重值,并根据权重值大小对输入特征图通道进行智能筛选,因此该智能选择模块能够在保证分割精度的同时,降低参数量和计算量。因此,本申请的神经网络模型通过采用上述智能选择模块,能够快速抽取图像的有效特征,且计算量小,模型参数少,适用于移动终端。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种用于分割图像的神经网络模型、图像分割方法、设备及可读存储介质。
背景技术
目前,通过深度学习解决图像分类、图像分割和物体检测等计算机视觉领域问题已成为热门,并取得了巨大的成功。
其中,图像分割技术是计算机视觉领域的重要的研究方向,是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似性质的区域的过程,近些年,图像分割技术有了突飞猛进的发展,该技术相关的场景物体分割、人体前背景分割、人脸人体Parsing、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业得到广泛应用。
近年来,涌现出了很多优秀的卷积神经网络模型,但是这些模型的计算量和大小往往都很大,只能用于服务器端并且需要高性能GPU加速才能运行,无法在智能手机等移动设备运行。
考虑到移动设备对深度学习同样有着巨大的需求,因此,如何设计一个能够应用到移动设备的轻量级的卷积神经网络模型,以实现图像分割,是亟待本领域技术人员解决的问题。
发明内容
本申请的目的是提供一种用于分割图像的神经网络模型、图像分割方法、设备及可读存储介质,用以解决当前的用于图像分割的神经网络模型的计算量大、模型参数量大,无法在移动手机等移动设备终端运行的问题。其具体方案如下:
第一方面,本申请提供了一种用于分割图像的神经网络模型,包括:特征提取模块、智能选择模块、上采样模块和分类模块,其中所述智能选择模块包括特征提取单元、归一化单元、智能选择单元、输出单元;
所述特征提取模块用于提取目标图像的原始特征图;
所述特征提取单元用于分别利用多个不同尺度的空洞卷积对所述目标图像的原始特征图进行特征提取,并对提取得到的多个特征图进行拼接操作,得到所述特征提取单元的输出特征图;
所述归一化单元用于对所述特征提取单元的输出特征图进行归一化和非线性映射,得到所述归一化单元的输出特征图;
所述智能选择单元用于确定所述归一化单元的输出特征图中各个通道的第一权重值,所述第一权重值用于表征该通道对图像分割精准性的贡献大小;从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据所述第一权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图;
所述输出单元用于对所述智能选择单元的输出特征图与所述目标图像的原始特征图进行相加操作,得到目标特征图;
所述上采样模块用于对所述目标特征图进行上采样;
所述分类模块用于根据上采样得到的特征图,生成所述目标图像的图像分割结果。
优选的,所述智能选择单元具体用于:从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据预先训练得到的整体加权值对各个所述目标通道的第一权重值进行线性加权,得到所述目标通道的第二权重值;根据所述第二权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图。
优选的,所述智能选择模块包括降采样型的智能选择模块,所述降采样型的特征保持模块的智能选择单元用于从所述归一化单元的输出特征图中筛选出第一权重值最大的第一预设数量的目标通道,其中,所述第一预设数量为根据卷积步长和所述目标图像的原始特征图的通道数量确定的数量。
优选的,所述智能选择模块包括特征保持型的智能选择模块,所述特征保持型的智能选择模块的智能选择单元用于从所述归一化单元的输出特征图中筛选出第一权重值最大的第二预设数量的目标通道,其中,所述第二预设数量等于所述目标图像的原始特征图的通道数量。
优选的,所述智能选择单元具体用于:通过对所述归一化单元的输出特征图依次进行平均池化操作、全连接操作、非线性映射操作、全连接操作、归一化操作,得到所述归一化单元的输出特征图中各个通道的第一权重值。
优选的,包括多个相互串联的所述智能选择模块。
优选的,所述特征提取模块包括第一特征提取模块和第二特征提取模块,所述智能选择模块包括第一智能选择模块和第二智能选择模块;
所述第一特征提取模块与第一预设数量的相互串联的所述第一智能选择模块串联,所述第二特征提取模块和所述第二智能选择模块通过连接模块输出至第二预设数量的相互串联的第二智能选择模块。
第二方面,本申请提供了一种图像分割方法,基于如上所述的用于分割图像的神经网络模型实现,包括:
获取待分割的目标图像;
将所述目标图像输入所述神经网络模型,得到图像分割结果。
第三方面,本申请提供了一种图像分割设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上所述的一种图像分割方法。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时用于实现如上所述的一种图像分割方法。
本申请所提供的一种用于分割图像的神经网络模型,包括:特征提取模块、智能选择模块、上采样模块和分类模块,该智能选择模块包括特征提取单元、归一化单元、智能选择单元、输出单元。由于智能选择模块的特征提取单元采用多尺度的空洞卷积,获得了输入特征图不同尺度的信息,并将多种尺度的特征信息拼接到一起,为后面特征筛选提供大量丰富的特征信息;此外,智能选择模块的智能选择单元通过训练一个表征通道对图像分割精准性的贡献大小的权重值,并根据权重值大小,抛弃权重值较小的通道,留下权重值较大的通道,实现了对输入特征图通道进行智能选择。可见,该智能选择模块能够融合多尺度信息,提取丰富特征,还能够通过提取有效通道,在保证分割精度的同时,降低参数量和计算量。因此,本申请的神经网络模型通过采用上述智能选择模块,能够快速抽取图像的有效特征,且计算量小,模型参数少,是一种轻量级的适用于移动终端的用于分割图像的神经网络模型。
此外,本申请还提供了一种图像分割方法、设备及可读存储介质,其技术效果与上述神经网络模型的技术效果相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种用于分割图像的神经网络模型实施例一的结构示意图;
图2为本申请所提供的一种用于分割图像的神经网络模型实施例一中智能选择模块的结构示意图;
图3为本申请所提供的一种用于分割图像的神经网络模型实施例二的结构示意图图一;
图4为本申请所提供的一种用于分割图像的神经网络模型实施例二的结构示意图图二。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,计算机视觉领域相关的处理软件都会用到卷积神经网络模型,而主流的卷积神经网络模型的计算量和模型本身大小都很大,动辄几百兆字节,因此很难部署到硬件资源有限的嵌入式系统上。此外,对于大型卷积神经网络来说,运行大型卷积神经网络需要大的内存带宽去读取和计算,并且需要进行很多次浮点运算,而且大型网络因为无法完全放置在DRAM里面,需要更多次DRAM访问,这就需要耗费很多电能。同时,APP软件都是通过应用商店下载更新,对于这些应用软件来说,软件本身的大小显得非常重要,因为如果应用软件本身大小过大,下载过慢,会影响到用户体验,很多用户可能不会下载或者更新这些软件。
可见,计算资源的限制,计算耗能问题,以及终端软件越大用户体验越差的问题,为卷积神经网络模型在智能手机等移动设备上大规模应用造成了很大的障碍。
针对上述问题,本申请提供了一种用于分割图像的神经网络模型、图像分割方法、设备及可读存储介质,通过神经网络模型中的智能选择模块融合多尺度信息,获取得到丰富的特征,并提取有效通道,在保证分割精度的同时,有效降低参数量和计算量。因此,本申请的神经网络模型能够快速抽取图像的有效特征,且计算量小,模型参数少,是一种轻量级的适用于移动终端的神经网络模型。
下面对本申请提供的一种用于分割图像的神经网络模型实施例一进行介绍,参见图1,实施例一包括:特征提取模块、智能选择模块、上采样模块和分类模块,其中所述智能选择模块包括特征提取单元、归一化单元、智能选择单元、输出单元;
所述特征提取模块用于提取目标图像的原始特征图;
所述特征提取单元用于分别利用多个不同尺度的空洞卷积对所述目标图像的原始特征图进行特征提取,并对提取得到的多个特征图进行拼接操作,得到所述特征提取单元的输出特征图;
所述归一化单元用于对所述特征提取单元的输出特征图进行归一化和非线性映射,得到所述归一化单元的输出特征图;
所述智能选择单元用于确定所述归一化单元的输出特征图中各个通道的第一权重值,所述第一权重值用于表征该通道对图像分割精准性的贡献大小;从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据所述第一权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图;
所述输出单元用于对所述智能选择单元的输出特征图与所述目标图像的原始特征图进行相加操作,得到目标特征图;
所述上采样模块用于对所述目标特征图进行上采样;
所述分类模块用于根据上采样得到的特征图,生成所述目标图像的图像分割结果。
由于智能选择模块(Wise Select Block)为本申请的核心之一,因此,下面对智能选择模块进行详细介绍。
如图2所示,标注Wise Select Block的虚线框内的结构为智能选择模块的详细结构,每一行称之为一层,总共14层。其中,标注feature extract module的虚线框内的结构为上述特征提取单元,标注Wise Select module的虚线框内的结构为上述智能选择单元,特征提取单元与智能选择单元之间的结构为上述归一化单元,智能选择单元之后的结构为上述输出单元。
参见图2,智能选择模块的输入特征图尺度是H×W×In_Channel,H、W代表height、width,In_channel代表输入特征图的通道数。在实际应用中,输入特征图的尺度也可以是batchsize×H×W×In_Channel,其中batchsize代表输入图像张数,本实施例以batchsize=1为例进行说明。可以理解的是,在实际应用中,可以根据实际需求自行设置batchsize,例如设置为2,设置为4等。
智能选择模块的第1层网络是ConvBnPrelu层,这一层代表了Conv(卷积层)+Bn(batchNorm层)+Prelu层或(relu层)的集成,ConvBnPrelu层的输出维度是:(H×W×layer1_kernel)。
第2层是由多个卷积层拼成的网络,包含n个卷积层,本实施例分别将每一层命名为:Layer2_kernel_1,…,layer2_kernel_n,该层卷积有2个特点,一个是卷积核采用空洞卷积,另一个是为了减少参数量,本实施例使用group卷积。通过采用不同尺度的空洞卷积可以提高对不同尺度特征图的感受,提高了分类精度,而通过采用group卷积可以减少参数量和计算量,从而保证模型可以运行在移动设备端。
第3层是concat层(concatenate),即连接层,该层用于将上一层各个卷积层的输出结果拼接到一起。因此,输入特征图的尺寸是H×W×layer2_kernel_1,H×W×layer2_kernel_2,…,H×W×layer2_kernel_n,而输出特征图的尺寸是H×W×(layer2_kernel_1+layer2_kernel_2,…,+layer2_kernel_n),也就是说,输入特征图的宽和高不变,特征图的通道数相加。为方便描述,本实施例将上述(layer2_kernel_1+layer2_kernel_2,…,+layer2_kernel_n)命名为layer3,即(layer2_kernel_1+layer2_kernel_2,…,+layer2_kernel_n)=layer3。
第4层是bn层(batchnorm),用于对输入特征图进行归一化。
第5层是prelu层,用于对输入特征图进行非线性映射。经过第4层和第5层,特征图的尺度输出特征图的尺度是H×W×layer3,也就是说,bn层和prelu层不改变特征图的尺度。这里简要介绍一下,Prelu,即Parametric Rectified Linear Unit,是一种激活函数,其中,a是一个可学习参数:Prelu(x)=max(0,x)+a*min(0,x)。
下面介绍第6层至第13层,这些层合成一起,本实施例将其称之为dropChannel层。
如上所述,第5层的输出特征图的尺寸为H×W×layer3,其中这个layer3很大,不利于移动设备计算和存储,因此本实施例在dropChannel层的目的在于对这些通道进行筛选,去除掉价值小的通道,保留有利于分割的通道。具体的,为每个通道赋予权重,使更利于分割的通道获得更大的权重值,使不利于提高分割精度的层获得更小的权重值。下面对dropChannel层进行详细说明。
第6层主要是传递特征图,用于衔接第5层与第7层,并衔接第5层与第13层。
第7层是avepool层,图中标识为adaptive_avepool层。目的是对输入特征图的每一个通道的数据进行平均池化,例如,输入是H×W×layer3,经过平均池化后输出是1×layer3,每一个H×W特征图经过avepooling,求平均获得一个数字。因此,该层输出是layer3×1,是一个向量。
第8层是全连接层,该层用于对输入layer3×1进行线性映射。因为在pytorch里用nn.liner实现了全连接功能,因此本实施例将其命名为nn.liner,当然也可以采用其他命名,例如full connection layer。该层输出为fc1,在实际应用中,通过改变全连接层的神经元的数目可以改变输出特征的维度。
第9层是relu层,用于对输入特征图进行非线性映射,该层输出为fc1。
第10层是全连接层,用于再次对输入特征图进行线性映射,该层输出为fc2(fc2是一个向量,维度是fc2×1)。其中fc2=layer3,保证该层的输出和特征图的通道数一致。
第11层是sigmoid层,对输入特征图进行归一化,使输入特征图的维度归一化为[0,1],该层输出为fc2。
第12层是wiseSelect层,该层目的是对输入特征图进行排序选择,具体实现是:将第11层输出进行从大到小的排序,记录好fc2中各元素的值及其所在的位置,位置则代表所在的层,该层输出维度是fc2×2。其中第一列代表权重值,第二列代表该权重值所在的位置,如表1所示,通过排序获得输入特征权重值大小及所在位置的排序:
表1
因为fc2==layer3,所以fc2数值非常大(原因是在第3层进行了层的连接,使特征图的通道数暴增,不利于将该模型部署到移动设备),在第12层,输出每个通道的权重值排序及位置信息,以便于后续筛选通道。
第13层是wise_Multiply层,该层目的是智能的输出有利于分割的特征图。该层有2个输入,一个是第5层的输出特征图,该特征图的维度是H×W×layer3,另一个是第12层的输出,维度是fc2×2。该层的原理将在下文进行详细说明,此处不再展开介绍。
第14层是add层,用于对第13层和第6层的输出特征图进行相加操作,最终得到的特征图即智能选择模块的输出特征图。
特别说明的是,第13的层的输出特征图的通道数可以根据实际需求自行设置,具体可以分为两种:输出特征图的通道数等于智能选择模块的输入特征图的通道数,以及,输出特征图的通道数不等于智能选择模块的输入特征图的通道数。
更具体的,在实际应用中,可以根据网络需求将智能选择模块分为以下两种:降采样型的智能选择模块,以及,特征保持型的智能选择模块。其中,降采样型的智能选择模块的输出特征图的通道数大于输入特征图的通道数,而特征保持型的智能选择模块的输出特征图通道数等于输入特征图的通道数。
智能选择模块的第13层根据fc2排序结果,将fc2中weight值较大的k个通道保留下来,其余的层抛弃掉,实现通道的精简。该操作原理是:通过神经网络训练结果,选择出更有利于分割的通道,并保留下来,将没有利的通道抛掉,从而为了减少参数量和计算量。具体执行步骤如下:
S11、获取第5层的输出特征图->feature_in=H×W×layer3;
S12、获取第12层的输出->weight_in=fc2×2;
S13、选择weight_in的最大的前k个输入权重,记为weight_valuable;
S14、获取weight_valuable对应的索引值,记为index_valuable;
S15、根据index_valuable的值选取feature_in的对应的通道,即抽取出feature_in中index值所在的通道,共抽取了k个通道。经过抽取后,得到输出特征图的维度是H×W×k,记为channel_valuable;
S16、将weight_valuable与对应的channel_valuable进行相乘。
这里解释一下,weight_valuable的维度是k×1,channel_valuable维度是H×W×k,取出weight_valuable每个元素与channel_valuable对应通道的矩阵(H×W维)进行相乘,相乘就是weight_valuable乘以H×W维矩阵的每个元素。其中,weight_valuable是第11层输出的结果,第11层是softmax层,经过该层以后,weight_valuable的值在[0,1]之间,本实施例通过这些有价值的权重值给第5层的输出特征图feature_in赋以相应的权重。
作为一种优选的实施方式,本实施例在此处引入一个新的值G,将其命名为整体加权值(global weight),该值为正,可以对weight_valuable进行一个线性放大或缩小,即上文所述的通过线性加权操作将第一权重值转换为第二权重值。整体加权值通过神经网络网络训练得到,通过该值可以使weight_valuable的值不限制分布在[0,1]的范围内,可以大于1,也可以小于1,但一定大于0。通过引入整体加权值,可以为更优秀的通道赋予更大的权重,即大于1的权重值。即:wise_channel=(G×weight_valuable)×channel_valuable。
综上,第13层的输出特征图维度是H×W×k,本实施例将其命名为wise_channel。当k=In_channel时,此时的智能选择模块为前述特征保持型的智能选择模块;当k=stride×In_channel且stride﹥1时,此时的智能选择模块为降采样型的智能选择模块,其中stride为卷积步长。
本实施例所提供一种用于分割图像的神经网络模型,包括特征提取模块、智能选择模块、上采样模块和分类模块,其中智能选择模块包括特征提取单元、归一化单元、智能选择单元、输出单元。该神经网络模型至少具备以下优点:
第一,智能选择模块采用不同尺度的空洞卷积,融合不同尺度的特征图信息,获得更为丰富的特征图,为后面特征筛选提供大量特征信息;
第二,由于采用了多尺度的空洞卷积,即使用不同尺度的多个卷积分支对相同的输入特征图进行卷积,增加了参数量和计算量。为了消减参数量和计算量,作为一种优选的实施方式,本申请在每个分支采用group卷积的方法,大大减少参数量,而很小的损失精度;
第三,为了进一步减少参数量和特征图通道数,智能选择模块对输入特征图通道进行智能选择,通过训练一个权重值来表明哪些输入特征图通道更有利于未来的分割,同时,根据权重值大小,抛弃权重值较小的通道,留下权重值较大的通道,在保证分割精度的同时,降低参数量和计算量;
第四,智能选择模块还训练整体加权值,从而对各通道权重值进行再次线性加权,提高或抑制各通道的权重值的表达范围,使其不仅仅局限在[0,1]的范围。
最终,通过在用于分割图像的神经网络模型中采用智能选择模块,能够在模型参数很小的情况下,保持图像分割精度,实现了轻量级的可应用于移动设备端的神经网络模型,用于对图像进行分割。
下面开始详细介绍本申请提供的一种用于分割图像的神经网络模型实施例二,前述实施例一以图像分割模型的通用结构为基础,对智能选择模块进行了详尽的介绍,实施例二将以具体的网络结构为例,对一种采用了智能选择模块的具体的图像分割模型进行介绍。
参见图3,实施例二中特征提取模块包括第一特征提取模块和第二特征提取模块,智能选择模块包括第一智能选择模块和第二智能选择模块;其中,第一特征提取模块与第一预设数量的相互串联的第一智能选择模块串联,第二特征提取模块和第二智能选择模块通过连接模块输出至第二预设数量的相互串联的第二智能选择模块。第二智能选择模块后续顺次连接上采样模块和分类模块。
值得一提的是,上述将智能选择模块分为第一智能选择模块和第二智能选择模块,只是为了方便描述整个神经网络模型的结构,本实施例中各个智能选择模块的结构相同(如实施例一中对智能选择模块的描述),但各个智能选择模块的参数可能不同,具体的参数设置将在下文进行详细说明。
实施例二的神经网络模型的详细结构如图4所示,下面按照图4中圆圈标号的顺序,分别对各个网络结构进行说明。
1、首先该网络输入如圆圈0所示,输入维度是H×W×3,作为一种具体的实施方式,在本实施例中可以设置为768×768×3。
2、输入图像首先进入圆圈1,ConvBnPRelu代表由Conv(卷积层)、BatchNormal(Bn)层和Relu层组成的网络,ConvBnPRelu(3,32,3,2,1)代表输入是3个通道,输出是32个通道,卷积核采用3×3尺度,stride设置为2,padding设置为1的卷积层形成的网络。
具体的,经过第一个ConvBnPRelu层,特征图宽高减少一半,该层输出为384×384×32;经过第二个ConvBnPRelu层,特征图尺度保持不变,该层输出为384×384×32;经过第三个ConvBnPRelu层,特征图尺度保持不变,该层输出为384×384×32。
3、进入圆圈4,将圆圈1和圆圈2的结果concat(通道叠加)到一起,圆圈2是pooling层,卷积步长stride=2,是原始图像的下采样2倍的图像,圆圈4的输出维度是384×384×35。
4、进入圆圈5,BN+Prelu层,本层不改变特征图的维度,输出特征图维度为384×384×35。
5、进入圆圈6,智能选择模块通过扩张卷积操作和多分支通道融合获得更多的特征,通过智能选取最优通道,减少参数量和计算量。该模块可以提取更精简、优异的特征。圆圈6所示的智能选择模块的第一个卷积层stride尺度为2,所以特征图宽高尺度会缩减到原来的一半。圆圈6的输出特征图维度是192×192×64,其中64代表输出通道数。
6、进入圆圈7,该智能选择模块中第一个卷积层stride尺度为1,不改变特征图尺度,圆圈7的输出特征图的维度是192×192×64。
7、圆圈8的智能选择模块与圆圈7相同,通过串联智能选择模块,通过叠加层提取有效分割特征,圆圈8的输出特征图的维度是192×192×64。
8、圆圈9的智能选择模块可以增加通道数,通过规定选取通道的数量,可以改变输出通道数,在本本实施例中将输出通道数设置为128,通过圆圈9后输出特征图的维度是192×192×128。
9、圆圈10是concat模块,圆圈10模块和圆圈4功能相同,圆圈10将圆圈9和圆圈3的输出结果按照通道维度叠加到一起。圆圈10的输出维度是192×192×(128+3)。
10、圆圈11是BN+Prelu模块,通过该模块特征图维度为:192×192×(128+3)。
11、圆圈12代表多个wise select block模块的叠加,与上面讲的智能选择模块类似,第一个智能选择模块通过设置卷积层stride(卷积步长)来降低特征图的宽高,通过最后一个智能选择模块改变最后输出特征图的通道数,其它的智能选择模块不改变输入其中的特征图的维度。通过圆圈12后,输出特征图的维度变为96×96×256。
12、圆圈13是BN+Prelu模块,通过该模块特征图维度为96×96×256。
13、圆圈14是dropout2d模块,是dropout层,通过该层后特征图维度为96×96×256。
14、圆圈15是卷积层conv2d,设置为卷积核尺度为3×3,卷积核通道为class,class代表分割训练数据库样本的类别,也即分割的类别。
15、圆圈16是非线性插值层(interpolate),通过该层后将输入特征图插值到原始输入特征图的尺寸,插值按照8倍尺寸插值。该层的输出特征图尺寸为768×768×class,其中每一个class通道代表一个分割类别。
16、圆圈17代表最终输出,输出尺寸是768×768×class。
下面对本申请提供的一种图像分割方法实施例进行介绍,下文描述的一种图像分割方法与上文描述的一种用于分割图像的神经网络模型可相互对应参照。
该图像分割方法基于如上文所述的用于分割图像的神经网络模型实现,包括以下步骤:获取待分割的目标图像;将所述目标图像输入所述神经网络模型,得到图像分割结果。
具体的,该图像分割方法包括以下步骤:
S51、提取目标图像的原始特征图;
S52、利用特征提取单元分别利用多个不同尺度的空洞卷积对所述目标图像的原始特征图进行特征提取,并对提取得到的多个特征图进行拼接操作,得到所述特征提取单元的输出特征图;
S53、利用归一化单元对所述特征提取单元的输出特征图进行归一化和非线性映射,得到所述归一化单元的输出特征图;
S54、利用智能选择单元确定所述归一化单元的输出特征图中各个通道的第一权重值,所述第一权重值用于表征该通道对图像分割精准性的贡献大小;从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据所述第一权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图;
S55、利用输出单元对所述智能选择单元的输出特征图与所述目标图像的原始特征图进行相加操作,得到目标特征图;
S56、对所述目标特征图进行上采样;
S57、根据上采样得到的输出特征图,生成所述目标图像的图像分割结果。
本实施例的图像分割方法基于如上文所述的用于分割图像的神经网络模型实现,因此该方法的具体实施方式可见前文中的用于分割图像的神经网络模型的实施例部分,且其技术效果与上述神经网络模型的技术效果相对应,这里不再赘述。
此外,本申请还提供了一种图像分割设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如上文所述的一种图像分割方法。
最后,本申请提供了一种可读存储介质,所述可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时用于实现如上文所述的一种图像分割方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种用于分割图像的神经网络模型,其特征在于,包括:特征提取模块、智能选择模块、上采样模块和分类模块,其中所述智能选择模块包括特征提取单元、归一化单元、智能选择单元、输出单元;
所述特征提取模块用于提取目标图像的原始特征图;
所述特征提取单元用于分别利用多个不同尺度的空洞卷积对所述目标图像的原始特征图进行特征提取,并对提取得到的多个特征图进行拼接操作,得到所述特征提取单元的输出特征图;
所述归一化单元用于对所述特征提取单元的输出特征图进行归一化和非线性映射,得到所述归一化单元的输出特征图;
所述智能选择单元用于确定所述归一化单元的输出特征图中各个通道的第一权重值,所述第一权重值用于表征该通道对图像分割精准性的贡献大小;从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据所述第一权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图;
所述输出单元用于对所述智能选择单元的输出特征图与所述目标图像的原始特征图进行相加操作,得到目标特征图;
所述上采样模块用于对所述目标特征图进行上采样;
所述分类模块用于根据上采样得到的特征图,生成所述目标图像的图像分割结果;
所述智能选择单元具体用于:从所述归一化单元的输出特征图中筛选出第一权重值最大的预设数量的目标通道;根据预先训练得到的整体加权值对各个所述目标通道的第一权重值进行线性加权,得到所述目标通道的第二权重值;根据所述第二权重值对所述目标通道进行加权操作,得到所述智能选择单元的输出特征图。
2.如权利要求1所述的用于分割图像的神经网络模型,其特征在于,所述智能选择模块包括降采样型的智能选择模块,所述降采样型的智能选择模块的智能选择单元用于从所述归一化单元的输出特征图中筛选出第一权重值最大的第一预设数量的目标通道,其中,所述第一预设数量为根据卷积步长和所述目标图像的原始特征图的通道数量确定的数量。
3.如权利要求2所述的用于分割图像的神经网络模型,其特征在于,所述智能选择模块包括特征保持型的智能选择模块,所述特征保持型的智能选择模块的智能选择单元用于从所述归一化单元的输出特征图中筛选出第一权重值最大的第二预设数量的目标通道,其中,所述第二预设数量等于所述目标图像的原始特征图的通道数量。
4.如权利要求1所述的用于分割图像的神经网络模型,其特征在于,所述智能选择单元具体用于:通过对所述归一化单元的输出特征图依次进行平均池化操作、全连接操作、非线性映射操作、全连接操作、归一化操作,得到所述归一化单元的输出特征图中各个通道的第一权重值。
5.如权利要求1-4任意一项所述的用于分割图像的神经网络模型,其特征在于,包括多个相互串联的所述智能选择模块。
6.如权利要求5所述的用于分割图像的神经网络模型,其特征在于,所述特征提取模块包括第一特征提取模块和第二特征提取模块,所述智能选择模块包括第一智能选择模块和第二智能选择模块;
所述第一特征提取模块与第一预设数量的相互串联的所述第一智能选择模块串联,所述第二特征提取模块和所述第一智能选择模块通过连接模块输出至第二预设数量的相互串联的第二智能选择模块。
7.一种图像分割方法,其特征在于,基于如权利要求1-6任意一项所述的用于分割图像的神经网络模型实现,包括:
获取待分割的目标图像;
将所述目标图像输入所述神经网络模型,得到图像分割结果。
8.一种图像分割设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现如权利要求7所述的一种图像分割方法。
9.一种可读存储介质,其特征在于,所述可读存储介质用于存储计算机程序,所述计算机程序被处理器执行时用于实现如权利要求7所述的一种图像分割方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332559.3A CN111079767B (zh) | 2019-12-22 | 2019-12-22 | 一种用于分割图像的神经网络模型及其图像分割方法 |
EP20907894.8A EP4053739A4 (en) | 2019-12-22 | 2020-08-25 | NEURONAL NETWORK MODEL FOR IMAGE SEGMENTATION AND ASSOCIATED IMAGE SEGMENTATION METHOD |
PCT/CN2020/110983 WO2021128896A1 (zh) | 2019-12-22 | 2020-08-25 | 一种用于分割图像的神经网络模型及其图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332559.3A CN111079767B (zh) | 2019-12-22 | 2019-12-22 | 一种用于分割图像的神经网络模型及其图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079767A CN111079767A (zh) | 2020-04-28 |
CN111079767B true CN111079767B (zh) | 2022-03-22 |
Family
ID=70316655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332559.3A Active CN111079767B (zh) | 2019-12-22 | 2019-12-22 | 一种用于分割图像的神经网络模型及其图像分割方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4053739A4 (zh) |
CN (1) | CN111079767B (zh) |
WO (1) | WO2021128896A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079767B (zh) * | 2019-12-22 | 2022-03-22 | 浪潮电子信息产业股份有限公司 | 一种用于分割图像的神经网络模型及其图像分割方法 |
CN111870239B (zh) * | 2020-08-28 | 2024-06-04 | 江西脑虎科技有限公司 | 一种神经信号处理方法及装置 |
CN112270668B (zh) * | 2020-11-06 | 2021-09-21 | 威海世一电子有限公司 | 垂吊线缆检测方法、系统和电子设备 |
CN114005028B (zh) * | 2021-07-30 | 2023-02-17 | 北京航空航天大学 | 一种抗干扰的遥感图像目标检测轻量系统及其方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190014900A (ko) * | 2017-08-04 | 2019-02-13 | 삼성전자주식회사 | 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치 |
CN110189337A (zh) * | 2019-05-31 | 2019-08-30 | 广东工业大学 | 一种自动驾驶图像语义分割方法 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110378243A (zh) * | 2019-06-26 | 2019-10-25 | 深圳大学 | 一种行人检测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934397B (zh) * | 2017-03-13 | 2020-09-01 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
CN110136141B (zh) * | 2019-04-24 | 2023-07-11 | 佛山科学技术学院 | 一种面向复杂环境的图像语义分割方法及装置 |
CN110348411B (zh) * | 2019-07-16 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置和设备 |
CN111079767B (zh) * | 2019-12-22 | 2022-03-22 | 浪潮电子信息产业股份有限公司 | 一种用于分割图像的神经网络模型及其图像分割方法 |
-
2019
- 2019-12-22 CN CN201911332559.3A patent/CN111079767B/zh active Active
-
2020
- 2020-08-25 EP EP20907894.8A patent/EP4053739A4/en active Pending
- 2020-08-25 WO PCT/CN2020/110983 patent/WO2021128896A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190014900A (ko) * | 2017-08-04 | 2019-02-13 | 삼성전자주식회사 | 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치 |
CN110232394A (zh) * | 2018-03-06 | 2019-09-13 | 华南理工大学 | 一种多尺度图像语义分割方法 |
CN110189337A (zh) * | 2019-05-31 | 2019-08-30 | 广东工业大学 | 一种自动驾驶图像语义分割方法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110378243A (zh) * | 2019-06-26 | 2019-10-25 | 深圳大学 | 一种行人检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
Selective Multi-Scale Feature Learning by Discriminative Local Representation;CHENGJI XU et al.;《IEEEAccess》;20190905;第127327-127338页 * |
基于改进多尺度特征图的目标快速检测与识别算法;单倩文 等;《激光与光电子学进展》;20190131;第56卷(第2期);第021002-1——021002-8页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021128896A1 (zh) | 2021-07-01 |
EP4053739A4 (en) | 2023-04-26 |
EP4053739A1 (en) | 2022-09-07 |
CN111079767A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079767B (zh) | 一种用于分割图像的神经网络模型及其图像分割方法 | |
CN112541503B (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
CN112257794B (zh) | 一种基于yolo的轻量级的目标检测方法 | |
CN107292352B (zh) | 基于卷积神经网络的图像分类方法和装置 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN110807437B (zh) | 视频粒度特征确定方法、装置和计算机可读存储介质 | |
CN107103585B (zh) | 一种图像超分辨率系统 | |
CN111369568B (zh) | 一种图像分割的方法、系统、设备及可读存储介质 | |
CN112580694B (zh) | 基于联合注意力机制的小样本图像目标识别方法及系统 | |
CN118643874A (zh) | 训练神经网络的方法和装置 | |
CN113361698A (zh) | 神经网络模型的处理方法和装置、数据处理方法和装置 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN112163520A (zh) | 一种基于改进损失函数的mdssd人脸检测方法 | |
CN111401294A (zh) | 基于自适应特征融合的多任务人脸属性分类方法及系统 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN116704190A (zh) | 轻量级DeepLabV3+图像语义分割方法及设备 | |
CN116090517A (zh) | 模型训练方法、目标检测方法、装置以及可读存储介质 | |
CN113449840A (zh) | 神经网络训练方法及装置、图像分类的方法及装置 | |
CN114882884A (zh) | 一种基于深度学习模型的多任务实现方法、装置 | |
CN113989122A (zh) | 图像的超分辨率恢复方法、系统、电子设备及存储介质 | |
CN113919479B (zh) | 一种提取数据特征的方法和相关装置 | |
CN117636298A (zh) | 基于多尺度特征学习的车辆重识别方法、系统及存储介质 | |
CN117095217A (zh) | 多阶段对比知识蒸馏方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |