CN116310334A - 一种图像分割方法、装置、设备及可读存储介质 - Google Patents
一种图像分割方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116310334A CN116310334A CN202310231660.XA CN202310231660A CN116310334A CN 116310334 A CN116310334 A CN 116310334A CN 202310231660 A CN202310231660 A CN 202310231660A CN 116310334 A CN116310334 A CN 116310334A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- semantic
- features
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003709 image segmentation Methods 0.000 title claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 230000008447 perception Effects 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000004931 aggregating effect Effects 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 230000009977 dual effect Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000007792 addition Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像分割方法、装置、设备及可读存储介质,所述方法应用于卷积神经网络中,卷积神经网络包括层次化语义感知网络,所述方法包括:将图像输入层次化语义感知网络进行实时语义分割,图像进入骨干网络将不同级别的图像特征聚合,统一图像分辨率;层次化特征细化模块对图像进行细化,恢复图像原始特征;交叉尺度金字塔融合模块将图像每个像素进行分类,并通过交叉尺度金字塔融合模块尾部分割头进行特征图预测。本发明解决了在资源受限的平台上挖掘多层次特征和多尺度上下文信息时准确率和效率低的问题,实现高效、精准地挖掘,达到准确率和效率的整体均衡。
Description
技术领域
本发明涉及网络信息技术领域,尤其涉及一种图像分割方法、装置、设备及可读存储介质。
背景技术
语义分割目的是为图像中每一个像素点分配对应的语义标签。作为计算机视觉中基础任务之一,语义分割有着广泛的应用,例如,自动驾驶、医疗诊断、异常检测等。近年来,随着卷积神经网络的兴起,基于深度学习的方法超越了传统方法的性能。一般来说,早期语义分割方法主要追求高精度。它们主要归结于两种模式:U形结构和空洞骨干。以上两种模式在语义分割任务中获得了不错的性能,却在推理过程中非常耗时。例如,在U形结构中,大量的恒等拼接操作显著地提升了内存占用。此外,依赖高分辨率的输入,迫使模型增加计算复杂性。然而,在需要实时应用的物联网环境下,耗时是一个毁灭性的问题。近来,模型的效率吸引了研究者的关注,他们希望在实时语义分割应用上达到高效的推理。为了提升模型的效率,一些方法通过通道压缩或采用轻量级骨干去提升推理速度。然而,这类方法在编码过程中忽略浅层的空间信息,导致准确率降低。之后,多分辨率处理的策略被提出,在一定程度上补齐了空间细节信息。例如,BiSeNetV2、Fast-SCNN和PCNet提出两个独立的分支并行编码图像特征,其中,深层的分支学习语义信息,浅层的分支学习空间细节信息。但这种双分支结构一方面会引入额外的计算开销,降低模型效率。另一方面没有充分挖掘多个层次间的潜在信息,对上下文感知不足,导致准确率差强人意。而对于语义分割,全局上下文和多级语义都至关重要。因此,需要高效地挖掘多层次特征和多尺度上下文信息,在资源受限的平台上追求高效率和高精度。
发明内容
为了解决现有的技术问题,本发明实施例提供了一种图像分割方法、装置、设备及可读存储介质。所述技术方案如下:
第一方面,提供了一种图像分割的处理方法,其特征在于,所述方法应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络,其中,所述层次化语义感知网络又包括:骨干网络、层次化特征细化模块、交叉尺度金字塔融合模块和辅助构件;所述方法包括:
将图像输入所述层次化语义感知网络进行实时语义分割,所述图像输入所述骨干网络后,将不同级别的图像特征聚合,统一图像分辨率;
将统一分辨率后的图像输入所述层次化特征细化模块对图像进行细化,恢复图像原始特征;
将恢复图像原始特征后的图像输入所述交叉尺度金字塔融合模块对图像每个像素进行分类;
将分类后的图像输入所述交叉尺度金字塔融合模块尾部的分割头,将图像分割后得到和原图像大小一样的特征图。
进一步的,所述层次化特征细化模块包括:多级特征聚合层和双重注意力模块,所述将统一分辨率后的图像输入所述层次化特征细化模块对图像进行细化,恢复图像原始特征,包括:
将统一分辨率后的图像输入所述多级特征聚合层,自底向上直接对网络的不同层次化的特征进行聚合,同时收集细节和语义信息;
通过所述双重注意力模块在通道和空间关系之间建立关联获得特征依赖关系,补偿语义差距。
进一步的,所述双重注意力模块包括:通道注意力模块和空间注意力模块,所述通过所述双重注意力模块在通道和空间关系之间建立关联获得特征依赖关系,补偿语义差距,包括:
通过所述通道注意力模块强调每一维通道之间的依赖程度,改进通道内的语义特征;
通过所述空间注意力模块建立图像中不同像素点之间的关联关系,探索周边信息,优化语义特征;
使用上述两模块并行对粗糙的特征进行细化处理。
进一步的,所述交叉尺度金字塔融合模块由四条并行的分支同时学习局部特征和全局特征;
所述局部特征提取过程设置三条分支,所述三条分支以交叉方式融合信息;
所述全局特征提取过程设置一条分支,所述分支为具有池化的分支。
进一步的,所述层次化语义感知网络中包含三个分割头,分别布置于层次化特征细化模块和交叉尺度金字塔融合模块中;
所述层次化特征细化模块额外连接辅助构件,所述辅助构件包括两个分割头,分别对空间细节和语义特征添加约束,以在模型训练阶段增强语义信息;
所述交叉尺度金字塔融合模块尾部设置一个分割头,用于引导浅层信息传递的准确性,进行特征图的预测。
进一步的,所述分割头均由3×3卷积层和1×1卷积层两部分组成。
第二方面,提供了一种图像分割的处理装置,其特征在于,所述装置可以应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络,所述装置包括:
骨干网络模块,用于将图像进行实时语义分割,并把不同级别的图像特征聚合,统一图像分辨率;
层次化特征细化模块,用于将统一分辨率后的图像进行细化,恢复图像原始特征;
交叉尺度金字塔融合模块,用于将恢复原始特征后的图像的每个像素进行分类,并将图像分割后得到和原图像大小一样的特征图;
模型训练模块,用于根据辅助构件对空间细节和语义特征添加约束,以增强语义信息。
进一步地,根据权利要求11所述的装置,其特征在于,所述层次化语义感知网络模块还包括:
多级特征聚合模块,用于根据自底向上的方式直接对网络的不同层次化的特征进行聚合,同时收集细节和语义信息;
通道注意力模块,用于强调每一维通道之间的依赖程度,改进通道内的语义特征;
空间注意力模块,用于建立图像中不同像素点之间的关联关系,探索周边信息,优化语义特征。
第三方面,提供了一种图像处理设备,其特征在于,所述图像处理设备包括存储器和处理器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的图像分割的处理方法。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述第一方面所述的图像分割的处理方法。
本发明实施例提供的技术方案带来的有益效果是:通过一种图像分割方法、装置、设备及可读存储介质,基于层次化特征细化模块(HFRM)和交叉尺度金字塔融合模块(CPFM),提出一种新的网络称为层次化语义感知网络(HSNet),用于聚合和细化多级信息以进行实时语义分割。其中,层次化特征细化模块(HFRM),通过聚合多分辨率特征图学习特征表示用于恢复空间细节信息。之后,注意力模块被开发对特征进行细化从协同的方式从通道和空间级别,从而缓解多级语义隔阂。而交叉尺度金字塔融合模块(CPFM),旨在以高效的交叉方式融合多尺度上下文和全局信息,以改善信息流和丰富语义信息。使层次化语义感知网络(HSNet)在准确率和效率的均衡上展现出优越的性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像分割的处理方法的整体结构框图;
图2是本发明实施例提供的一种图像分割的处理方法中多级特征聚合层(MFAL)的流程图;
图3是本发明实施例提供的一种图像分割的处理方法中双重注意力机制(DAM)的流程图;
图4是本发明实施例提供的一种图像分割的处理方法中交叉尺度金字塔融合模块(CPFM)的交叉结构示意图。
图5是本发明实施例提供的一种图像分割的处理方法的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种图像分割的处理方法,所述方法应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络(HSNet),其中,层次化语义感知网络(HSNet)用于实时语义分割,它主要由骨干网络1、层次化特征细化模块2(HFRM)、交叉尺度金字塔融合模块3(CPFM)和辅助构件组成。HSNet旨在以高效地方式去细化多级上下文信息,达到准确率和效率的整体均衡。所述方法包括以下步骤:
1、将图像输入所述层次化语义感知网络(HSNet)进行实时语义分割,所述图像进入所述骨干网络1时,通过将不同级别的图像特征聚合,统一图像分辨率。
不同分辨率的特征图通常具有不同的表示能力,而空间细节和语义特征对于语义分割的准确率都至关重要。在骨干网络1特征提取过程中,网络的浅层往往包含更丰富的空间细节,网络的深层包含更多的语义信息。为了将不同级别的特征聚合,需要将多个阶级特征统一分辨率大小。如图2所示,首先,根据下采样操作,将骨干网络1划分为五个阶级,分别称为stage 1至stage 5。对应的,图像分辨率从原图大小的1/2到1/4,再到1/8,再到1/16,直至原始输入图片大小的1/32。虽然快速的下采样操作减少计算开销,但是会丢失大量的空间细节信息,导致分割精度下降。为了避免这一问题,层次化特征细化模块2(HFRM)被提出去有效地恢复骨干网络1编码过程中丢失的空间细节信息。其中,经验地定义骨干网络1的stage2和stage3为浅层的空间细节,定义stage4和stage5为深层语义特征。设置四条分支并行输出,是因为在浅层的空间细节中,由于实时性的原因,不用利用Stage 1,故而图中未示出,Stage 2作为Stage 1的输出即可。具体地,图片在进入骨干网络1后,将输入图片馈赠到网络中逐渐下采样通过不断地卷积和相加的处理过程,图片分辨率会不断的缩小,将stage2通过一个具有下采样的卷积层后,其图像分辨率从原始图大小的1/4转化为原始图大小的1/8到stage3。其卷积核大小为3×3,步长设置为2,后面紧跟批标准化(batchnormalization)和激活函数(Relu)。之后将stage2下采样后生成的特征图与stage3融合,通过元素相加得到空间细节。然后,将stage5向上采样并通过最近邻插值运算为原始图大小的1/16。随即将被上采样后生成的特征图与stage4融合并通过元素相加,得到语义特征。接下来,将语义特征再次进行向上采样,通过最近邻插值运算将特征图的分辨率大小统一至原始图大小的1/8。此时将相同分辨率的语义特征和空间细节元素相加即得到特征表示。本方法采用自底向上的路径通过多级特征聚合层(MFAL)直接地聚合层次化的特征,恢复上下文中的空间细节,在网络深层同时收集细节和语义信息,有效地弥补下采样操作带来的信息丢失问题。
值得注意的是,在网络的深层,通道数量很多,我们对其压缩到128维,有效地减少计算开销。进一步地,上述操作流程可以公式化为:
Fd=Conv(D(stage2)+stage3),
Fs=Conv(stage4+U(stage5)),
FM=Fd+U(Fs),
其中,D代表向下采样操作,U表示向上采样操作。
即,stage5原图分辨率1/32大小的特征图向上采集,是为了使其分辨率通过拼接处理最终变成统一为原图分辨率1/8大小的特征图,stage2原图分辨率1/4大小的特征图向下采集,是为了使其分辨率通过拼接融合最终也变成原图分辨率1/8大小的特征图。这样的处理方法可以统一骨干网络1中各阶层中的特征图的分辨率大小,以便其结果在多级特征聚合层(MFAL)中完成拼接融合,将不同级别的特征聚合,统一图像分辨率大小。
2、将统一分辨率后的图像输入所述层次化特征细化模块(HFRM)对图像进行细化,恢复图像原始特征;
层次化特征细化模块2(HFRM)被提出来有效地恢复骨干网络1编码过程中丢失的空间细节信息,如图1所示。将浅层的空间信息和深层的语义信息逐渐地进行聚合去生成粗糙的特征表示,在一定程度上恢复空间细节。设置注意力模块,以对偶的方式对特征表示进行细化,从而进一步缓解浅层和深层特征之间的语义隔阂。其中,所述层次化的特征包含丰富的空间细节和语义信息,但由于浅层和深层的特征图具有不同分辨率大小,且通道数量差异大,所以在多种的特征之间存在语义鸿沟。为此,设置双重注意力模块(DAM),包括通道注意力模块(CAM)和空间注意力模块(SAM),二者在通道和空间关系之间建立关联去探索不同特征之间的一致性表示,通过这种改进去补偿语义差距。
首先,在通道层面,高级特征图的通道可以视为类别的响应,因而每一维通道具有相关性(引用DANet,SEnet),以通道注意力模块(CAM)强调每一维通道之间的依赖程度,改进通道里暗藏的语义特征,结构如图3(a)所示。通道注意力模块(CAM)自适应地调整特征之间的通道间关系,提升通道间的相关性。
其次,在空间层面,空间注意力模块(SAM)关注于物体周边的信息,这对于场景理解至关重要。设置空间注意力模块(SAM)去建立图像中不同像素点之间的关联关系,如图3(b)所示。与通道注意力模块(CAM)不同,空间注意力模块(SAM)是对周边信息的探索去优化语义特征。空间注意力模块(SAM)建立长范围和短范围的依赖关系,在同类别像素之间实现了相互增益,从而提高语义表示的准确性。因为通道注意力模块(CAM)和空间注意力模块(SAM)相互独立,所以设置双重注意力模块(DAM)用于细化特征表示,如图1所示。在多级特征聚合层(MFAL)的尾部由两条分支并行处理,以对粗糙的特征进行细化,两条分支分别对应为通道注意力模块(CAM)和空间注意力模块(SAM),为通道分支和空间分支。以在通道分支与空间分支之间建立交叉的连接,即串联兼并联的方式去细化特征,从而去提升语义一致性;两个分支拼接后获得输出特征图。
具体地,在骨干网络1中将各阶层的不同分辨率大小的特征图,通过拼接融合在多级特征聚合层(MFAL)中完成图像分辨率大小的统一后,得到图像分辨率标准为原图1/8大小的特征图;为了补齐在浅层特征缺少的语义信息和在深层重构损失的细节,通过在通道和空间之间建立关联去探索不同特征之间语义的一致性,在层次化特征细化模块2(HFRM)中多级特征聚合层(MFAL)的尾部,设置双重注意力模块(DAM),包括通道分支CAM和空间分支SAM,如图1所示,两条分支相互独立又彼此建立交叉连接,以串联兼并联的方式进行特征细化,进而提升语义一致性。需要注意地,图3中所示箭头只是流程走向,没有任何操作。当图像分辨率为原图1/8大小的特征图(FM)在输入双重注意力模块(DAM)后,空间分支和通道分支作并行处理对其粗糙的特征进行细化。如图3(a)所示,图像分辨率为原图1/8大小的特征图(FM)同时输入通道分支CAM和空间分支SAM。在图像分辨率为原图1/8大小的特征图(FM)输入通道分支CAM后,进入标准卷积层X(ConvX),所述特征图无变化,以下用X代表输入图像分辨率为原图1/8大小的特征图,为了得到通道注意力向量,X通过全局池化(GlobalPool)进行1×1的标准卷积,然后通过Relu激活函数进行非线性映射,接着通过1×1的标准卷积,再通过Sigmoid激活函数,得到通道注意力的权重Y1,以此进行通道注意力矩阵。(其中,因为只关注通道,这里1×1的标准卷积是在X经过全局池化变成1×n的向量,所以这里只能用1×1的卷积。把X的长和宽都变成1,则,长×宽×通道,即,1×1×通道。)得到通道注意力的权重Y1后,通过mul(乘法指令)和X做乘法,两者相乘后,其结果和X做加法(add残差连接),得到通道注意力向量。通道分支CAM自适应地调整特征之间的通道间关系,提升通道间的相关性。
如图3(b)所示,在图像分辨率为原图1/8大小的特征图(FM)输入空间分支SAM后,进入标准卷积层X(ConvX),特征图无变化,以下用X代表输入图像分辨率为原图1/8大小的特征图,为了得到空间注意力向量,X通过通道层面的池化(Channel Pool),进行7×7的标准卷积,然后通过Relu激活函数进行非线性映射,接着通过7×7的空洞卷积,并通过Sigmoid激活函数,得到空间注意力的权重Y2,以进行空间注意力矩阵。(其中,因为只关注空间,X经过通道层面的池化,变成H×W×1,而空间需要一个更大的卷积核,以便获得一个更丰富更长远的空间距离,所以采用7×7的标准卷积,7×7DConv是一个更大的卷积层,即7×7的空洞卷积。)得到空间注意力的权重Y2后,通过mul乘法指令和X做乘法,两者相乘后,其结果和X做加法(add残差连接),得到空间注意力向量。空间分支(SAM)是对周边信息的探索去优化语义特征,建立长范围和短范围的依赖关系,在同类别像素之间实现了相互增益,从而提高语义表示的准确性。此时,空间分支(SAM)和通道分支(CAM)还相互独立,为了对粗糙的特征进行细化,将布置于多级特征聚合层(MFAL)的尾部的双重注意力模块(DAM)中的空间分支(SAM)和通道分支(CAM)之间建立交叉连接,如图1所示,箭头作为加号,连接即相加,相加后的结果作为下一轮的输入。并通过标准卷积Conv将两个分支输出的结果沿着通道维度拼接合并为图像分辨率为原图1/8大小的特征图,输入至交叉尺度金字塔融合模块3(CPFM)。特征图在层次化特征细化模块2(HFRM)中,进行不断的细化,恢复所需原始特征。此时,获得的特征图仍是图像分辨率为原图1/8大小的特征图。
所述双重注意力模块(DAM)有以下优势。首先,双重注意力模块(DAM)同时从通道层面和空间层面去感知上下文信息,从而捕获更全面的语义信息。其次,相对于之前的方法,交叉融合的结构充分利用空间分支(SAM)和通道分支(CAM)的一致性和互补性,学习更准确的语义信息,消除语义隔阂。最后,双重注意力模块(DAM)仅含有少量的参数,因此确保网络的效率。
3、将恢复图像原始特征后的图像输入所述交叉尺度金字塔融合模块3(CPFM)将图像每个像素进行分类;
此时,将层次化特征细化模块2(HFRM)的输出输入到交叉尺度金字塔融合模块3(CPFM)去充分利用局部和全局信息。如图4所示,设置三条交叉连接的空洞卷积路径和一条全局平均池化路径在交叉尺度金字塔融合模块3(CPFM)中,由这四条分支并行且同时学习局部和全局特征。进一步地,为了提取更丰富的局部上下文信息,通过使用不同的空洞率去学习多尺度特征。根据空洞率由小到大设定3条命名为DC-Small、DC-Middle和DC-Large的相互交叉连接的空洞卷积路径,在这三条分支路径之间添加一条交叉连接去收集更丰富的上下文信息。它们之间采取元素相加几乎没有计算负担。通过这种方式,每一条分支的感知范围还同时包含其他分支的感知范围,有效地增加采样的丰富性,以获得更好的识别性能。不同尺度的信息传递,弥补了之前工作感知范围不足的短板。另外,为了保证计算开销,我们对通道进行压缩,在首次空洞卷积时,将通道数量缩减为原来的1/2。其次,为了补齐局部感知的片面性,添加1条具有池化的分支,以低计算成本提取全局上下文信息。所述据有池化的分支主要包括全局平均池化和双线性插值上采样。最后,从所有并行路径集成特征在通道维度上。其中,需要注意的是图中箭头代表加号,直接相加,无其他意义。具体地,根据如下公式对流程进行说明:
Si=DCs(Si-1+Mi-1+Li-1)
Mi=DCm(Si-1+Mi-1+Li-1)
Li=DCI(Si-1+Mi-1+Li-1)
其中,其中DC表示空洞卷积,i代表列。
如图4所示,三条分支为:DC-Small,对应第一行空洞率(Rate)为1的空洞卷积路径,公式中简写为:DCs;DC-Middle,对应第二行空洞率(Rate)为6的空洞卷积路径,公式中简写为:DCm;DC-Large,对应第三行空洞率(Rate)为12的空洞卷积路径,公式中简写为:DCI。其中,根据公式Si=DCs(Si-1+Mi-1+Li-1),可知DC-Small空洞率(Rate)为1的空洞卷积路径流程是:第一列的Rate1、Rate6、Rate12三者相加后,在DC-Small空洞卷积路径通过一个空洞卷积,得到第二列的第一行Rate1特征图;第二列的第二行Rate6特征图和第二列的第三行Rate12特征图得到的方法同理;通过第二列的Rate1、Rate6、Rate12三者相加后,在DC-Small空洞卷积路径通过一个空洞卷积,得到第三列的第一行Rate1特征图;DC-Middle空洞率(Rate)为6的空洞卷积路径和DC-Large空洞率(Rate)为12的空洞卷积路径的流程同理可得;池化分支(全局平均池化路径)是通过全局平均池化(Global Context)并进行1×1的标准卷积、批标准化,通过Relu激活函数进行非线性映射,然后进行双线性插值上采样;以此,四条并行的分支同时学习局部和全局特征,最后,所有并行路径通过交叉交换特征的方式将得到的所有特征在通道维度上集成,得到通过不同尺度的信息融合的、语义信息更丰富的原图1/8大小的特征图。这种方法不仅促进信息流,还有效地提取更丰富的上下文特征,改善语义的准确性。
上述这种交叉的结构有两个优势。一方面,可以得到更丰富的语义信息,并通过不同尺度的信息融合。另一方面,不同路径融合时采用元素相加以至于计算量可以忽略不计,从而保证模型的效率。
4、将分类后的图像输入所述交叉尺度金字塔融合模块尾部的所述分割头,将图像分割后得到和原图像大小一样的特征图。
为了让上述得到通过不同尺度的信息融合的、语义信息更丰富的原图1/8大小的特征图的每个像素完成分类,最终得到一个分割后的图片。我们在交叉尺度金字塔融合模块3(CPFM)尾部紧跟一个分割头进行预测,并将所述特征图输入分割头中,该分割头本质上相当于一个卷积模块,用于对所述特征图最后进行一项多次的卷积操作,即,通过3×3的标准卷积、批标准化以及Relu激活函数进行非线性映射,最后通过1×1的标准卷积得到特征图的类别,同时通过上采样操作让原图1/8大小的特征图变成原图的大小,最终得到一个和原始图片一样大小的特征图并输出。
此外,在模型训练阶段所述辅助构件的两个分割头增加额外的监督可以增强语义信息。进一步地,层次化特征细化模块2(HFRM)额外连接辅助构件中的两个分割头,分别对空间细节和语义特征添加约束,以增强语义信息,并分别对浅层的细节和深层的语义进行引导,从而使得浅层的细节和深层的语义信息更准确,如图2所示。该辅助构件在模型推理预测的时候被丢弃,且在不影响模型效率的基础上提升分割的准确率。所有的分割头均由3×3卷积层和1×1卷积层两部分组成。层次化特征细化模块2(HFRM)中的辅助构件仅在训练网络模型时使用,不投入实际使用,在计算推理时没有增加任何额外的计算。
本发明公开了一种图像分割方法、装置、设备及可读存储介质,所述方法应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络(HSNet),其中,所述层次化语义感知网络(HSNet)又包括:骨干网络1、层次化特征细化模块2(HFRM)、交叉尺度金字塔融合模块3(CPFM)和辅助构件;所述方法包括:将图像输入所述层次化语义感知网络(HSNet)进行实时语义分割,图像进入所述骨干网络1时,通过将不同级别的图像特征聚合,统一图像分辨率;所述层次化特征细化模块2(HFRM)对图像进行细化,恢复图像原始特征;所述交叉尺度金字塔融合模块3(CPFM)将图像每个像素进行分类,并通过交叉尺度金字塔融合模块尾部分割头进行特征图预测;所述辅助构件在模型训练阶段额外与层次化特征细化模块2(HFRM)连接用于增强语义信息,在不影响模型效率的情况下提升图像分割的准确率,不投入实际使用。本发明解决了在资源受限的平台上挖掘多层次特征和多尺度上下文信息时准确率和效率低的问题,实现高效、精准地挖掘,达到准确率和效率的整体均衡。
如图5所示,基于同一发明构思,对应本申请的方法,示出了本申请的一种图像分割的处理方法的装置结构框图,所述装置可以应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络,所述装置包括:
骨干网络模块501,用于将图像进行实时语义分割,并把不同级别的图像特征聚合,统一图像分辨率;
层次化特征细化模块502,用于将统一分辨率后的图像进行细化,恢复图像原始特征;
交叉尺度金字塔融合模块503,用于将恢复原始特征后的图像的每个像素进行分类,并将图像分割后得到和原图像大小一样的特征图;
模型训练模块504,用于根据辅助构件对空间细节和语义特征添加约束,以增强语义信息。
对应本申请的装置,所述层次化语义感知网络模块具体还包括:
多级特征聚合模块,用于根据自底向上的方式直接对网络的不同层次化的特征进行聚合,同时收集细节和语义信息;
通道注意力模块,用于强调每一维通道之间的依赖程度,改进通道内的语义特征;
空间注意力模块,用于建立图像中不同像素点之间的关联关系,探索周边信息,优化语义特征。
基于相同的技术构思,本发明实施例还提供了一种图像处理设备,所述图像处理设备可因配置或性能不同而产生比较大的差异,包括一个或一个以上处理器和存储器,其中,存储器可以是短暂存储或永久存储。存储器可以存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的图像分割的处理方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的图像分割的处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于只读存储器,磁盘或光盘等)上实施的计算机程序产品的形式。
以上所述仅为本发明的较佳实施例,并不限以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像分割的处理方法,其特征在于,所述方法应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络,其中,所述层次化语义感知网络又包括:骨干网络、层次化特征细化模块、交叉尺度金字塔融合模块;所述方法包括:
将图像输入所述层次化语义感知网络进行实时语义分割,所述图像输入所述骨干网络后,将不同级别的图像特征聚合,统一图像分辨率;
将统一分辨率后的图像输入所述层次化特征细化模块对图像进行细化,恢复图像原始特征;
将恢复图像原始特征后的图像输入所述交叉尺度金字塔融合模块对图像每个像素进行分类;
将分类后的图像输入所述交叉尺度金字塔融合模块尾部的分割头,将图像分割后得到和原图像大小一样的特征图。
2.根据权利要求1所述的方法,其特征在于,所述层次化特征细化模块包括:多级特征聚合层和双重注意力模块,所述将统一分辨率后的图像输入所述层次化特征细化模块对图像进行细化,恢复图像原始特征,包括:
将统一分辨率后的图像输入所述多级特征聚合层,自底向上直接对网络的不同层次化的特征进行聚合,同时收集细节和语义信息;
通过所述双重注意力模块在通道和空间关系之间建立关联获得特征依赖关系,补偿语义差距。
3.根据权利要求2所述的方法,其特征在于,所述双重注意力模块包括:通道注意力模块和空间注意力模块,所述通过所述双重注意力模块在通道和空间关系之间建立关联获得特征依赖关系,补偿语义差距,包括:
通过所述通道注意力模块强调每一维通道之间的依赖程度,改进通道内的语义特征;
通过所述空间注意力模块建立图像中不同像素点之间的关联关系,探索周边信息,优化语义特征;
使用上述两模块并行对粗糙的特征进行细化处理。
4.根据权利要求1所述的方法,其特征在于,所述交叉尺度金字塔融合模块由四条并行的分支同时学习局部特征和全局特征;
所述局部特征提取过程设置三条分支,所述三条分支以交叉方式融合信息;
所述全局特征提取过程设置一条分支,所述分支为具有池化的分支。
5.根据权利要求1所述的方法,其特征在于,所述层次化语义感知网络中包含三个分割头,分别布置于层次化特征细化模块和交叉尺度金字塔融合模块中;
所述层次化特征细化模块额外连接辅助构件,所述辅助构件包括两个分割头,分别对空间细节和语义特征添加约束,以在模型训练阶段增强语义信息;
所述交叉尺度金字塔融合模块尾部设置一个分割头,用于引导浅层信息传递的准确性,进行特征图的预测。
6.根据权利要求1所述的方法,其特征在于,所述分割头由3×3卷积层和1×1卷积层两部分组成。
7.一种图像分割的处理装置,其特征在于,所述装置可以应用于卷积神经网络中,所述卷积神经网络包括层次化语义感知网络,所述装置包括:
骨干网络模块,用于将图像进行实时语义分割,并把不同级别的图像特征聚合,统一图像分辨率;
层次化特征细化模块,用于将统一分辨率后的图像进行细化,恢复图像原始特征;
交叉尺度金字塔融合模块,用于将恢复原始特征后的图像的每个像素进行分类,并将图像分割后得到和原图像大小一样的特征图;
模型训练模块,用于根据辅助构件对空间细节和语义特征添加约束,增强语义信息。
8.根据权利要求7所述的装置,其特征在于,所述层次化语义感知网络模块还包括:
多级特征聚合模块,用于根据自底向上的方式直接对网络的不同层次化的特征进行聚合,同时收集细节和语义信息;
通道注意力模块,用于强调每一维通道之间的依赖程度,改进通道内的语义特征;
空间注意力模块,用于建立图像中不同像素点之间的关联关系,探索周边信息,优化语义特征。
9.一种图像处理设备,其特征在于,所述图像处理设备包括存储器和处理器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的图像分割的处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的图像分割的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310231660.XA CN116310334B (zh) | 2023-03-10 | 2023-03-10 | 一种图像分割方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310231660.XA CN116310334B (zh) | 2023-03-10 | 2023-03-10 | 一种图像分割方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310334A true CN116310334A (zh) | 2023-06-23 |
CN116310334B CN116310334B (zh) | 2024-07-19 |
Family
ID=86814490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310231660.XA Active CN116310334B (zh) | 2023-03-10 | 2023-03-10 | 一种图像分割方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310334B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437425A (zh) * | 2023-12-21 | 2024-01-23 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063710A (zh) * | 2018-08-09 | 2018-12-21 | 成都信息工程大学 | 基于多尺度特征金字塔的3d cnn鼻咽癌分割方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN114332094A (zh) * | 2021-12-07 | 2022-04-12 | 海南大学 | 基于轻量级多尺度信息融合网络的语义分割方法及装置 |
-
2023
- 2023-03-10 CN CN202310231660.XA patent/CN116310334B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063710A (zh) * | 2018-08-09 | 2018-12-21 | 成都信息工程大学 | 基于多尺度特征金字塔的3d cnn鼻咽癌分割方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN114332094A (zh) * | 2021-12-07 | 2022-04-12 | 海南大学 | 基于轻量级多尺度信息融合网络的语义分割方法及装置 |
Non-Patent Citations (2)
Title |
---|
JUNJUN, HE: "Adaptive Pyramid Context Network for Semantic Segmentation", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 31 December 2019 (2019-12-31), pages 7519 - 7528 * |
黄怡: "基于多尺度特征融合和注意力的钢表面缺陷检测", 《桂林电子科技大学学报》, 25 October 2022 (2022-10-25), pages 398 - 404 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437425A (zh) * | 2023-12-21 | 2024-01-23 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
CN117437425B (zh) * | 2023-12-21 | 2024-03-22 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116310334B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102215757B1 (ko) | 이미지 세그멘테이션 방법, 장치 및 컴퓨터 프로그램 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN112287940A (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN113486897A (zh) | 一种卷积注意力机制上采样解码的语义分割方法 | |
CN114067153A (zh) | 基于并行双注意力轻量残差网络的图像分类方法及系统 | |
CN113486890A (zh) | 基于注意力特征融合和空洞残差特征增强的文本检测方法 | |
CN115082928B (zh) | 面向复杂场景的不对称双分支实时语义分割网络的方法 | |
CN116310334B (zh) | 一种图像分割方法、装置、设备及可读存储介质 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN117114994B (zh) | 基于层次特征融合的矿井图像超分辨率重建方法及系统 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN112508099A (zh) | 一种实时目标检测的方法和装置 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN110866938A (zh) | 一种全自动视频运动目标分割方法 | |
Li et al. | NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing | |
CN117788784A (zh) | 一种基于改进BiFPN网络的目标检测方法 | |
CN116310324A (zh) | 一种基于语义分割的金字塔跨层融合解码器 | |
CN115761229A (zh) | 一种基于多分类器的图像语义分割方法 | |
CN115424012A (zh) | 一种基于上下文信息的轻量图像语义分割方法 | |
CN112529064B (zh) | 一种高效的实时语义分割方法 | |
CN115100740A (zh) | 一种人体动作识别和意图理解方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |