CN112215848B - 一种基于空间信息引导的实时语义分割方法 - Google Patents
一种基于空间信息引导的实时语义分割方法 Download PDFInfo
- Publication number
- CN112215848B CN112215848B CN202011137108.7A CN202011137108A CN112215848B CN 112215848 B CN112215848 B CN 112215848B CN 202011137108 A CN202011137108 A CN 202011137108A CN 112215848 B CN112215848 B CN 112215848B
- Authority
- CN
- China
- Prior art keywords
- features
- layer
- input
- context
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于空间信息引导的实时语义分割方法,具体步骤如下:获取输入图像;将所述输入图像输入主干网络;利用所述主干网络对所述输入图片进行编码,得到输入特征;所述输入特征映射得到第一高维特征和全局上下文特征;利用所述第一高维特征和所述全局上下文特征作为空间细节引导的上下文传播模块的输入;利用所述空间细节引导的上下文传播模块内不同路径交替,进行空间信息重构;得到分割预测结果。本发明在保证分割精度的前提下,该方法可以进一步提升模型的效率。该网络是一种典型的“编码器‑解码器”的网络结构。其中,编码器旨在对输入图片进行编码,在解码的过程中引入了空间细节信息的引导。
Description
技术领域
本发明涉及计算机视觉和深度学习技术领域,更具体的说是涉及一种基于空间信息引导的实时语义分割方法。
背景技术
语义分割旨在对输入的图片或视频帧做像素级的识别,即对其中的每一个像素进行类别预测。作为一种重要的计算机视觉技术,语义分割技术在一些实际应用中起着至关重要的作用,如自动驾驶,医学图像分析等。近年来,随着5G的不断发展和各种智能终端设备的出现,边缘计算已经日益成为物联网的一个重要组成部分。与云计算不同,边缘计算旨在将计算服务从云端驱动到网络边缘,从而提高服务的响应速度和效率。但是,边缘设备(如,智能手机)往往需要在其有限的计算能力和存储资源下,对输入的数据进行实时的分析和处理。所以,设计一个计算适度、内存友好的实时语义分割模型对构建智能化的终端的设备,以及物联网的发展都至关重要。
目前,主流的语义分割方法采用的是基于深度学习的框架,即卷积神经网络。其有两个关键点:1)减少网络内空间细节信息的损失;2)为神经网络聚合更多的语义上下文信息。为了满足这两个关键点,这些方法往往选择在卷积神经网络内部保持分辨率较高的特征图,从而保留网络管道内的空间细节。并且,使用空洞卷积为特征图聚合更多的语义上下文信息。然而,这往往需要消耗较多的计算开销,并且会降低模型的分割速度。
因此,如何提供一种兼顾分割精度,模型参数,执行速度三个方面的平衡基于空间信息引导的实时语义分割方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于空间信息引导的实时语义分割方法,本发明利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播,从而有效地对全局上下文特征中所丢失的空间信息进行重构,减轻了由于在网络内维持分辨率较高的特征图所带来的计算开销。在保证分割精度的前提下,该方法可以进一步提升模型的效率。该网络是一种典型的“编码器-解码器”的网络结构。其中,编码器旨在对输入图片进行编码,从而得到更加抽象、更加语义化的特征表达。在解码器部分,设计了轻量级的双向网络对编码后的特征进行解码,并在解码的过程中引入了空间细节信息的引导。同时本发明在分割精度,模型参数,执行速度方面取得了更好的平衡。
为了达到上述目的,本发明采用如下技术方案:
一种基于空间信息引导的实时语义分割方法,具体步骤如下:
获取输入图像;
将所述输入图像输入主干网络;
利用所述主干网络对所述输入图片进行编码,得到输入特征;
所述输入特征映射得到第一高维特征和全局上下文特征;利用所述第一高维特征和所述全局上下文特征作为空间细节引导的上下文传播模块的输入;
利用所述空间细节引导的上下文传播模块内不同路径交替,进行空间信息重构;
得到分割预测结果。
优选的,在上述的一种基于空间信息引导的实时语义分割方法中,所述输入图片依次经过所述主干网络的卷积层得到输入特征layer-3,layer-4,layer-5。
优选的,在上述的一种基于空间信息引导的实时语义分割方法中,将所述输入特征中经1×1的卷积操作得到对应的第一高维特征layer-3*,layer-4*,layer-5*。
优选的,在上述的一种基于空间信息引导的实时语义分割方法中,将所述第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征;其中所述最大池化操作的核均设置为3×3,步幅均设置为2。
优选的,在上述的一种基于空间信息引导的实时语义分割方法中,所述空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径;其中,所述第一传播路径和所述第三传播路径中上一级的输出作为下一级的输入;所述第二传播路径中下一级的输出作为上一级的输入。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于空间信息引导的实时语义分割方法,本发明利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播,从而有效地对全局上下文特征中所丢失的空间信息进行重构,减轻了由于在网络内维持分辨率较高的特征图所带来的计算开销。在保证分割精度的前提下,该方法可以进一步提升模型的效率。该网络是一种典型的“编码器-解码器”的网络结构。其中,编码器旨在对输入图片进行编码,从而得到更加抽象、更加语义化的特征表达。在解码器部分,设计了轻量级的双向网络对编码后的特征进行解码,并在解码的过程中引入了空间细节信息的引导,同时本发明在分割精度,模型参数,执行速度方面取得了更好的平衡。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的方法示意图;
图2附图为本发明的空间细节引导的上下文传播网络示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,采用卷积操作对位于浅层的、分辨率较高的空间细节特征进行处理,从而进一步提取其中的空间信息。然后,用最邻近插值对位于深层的、分辨率较低的上下文特征进行上采样,让其和空间细节特征保持相同的特征分辨率。其中,这可以被看作是一种低级的上下文传播,因为这种传播策略没有考虑到视觉场景中实际所包含的空间信息。为了对上下文特征中的空间细节进行重构,引入了空间细节信息的引导。
具体地,本实施例公开了一种基于空间信息引导的实时语义分割方法,具体步骤如下:
获取输入图像;
将输入图像输入主干网络;
利用主干网络对输入图片进行编码,得到输入特征;
输入特征映射得到第一高维特征和全局上下文特征;利用第一高维特征和全局上下文特征作为空间细节引导的上下文传播模块的输入;
利用空间细节引导的上下文传播模块内不同路径交替,进行空间信息重构;
得到分割预测结果。
为了进一步优化上述技术方案,输入图片依次经过主干网络的卷积层得到输入特征layer-3,layer-4,layer-5。
为了进一步优化上述技术方案,将输入特征中经1×1的卷积操作得到对应的第一高维特征layer-3*,layer-4*,layer-5*。
为了进一步优化上述技术方案,将第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征;其中最大池化操作的核均设置为3×3,步幅均设置为2。
为了进一步优化上述技术方案,空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径;其中,第一传播路径和第三传播路径中上一级的输出作为下一级的输入;第二传播路径中下一级的输出作为上一级的输入。
进一步,如图2所示,空间细节引导的上下文传播模块包括第一全局上下文特征、第二全局上下文特征、layer-3*、layer-4*和layer-5*分别作为第一传播路径每一层的基本输入;
具体地,第二全局上下文特征I2和第一全局上下文特征I1标量加权求和,经过1×1卷积操作得到第二特征A21;第二特征A21和layer-5*标量加权求和,经过1×1卷积操作得到第二特征B22;第二特征B22和layer-4*标量加权求和,经过1×1卷积操作得到第二特征C23;第二特征C23和layer-3*标量加权求和,经过1×1卷积操作得到第二特征D24;第二特征D24、第二特征C23和layer-4*标量加权求和,经过1×1卷积操作得到第三特征A31;第三特征A31、第二特征B22和layer-5*标量加权求和,经过1×1卷积操作得到第三特征B32;第三特征B32、第二特征A21和第一全局上下文特征I1标量加权求和,经过1×1卷积操作得到第三特征C33;第三特征C33和第二全局上下文特征I2标量加权求和,经过1×1卷积操作得到第三特征D34;第三特征D34和第三特征C33标量加权求和,经1×1卷积操作得到第四特征A41;第四特征A41和第三特征B32标量加权求和得到第四特征B42;第四特征B42和第三特征A31标量加权求和得到第四特征C43;第四特征C43和第二特征D24标量加权求和得到第四特征D44,最后经分类器得到输出分割结果。
在空间信息引导的过程中,空间细节特征和上下文特征可以不断地进行交互,从而其间的信息可以被不断地进行交换。这种特征的交互和信息的交换可以采用不同的实现方式,如注意力机制,特征融合等。考虑到方法的效率和计算成本,在本发明实施例中,采用标量加权求和的方式:f(X,Y)=αX+βY;
其中,X表示空间细节特征,Y表示上采样后的上下文特征。标量α和β表示可学习的权值参数,旨在调节空间细节特征和上下文特征间融合的权重。
进一步,该网络具有典型的“编码器-解码器”的网络结构。编码器的结构具体如图2所示,即图2中主干网络,旨在对输入图片不断地进行编码,从而得到更加抽象,更加高维的特征表达。与当前主流的基于深度学习的语义分割方法不同,在编码的过程中,选择对网络内的特征图不断进行下采样,从而降低特征的分辨率。
这主要有两个好处:1)首先,将特征图下采样到低分辨率有助于全局语义上下文信息的提取。2)其次,这可以减少由于在卷积神经网络内维持较高分辨率的特征图所带来的计算开销。
然而,下采样操作也会不可避免地会造成网络管道内空间信息的流失,从而影响模型的分割性能。为了在提升模型执行速度的同时,尽可能地保持分割精度,提出了一个轻量级的解码器,即空间细节引导的上下文传播模块,该模块具有双向的网络结构。首先,使用1×1的卷积操作将主干网络中layer-3的特征映射到更加高维的表征空间,因为更加高维的表征空间具有更强的表征能力。为了和原来三层的特征进行区分,将所产生的更加高维的特征命名为layer-3*,layer-4*,layer-5*。然后,采用两个最大池化操作进一步提取layer-5*特征中所包含的语义上下文信息。其中,两个池化操作的核和步幅被均被设置为3×3和2。所以,特征图的分辨率最终变为了输入图片的1/128。更加全局上下文信息,能够帮助网络从更加全局的角度理解目标视觉场景,从而提升分割的准确性。最后,通过在上下文传播过程中引入空间细节的引导,来重构由于聚合上下文信息而损失的空间信息。
网络内上下文的传播可以满足两条一致性原则:1)首先,在传播过程中,上下文信息要和邻域内的空间细节信息表现出一致性。2)其次,在上下文传播之后,其所包含的语义上下文信息要与原始的全局上下文特征中的语义上下文信息表现出一致性。所以,构建了双向的网络结构,根据不同的方向,将其分为:1)由上至下的路径(第一传播路径和第三传播路径)和2)由下至上的路径(第二传播路径)。这两种路径具有相似的网络结构。其中,由上至下的路径由卷积操作,标量加权求和操作和最临近插值操作组成。而,由上至下的路径由卷积操作,标量加权求和操作和最大池化操作组成。为了减少解码器部分的计算开销,采用了分离卷积去构建双向路径中的卷积层。分离卷积是常规卷积操作的一种变种,它通过将常规的卷积操作分解为两种计算开销更少的卷积操作(即,深度卷积和点卷积操作)来达到节约计算资源的目的。在由上至下的路径中,全局上下文在空间信息的引导下不断地向邻域传播,从而其中的空间信息不断地被重构,特征分辨率不断地被恢复,而在由下至上的路径中,全局上下文特征逐渐被重新提取。为了保证全局上下文特征中所包含的语义信息在传播过程中没有“变质”,引入了跳跃连接,如图2所示,即在当前路径中引入未经传播的上下文特征。通过这两种路径的交替工作,全局上下文特征中的空间信息最终被重构,重构后的特征被送入最终的1×1卷积分类器,从而得出最终的分割预测。
在语义分割的公用数据集Cityscapes上,本方法的分割精度可以达到68.7%mIoU。与此同时,在仅用一块GTX 1080Ti显卡的前提下,对于768x1536的输入图片,本方法的处理速度可以达到178.5FPS。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种基于空间信息引导的实时语义分割方法,其特征在于,具体步骤如下:
获取输入图像;
将所述输入图像输入主干网络;
利用所述主干网络对所述输入图像进行编码,得到输入特征;
所述输入特征映射得到第一高维特征和全局上下文特征;利用所述第一高维特征和所述全局上下文特征作为空间细节引导的上下文传播模块的输入;
利用所述空间细节引导的上下文传播模块内不同路径交替,进行空间信息重构;
得到分割预测结果;
为保证所述全局上下文特征中所包含的语义信息在传播过程中没有“变质”引入跳跃连接,即在当前路径中引入未经传播的上下文特征;
所述空间细节引导的上下文传播模块包括第一传播路径、第二传播路径和第三传播路径;其中,所述第一传播路径和所述第三传播路径中上一级的输出作为下一级的输入;所述第二传播路径中下一级的输出作为上一级的输入;
所述第一传播路径、第三传播路径由卷积操作、标量加权求和操作和最临近插值操作组成。
2.根据权利要求1所述的一种基于空间信息引导的实时语义分割方法,其特征在于,所述输入图像依次经过所述主干网络的卷积层得到输入特征layer-3,layer-4,layer-5。
3.根据权利要求2所述的一种基于空间信息引导的实时语义分割方法,其特征在于,将所述输入特征经1×1的卷积操作得到对应的第一高维特征layer-3*,layer-4*,layer-5*。
4.根据权利要求3所述的一种基于空间信息引导的实时语义分割方法,其特征在于,将所述第一高维特征中的layer-5*利用两个最大池化操作进一步提取layer-5*中第一全局上下文特征和第二全局上下文特征;其中所述最大池化操作的核均设置为3×3,步幅均设置为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137108.7A CN112215848B (zh) | 2020-10-22 | 2020-10-22 | 一种基于空间信息引导的实时语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137108.7A CN112215848B (zh) | 2020-10-22 | 2020-10-22 | 一种基于空间信息引导的实时语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215848A CN112215848A (zh) | 2021-01-12 |
CN112215848B true CN112215848B (zh) | 2022-03-11 |
Family
ID=74054762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011137108.7A Active CN112215848B (zh) | 2020-10-22 | 2020-10-22 | 一种基于空间信息引导的实时语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215848B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116309601B (zh) * | 2023-05-24 | 2023-08-22 | 泉州装备制造研究所 | 基于Lite-EDNet的皮革缺陷实时检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062756B (zh) * | 2018-01-29 | 2020-04-14 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN111127470B (zh) * | 2019-12-24 | 2023-06-16 | 江西理工大学 | 一种基于上下文和浅层空间编解码网络的图像语义分割方法 |
-
2020
- 2020-10-22 CN CN202011137108.7A patent/CN112215848B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112215848A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN113221969A (zh) | 一种基于物联网感知的双特征融合的语义分割系统及方法 | |
CN112819833B (zh) | 一种大场景点云语义分割方法 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
WO2023174098A1 (zh) | 一种实时手势检测方法及装置 | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN113542651A (zh) | 模型训练方法、视频插帧方法及对应装置 | |
CN110569851A (zh) | 门控多层融合的实时语义分割方法 | |
CN114332094A (zh) | 基于轻量级多尺度信息融合网络的语义分割方法及装置 | |
CN115861635B (zh) | 抗透射畸变的无人机倾斜影像语义信息提取方法及设备 | |
CN113486890A (zh) | 基于注意力特征融合和空洞残差特征增强的文本检测方法 | |
CN115239564B (zh) | 一种结合语义信息的矿井图像超分辨率重建方法 | |
CN112016406A (zh) | 一种基于全卷积网络的视频关键帧提取方法 | |
CN112215848B (zh) | 一种基于空间信息引导的实时语义分割方法 | |
CN116958534A (zh) | 一种图像处理方法、图像处理模型的训练方法和相关装置 | |
CN113705575B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN115082928A (zh) | 面向复杂场景的不对称双分支实时语义分割网络的方法 | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
CN116310334A (zh) | 一种图像分割方法、装置、设备及可读存储介质 | |
CN112529064B (zh) | 一种高效的实时语义分割方法 | |
CN114399646B (zh) | 一种基于Transformer结构的图像描述方法和装置 | |
CN115115972A (zh) | 视频处理方法、装置、计算机设备、介质及程序产品 | |
CN114418845A (zh) | 图像分辨率提升方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |