CN112634296B - 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 - Google Patents
门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 Download PDFInfo
- Publication number
- CN112634296B CN112634296B CN202011085260.5A CN202011085260A CN112634296B CN 112634296 B CN112634296 B CN 112634296B CN 202011085260 A CN202011085260 A CN 202011085260A CN 112634296 B CN112634296 B CN 112634296B
- Authority
- CN
- China
- Prior art keywords
- rgb
- image
- features
- semantic segmentation
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004821 distillation Methods 0.000 title claims abstract description 51
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000000295 complement effect Effects 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 claims description 17
- 230000008447 perception Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于门机制引导边缘信息蒸馏的RGB‑D图像语义分割方法、存储介质及终端。方法包括:获取待语义分割的RGB‑D图像,RGB‑D图像包括RGB图像和RGB图形对应的深度图像;将RGB图像和RGB图形对应的深度图像输入预先训练好的神经网络,得到RGB‑D图像对应的语义分割结果;其中,所述神经网络包括:特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层。通过采用门机制自适应的学习彩色图和深度图之间的互补关系,将门机制生成的特征通过蒸馏网络提取有鉴别性的边缘信息来增强高层次语义特征图的细节信息,并将各个门机制生成的特征图进一步逐层与解码器的特征融合,增加更多的细节信息,从而生成更精准高效的语义分割图。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种基于门机制引导边缘信息蒸馏的RGB-D图像的语义分割方法、存储介质及终端。
背景技术
语义分割旨在为每个像素分配一个类别标签,主要广泛应用在以视觉为基础的自动驾驶,精准农业,三维地图重构,医疗图像分割,人机交互等领域。
目前,很多语义分割方法主要通过融合深度图和彩色图来生成更具有表征的特征来提高RGB-D图像语义分割的性能。在编码器和解码器结构中,根据融合的阶段分为前期融合,中期融合和后期融合。这些方法大都是采用融合网络层直接对深度图和彩色图进行融合。然而,由于像Realsense等深度摄像机采集的深度图会存在一定的噪声,直接使用深度图会对语义分割的性能产生一定影响。
因此,现有技术还有待于进一步的提升和改进。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于门机制引导边缘信息蒸馏的RGB-D图像的语义分割、存储介质及终端,旨在解决现有由于深度图存在噪声直接使用深度图对语义分割的性能产生不利影响的问题。
第一方面,一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,包括:
获取待语义分割的RGB-D图像,所述RGB-D图像包括RGB图像和所述RGB图形对应的深度图像;
将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络,得到所述RGB-D图像对应的语义分割结果;其中,所述神经网络包括:特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层;所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到。
上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,通过采用门机制自适应的学习彩色图和深度图之间的互补关系,并结合门机制引导的特征融合以及通过蒸馏网络提取有鉴别性的边缘信息,进一步逐层与解码器的特征融合,增加更多的细节信息,从而生成更精准高效的语义分割图。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络,得到所述RGB-D图像对应的语义分割结果,具体包括:
将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征;
将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层,得到与每层对应的融合特征及具有互补性的特征;
将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层,生成边缘感知特征;
将所述RGB编码特征与所述边缘感知特征输入边缘信息引导的特征网络,生成具有边缘感知的高级语义特征;
对所述融合特征及所述高级语义特征进行上采样,采用逐层地融合解码器的特征,生成所述RGB-D图像对应的语义分割结果。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层,得到与每层对应的融合特征的流程为:
Cai=F(C(Mxi,Mdi))
gi=Mx′i*Xi+Md′i*Di
Mxi,Mdi分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图,C表示级联操作,Ca代表通过比较函数F生成的特征图,将其切分为Mx′i和Md′i,其中Mxi′=Sigmoid(Wi*MXi),Mdi′=Tanh(Wi*MDi),分别表示重要程度的概率图,gi代表最终具有选择性的高效的特征图。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层,生成边缘感知特征,具体包括;
采用如下公式对每个门机制生成的特征图进行蒸馏,,生成边缘感知特征;
其中,gi表示第i个门机制生成的特征图,σ表示sigmoid激活函数,Eθ为具有鉴别性精确的边缘特征图。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征的步骤之后还包括:对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成的过程如下:
Pfusion=Pe×X4+X4×Prgb
其中,Prgb和Pe分别表示彩色图和边缘特征图的概率分布图,X4表示所述RGB-D图像中生成的第四层的RGB编码特征。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述Prgb是通过将所述RGB特征编码输入膨胀空间金字塔后,采用全局平均池化、卷积、正则化及sigmoid操作后得到。
可选地,所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其中,所述神经网络的总体损失函数为:
其中,Us和Ue表示基于Ls和Le数据学习的相关权重,Le表示学习优化边缘特征的损失函数,Ls代表交叉熵损失来学习像素级别的语义分割标签,更新整个网络的训练参数。α和β是两个超参数,αUs和βUs为正则优化器。
第二方面,一种存储介质,其中,所述存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。
第三方面,一种终端,其中,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的程序;所述处理器执行所述程序时实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。
附图说明
图1为本发明实施例提供的一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法的流程图;
图2为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法网络整体架构图;
图3为本发明实施例提供的一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中步骤S20的流程图;
图4为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中门机制引导的信息融合网络图;
图5为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中边缘信息蒸馏网络图;
图6为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中边缘信息引导的融合网络图;
图7为本发明实施例提供的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中多层特征融合网络图;
图8为本发明实施例提供的一种终端的结构原理图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。
近年来,随着RGB-D图像获取设备(例如Kinect,Realsense,Xition)价格的下降,精度和便携性能不断提升,深度信息也被广泛用于提高语义分割性能。对比于彩色图,深度图虽然包含较少重要的语义信息,但是深度图能提供额外的地理信息,其能降低减少边界歧义的不确定性。
目前很多方法主要通过融合深度图和彩色图来生成更具有表征的特征来提高RGB-D图像语义分割的性能,在编码器和解码器结构中,根据融合的阶段分为前期融合,中期融合和后期融合。这些方法大都是采用融合网络层直接对深度图和彩色图进行融合。然而,由于像Realsense等深度摄像机采集的深度图会存在一定的噪声,直接使用深度图会对语义分割的性能产生一定影响。
此外,随着卷积神经网络在语义分割领域取得进展,目前很多方法采用深度学习的方法来提取图像的特征,随着网络层数的增加以及多次的池化操作,高层次的像素级别的语义分割图可以预测是否有物体以及物体出现的大致位置,但不能真描绘他们的边界,因为其丢失了边缘等重要的细节信息。卷积神经网络架构的空间转换的固有不变性限制了分割任务空间精度,增强细粒度图像分割能力的一种常用的方法是应用后处理,例如采用条件随机场,传统的建模方法是将低级像素信息与产生的多类别分割输出结合,这种组合对于捕获卷积神经网络无考虑远距离依赖关系以及细节信息尤为重要。但这种后处理的方法内部参数难以学习,训练和推理较费时。
基于此,本发明提供一种解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
请参考图1,如图1所示,本发明实施例提供一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,包括步骤:
S10、获取待语义分割的RGB-D图像,所述RGB-D图像包括RGB图像和所述RGB图形对应的深度图像。
在本实施例中,所述待语义分割的RGB-D图像的获取可以是利用Kinect,Realsense,Xition等设备获取。容易理解的是,所述RGB-D图像可以是直接拍摄,也可以是预先拍摄好存储在存储设备中的RGB-D图像。
S20、将所述RGB图像和所述RGB图形对应的深度图像输入预先训练好的神经网络,得到所述RGB-D图像对应的语义分割结果;其中,所述神经网络包括:特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层;所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到。
在本实施例中,结合图2,采用如图2所示的神经网络架构(采用编码器-解码器结构,以deeplabv3+作为模型的基准),神经网络主要由特征提取网络层,门机制引导的特征融合网络层,边缘信息蒸馏网络层,边缘信息引导的特征融合网络层以及多层特征融合五部分组成。其中,所述神经网络的训练过程可以包括以下步骤:
首先,确定一个初始神经网络,所述初始神经网络包括:特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层多层特征融合网络层及输出层。
其次,获取样本RGB-D图像,所述样本RGB-D图像对应的样本标识图像。即可以获取多个样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像,以在后续提高初始神经网络的训练效果。其中,所述样本RGB-D图像包括样本RGB-D图像和样本深度图像,任一样本RGB-D图像对应的样本标识图像为:该样本RGB-D图像所包括的样本RGB图像对应的语义分割结果。
再次,利用样本RGB-D图像、所述样本RGB-D图像对应的样本标识图像、训练所述初始神经网络,得到训练后的神经网络。
在本实施例中,首先,对RGB-D图像的RGB图像和所述RGB图像对应的深度图进行特征提取,再通过门机制学习RGB图像和深度图像特征之间的互补关系,提高原始深度图的质量从而提取到更多精确的信息。此外,为了生成更精确高效的边缘感知特征,本实施例采用信息蒸馏网络层来聚合筛选门机制融合网络层中每个门生成的特征,此网络层在增强同一语义特征的同时还能保持对不同语义特征间的鉴别性。为了更好的融合边缘感知的特征和RGB图像提取的语义特征,本发明实施例还采用边缘信息引导的融合网络层,来增加高级语义特征的细节信息。另外,为了进一步丰富更多的空间信息,本发明融合门机制生成的多层具有互补性的特征来学习最终高分辨率的语义分割的预测。
在本实施例的一种实施方式中,结合图3,所述步骤S20包括:
S200、将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征。
利用特征提取网络层对RGB-D图像进行特征提取,得到所述RGB-D图像多个层级的RGB编码特征和深度编码特征。例如可以提取四个层级的RGB编码特征(X1、X2、X3、X4)和深度编码特征(D1、D2、D3、D4)。
S210、将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征。
具体来说,分别将RGB图像和深度图像从特征提取网络层中得到的骨干网络中每层的特征压缩至一个通道,采用卷积学习RGB编码特征和深度编码特征间的像素间差异性分布。
S220、将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层,得到与每层对应的融合特征及具有互补性的特征。
具体来说,结合图4,在本实施例中输入RGB编码特征和深度编码特征,将其级联(二通道)之后采用一组卷积学习两者的互补的特征,再将其沿着通道切分为两个一通道的特征图,将这两个特征图进一步获取其特征重要程度,也就是获得具有互补特征的彩色和深度特征概率图。将这两个具有重要程度的特征图分别与其对应的原始特征融合后再叠加,从而使彩色特征和深度特征能自适应地生成高质量的特征图。整体流程可表示如下:
Cai=F(C(Mxi,Mdi))
gi=Mx′i*Xi+Md′i*Di
Mxi,Mdi分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图,C表示级联操作,Ca代表通过比较函数F生成的特征图,将其切分为Mx′i和Md′i,其中Mxi′=Sigmoid(Wi*MXi),Mdi′=Tanh(Wi*MDi),分别表示重要程度的概率图,gi代表最终具有选择性的高效的特征图。
S230、将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层,生成边缘感知特征。
具体来说,结合图5,在本实施例的一种实施方式中,采用边缘信息蒸馏网络层,来聚合来自各个门机制的生成的特征图,进一步压缩筛选具有鉴别性的高效的特征,此过程可以用如下公式加以表示:
其中,gi表示第i个门机制生成的特征图,σ表示sigmoid激活函数,Eθ为具有鉴别性精确的边缘特征图。即由于考虑到在融合过程中特征的有效性和冗余性,因此本实施所得到的特征图具有高效性。
S240、将所述RGB编码特征与所述边缘感知特征输入边缘信息引导的特征网络,生成具有边缘感知的高级语义特征。
结合图6,在本实施例的一种实施方式中,由于RGB图像经过多层卷积和池化操作得到特征图,会缺失一定的空间细节信息,本实施例采用边缘特征作为细节信息来指导语义特征的生成,RGB编码特征通过ASPP(膨胀空间金字塔)网络层后采用全局平均池化-卷积-正则化-sigmoid操作得到概率分布图Prgb。同理,通过融合canny检测算子和边缘特征,Pe表示融合后边缘特征图的概率分布图。其中,为了进一步增强边缘信息,本发明采用canny检测算子来计算图像的梯度。此过程可总结如下:
Pfusion=Pe×X4+X4×Prgb
其中,Prgb和Pe分别表示彩色图和边缘特征图的概率分布图,X4表示所述RGB-D图像中生成的第四层的RGB编码特征。由边缘特征引导进行特征的传播更新,可以在生成高级语义信息的同时保持一定的细节信息。Pfusion表示通过特征融合网络层生成的具有边缘感知的高级语义特征图。
S250、对所述融合特征及所述高级语义特征进行上采样,采用逐层地融合解码器的特征,生成所述RGB-D图像对应的语义分割结果。
具体来说,结合图7,在编码器-解码器的结构中,由于多次下采样可能会导致细节信息的丢失。假设直接利用骨干网络中RGB图像编码特征或者深度图的特征,这些特征可能是不精确的。因为RGB图像不能很好的分辨相同颜色的物体,而深度图因为采集设备的原因会存在一定的噪声。因此,本实施例利用通过编码器中门机制学习两者的互补性生成的特征来逐层地融合解码器的特征,最终构建出高分辨率的精确的语义分割图。
在本实施例的一种实施方式中,采用多任务学习的方法,来提高各个任务的学习效率。本实施例包括语义分割以及边缘特征估计两个任务,利用不确定性来学习不同任务间的权重,总体损失函数如下:
其中,Us和Ue表示基于Ls和Le数据学习的相关权重,Ls代表Le损失函数来优化边缘特征的生成,Ls代表交叉熵损失来学习像素级别的语义分割标签,更新整个网络的训练参数。α和β是两个超参数,αUs和βUs为正则优化器。
基于上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,本发明还提供一种存储介质,所述存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。
基于上述所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,本发明还提供一种终端,如图8所示,其包括至少一个处理器(processor)30;显示屏31;以及存储器(memory)32,还可以包括通信接口(CommunicationsInterface)33和总线34。其中,处理器30、显示屏31、存储器32和通信接口33可以通过总线34完成相互间的通信。显示屏31设置为显示初始设置模式中预设的用户引导界面。通信接口33可以传输信息。处理器30可以调用存储器32中的逻辑指令,以执行上述实施例中的方法。此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。存储器32作为一种可读存储介质,可设置为存储软件程序,如本发明实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器32中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。存储器32可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。此外,上述存储介质以及终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,包括:
获取待语义分割的RGB-D图像,所述RGB-D图像包括RGB图像和所述RGB图像对应的深度图像;
将所述RGB图像和所述RGB图像对应的深度图像输入预先训练好的神经网络,得到所述RGB-D图像对应的语义分割结果;其中,所述神经网络包括:特征提取网络层、门机制引导的特征融合网络层、边缘信息蒸馏网络层及多层特征融合网络层;所述神经网络是根据样本RGB-D图像及所述样本RGB-D图像对应的样本标识图像训练得到;
所述将所述RGB图像和所述RGB图像对应的深度图像输入预先训练好的神经网络,得到所述RGB-D图像对应的语义分割结果,具体包括:
将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征;
将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层,得到与每层对应的融合特征及具有互补性的特征;
将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层,生成边缘感知特征;
将所述RGB编码特征与所述边缘感知特征输入边缘信息引导的特征网络,生成具有边缘感知的高级语义特征;
对所述融合特征及所述高级语义特征进行上采样,采用逐层地融合解码器的特征,生成所述RGB-D图像对应的语义分割结果;
所述将多个层级中每层的RGB编码特征和深度编码特征输入所述门机制引导的特征融合网络层,得到与每层对应的融合特征的流程为:
Cai=F(C(Mxi,Mdi))
gi=Mx′i*Xi+Md′i*Di
Mxi,Mdi分别表示在骨干网络中第i层压缩后为单通道的彩色特征图和深度特征图,C表示级联操作,Cai代表通过比较函数F生成的特征图,将其切分为Mx′i和Md′i其中Mxi'=Sigmoid(Wi*MXi),Mdi'=Tanh(Wi*MDi),分别表示具有互补特征的彩色特征概率图和深度特征概率图,gi表示第i个门机制生成的特征图。
2.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,所述将每个层级的所述具有互补性的特征输入所述边缘信息蒸馏网络层,生成边缘感知特征,具体包括:
采用如下公式对每个门机制生成的特征图进行蒸馏,生成边缘感知特征;
其中,gi表示第i个门机制生成的特征图,σ表示sigmoid激活函数,Eθ为具有鉴别性精确的边缘特征图。
3.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,所述将所述RGB-D图像输入所述特征提取网络层,提取所述RGB-D图像多个层级的RGB编码特征和深度编码特征的步骤之后还包括:对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成。
4.如权利要求3所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,所述对所述RGB编码特征采用边缘特征作为细节信息来指导语义特征的生成的过程如下:
Pfusion=Pe×X4+X4×Prgb,
其中,Prgb和Pe分别表示彩色图和边缘特征图的概率分布图,X4表示所述RGB-D图像中生成的第四层的RGB编码特征。
5.如权利要求4所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,所述Prgb是通过将所述RGB编码特征输入膨胀空间金字塔后,采用全局平均池化、卷积、正则化及sigmoid操作后得到。
6.如权利要求1所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法,其特征在于,所述神经网络的总体损失函数为:
其中,Us和Ue表示基于Ls和Le数据学习的相关权重,Le表示学习优化边缘特征的损失函数,Ls代表交叉熵损失来学习像素级别的语义分割标签,更新整个网络的训练参数,α和β是两个超参数,αUs和βUs为正则优化器。
7.一种存储介质,其特征在于,所述存储介质存储有一个或多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。
8.一种终端,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的程序;所述处理器执行所述程序时实现如权利要求1-6任意一项所述的基于门机制引导边缘信息蒸馏的RGB-D图像语义分割方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085260.5A CN112634296B (zh) | 2020-10-12 | 2020-10-12 | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011085260.5A CN112634296B (zh) | 2020-10-12 | 2020-10-12 | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634296A CN112634296A (zh) | 2021-04-09 |
CN112634296B true CN112634296B (zh) | 2023-12-22 |
Family
ID=75302774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011085260.5A Active CN112634296B (zh) | 2020-10-12 | 2020-10-12 | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634296B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344844A (zh) * | 2021-04-14 | 2021-09-03 | 山东师范大学 | 基于rgb-d多模图像信息的目标果实检测方法及系统 |
CN113139981A (zh) * | 2021-05-18 | 2021-07-20 | 哈尔滨理工大学 | 基于深度神经网络的dce-mri乳腺肿瘤图像分割方法 |
CN113409331B (zh) * | 2021-06-08 | 2024-04-12 | Oppo广东移动通信有限公司 | 图像处理方法、图像处理装置、终端及可读存储介质 |
CN113658200B (zh) * | 2021-07-29 | 2024-01-02 | 东北大学 | 基于自适应特征融合的边缘感知图像语义分割方法 |
CN113538467A (zh) * | 2021-08-09 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 图像分割方法和装置及图像分割模型的训练方法和装置 |
CN113920317B (zh) * | 2021-11-15 | 2024-02-27 | 西北工业大学 | 基于可见光图像和低分辨率深度图像的语义分割方法 |
CN114372986B (zh) * | 2021-12-30 | 2024-05-24 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
CN114463340B (zh) * | 2022-01-10 | 2024-04-26 | 武汉大学 | 一种边缘信息引导的敏捷型遥感图像语义分割方法 |
CN114913338B (zh) * | 2022-04-19 | 2024-06-14 | 支付宝(杭州)信息技术有限公司 | 分割模型的训练方法及装置、图像识别方法及装置 |
CN116109645B (zh) * | 2023-04-14 | 2023-07-07 | 锋睿领创(珠海)科技有限公司 | 基于先验知识的智能处理方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805889A (zh) * | 2018-05-07 | 2018-11-13 | 中国科学院自动化研究所 | 边缘引导的精细化显著性物体分割方法与系统、设备 |
CN109544559A (zh) * | 2018-10-19 | 2019-03-29 | 深圳大学 | 图像语义分割方法、装置、计算机设备和存储介质 |
CN110363770A (zh) * | 2019-07-12 | 2019-10-22 | 安徽大学 | 一种边缘引导式红外语义分割模型的训练方法及装置 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614574B2 (en) * | 2017-10-16 | 2020-04-07 | Adobe Inc. | Generating image segmentation data using a multi-branch neural network |
-
2020
- 2020-10-12 CN CN202011085260.5A patent/CN112634296B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805889A (zh) * | 2018-05-07 | 2018-11-13 | 中国科学院自动化研究所 | 边缘引导的精细化显著性物体分割方法与系统、设备 |
CN109544559A (zh) * | 2018-10-19 | 2019-03-29 | 深圳大学 | 图像语义分割方法、装置、计算机设备和存储介质 |
CN110363770A (zh) * | 2019-07-12 | 2019-10-22 | 安徽大学 | 一种边缘引导式红外语义分割模型的训练方法及装置 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
Non-Patent Citations (1)
Title |
---|
SEMANTIC SEGMENTATION VIA SPARSE CODING OVER HIERARCHICAL REGIONS;Wenbin Zou et al.;《Semantic segmentation》;第2577-2580页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634296A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634296B (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
KR20200144398A (ko) | 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법 | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN111932458B (zh) | 一种基于区域间注意力机制的图像信息提取与生成方法 | |
CN117475038B (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
Uddin et al. | A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss | |
CN112364933A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN114462486A (zh) | 图像处理模型的训练方法、图像处理方法及相关装置 | |
CN117237623B (zh) | 一种无人机遥感图像语义分割方法及系统 | |
CN117274115A (zh) | 基于多尺度稀疏Transformer网络的图像增强方法及系统 | |
Wei et al. | A novel algorithm for small object detection based on YOLOv4 | |
CN113705463B (zh) | 一种基于多尺度门控密集连接的工厂足迹提取方法及系统 | |
CN115035402B (zh) | 一种用于土地覆盖分类问题的多级特征聚合系统及方法 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
Tan et al. | PPEDNet: Pyramid pooling encoder-decoder network for real-time semantic segmentation | |
CN114549500A (zh) | 一种基于轴向自注意力的高维图像目标缺陷检测模型 | |
Wang et al. | On the contextual aspects of using deep convolutional neural network for semantic image segmentation | |
CN114359633A (zh) | 高光谱图像聚类方法、装置、电子设备及存储介质 | |
CN113255646A (zh) | 一种实时场景文本检测方法 | |
CN116012679B (zh) | 一种基于多层级跨模态交互的自监督遥感表示学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |