CN113205520B - 一种对图像进行语义分割的方法及系统 - Google Patents
一种对图像进行语义分割的方法及系统 Download PDFInfo
- Publication number
- CN113205520B CN113205520B CN202110435343.0A CN202110435343A CN113205520B CN 113205520 B CN113205520 B CN 113205520B CN 202110435343 A CN202110435343 A CN 202110435343A CN 113205520 B CN113205520 B CN 113205520B
- Authority
- CN
- China
- Prior art keywords
- features
- depth
- semantic
- image
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000007 visual effect Effects 0.000 claims abstract description 83
- 239000011159 matrix material Substances 0.000 claims abstract description 54
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract 9
- 238000005070 sampling Methods 0.000 claims description 94
- 238000011176 pooling Methods 0.000 claims description 26
- 238000003384 imaging method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种对图像进行语义分割的方法及系统,包括:确定样本图像;提取视觉特征和深度特征;对语义分割模型进行训练;包括编码模块和解码模块;编码模块将每组特征输入DFS,融合得到一组多模特征,通过CA对各组多模特征进行筛选,并将筛选后的多模特征输入DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,得到各组含有关键深度信息的多模特征;构建DDC,提取相关的语义特征,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;将待语义分割图像输入到训练好的语义分割模型,以进行语义分割。本发明的语义分割模型可以更加合理的利用深度信息。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种对图像进行语义分割的方法及系统。
背景技术
语义分割是计算机视觉领域中的一项基本任务,目标是把图像中的每一个像素分配给对应的类别,是像素级别的多分类任务。其在自动驾驶、虚拟现实、机器人导航、医学图像处理等领域具有重要意义。在近年来的研究表明,在室内场景的语义分割任务中,深度信息的引入会在一定程度上提高分割的精度,原因是深度图像可以提供彩色图像相对匮乏的空间位置信息,能够在一定程度上区分视觉特征相似但深度特征差异较大的不同物体。
根据将深度信息嵌入视觉特征的方式,大部分的研究内容可以大致分为以下三类:单流的方式,双流的方式以及多任务的方式。单流的方式不会将深度图作为额外的输入而对其提取特征,只有一个对彩色图像进行特征提取的主干网络,特征提取的过程中利用深度图固有的空间信息辅助视觉特征的提取,以达到提高语义分割的效果,或者是采用多个卷积核沿着深度方向对输入图像提取特征,每个卷积核处理不同深度的像素点,最后把多个卷积核的计算结果相加。双流的方法主要存在两个主干网络,将深度图作为单独的输入,对深度图像和彩色图像分别提取特征,在适当的位置(编码器阶段或解码器阶段)将两种模态的特征融合来实现将深度信息嵌入视觉特征的目的。与上述两种方法具有显著不同的是多任务方法,它将语义分割,深度估计以及表面法线估计等多种任务一同处理,这类方式往往只有一个共用的主干网络,在对彩色图像进行特征提取的过程中,这些任务具有相似的特征以及互补的特征,不同任务间特征的交互会提高各个任务的性能。
但是,如何更有效的利用深度信息仍然是一个开放性的问题。除此之外,基于深度学习的室内图像语义分割任务中,卷积核固有的几何结构限制了卷积网络的建模能力,可变形卷积的提出在一定程度上缓解了这个问题。然而可变形卷积中产生位置偏移的彩色图像空间位置信息相对不足,限制了其特征提取的能力。此外,当前室内图像语义分割方法中,未曾思考深度信息的加入是否会产生不良影响,即将全部深度信息和视觉特征组合在一起可能会对模型产生干扰,产生这种现象的原因是仅依靠视觉特征网络就能区分不同物体,在引入深度信息后反而可能会使得网络模型做出错误的判断。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种对图像进行语义分割的方法及系统,旨在解决现有图像语义分割技术中,使用全部深度信息可能导致的网络模型错误分类的问题。
为实现上述目的,第一方面,本发明提供了一种对图像进行语义分割的方法,包括如下步骤:
确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块(Depthguidedfeatureselection,DFS),融合得到一组多模特征,通过通道注意力机制(Channel Attention,CA)对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块(Depthselection,DS)学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块(Depth embedded deformableconvolution,DDC),以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
在一个可选的示例中,所述深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
其中,表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征点乘,得到通道注意力机制运算后的结果,公式如下:
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
在一个可选的示例中,所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下: 表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下: 表示第二个卷积运算,表示输入的视觉特征,表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C;
在一个可选的示例中,所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
在一个可选的示例中,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
第二方面,本发明提供了一种对图像进行语义分割的系统,包括:
样本确定单元,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
在一个可选的示例中,所述语义分割模型中深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
其中,表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征点乘,得到通道注意力机制运算后的结果,公式如下:
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
在一个可选的示例中,所述语义分割模型中DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下: 表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下: 表示第二个卷积运算,表示输入的视觉特征,表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C;
在一个可选的示例中,所述语义分割模型中解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
在一个可选的示例中,所述特征提取单元基于语义分割模型提取彩色图像的视觉特征和深度图像的深度特征;所述待语义分割图像输入到训练好的语义分割模型后,先被语义分割模型提取视觉特征和深度特征,再基于提取的特征进行语义分割。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种对图像进行语义分割的方法及系统,提出了深度信息引导的特征选择模块,可以根据视觉特征和深度特征的输入自适应的决定深度信息加入的比例,能够在一定程度上避免全部深度信息嵌入对网络造成的困扰,在网络需要的时候,添加更多的深度信息,在网络不需要的时候不添加或加入较少的深度信息,与以往的方法相比,本发明的语义分割模型可以更加合理的利用深度信息。
本发明提供一种对图像进行语义分割的方法及系统,由于当前主流神经网络中卷积核固有的几何结构,限制了神经网络的特征提取能力。原因在于真实世界中物体的形状和尺寸千变万化,固定几何结构的卷积核对于不同物体的自适应能力较差,很难根据物体的形状提取有效的特征。可变形卷积的出现能够在一定程度上缓解这个问题,可以通过对彩色图像的卷积产生采样点的位置偏移。可是,彩色图像中的空间位置信息相对匮乏,导致产生的位置偏移相对不足。本文提出了深度信息嵌入的可变形卷积模块,通过额外深度信息的嵌入,可以根据物体形状提取更有效的特征,增强可变形卷积适应不同形变的能力。
本发明提供一种对图像进行语义分割的方法及系统,设计的深度信息引导的特征提取模块,包括深度信息引导的特征选择模块和深度信息嵌入的可变形卷积模块,可以方便的嵌入到当下流行的特征提取网络中,有效的利用深度信息提高模型的建模能力。
附图说明
图1是本发明实施例提供的一种对图像进行语义分割的方法流程图;
图2是本发明实施例提供的图像语义分割架构示意图;
图3是本发明实施例提供的深度信息引导的特征提取模块示意图;
图4是本发明实施例提供的网络深度信息嵌入的可变形卷积模块示意图;
图5是本发明实施例提供的语义分割实现流程图;
图6是本发明实施例提供的另一种图像语义分割方法流程图;
图7是本发明实施例提供的对图像进行语义分割的系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明公开了一种对图像进行语义分割的方法及系统,属于计算机视觉技术领域。
其中,该方法可适用于室内图像的语义分割。
本发明方法重新思考了深度信息对室内图像语义分割的影响,缓解了过去方法利用全部深度信息可能导致的错误分类,更加合理的利用深度信息,并通过深度信息的嵌入进一步提高了可变形卷积的特征提取能力,有效的提高了室内图像语义分割的精度。
针对现有技术的缺陷,本发明的目的在于提供一种室内图像语义分割方法,重新思考了深度信息的加入对网络模型产生的影响并通过深度信息的嵌入进一步改进了可变形卷积,提出了深度信息引导的特征提取模块(Depthguidedfeatureextraction,DFE),包括DFS和DDC。旨在解决室内图像语义分割技术中,使用全部深度信息可能导致的网络模型错误分类问题,在网络需要的时候加入关键的深度信息,更加合理的利用深度特征。
图1是本发明实施例提供的一种对图像进行语义分割的方法流程图,如图1所示,包括如下步骤:
S101,确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
S102,提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
S103,基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
具体地,语义分割模型的架构参见图2所示。
S104,将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
可选地,深度信息引导的特征选择模块DFS参见图3所示,包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
其中,表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征点乘,得到通道注意力机制运算后的结果,公式如下:
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
可选地,基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
参见图4所示,所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下: 表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下: 表示第二个卷积运算,表示输入的视觉特征,表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C;
可选地,解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
具体地,解码模块的结构与deeplabV3+网络的解码模块相同,其中,DeeplabV3+是流行的语义分割基准网络,这部分解码器的结构也可以采用其他网络的解码器。
可选地,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;参见图5所示,所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
具体地,对待分割图像进行语义分割的步骤包括:将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型,经过运算得到混淆矩阵与彩色图像的分割结果;通过混淆矩阵可以计算语义分割总常用的分割指标,包括平均像素精度(Pixelaccuracy,PA)和平均交并比(Mean intersection over union,MIoU)。
在一个更具体的实施例中,参考图6,本发明实施例提供了一种室内图像语义分割方法,包括:
(1)对样本图像中的彩色图像提取视觉特征;
(2)对样本图像中与彩色图像对齐的深度图像提取深度特征;
(3)根据输入的视觉特征与深度特征构建深度信息引导的特征选择模块DFS;
(4)将深度信息引导的特征选择模块筛选出来的含有关键深度信息的视觉特征作为部分输入构建深度信息嵌入的可变形卷积模块DDC;
(5)编码器的输出结果作为解码器的输入,通过上采样运算得到与输入图像尺寸相同的分割图像,对上述网络模型进行训练;
(6)将待分割的室内图像中的彩色图像和与之对齐的深度图像输入训练好的模型,得到室内彩色图像的分割结果。
优选地,所述步骤(1)具体包括:
(1.1)将样本图像中的彩色图像缩放到同一尺寸,实例中为480×640;
(1.2)根据ImageNet上的图像分布,将样本图像中彩色图像的像素值归一化到(0,1);
(1.3)利用深度学习模型中的残差网络对彩色图像提取相应的视觉特征;
优选地,所述步骤(2)具体包括:
(2.1)将样本图像中与彩色图像对齐的深度图像缩放到同一尺寸,实例中为480×640;
(2.2)根据ImageNet上的图像分布,将样本图像中与彩色图像对齐的深度图像的像素值归一化到(0,1);
(2.3)利用深度学习模型中的残差网络ResNet50对深度图像提取相应的深度特征;
优选地,所述步骤(3)具体包括:
(3.1)将提取到的视觉特征与深度特征连接在一起得到多模特征,通过通道注意力机制对多模特征进行筛选;
(3.2)将筛选后的多模特征通过深度选择模块DS,得到深度特征对应的权重矩阵,将得到的权重矩阵与深度特征进行点乘运算,运算后的结果为筛选出的关键的深度特征;
(3.3)将得到的关键的深度特征与视觉特征相加,达到将深度信息嵌入视觉特征的目的,同时将得到的关键的深度特征与深度特征相加,进一步增强网络需要的深度信息部分;
优选地,所述步骤(4)具体包括:
(4.1)将深度信息引导的特征选择模块得到的含有关键深度信息的视觉特征与原始的视觉特征作为输入构建深度信息嵌入的可变形卷积模块,深度信息嵌入的可变形卷积模块包括两个卷积运算;
(4.2)含有关键深度信息的视觉特征通过一个卷积运算,得到第二个卷积运算中采样点的位置偏移矩阵;
(4.3)对原始的视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,得到最终的运算结果,公式如下:
w表示卷积核的权重,x表示卷积的输入,y表示卷积的输出。其中pi为卷积核采样的中心点,pj∈ρ(pi)表示卷积核以像素点pi为中心的感受域,Δpj为采样点的位置偏移,由嵌入深度信息的视觉特征通过卷积学习得到,公式如下:
表示卷积运算,RDH×W×C表示嵌入深度信息的多模特征,OffsetH×W×2C为对应彩色图像的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移,Δpj来自OffsetH ×W×2C对应的栅格。
优选地,所述步骤(5)具体包括:
(5.1)将编码器阶段的输出,即含有关键深度信息的视觉特征,作为解码器的输入,构建解码器网络;
(5.2)含有关键深度信息的视觉特征通过空间金字塔池化模块,得到不同尺度的语义信息;
(5.4)将得到的特征图与编码器阶段相同尺寸的特征图相加,经过相应的卷积运算与上采样操作得到网络预测的分割结果;
(5.5)将网络的预测结果与相应的标签输入相应的损失函数,得到偏差,通过反向梯度传播,更新网络的参数,训练网络模型;
实例基于Pytorch框架,在四块英伟达显卡上进行了相关的实验,采用了随机梯度下降(stochastic gradient descent,SGD)的优化方法,动量(momenta)参数为0.9,权重衰减系数(weightdecay)为0.0001。选择了“poly”的学习策略,网络模型的学习率会随着迭代的次数衰减模型的初始学习率为0.02,运行了400个周期(epoch)。在数据增广方面,我们使用了水平翻转,以及随机尺度变换的技巧,变换的尺度因子为[0.5,0.75,1,1.5,1.75]。为了衡量我们网络的性能,我们采用平均像素准确率(Pixelaccuracy,PA)与平均交并比(Meanpixelintersectionoverunion,MIoU)作为度量。
优选地,所述步骤(6)具体包括:
(6.1)将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型,经过运算得到混淆矩阵与彩色图像的分割结果;
(6.2)通过混淆矩阵可以计算语义分割总常用的分割指标,包括平均像素精度(Pixel accuracy,PA)和平均交并比(Mean intersection over union,MIoU)。
为验证本发明方法对室内图像语义分割的有效性,与现有主流的室内图像语义分割方法进行对比分析,使用的数据集为当下十分流行的NYUv2数据集。实验结果如表1所示,测试采用平均像素准确率(Pixelaccuracy,PA)与平均交并比(Meanpixelintersectionoverunion,MIoU)作为评价指标。根据测试结果可知,在使用相同的主干网络ResNet-50的情况下,本发明方法在NYUv2数据集上的MIoU为51.9%,PA为77.6%,实现了最好的分割效果。其中VCD+ACNet方法与本发明方法的MIoU相同,但是VCD+ACNet方法使用了3个主干网络,而本发明的方法仅使用了两个主干网络,使用了更少的参数达到了相同的分割结果。此外,采用ResNet-101作为主干网络的情况下,本发明的方法在NYUv2数据集上的MIoU为52.6%,增加参数的同时性能进一步提高。本方法相对于其他的图像语义分割方法具有一定的优势。
表1与当前方法的比较
注:(#)表示使用了3个主干网络
图7是本发明实施例提供的对图像进行语义分割的系统架构图,如图7所示,包括:
样本确定单元710,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元720,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元730,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元740,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
具体地,图7中各个单元的具体功能可参见前述方法实施例中的记载,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种对图像进行语义分割的方法,其特征在于,包括如下步骤:
确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
2.根据权利要求1所述的方法,其特征在于,所述深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
其中,表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征点乘,得到通道注意力机制运算后的结果,公式如下:
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
3.根据权利要求2所述的方法,其特征在于,所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下: 表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2C意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下: 表示第二个卷积运算,表示输入的视觉特征,表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2c对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C;
4.根据权利要求3所述的方法,其特征在于,所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
6.一种对图像进行语义分割的系统,其特征在于,包括:
样本确定单元,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
7.根据权利要求6所述的系统,其特征在于,所述语义分割模型中深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
其中,表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征点乘,得到通道注意力机制运算后的结果,公式如下:
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
8.根据权利要求7所述的系统,其特征在于,所述语义分割模型中DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下: 表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2C意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下: 表示第二个卷积运算,表示输入的视觉特征,表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C;
9.根据权利要求8所述的系统,其特征在于,所述语义分割模型中解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
10.根据权利要求6至9任一项所述的系统,其特征在于,所述特征提取单元基于语义分割模型提取彩色图像的视觉特征和深度图像的深度特征;所述待语义分割图像输入到训练好的语义分割模型后,先被语义分割模型提取视觉特征和深度特征,再基于提取的特征进行语义分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435343.0A CN113205520B (zh) | 2021-04-22 | 2021-04-22 | 一种对图像进行语义分割的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435343.0A CN113205520B (zh) | 2021-04-22 | 2021-04-22 | 一种对图像进行语义分割的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205520A CN113205520A (zh) | 2021-08-03 |
CN113205520B true CN113205520B (zh) | 2022-08-05 |
Family
ID=77027928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110435343.0A Expired - Fee Related CN113205520B (zh) | 2021-04-22 | 2021-04-22 | 一种对图像进行语义分割的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205520B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538467A (zh) * | 2021-08-09 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 图像分割方法和装置及图像分割模型的训练方法和装置 |
CN114004969A (zh) * | 2021-09-15 | 2022-02-01 | 苏州中科华影健康科技有限公司 | 一种内镜图像病灶区检测方法、装置、设备及存储介质 |
CN114120253B (zh) * | 2021-10-29 | 2023-11-14 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
CN114372986B (zh) * | 2021-12-30 | 2024-05-24 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
TWI831183B (zh) * | 2022-04-18 | 2024-02-01 | 瑞昱半導體股份有限公司 | 影像物件標籤方法與電路系統 |
CN114898089B (zh) * | 2022-05-18 | 2022-10-25 | 中国矿业大学(北京) | 一种融合高分影像和poi数据的功能区提取与分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665496A (zh) * | 2018-03-21 | 2018-10-16 | 浙江大学 | 一种基于深度学习的端到端的语义即时定位与建图方法 |
CN109101907A (zh) * | 2018-07-28 | 2018-12-28 | 华中科技大学 | 一种基于双边分割网络的车载图像语义分割系统 |
CN112115951A (zh) * | 2020-11-19 | 2020-12-22 | 之江实验室 | 一种基于空间关系的rgb-d图像语义分割方法 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361470B2 (en) * | 2019-05-09 | 2022-06-14 | Sri International | Semantically-aware image-based visual localization |
-
2021
- 2021-04-22 CN CN202110435343.0A patent/CN113205520B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665496A (zh) * | 2018-03-21 | 2018-10-16 | 浙江大学 | 一种基于深度学习的端到端的语义即时定位与建图方法 |
CN109101907A (zh) * | 2018-07-28 | 2018-12-28 | 华中科技大学 | 一种基于双边分割网络的车载图像语义分割系统 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112115951A (zh) * | 2020-11-19 | 2020-12-22 | 之江实验室 | 一种基于空间关系的rgb-d图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-D semantic segmentation;Xiaokang Chen,et al;《Computer Vision-ECCV 2020》;20200717;全文 * |
水面图像目标检测的强语义特征提取结构;徐海祥 等;《华中科技大学学报》;20210308;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113205520A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113205520B (zh) | 一种对图像进行语义分割的方法及系统 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN112070658A (zh) | 一种基于深度学习的汉字字体风格迁移方法 | |
CN110246181A (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN113971764B (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN113962878B (zh) | 一种低能见度图像去雾模型方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN109460815A (zh) | 一种单目视觉深度估计方法 | |
CN112184731B (zh) | 一种基于对抗性训练的多视图立体深度估计方法 | |
CN110210492A (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN114998566A (zh) | 一种可解释的多尺度红外弱小目标检测网络设计方法 | |
CN114973011A (zh) | 一种基于深度学习的高分辨率遥感影像建筑物提取方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN114821316A (zh) | 一种三维探地雷达裂缝病害识别方法及系统 | |
CN116935226A (zh) | 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质 | |
CN115170978A (zh) | 车辆目标检测方法、装置、电子设备及存储介质 | |
CN113744205A (zh) | 一种端到端的道路裂缝检测系统 | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
CN116229104A (zh) | 一种基于边缘特征引导的显著性目标检测方法 | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220805 |