CN113205520B - 一种对图像进行语义分割的方法及系统 - Google Patents

一种对图像进行语义分割的方法及系统 Download PDF

Info

Publication number
CN113205520B
CN113205520B CN202110435343.0A CN202110435343A CN113205520B CN 113205520 B CN113205520 B CN 113205520B CN 202110435343 A CN202110435343 A CN 202110435343A CN 113205520 B CN113205520 B CN 113205520B
Authority
CN
China
Prior art keywords
features
depth
semantic
image
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110435343.0A
Other languages
English (en)
Other versions
CN113205520A (zh
Inventor
赵经阳
余昌黔
桑农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110435343.0A priority Critical patent/CN113205520B/zh
Publication of CN113205520A publication Critical patent/CN113205520A/zh
Application granted granted Critical
Publication of CN113205520B publication Critical patent/CN113205520B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种对图像进行语义分割的方法及系统,包括:确定样本图像;提取视觉特征和深度特征;对语义分割模型进行训练;包括编码模块和解码模块;编码模块将每组特征输入DFS,融合得到一组多模特征,通过CA对各组多模特征进行筛选,并将筛选后的多模特征输入DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,得到各组含有关键深度信息的多模特征;构建DDC,提取相关的语义特征,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;将待语义分割图像输入到训练好的语义分割模型,以进行语义分割。本发明的语义分割模型可以更加合理的利用深度信息。

Description

一种对图像进行语义分割的方法及系统
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种对图像进行语义分割的方法及系统。
背景技术
语义分割是计算机视觉领域中的一项基本任务,目标是把图像中的每一个像素分配给对应的类别,是像素级别的多分类任务。其在自动驾驶、虚拟现实、机器人导航、医学图像处理等领域具有重要意义。在近年来的研究表明,在室内场景的语义分割任务中,深度信息的引入会在一定程度上提高分割的精度,原因是深度图像可以提供彩色图像相对匮乏的空间位置信息,能够在一定程度上区分视觉特征相似但深度特征差异较大的不同物体。
根据将深度信息嵌入视觉特征的方式,大部分的研究内容可以大致分为以下三类:单流的方式,双流的方式以及多任务的方式。单流的方式不会将深度图作为额外的输入而对其提取特征,只有一个对彩色图像进行特征提取的主干网络,特征提取的过程中利用深度图固有的空间信息辅助视觉特征的提取,以达到提高语义分割的效果,或者是采用多个卷积核沿着深度方向对输入图像提取特征,每个卷积核处理不同深度的像素点,最后把多个卷积核的计算结果相加。双流的方法主要存在两个主干网络,将深度图作为单独的输入,对深度图像和彩色图像分别提取特征,在适当的位置(编码器阶段或解码器阶段)将两种模态的特征融合来实现将深度信息嵌入视觉特征的目的。与上述两种方法具有显著不同的是多任务方法,它将语义分割,深度估计以及表面法线估计等多种任务一同处理,这类方式往往只有一个共用的主干网络,在对彩色图像进行特征提取的过程中,这些任务具有相似的特征以及互补的特征,不同任务间特征的交互会提高各个任务的性能。
但是,如何更有效的利用深度信息仍然是一个开放性的问题。除此之外,基于深度学习的室内图像语义分割任务中,卷积核固有的几何结构限制了卷积网络的建模能力,可变形卷积的提出在一定程度上缓解了这个问题。然而可变形卷积中产生位置偏移的彩色图像空间位置信息相对不足,限制了其特征提取的能力。此外,当前室内图像语义分割方法中,未曾思考深度信息的加入是否会产生不良影响,即将全部深度信息和视觉特征组合在一起可能会对模型产生干扰,产生这种现象的原因是仅依靠视觉特征网络就能区分不同物体,在引入深度信息后反而可能会使得网络模型做出错误的判断。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种对图像进行语义分割的方法及系统,旨在解决现有图像语义分割技术中,使用全部深度信息可能导致的网络模型错误分类的问题。
为实现上述目的,第一方面,本发明提供了一种对图像进行语义分割的方法,包括如下步骤:
确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块(Depthguidedfeatureselection,DFS),融合得到一组多模特征,通过通道注意力机制(Channel Attention,CA)对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块(Depthselection,DS)学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块(Depth embedded deformableconvolution,DDC),以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
在一个可选的示例中,所述深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
Figure BDA0003032949240000031
其中,
Figure BDA0003032949240000032
表示输入的视觉特征,
Figure BDA0003032949240000033
表示输入的深度特征,
Figure BDA0003032949240000034
表示连接后的特征,H×W表示特征图的高度和宽度,C表示特征图的通道数;特征图指的是彩色图像特征或者深度图像特征;
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
Figure BDA0003032949240000041
其中,
Figure BDA0003032949240000042
表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征
Figure BDA0003032949240000043
点乘,得到通道注意力机制运算后的结果,公式如下:
Figure BDA0003032949240000044
其中,
Figure BDA0003032949240000045
表示经过CA运算后的输出结果,作为筛选后的多模特征,fc1表示第一个全连接函数,R表示Relu激活函数,fc2表示第二个全连接函数,σ表示Sigmoid函数;
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
Figure BDA0003032949240000046
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
将得到的权重矩阵与相应深度特征点乘得到
Figure BDA0003032949240000047
公式如下:
Figure BDA0003032949240000048
Figure BDA0003032949240000049
表示筛选出来的关键深度特征;
将关键深度特征
Figure BDA00030329492400000410
与各组图像提取的视觉特征
Figure BDA00030329492400000411
组合得到各组含有关键深度信息的多模特征
Figure BDA00030329492400000412
公式如下:
Figure BDA00030329492400000413
Figure BDA00030329492400000414
在一个可选的示例中,所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下:
Figure BDA0003032949240000051
Figure BDA0003032949240000052
Figure BDA0003032949240000053
表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下:
Figure BDA0003032949240000054
Figure BDA0003032949240000055
Figure BDA0003032949240000056
表示第二个卷积运算,
Figure BDA0003032949240000057
表示输入的视觉特征,
Figure BDA0003032949240000058
表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:
Figure BDA0003032949240000059
其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C
将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,公式如下:
Figure BDA0003032949240000061
Figure BDA0003032949240000062
在一个可选的示例中,所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
在一个可选的示例中,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
第二方面,本发明提供了一种对图像进行语义分割的系统,包括:
样本确定单元,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
在一个可选的示例中,所述语义分割模型中深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
Figure BDA0003032949240000081
其中,
Figure BDA0003032949240000082
表示输入的视觉特征,
Figure BDA0003032949240000083
表示输入的深度特征,
Figure BDA0003032949240000084
表示连接后的特征,H×W表示特征图的高度和宽度,C表示特征图的通道数;特征图指的是彩色图像特征或者深度图像特征;
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
Figure BDA0003032949240000085
其中,
Figure BDA0003032949240000086
表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征
Figure BDA0003032949240000087
点乘,得到通道注意力机制运算后的结果,公式如下:
Figure BDA0003032949240000088
其中,
Figure BDA0003032949240000089
表示经过CA运算后的输出结果,作为筛选后的多模特征,fc1表示第一个全连接函数,R表示Relu激活函数,fc2表示第二个全连接函数,σ表示Sigmoid函数;
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
Figure BDA0003032949240000091
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
将得到的权重矩阵与相应深度特征点乘得到
Figure BDA0003032949240000092
公式如下:
Figure BDA0003032949240000093
Figure BDA0003032949240000094
表示筛选出来的关键深度特征;
将关键深度特征
Figure BDA0003032949240000095
与各组图像提取的视觉特征
Figure BDA0003032949240000096
组合得到各组含有关键深度信息的多模特征RDH×W×C,公式如下:
Figure BDA0003032949240000097
Figure BDA0003032949240000098
在一个可选的示例中,所述语义分割模型中DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下:
Figure BDA0003032949240000099
Figure BDA00030329492400000910
Figure BDA00030329492400000911
表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下:
Figure BDA00030329492400000912
Figure BDA00030329492400000913
Figure BDA00030329492400000914
表示第二个卷积运算,
Figure BDA00030329492400000915
表示输入的视觉特征,
Figure BDA00030329492400000916
表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:
Figure BDA00030329492400000917
其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C
将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,公式如下:
Figure BDA0003032949240000101
Figure BDA0003032949240000102
在一个可选的示例中,所述语义分割模型中解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
在一个可选的示例中,所述特征提取单元基于语义分割模型提取彩色图像的视觉特征和深度图像的深度特征;所述待语义分割图像输入到训练好的语义分割模型后,先被语义分割模型提取视觉特征和深度特征,再基于提取的特征进行语义分割。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种对图像进行语义分割的方法及系统,提出了深度信息引导的特征选择模块,可以根据视觉特征和深度特征的输入自适应的决定深度信息加入的比例,能够在一定程度上避免全部深度信息嵌入对网络造成的困扰,在网络需要的时候,添加更多的深度信息,在网络不需要的时候不添加或加入较少的深度信息,与以往的方法相比,本发明的语义分割模型可以更加合理的利用深度信息。
本发明提供一种对图像进行语义分割的方法及系统,由于当前主流神经网络中卷积核固有的几何结构,限制了神经网络的特征提取能力。原因在于真实世界中物体的形状和尺寸千变万化,固定几何结构的卷积核对于不同物体的自适应能力较差,很难根据物体的形状提取有效的特征。可变形卷积的出现能够在一定程度上缓解这个问题,可以通过对彩色图像的卷积产生采样点的位置偏移。可是,彩色图像中的空间位置信息相对匮乏,导致产生的位置偏移相对不足。本文提出了深度信息嵌入的可变形卷积模块,通过额外深度信息的嵌入,可以根据物体形状提取更有效的特征,增强可变形卷积适应不同形变的能力。
本发明提供一种对图像进行语义分割的方法及系统,设计的深度信息引导的特征提取模块,包括深度信息引导的特征选择模块和深度信息嵌入的可变形卷积模块,可以方便的嵌入到当下流行的特征提取网络中,有效的利用深度信息提高模型的建模能力。
附图说明
图1是本发明实施例提供的一种对图像进行语义分割的方法流程图;
图2是本发明实施例提供的图像语义分割架构示意图;
图3是本发明实施例提供的深度信息引导的特征提取模块示意图;
图4是本发明实施例提供的网络深度信息嵌入的可变形卷积模块示意图;
图5是本发明实施例提供的语义分割实现流程图;
图6是本发明实施例提供的另一种图像语义分割方法流程图;
图7是本发明实施例提供的对图像进行语义分割的系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明公开了一种对图像进行语义分割的方法及系统,属于计算机视觉技术领域。
其中,该方法可适用于室内图像的语义分割。
本发明方法重新思考了深度信息对室内图像语义分割的影响,缓解了过去方法利用全部深度信息可能导致的错误分类,更加合理的利用深度信息,并通过深度信息的嵌入进一步提高了可变形卷积的特征提取能力,有效的提高了室内图像语义分割的精度。
针对现有技术的缺陷,本发明的目的在于提供一种室内图像语义分割方法,重新思考了深度信息的加入对网络模型产生的影响并通过深度信息的嵌入进一步改进了可变形卷积,提出了深度信息引导的特征提取模块(Depthguidedfeatureextraction,DFE),包括DFS和DDC。旨在解决室内图像语义分割技术中,使用全部深度信息可能导致的网络模型错误分类问题,在网络需要的时候加入关键的深度信息,更加合理的利用深度特征。
图1是本发明实施例提供的一种对图像进行语义分割的方法流程图,如图1所示,包括如下步骤:
S101,确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
S102,提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
S103,基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
具体地,语义分割模型的架构参见图2所示。
S104,将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
可选地,深度信息引导的特征选择模块DFS参见图3所示,包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
Figure BDA0003032949240000141
其中,
Figure BDA0003032949240000142
表示输入的视觉特征,
Figure BDA0003032949240000143
表示输入的深度特征,
Figure BDA0003032949240000144
表示连接后的特征,H×W表示特征图的高度和宽度,C表示特征图的通道数;特征图指的是彩色图像特征或者深度图像特征;
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
Figure BDA0003032949240000145
其中,
Figure BDA0003032949240000146
表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征
Figure BDA0003032949240000147
点乘,得到通道注意力机制运算后的结果,公式如下:
Figure BDA0003032949240000148
其中,
Figure BDA0003032949240000149
表示经过CA运算后的输出结果,作为筛选后的多模特征,fc1表示第一个全连接函数,R表示Relu激活函数,fc2表示第二个全连接函数,σ表示Sigmoid函数;
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
Figure BDA00030329492400001410
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
将得到的权重矩阵与相应深度特征点乘得到
Figure BDA0003032949240000151
公式如下:
Figure BDA0003032949240000152
Figure BDA0003032949240000153
表示筛选出来的关键深度特征;
将关键深度特征
Figure BDA0003032949240000154
与各组图像提取的视觉特征
Figure BDA0003032949240000155
组合得到各组含有关键深度信息的多模特征RDH×W×C,公式如下:
Figure BDA0003032949240000156
Figure BDA0003032949240000157
具体地,
Figure BDA0003032949240000158
表示筛选出来的深度特征,也是嵌入视觉特征的深度信息。权重矩阵γH×W对深度特征
Figure BDA0003032949240000159
进行了显式的筛选,可以根据任务的需要自适应的确定深度信息引入网络的多少,这部分深度信息即为关键的深度信息。
可选地,基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
参见图4所示,所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下:
Figure BDA00030329492400001510
Figure BDA00030329492400001511
Figure BDA00030329492400001512
表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下:
Figure BDA0003032949240000161
Figure BDA0003032949240000162
Figure BDA0003032949240000163
表示第二个卷积运算,
Figure BDA0003032949240000164
表示输入的视觉特征,
Figure BDA0003032949240000165
表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:
Figure BDA0003032949240000166
其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C
将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,公式如下:
Figure BDA0003032949240000167
Figure BDA0003032949240000168
可选地,解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
具体地,解码模块的结构与deeplabV3+网络的解码模块相同,其中,DeeplabV3+是流行的语义分割基准网络,这部分解码器的结构也可以采用其他网络的解码器。
可选地,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;参见图5所示,所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
具体地,对待分割图像进行语义分割的步骤包括:将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型,经过运算得到混淆矩阵与彩色图像的分割结果;通过混淆矩阵可以计算语义分割总常用的分割指标,包括平均像素精度(Pixelaccuracy,PA)和平均交并比(Mean intersection over union,MIoU)。
在一个更具体的实施例中,参考图6,本发明实施例提供了一种室内图像语义分割方法,包括:
(1)对样本图像中的彩色图像提取视觉特征;
(2)对样本图像中与彩色图像对齐的深度图像提取深度特征;
(3)根据输入的视觉特征与深度特征构建深度信息引导的特征选择模块DFS;
(4)将深度信息引导的特征选择模块筛选出来的含有关键深度信息的视觉特征作为部分输入构建深度信息嵌入的可变形卷积模块DDC;
(5)编码器的输出结果作为解码器的输入,通过上采样运算得到与输入图像尺寸相同的分割图像,对上述网络模型进行训练;
(6)将待分割的室内图像中的彩色图像和与之对齐的深度图像输入训练好的模型,得到室内彩色图像的分割结果。
优选地,所述步骤(1)具体包括:
(1.1)将样本图像中的彩色图像缩放到同一尺寸,实例中为480×640;
(1.2)根据ImageNet上的图像分布,将样本图像中彩色图像的像素值归一化到(0,1);
(1.3)利用深度学习模型中的残差网络对彩色图像提取相应的视觉特征;
优选地,所述步骤(2)具体包括:
(2.1)将样本图像中与彩色图像对齐的深度图像缩放到同一尺寸,实例中为480×640;
(2.2)根据ImageNet上的图像分布,将样本图像中与彩色图像对齐的深度图像的像素值归一化到(0,1);
(2.3)利用深度学习模型中的残差网络ResNet50对深度图像提取相应的深度特征;
优选地,所述步骤(3)具体包括:
(3.1)将提取到的视觉特征与深度特征连接在一起得到多模特征,通过通道注意力机制对多模特征进行筛选;
(3.2)将筛选后的多模特征通过深度选择模块DS,得到深度特征对应的权重矩阵,将得到的权重矩阵与深度特征进行点乘运算,运算后的结果为筛选出的关键的深度特征;
(3.3)将得到的关键的深度特征与视觉特征相加,达到将深度信息嵌入视觉特征的目的,同时将得到的关键的深度特征与深度特征相加,进一步增强网络需要的深度信息部分;
优选地,所述步骤(4)具体包括:
(4.1)将深度信息引导的特征选择模块得到的含有关键深度信息的视觉特征与原始的视觉特征作为输入构建深度信息嵌入的可变形卷积模块,深度信息嵌入的可变形卷积模块包括两个卷积运算;
(4.2)含有关键深度信息的视觉特征通过一个卷积运算,得到第二个卷积运算中采样点的位置偏移矩阵;
(4.3)对原始的视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,得到最终的运算结果,公式如下:
Figure BDA0003032949240000191
w表示卷积核的权重,x表示卷积的输入,y表示卷积的输出。其中pi为卷积核采样的中心点,pj∈ρ(pi)表示卷积核以像素点pi为中心的感受域,Δpj为采样点的位置偏移,由嵌入深度信息的视觉特征通过卷积学习得到,公式如下:
Figure BDA0003032949240000192
Figure BDA0003032949240000193
表示卷积运算,RDH×W×C表示嵌入深度信息的多模特征,OffsetH×W×2C为对应彩色图像的位置偏移矩阵,通道是2意味着存在水平方向和竖直方向的偏移,Δpj来自OffsetH ×W×2C对应的栅格。
优选地,所述步骤(5)具体包括:
(5.1)将编码器阶段的输出,即含有关键深度信息的视觉特征,作为解码器的输入,构建解码器网络;
(5.2)含有关键深度信息的视觉特征通过空间金字塔池化模块,得到不同尺度的语义信息;
(5.3)不同尺度的语义信息连接在一起,经过1×1卷积运算降维后,通过双线性插值运算上采样到原始图像
Figure BDA0003032949240000201
尺寸的特征图;
(5.4)将得到的特征图与编码器阶段相同尺寸的特征图相加,经过相应的卷积运算与上采样操作得到网络预测的分割结果;
(5.5)将网络的预测结果与相应的标签输入相应的损失函数,得到偏差,通过反向梯度传播,更新网络的参数,训练网络模型;
实例基于Pytorch框架,在四块英伟达显卡上进行了相关的实验,采用了随机梯度下降(stochastic gradient descent,SGD)的优化方法,动量(momenta)参数为0.9,权重衰减系数(weightdecay)为0.0001。选择了“poly”的学习策略,网络模型的学习率会随着迭代的次数衰减
Figure BDA0003032949240000202
模型的初始学习率为0.02,运行了400个周期(epoch)。在数据增广方面,我们使用了水平翻转,以及随机尺度变换的技巧,变换的尺度因子为[0.5,0.75,1,1.5,1.75]。为了衡量我们网络的性能,我们采用平均像素准确率(Pixelaccuracy,PA)与平均交并比(Meanpixelintersectionoverunion,MIoU)作为度量。
优选地,所述步骤(6)具体包括:
(6.1)将待分割的室内彩色图像和与之对齐的深度图像输入训练好的网络模型,经过运算得到混淆矩阵与彩色图像的分割结果;
(6.2)通过混淆矩阵可以计算语义分割总常用的分割指标,包括平均像素精度(Pixel accuracy,PA)和平均交并比(Mean intersection over union,MIoU)。
为验证本发明方法对室内图像语义分割的有效性,与现有主流的室内图像语义分割方法进行对比分析,使用的数据集为当下十分流行的NYUv2数据集。实验结果如表1所示,测试采用平均像素准确率(Pixelaccuracy,PA)与平均交并比(Meanpixelintersectionoverunion,MIoU)作为评价指标。根据测试结果可知,在使用相同的主干网络ResNet-50的情况下,本发明方法在NYUv2数据集上的MIoU为51.9%,PA为77.6%,实现了最好的分割效果。其中VCD+ACNet方法与本发明方法的MIoU相同,但是VCD+ACNet方法使用了3个主干网络,而本发明的方法仅使用了两个主干网络,使用了更少的参数达到了相同的分割结果。此外,采用ResNet-101作为主干网络的情况下,本发明的方法在NYUv2数据集上的MIoU为52.6%,增加参数的同时性能进一步提高。本方法相对于其他的图像语义分割方法具有一定的优势。
表1与当前方法的比较
Figure BDA0003032949240000211
注:(#)表示使用了3个主干网络
图7是本发明实施例提供的对图像进行语义分割的系统架构图,如图7所示,包括:
样本确定单元710,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元720,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元730,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元740,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
具体地,图7中各个单元的具体功能可参见前述方法实施例中的记载,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种对图像进行语义分割的方法,其特征在于,包括如下步骤:
确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
2.根据权利要求1所述的方法,其特征在于,所述深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
Figure FDA0003032949230000021
其中,
Figure FDA0003032949230000022
表示输入的视觉特征,
Figure FDA0003032949230000023
表示输入的深度特征,
Figure FDA0003032949230000024
表示连接后的特征,H×W表示特征图的高度和宽度,C表示特征图的通道数;特征图指的是彩色图像特征或者深度图像特征;
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
Figure FDA0003032949230000025
其中,
Figure FDA0003032949230000026
表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征
Figure FDA0003032949230000027
点乘,得到通道注意力机制运算后的结果,公式如下:
Figure FDA0003032949230000028
其中,
Figure FDA0003032949230000029
表示经过CA运算后的输出结果,作为筛选后的多模特征,fc1表示第一个全连接函数,R表示Relu激活函数,fc2表示第二个全连接函数,σ表示Sigmoid函数;
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
Figure FDA0003032949230000031
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
将得到的权重矩阵与相应深度特征点乘得到
Figure FDA0003032949230000032
公式如下:
Figure FDA0003032949230000033
Figure FDA0003032949230000034
表示筛选出来的关键深度特征;
将关键深度特征
Figure FDA0003032949230000035
与各组图像提取的视觉特征
Figure FDA0003032949230000036
组合得到各组含有关键深度信息的多模特征RDH×W×C,公式如下:
Figure FDA0003032949230000037
Figure FDA0003032949230000038
3.根据权利要求2所述的方法,其特征在于,所述基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,具体为:
所述DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下:
Figure FDA0003032949230000039
Figure FDA00030329492300000310
Figure FDA00030329492300000311
表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2C意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下:
Figure FDA00030329492300000312
Figure FDA00030329492300000313
Figure FDA00030329492300000314
表示第二个卷积运算,
Figure FDA00030329492300000315
表示输入的视觉特征,
Figure FDA00030329492300000316
表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:
Figure FDA0003032949230000041
其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2c对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C
将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,公式如下:
Figure FDA0003032949230000042
Figure FDA0003032949230000043
4.根据权利要求3所述的方法,其特征在于,所述解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;具体为:
所述解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,提取每组图像中彩色图像的视觉特征和深度图像的深度特征可通过语义分割模型完成;所述将待语义分割图像输入到训练好的语义分割模型后,语义分割模型先提取待语义分割图像中彩色图像的视觉特征和深度图像的深度特征,根据提取的视觉特征和深度特征对图像进行语义分割。
6.一种对图像进行语义分割的系统,其特征在于,包括:
样本确定单元,用于确定样本图像;所述样本图像包括多组图像,每组图像包括一个彩色图像和一个深度图像,且每组图像中的彩色图像和深度图像均对同一成像区域分别彩色图成像和深度图成像得到;不同组图像可以对不同成像区域成像得到;
特征提取单元,用于提取每组图像中彩色图像的视觉特征和深度图像的深度特征,将每组图像提取的视觉特征和深度特征组合成一组特征,得到多组特征;
模型训练单元,用于基于所述多组特征对语义分割模型进行训练;所述语义分割模型包括编码模块和解码模块;其中,编码模块将每组特征输入深度信息引导的特征选择模块DFS,融合得到一组多模特征,通过通道注意力机制CA对各组多模特征进行筛选,并将筛选后的多模特征输入深度选择模块DS学习各个深度特征对应的权重矩阵,基于权重矩阵和相应深度特征筛选出相应的关键深度特征,并将关键深度特征与各组图像提取的视觉特征组合得到各组含有关键深度信息的多模特征;以及基于各组视觉特征和各组含有关键深度信息的多模特征构建深度信息嵌入的可变形卷积模块DDC,以对多模特征进行卷积运算学习每组图像对应的各个采样点的位置偏移,结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置,并对采样点进行卷积运算提取相关的语义特征,并将语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征;解码模块基于融合后的语义特征对每组图像中的彩色图像进行语义分割;所述语义分割指的是为图像中每个像素点对应物体的类别打标签;
图像分割单元,用于将待语义分割图像输入到训练好的语义分割模型,以得到待语义分割图像的分割结果;所述待语义分割图像包括彩色图像和对应的深度图像。
7.根据权利要求6所述的系统,其特征在于,所述语义分割模型中深度信息引导的特征选择模块DFS包括:融合单元、CA以及DS;
所述融合单元将每组特征中的深度特征与视觉特征连接在一起,公式如下:
Figure FDA0003032949230000061
其中,
Figure FDA0003032949230000062
表示输入的视觉特征,
Figure FDA0003032949230000063
表示输入的深度特征,
Figure FDA0003032949230000064
表示连接后的特征,H×W表示特征图的高度和宽度,C表示特征图的通道数;特征图指的是彩色图像特征或者深度图像特征;
所述CA将连接后的特征沿着通道的维度作均值池化操作,公式如下:
Figure FDA0003032949230000065
其中,
Figure FDA0003032949230000066
表示均值池化的输出结果,rd(i,j)表示特征图中每个像素的值,i表示特征图中每个像素的横坐标,j表示特征图中每个像素的纵坐标;将均值池化后的特征经过第一个全连接层、Relu激活函数、第二个全连接层以及Sigmoid函数进一步提取特征,之后与连接后的特征
Figure FDA0003032949230000067
点乘,得到通道注意力机制运算后的结果,公式如下:
Figure FDA0003032949230000068
其中,
Figure FDA0003032949230000069
表示经过CA运算后的输出结果,作为筛选后的多模特征,fc1表示第一个全连接函数,R表示Relu激活函数,fc2表示第二个全连接函数,σ表示Sigmoid函数;
所述CA将筛选后的多模特征输入到DS;
所述DS先通过3×3的卷积进一步提取特征,同时降低特征的维度,减少参数的数量,之后经过第一个1×1的卷积运算与Relu激活函数得到通道数为1的目标矩阵,接着再经过第二个1×1的卷积运算进行调整,调整后的目标矩阵通过Sigmoid函数生成深度特征对应的权重矩阵γH×W,公式如下:
Figure FDA0003032949230000071
其中,f1表示第一个1×1的卷积函数,f3×3表示3×3的卷积函数,f2表示第二个1×1的卷积函数;
将得到的权重矩阵与相应深度特征点乘得到
Figure FDA0003032949230000072
公式如下:
Figure FDA0003032949230000073
Figure FDA0003032949230000074
表示筛选出来的关键深度特征;
将关键深度特征
Figure FDA0003032949230000075
与各组图像提取的视觉特征
Figure FDA0003032949230000076
组合得到各组含有关键深度信息的多模特征RDH×W×C,公式如下:
Figure FDA0003032949230000077
Figure FDA0003032949230000078
8.根据权利要求7所述的系统,其特征在于,所述语义分割模型中DDC包括两个卷积运算;
将含有关键深度信息的多模特征通过第一个卷积运算,得到第二个卷积运算的位置偏移矩阵;第一个卷积运算的公式如下:
Figure FDA0003032949230000079
Figure FDA00030329492300000710
Figure FDA00030329492300000711
表示第一个卷积运算,OffsetH×W×2C为对应第二个卷积运算的位置偏移矩阵,通道是2C意味着存在水平方向和竖直方向的偏移;
对原始的各组视觉特征进行第二个卷积运算的过程中,将第一个卷积运算得到的采样点的位置偏移与第二个卷积运算的采样点的位置坐标相加,通过双线性插值运算得到新的采样点的位置,对新的采样点进行卷积运算,提取相关的语义特征;第二个卷积运算的公式如下:
Figure FDA00030329492300000712
Figure FDA00030329492300000713
Figure FDA00030329492300000714
表示第二个卷积运算,
Figure FDA00030329492300000715
表示输入的视觉特征,
Figure FDA0003032949230000081
表示第二个卷积运算得到的语义特征;第二个卷积运算的具体形式如下:用x代表输入特征图,w表示卷积核的权重,y表示卷积运算的输出;用集合A={(-1,1),(0,1),(1,1),(-1,0),(0,0),(0,1),(-1,-1),(0,-1),(1,-1)}表示卷积核的感受野,也是卷积核采样点的位置坐标,中心坐标(0,0)为卷积核采样的中心点pi,公式如下:
Figure FDA0003032949230000082
其中,pj∈A为感受野中其余的采样点的坐标,(pj+pi+Δpdj)为结合关键深度信息基于采样点对应的物体形状确定各个采样点的位置;Δpdj为采样点的位置偏移,来自OffsetH×W×2C对应的栅格,由第一个卷积运算得到,即Δpdj∈OffsetH×W×2C
将第二个卷积运算得到的语义特征与含有关键深度信息的多模特征融合,得到融合后的语义特征,公式如下:
Figure FDA0003032949230000083
Figure FDA0003032949230000084
9.根据权利要求8所述的系统,其特征在于,所述语义分割模型中解码模块将融合后的语义特征通过空间金字塔池化单元,得到不同尺度的语义特征,公式如下:
(o1,o2,o3,o4,o5)=ASPP(Enc);ASPP表示空间金字塔池化单元,Enc为所述融合后的语义特征,o1,o2,o3,o4,o5为不同尺度的语义特征;将不同尺度的语义特征变换为相同尺寸后连接,公式如下:
o=o1||o2||o3||o4||o5;其中||表示连接运算,o表示连接后的语义特征;
将连接得到的特征o经过1×1的卷积运算进行调整,调整后的特征经过4倍上采样运算得到中间特征,中间特征与DDC得到的相同尺寸的融合后的语义特征连接,再经过3×3的卷积运算进一步提取特征,之后将中间特征进行4倍上采样运算得到分割结果,公式如下:
S=Up(f3×3(Up(f1×1(o||low))));其中,low表示DDC得到的与o相同尺寸的融合后的语义特征,f1×1表示1×1的卷积运算,Up表示4倍上采样运算,f3×3表示3×3的卷积运算,S表示图像语义分割结果。
10.根据权利要求6至9任一项所述的系统,其特征在于,所述特征提取单元基于语义分割模型提取彩色图像的视觉特征和深度图像的深度特征;所述待语义分割图像输入到训练好的语义分割模型后,先被语义分割模型提取视觉特征和深度特征,再基于提取的特征进行语义分割。
CN202110435343.0A 2021-04-22 2021-04-22 一种对图像进行语义分割的方法及系统 Expired - Fee Related CN113205520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110435343.0A CN113205520B (zh) 2021-04-22 2021-04-22 一种对图像进行语义分割的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110435343.0A CN113205520B (zh) 2021-04-22 2021-04-22 一种对图像进行语义分割的方法及系统

Publications (2)

Publication Number Publication Date
CN113205520A CN113205520A (zh) 2021-08-03
CN113205520B true CN113205520B (zh) 2022-08-05

Family

ID=77027928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110435343.0A Expired - Fee Related CN113205520B (zh) 2021-04-22 2021-04-22 一种对图像进行语义分割的方法及系统

Country Status (1)

Country Link
CN (1) CN113205520B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538467A (zh) * 2021-08-09 2021-10-22 北京达佳互联信息技术有限公司 图像分割方法和装置及图像分割模型的训练方法和装置
CN114004969A (zh) * 2021-09-15 2022-02-01 苏州中科华影健康科技有限公司 一种内镜图像病灶区检测方法、装置、设备及存储介质
CN114120253B (zh) * 2021-10-29 2023-11-14 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN114372986B (zh) * 2021-12-30 2024-05-24 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
TWI831183B (zh) * 2022-04-18 2024-02-01 瑞昱半導體股份有限公司 影像物件標籤方法與電路系統
CN114898089B (zh) * 2022-05-18 2022-10-25 中国矿业大学(北京) 一种融合高分影像和poi数据的功能区提取与分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN109101907A (zh) * 2018-07-28 2018-12-28 华中科技大学 一种基于双边分割网络的车载图像语义分割系统
CN112115951A (zh) * 2020-11-19 2020-12-22 之江实验室 一种基于空间关系的rgb-d图像语义分割方法
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN109101907A (zh) * 2018-07-28 2018-12-28 华中科技大学 一种基于双边分割网络的车载图像语义分割系统
CN112396607A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种可变形卷积融合增强的街景图像语义分割方法
CN112115951A (zh) * 2020-11-19 2020-12-22 之江实验室 一种基于空间关系的rgb-d图像语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-D semantic segmentation;Xiaokang Chen,et al;《Computer Vision-ECCV 2020》;20200717;全文 *
水面图像目标检测的强语义特征提取结构;徐海祥 等;《华中科技大学学报》;20210308;全文 *

Also Published As

Publication number Publication date
CN113205520A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113205520B (zh) 一种对图像进行语义分割的方法及系统
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN111681178B (zh) 一种基于知识蒸馏的图像去雾方法
CN112070658A (zh) 一种基于深度学习的汉字字体风格迁移方法
CN110246181A (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN113971764B (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN113962878B (zh) 一种低能见度图像去雾模型方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN109460815A (zh) 一种单目视觉深度估计方法
CN112184731B (zh) 一种基于对抗性训练的多视图立体深度估计方法
CN110210492A (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN114998566A (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN114821316A (zh) 一种三维探地雷达裂缝病害识别方法及系统
CN116935226A (zh) 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质
CN115170978A (zh) 车辆目标检测方法、装置、电子设备及存储介质
CN113744205A (zh) 一种端到端的道路裂缝检测系统
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN116229104A (zh) 一种基于边缘特征引导的显著性目标检测方法
CN113628349B (zh) 基于场景内容自适应的ar导航方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220805