CN110298361B - 一种rgb-d图像的语义分割方法和系统 - Google Patents

一种rgb-d图像的语义分割方法和系统 Download PDF

Info

Publication number
CN110298361B
CN110298361B CN201910430602.3A CN201910430602A CN110298361B CN 110298361 B CN110298361 B CN 110298361B CN 201910430602 A CN201910430602 A CN 201910430602A CN 110298361 B CN110298361 B CN 110298361B
Authority
CN
China
Prior art keywords
features
stage
rgb
semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910430602.3A
Other languages
English (en)
Other versions
CN110298361A (zh
Inventor
孙启超
李宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN201910430602.3A priority Critical patent/CN110298361B/zh
Publication of CN110298361A publication Critical patent/CN110298361A/zh
Application granted granted Critical
Publication of CN110298361B publication Critical patent/CN110298361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种RGB‑D图像的语义分割方法和系统,包括:提取RGB‑D图像多个阶段的RGB编码特征和深度编码特征;将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征;使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息;拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。通过提取RGB‑D图像多个阶段的RGB编码特征和深度编码特征,有效利用RGB‑D图像的颜色信息和深度信息;使用长短期记忆网络效挖掘图像的上下文语义信息,提高对RGB‑D图像的语义分割准确率。

Description

一种RGB-D图像的语义分割方法和系统
技术领域
本申请涉及深度学习技术领域,尤其涉及一种RGB-D图像的语义分割方法和系统。
背景技术
在计算机智能处理图像的应用中语义分割尤为重要。语义分割过程是根据图像的视觉内容识别图像中每一个像素点类别的过程,可以理解为一幅图像中属于同一类别的像素点的像素值相同,语义分割作为图像场景理解的基础,具有重要的研究价值和广阔的应用前景,例如无人机导航和自动驾驶等。
随着深层卷积神经网络的兴起,深层卷积网络已经成为提取图像特征最有效的方法。2015年,全卷积网络开辟利用深度学习完成语义分割任务的新模式,舍弃了传统的语义分割方法的预处理和后处理的一些复杂辅助过程,成为一种比较有效而且快速的语义分割算法,此后出现的语义分割方案都是以此为基础进行改进。
随着深度传感器的普及,人类对图像的研究已经不再局限于彩色图像,并且已经深入到对含有深度信息的RGB-D图像的研究。深度传感器能够在捕捉彩色图像的同时捕捉深度图像,深度图像中的深度代表的是物体表面和摄像机之间的距离,RGB-D图像的包含信息更丰富,研究RGB-D图像的语义分割问题,通过引入图像的深度信息来提升场景语义分割任务的准确度,对很多智能任务都有帮助,包括机器人任务规划,姿态估计,无人机导航,自动驾驶等。
然而现存的方法由于没能完全有效利用颜色信息和深度信息,同时未能有效挖掘图像的上下文语义信息,导致对RGB-D图像语义分割的准确率还不高。
综上所述,需要提供一种能够有效利用RGB-D图像的颜色信息和深度信息,有效挖掘图像的上下文语义信息,提高对RGB-D图像的语义分割准确率的方法和系统。
发明内容
为解决以上问题,本申请提出了一种RGB-D图像的语义分割方法和系统。
一方面,本申请提出一种RGB-D图像的语义分割方法,包括:
提取RGB-D图像多个阶段的RGB编码特征和深度编码特征;
将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征;
使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息;
拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。
优选地,在所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型之后,还包括:
使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
优选地,所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。
优选地,所述将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征,包括:
拼接每个阶段的RGB编码特征和深度编码特征,得到与每个阶段对应的多个特征图集合;
分别对多个特征图集合进行全局平均池化,得到与多个特征图对应的各特征向量;
使用非线性映射计算所述各特征向量,得到多个注意力权重;
分别将每个阶段的特征图集合与注意力权重相乘,得到与各阶段对应的各多模态融合特征。
优选地,所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,包括:
使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描,得到第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息;
依据第五阶段多模态融合特征中各特征值的对应位置,对所述第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息进行拼接,得到垂直语义特征图;
使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描,得到第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息;
依据垂直语义特征图中各特征值的对应位置,对所述第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息进行拼接,得到水平语义特征图;
拼接垂直语义特征图和水平语义特征图,得到上下文语义信息。
优选地,所述拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征,包括:
对第五阶段多模态融合特征和上下文语义信息进行拼接后,经过卷积,得到上下文语义特征。
优选地,所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型,包括:
对上下文语义特征进行上采样,得到第一上采样特征;
将第一上采样特征与第四阶段多模态融合特征融合后,进行上采样,得到第二上采样特征;
将第二上采样特征与第三阶段多模态融合特征融合后,进行上采样,得到第三上采样特征;
将第三上采样特征与第二阶段多模态融合特征融合后,进行上采样,然后经过卷积得到语义分割图和语义分割模型。
优选地,第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后,经过卷积操作得到。
第二方面,本申请提出一种RGB-D图像的语义分割系统,包括:
编码模块,用于提取RGB-D图像各阶段的RGB编码特征和深度编码特征;
特征融合模块,用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型,得到与各阶段对应的各多模态融合特征;
上下文语义提取模块,用于使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
解码模块,用于对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。
优选地,还包括训练模块,用于使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
本申请的优点在于:提取RGB-D图像多个阶段的RGB编码特征和深度编码特征后输入注意力模型,能够有效利用RGB-D图像的颜色信息和深度信息;使用长短期记忆网络提取上下文语义信息后,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征,有效挖掘图像的上下文语义信息,提高对RGB-D图像的语义分割准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种RGB-D图像的语义分割方法的步骤示意图;
图2是本申请提供的一种RGB-D图像的语义分割方法的获取多模态融合特征的方法示意图;
图3是本申请提供的一种RGB-D图像的语义分割方法的获取上下文语义特征的方法示意图;
图4是本申请提供的一种RGB-D图像的语义分割方法的示意图;
图5是本申请提供的一种RGB-D图像的语义分割系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种RGB-D图像的语义分割方法,如图1所示,包括:
S101,提取RGB-D图像多个阶段的RGB编码特征和深度编码特征;
S102,将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征;
S103,使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息;
S104,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
S105,对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。在所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型之后,还包括:
使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
使用编码模块提取RGB-D图像多个阶段的RGB编码特征和深度编码特征,所述编码模块为图像分类网络Resnet50,去除所有全连接层,其余各层的权重使用在ImageNet分类数据集上预训练好的权重进行微调。编码模块包括:卷积层、池化层、批归一化层和非线性激活Relu层。
根据编码得到的特征尺寸大小,编码特征的提取可分为5个阶段,分别得到5个不同尺寸的编码特征。RGB图像提取的5个编码特征记为RF1,RF2,RF3,RF4,RF5。深度图像提取的5个编码特征记为DF1,DF2,DF3,DF4,DF5。
所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。
所述五个阶段的处理步骤,包括:
第一阶段,成对的RGB图像和深度图像经过第一层处理后,得到第一RGB编码特征和第一深度编码特征;
第二阶段,成对的RGB图像和深度图像经过第一层和第二层处理后,得到的RGB编码特征和深度编码特征;
第三阶段,成对的RGB图像和深度图像经过第一层至第三层处理后,得到的RGB编码特征和深度编码特征;
第四阶段,成对的RGB图像和深度图像经过第一层至第四层处理后,得到的RGB编码特征和深度编码特征;
第五阶段,成对的RGB图像和深度图像经过第一层至第五层处理后,得到的RGB编码特征和深度编码特征。
以提取深度图像的多个阶段的深度编码特征为例,将深度图像输入如表1所示的编码模块的层结构。编码模块的第一层(conv1)首先对输入的深度图像使用7×7卷积操作,得到的第一特征图(第一阶段深度编码特征)尺寸为原始图像的1/2。第二层为残差块(conv2_x),首先对第一特征图使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后,得到的第二特征图(第二阶段深度编码特征)尺寸为原始图像的1/4。第三层为残差块(conv3_x),经过连续4次相同1×1和3×3卷积操作以及1×1批归一化操作后,得到的第三特征图(第三阶段深度编码特征)尺寸为原始图像的1/8。第四层为残差块(conv4_x),经过6次相同的1×1和3×3卷积操作以及1×1批归一化操作后,得到的第四特征图(第四阶段深度编码特征)尺寸为原始图像的1/16。第五层为残差块(conv5_x),经过3次相同的1×1和3×3卷积操作以及1×1批归一化操作后,得到的第五特征图(第五阶段深度编码特征)尺寸为原始图像的1/32。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终编码特征通道数为2048个。
表1
Figure BDA0002068865470000061
Figure BDA0002068865470000071
以提取RGB度图像的多个阶段的RGB编码特征为例,将RGB图像输入如表1所示的编码模块的层结构。RGB图像在经过编码模块的第一层和第二层时,编码模块对RGB图像的处理方式同深度图像的处理方式一样,即编码模块的第一层(conv1)首先对输入的RGB图像使用7×7卷积操作,得到的第一阶段RGB编码特征尺寸为原始图像的1/2。第二层为残差块(conv2_x),首先对第一阶段RGB编码特征使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后,得到的第二阶段RGB编码特征尺寸为原始图像的1/4。第三阶段RGB编码特征为第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后,输入第三层进行处理后得到。第四阶段RGB编码特征为第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后,输入第四层进行处理后得到。第五阶段RGB编码特为第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后,输入第五层进行处理后得到。
整个编码模块对输入进行连续的下采样,根据编码得到的特征尺寸大小可分为5个阶段,分别得到5个不同尺寸的中间层(五个层)编码特征。
如图2所示,所述将多个阶段中每个阶段(同一阶段)的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征,包括:
拼接每个阶段的RGB编码特征和深度编码特征,得到与每个阶段对应的多个特征图集合;
分别对多个特征图集合进行全局平均池化,得到与多个特征图对应的各特征向量;
使用非线性映射计算所述各特征向量,得到多个注意力权重;
分别将每个阶段的特征图集合与注意力权重相乘,得到与各阶段对应的各多模态融合特征。
将同一阶段的RGB特征和深度(Depth)特征作为输入,以RF3和DF3为例,它们具有相同的尺寸和维数,首先按照通道维度进行拼接,得到拼接特征X,对于拼接后的特征,对每一个特征图使用全局平均池化操作,得到向量pc,采用sigmoid函数对此向量使用非线性映射计算得到注意力权重w,将得到的权重与原始特征相乘,即得到最终优化后的多模态融合特征
Figure BDA0002068865470000081
具体公式表示如下:
X=concat(RF,DF)
Figure BDA0002068865470000082
w=σ(f(P,w))
Figure BDA0002068865470000083
其中RGB图像的编码特征为RF,深度图的编码特征为DF,X为拼接后的特征,pc为每个特征图的全局平均池化后的向量,H和W为特征的高和宽,i和j为高和宽中的每个点,xc为特征图中每个位置的像素的值,w为计算出的注意力权重,f为非线性映射,σ为sigmoid函数,P为所有pc组成的张量,W为1×1卷积核的参数,wc为w中的每个注意力权重,
Figure BDA0002068865470000084
为通道注意力优化后的特征。
所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,包括:
使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描,得到第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息;
依据第五阶段多模态融合特征中各特征值的对应位置,对所述第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息进行拼接,得到垂直语义特征图;
使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描,得到第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息;
依据垂直语义特征图中各特征值的对应位置,对所述第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息进行拼接,得到水平语义特征图;
拼接垂直语义特征图和水平语义特征图,得到上下文语义信息。
所述使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描,包括:
S1,将第五阶段多模态融合特征划分成多个块,将每个块拉成一列向量;
S2,各长短期记忆网络每个时刻只输入一列向量进行计算,更新各自的隐藏状态并输出给下一时刻的长短期记忆网络使用,同时输出对应此列向量的中间隐状态的输出信息;
S3,各长短期记忆网络在下一个时刻,使用上一个时刻更新后的隐藏状态计算下一列向量,更新各自的隐藏状态并输出给再下一时刻的长短期记忆网络使用,同时输出对应此列向量的中间隐状态的输出信息;
S4,循环S2-S4,直到获得对应所有列向量的中间隐状态的输出信息。
所述使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描,包括:
S5,将垂直语义特征图划分成多个块,将每个块拉成一列向量;
S6,各长短期记忆网络每个时刻只输入一列向量进行计算,更新各自的隐藏状态并输出给下一时刻的长短期记忆网络使用,同时输出对应此列向量的中间隐状态的输出信息;
S7,各长短期记忆网络在下一个时刻,使用上一个时刻更新后的隐藏状态计算下一列向量,更新各自的隐藏状态并输出给再下一时刻的长短期记忆网络使用,同时输出对应此列向量的中间隐状态的输出信息;
S8,循环S6-S7,直到获得对应所有列向量的中间隐状态的输出信息。
对编码最后阶段的融合特征(五阶段多模态融合特征)在四个方向使用长短期记忆网络(Long Short-Term Memory,LSTM)模型进行扫描。如图3所示,将图像平均划分成I×J块,每一块尺寸为m×n×C,C为编码特征的通道数。以m和n都设置为1为例,为了编码每个像素与像素之间的上下文信息,将每一块拉直成一列向量送入LSTM,全局上下文是通过四个LSTM层来获取的,前两个LSTM在垂直方向扫描特征,分别从上到下和从下到上扫描,每个LSTM每次接收一块作为一个时刻的输入,并更新其隐藏状态,将每个中间隐状态得到的特征拼接起来得到垂直方向上下文语义特征(垂直语义特征图),然后将垂直语义特征图送入后两个LSTM,在水平方向扫描特征,分别从左到右从右到左扫描,每个LSTM每次接收一块作为一个时刻的输入,并更新其隐藏状态,将每个中间隐状态得到的特征拼接得到水平方向上下文语义特征(水平语义特征图),最后将垂直和水平方向的上下文语义特征拼接得到全局的上下文语义特征,即上下文语义信息。
以LSTM在垂直方向扫描图像为例,其具体公式表示如下:
Figure BDA0002068865470000101
Figure BDA0002068865470000102
其中,
Figure BDA0002068865470000103
为自上向下扫描在i,j位置的投影值,
Figure BDA0002068865470000104
代表上一时刻的隐藏状态,xi,j代表图像的第i,j块,也就是这一时刻的输入。f代表LSTM单元内部计算操作。
Figure BDA0002068865470000105
为自下向上扫描在i,j位置的投影值,
Figure BDA0002068865470000106
代表上一时刻的隐藏状态。水平方向上的操作与此类同。
以在垂直方向进行扫描为例,假设第一长短期记忆网络为自上向下扫描,第二长短期记忆网络为自下向上扫描。如图3所示,输入第一长短期记忆网络的块的顺序为自上而下,即,从第五阶段多模态融合特征的最左端的最上面的块开始,拉直成一列向量送入第一长短期记忆网络,其次为最左端的从上数第二块,将其拉直成一列向量送入第一长短期记忆网络,直到输入完最左端的从上向下数第四块拉直后的向量,下一个送入第一长短期记忆网络的向量为从左数第二列的最上面的块拉直后的向量,以此类推,将块拉直成一列向量送入第一长短期记忆网络。在自上向下扫描时,水平方向的顺序可以改变,即也可以从右向左,但是垂直方向的顺序不能改变,即只能自上向下扫描。
输入第二长短期记忆网络的块的顺序为自下而上,即,从第五阶段多模态融合特征的最左端的最下面的块开始,拉直成一列向量送入第二长短期记忆网络,其次为最左端的从下数第二块,将其拉直成一列向量送入第二长短期记忆网络,直到输入完最左端的从下向上数第四块拉直后的向量,下一个送入第二长短期记忆网络的向量为从左数第二列的最下面的块拉直后的向量,以此类推,将块拉直成一列向量送入第二长短期记忆网络。在自下向上扫描时,水平方向的顺序可以改变,即也可以从右向左,但是垂直方向的顺序不能改变,即只能自下向上扫描。
通过对多模态特征使用双向LSTM模型,可以提升语义分割网络区分具有相似外观的物体的能力,比如“天花板”和“地板”,“书”和“纸张”。明确的增强上下文语义信息获取能力,并可以使整体网络可以端到端训练。
所述拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征,包括:
对第五阶段多模态融合特征和上下文语义信息进行拼接后,经过卷积,得到上下文语义特征。
对经过卷积(1×1卷积)操作降低通道维数后得到的上下文语义特征,连续使用反卷积对上下文语义特征进行上采样。使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加),使得网络的深层特征除了结合先验信息外,还结合了网络浅层特征图。因此,网络最终得到的特征同时富含局部位置信息和各类别的语义信息。
所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型,包括:
对上下文语义特征进行上采样,得到第一上采样特征;
将第一上采样特征与第四阶段多模态融合特征融合后,进行上采样,得到第二上采样特征;
将第二上采样特征与第三阶段多模态融合特征融合后,进行上采样,得到第三上采样特征;
将第三上采样特征与第二阶段多模态融合特征融合后,进行上采样,然后经过卷积得到语义分割图和语义分割模型。
第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后,经过卷积操作得到。
所述拼接为在特征的通道维度进行拼接。
在所述提取RGB-D图像多个阶段的RGB编码特征和深度编码特征之前,还包括:收集RGB-D语义分割场景图像。
本实施例的方法中,以SUN-RGBD数据集作为训练集,SUN-RGBD数据集是目前最大的RGB-D室内场景语义分割数据集,RGB-D图像中的每个像素可分为38类中的一类,每一类都是在室内场景中常见的物体类别,如桌子、椅子、墙壁和地面等。在本实施例的方法中,使用5285张图片作为训练集,5050张图片作为测试集。
所述使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型,包括:
对训练数据集中的数据通过随机裁剪、缩放和翻转的方式进行扩增;
以每一像素的交叉熵损失的和作为损失函数,再使用带动量的随机梯度下降算法进行误差反向传播,更新模型参数,得到训练好的语义分割模型。
其中,训练阶段使用金字塔监督学习策略,具体实施过程为将标签分别缩放为原始尺寸的1/2,1/4和1/8,对上采样每一阶段不同尺寸的语义分数图输出与对应尺寸的标签使用交叉熵计算损失,根据尺寸不同,得到4个损失(loss),最终的损失函数为这4个损失的总和。在本实施例的方法中,训练使用的图像的初始尺寸为480×640,初始学习率为0.002,动量为0.09,权重衰减系数为0.0004。
在测试阶段输入新的图像,在已训练好的模型中前向传播输出语义分割结果。本实施例的方法使用SUN-RGBD语义分割测试数据集进行测试,如表2所示,测试结果平均像素准确率(mean accuracy)为60.1%,平均交并比(mean IoU)为47.5%。相比之前的语义分割方法,本实施例的方法得到的分割准确率有很可观的提升。
表2
序号 方法 平均像素准确率 平均交并比
1 FCN-32s 41.1 29.0
2 LSTM-F 48.1 -
3 Context 53.4 42.3
4 FuseNet-SF5 48.3 37.3
5 LSD-GF 58.0 -
6 本实施例的方法 60.1 47.5
其中,第一个方法为J.Long,E.Shelhamer和T.Darrell提出的全卷积网络语义分割(Fully convolutional networks for semantic segmentation);第二个方法为Z.Li,Y.Gan,X.Liang,Y.Yu,H.Cheng和L.Lin提出的用于RGB-D场景标记的统一上下文建模和与LSTMs融合,(LSTM-CF:UniContext Modeling and Fusion with LSTMs for RGB-D SceneLabeling);第三个方法为Guosheng Lin,ChunhuaShen,Anton van den Hengel和Ian Reid提出的用于语义分割的上下文探索和深层结构模型(Exploring context with deepstructured models for semantic segmentation);第四个方法为Caner Hazirbas,Lingni Ma,CsabaDomokos和Daniel Cremers提出的融合网:通过基于融合的CNN架构将深度融入语义分割(FuseNet:Incorporating Depth into Semantic Segmentation viaFusion-Based CNN Architecture);第五个方法为Yanhua Cheng,RuiCai,Zhiwei Li,XinZhao和Kaiqi Huang提出的用于RGB-D室内语义分割的具有门控融合的局部敏感反卷积网络(Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-DIndoor Semantic Segmentation)。
如图4所示,RGB图像进入编码模块层结构的第一层,经过7×7卷积操作,得到的第一阶段RGB编码特征;深度图像进入编码模块层结构的第一层,经过7×7卷积操作,得到的第一阶段深度编码特征。第二层对第一阶段RGB编码特征使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后,得到第二阶段RGB编码特征;第二层对第一阶段深度编码特征使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后,得到第二阶段深度编码特征。
将第二阶段RGB编码特征和第二阶段深度编码特征输入注意力模型,得到第二阶段多模态融合特征。
第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后,输入第三层进行处理,得到第三阶段RGB编码特征;第三层对第二阶段深度编码特征使用连续4次相同1×1和3×3卷积操作以及1×1批归一化操作后,得到第三阶段深度编码特征。
将第三阶段RGB编码特征和第三阶段深度编码特征输入注意力模型,得到第三阶段多模态融合特征。
第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后,输入第四层进行处理,得到第四阶段RGB编码特征;第四层对第三阶段深度编码特征使用6次相同的1×1和3×3卷积操作以及1×1批归一化操作后,得到第四阶段深度编码特征。
将第四阶段RGB编码特征和第四阶段深度编码特征输入注意力模型,得到第四阶段多模态融合特征。
第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后,输入第五层进行处理,得到第五阶段RGB编码特征;第五层对第四阶段深度编码特征使用3次相同的1×1和3×3卷积操作以及1×1批归一化操作后,得到第五阶段深度编码特征。
将第五阶段RGB编码特征和第五阶段深度编码特征输入注意力模型,得到第五阶段多模态融合特征。
使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,对第五阶段多模态融合特征和上下文语义信息进行拼接后,经过卷积,得到上下文语义特征。
对上下文语义特征进行上采样,得到第一上采样特征。将第一上采样特征与第四阶段多模态融合特征融合(对应元素相加)后,进行采样,得到第二上采样特征。将第二上采样特征与第三阶段多模态融合特征融合(对应元素相加)后,进行采样,得到第三上采样特征。将第三上采样特征与第二阶段多模态融合特征融合(对应元素相加)后,进行上采样,然后经过卷积得到语义分割图和语义分割模型。
根据本申请的实施方式,还提出一种RGB-D图像的语义分割系统,如图5所示,包括:
编码模块101,用于提取RGB-D图像各阶段的RGB编码特征和深度编码特征;
特征融合模块102,用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型,得到与各阶段对应的各多模态融合特征;
上下文语义提取模块103,用于使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
解码模块104,用于对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。
所述系统还包括训练模块,用于使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
所述编码模块包括两个相同的编码单元:RGB编码单元和深度编码单元。
将成对的RGB图像和深度图像分别送入对应的编码单元,即将RGB图像送入RGB编码单元,将深度图像送入深度编码单元。两个编码单元分别提取图像的RGB编码特征和深度编码特征。
所述编码模块中的编码单元为图像分类网络Resnet50,去除所有全连接层,其余各层的权重使用在ImageNet分类数据集上预训练好的权重进行微调。编码单元包括:卷积层、池化层、批归一化层和非线性激活Relu层。
以提取深度图像的多个阶段的深度编码特征为例,将深度图像输入深度编码单元,深度编码单元的结构以表1所示的结构为例。深度图像输入深度编码单元的第一层,经过卷积操作,得到的第一特征图(第一阶段深度编码特征)尺寸为原始图像的1/2。将第一阶段深度编码特征输入第二层进行处理之后,得到的第二特征图(第二阶段深度编码特征)尺寸为原始图像的1/4。将第二阶段深度编码特征输入第三层进行处理之后,得到的第三特征图(第三阶段深度编码特征)尺寸为原始图像的1/8。将第三阶段深度编码特征输入第四层进行处理之后,得到的第四特征图(第四阶段深度编码特征)尺寸为原始图像的1/16。将第四阶段深度编码特征输入第四层进行处理之后,得到的第五特征图(第五阶段深度编码特征)尺寸为原始图像的1/32。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终编码特征通道数为2048个。
以提取RGB度图像的多个阶段的RGB编码特征为例,将RGB图像输入RGB编码单元,RGB编码单元的结构以表1所示的结构为例。RGB图像在经过编码模块的第一层和第二层时,编码模块对RGB图像的处理方式同深度图像的处理方式一样,即编码模块的第一层(conv1)首先对输入的RGB图像使用7×7卷积操作,得到的第一阶段RGB编码特征尺寸为原始图像的1/2。第二层为残差块(conv2_x),首先对第一阶段RGB编码特征使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作之后,得到的第二阶段RGB编码特征尺寸为原始图像的1/4。
编码模块将第二阶段RGB编码特征和第二阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合,得到第二阶段多模态融合特征。
特征融合模块将第二阶段多模态融合特征发送至编码模块。
编码模块将第二阶段RGB编码特征与第二阶段多模态融合特征的对应位置元素相加后,输入RGB编码单元第三层进行处理后得到第三阶段RGB编码特征。
编码模块将第三阶段RGB编码特征和第三阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合,得到第三阶段多模态融合特征。
特征融合模块将第三阶段多模态融合特征发送至编码模块。
编码模块将第三阶段RGB编码特征与第三阶段多模态融合特征的对应位置元素相加后,输入RGB编码单元第四层进行处理后得到第四阶段RGB编码特征。
编码模块将第四阶段RGB编码特征和第四阶段深度编码特征发送至特征融合模块的注意力模型进行多模态特征融合,得到第四阶段多模态融合特征。
特征融合模块将第四阶段多模态融合特征发送至编码模块。
编码模块将第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后,输入RGB编码单元第五层进行处理后得到第五阶段RGB编码特征。
编码模块将第四阶段RGB编码特征与第四阶段多模态融合特征的对应位置元素相加后,输入RGB编码单元第五层进行处理后得到第五阶段RGB编码特。
根据编码得到的特征尺寸大小,编码特征的提取可分为5个阶段,分别得到5个不同尺寸的编码特征。RGB图像提取的5个编码特征记为RF1,RF2,RF3,RF4,RF5。深度图像提取的5个编码特征记为DF1,DF2,DF3,DF4,DF5。
将各编码单元中间层提取的同一尺寸的RGB编码特征和深度编码特征送入特征融合模块提取多模态融合特征。
特征融合模块将第五阶段RGB编码特征和第五阶段深度编码特征送入注意力模型进行多模态特征融合,得到第五阶段多模态融合特征。
特征融合模块将第五阶段多模态融合特征送入上下文语义模块提取上下文语义信息。
特征融合模块还发送第二阶段多模态融合特征、第三阶段多模态融合特征和第四阶段多模态融合特征至解码模块。
所述特征融合模块包括注意力多模态融合单元,用于自动衡量不同模态对于最终语义分割任务的贡献程度。
特征融合模块通过自适应训练注意力权重,来有效地融合不同模态的特征,同时学习各模态特征的相对重要性,得到的多模态融合特征经过卷积操作来降低维数并进一步优化,然后使用跳跃连接方法和对应阶段的解码上采样的特征拼接。
注意力多模态融合单元将同一阶段的RGB特征和深度特征输入注意力模型,以RF3和DF3为例,首先按照通道维度拼接RF3和DF3,对于拼接后的特征,对每一个特征图使用全局平均池化操作,得到一列向量,对此向量使用非线性映射计算得到通道注意力权重,将得到的权重与原始特征作乘法运算,即得到最终优化后的多模态融合特征。
所述上下文语义提取模块用来获取多模态融合特征的上下文语义信息,对编码最后阶段的融合特征在四个方向使用LSTM模型进行扫描。如图3所示,将图像平均划分成I×J块,每一块尺寸为m×n×C,C为编码特征的通道数。以m和n都设置为1为例,为了编码每个像素与像素之间的上下文信息,将每一块拉直成一列向量送入LSTM,全局上下文是通过四个LSTM层来获取的,前两个LSTM在垂直方向扫描特征,分别从上到下和从下到上扫描,每个LSTM每次接收一块作为一个时刻的输入,并更新其隐藏状态,将每个中间隐状态得到的特征拼接起来得到垂直方向上下文语义特征(垂直语义特征图),然后将垂直语义特征图送入后两个LSTM,在水平方向扫描特征,分别从左到右从右到左扫描,每个LSTM每次接收一块作为一个时刻的输入,并更新其隐藏状态,将每个中间隐状态得到的特征拼接得到水平方向上下文语义特征(水平语义特征图),最后将垂直和水平方向的上下文语义特征拼接得到全局的上下文语义特征,即上下文语义信息。
上下文语义提取模块对第五阶段多模态融合特征和上下文语义信息进行拼接后,经过卷积,得到上下文语义特征,发送至解码模块。
解码模块包括:反卷积层、池化层、批归一化层和非线性激活Relu层。其结构和编码模块中的编码单元类似,为编码单元的反向操作。
解码模块将上下文语义信息与第五阶段多模态融合特征拼接得到上下文语义特征;对上下文语义特征进行连续的上采样并与对应编码阶段的编码特征融合,经过卷积操作得到语义分数图(语义分割图)。
所述解码模块连续使用反卷积对上下文语义特征进行上采样。并使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加),使得网络的深层特征除了结合先验信息外,还结合了网络浅层特征图。因此,网络最终得到的特征同时富含局部位置信息和各类别的语义信息。
解码模块对上下文语义特征进行上采样,得到第一上采样特征。将第一上采样特征与第四阶段多模态融合特征融合(对应元素相加)后,进行采样,得到第二上采样特征。将第二上采样特征与第三阶段多模态融合特征融合(对应元素相加)后,进行采样,得到第三上采样特征。将第三上采样特征与第二阶段多模态融合特征融合(对应元素相加)后,进行上采样,然后经过卷积得到语义分割图和语义分割模型。
训练模块对训练数据集中的数据通过随机裁剪、缩放和翻转的方式进行扩增;以每一像素的交叉熵损失的和作为损失函数,再使用随机梯度下降算法进行误差反向传播,更新模型参数,得到训练好的语义分割模型。
本申请的方法中,提取RGB-D图像多个阶段的RGB编码特征和深度编码特征后输入注意力模型,能够有效利用RGB-D图像的颜色信息和深度信息;使用长短期记忆网络提取上下文语义信息后,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征,有效挖掘图像的上下文语义信息,提高对RGB-D图像的语义分割准确率。基于卷积的图像特征提取方法只能提取图像的局部上下文信息,但是通过对多模态特征使用双向LSTM模型,可以提升语义分割网络区分具有相似外观的物体的能力,比如“天花板”和“地板”,“书”和“纸张”。明确的增强上下文语义信息获取能力,并可以使整体网络可以端到端训练。使用跳跃连接的方式将各阶段的多模态融合特征与对应的解码特征进行融合(对应元素相加),使得网络的深层特征除了结合先验信息外,还结合了网络浅层特征图。因此,网络最终得到的特征同时富含局部位置信息和各类别的语义信息。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种RGB-D图像的语义分割方法,其特征在于,包括:
提取RGB-D图像多个阶段的RGB编码特征和深度编码特征;其中,第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后,经过卷积操作得到;
将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征;
使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息;
拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。
2.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,在所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型之后,还包括:
使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
3.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,所述多个阶段是根据RGB编码特征和深度编码特征的尺寸分为五个阶段。
4.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,所述将多个阶段中每个阶段的RGB编码特征和深度编码特征输入注意力模型,得到与每个阶段对应的各多模态融合特征,包括:
拼接每个阶段的RGB编码特征和深度编码特征,得到与每个阶段对应的多个特征图集合;
分别对多个特征图集合进行全局平均池化,得到与多个特征图对应的各特征向量;
使用非线性映射计算所述各特征向量,得到多个注意力权重;
分别将每个阶段的特征图集合与注意力权重相乘,得到与各阶段对应的各多模态融合特征。
5.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,所述使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,包括:
使用并行的第一长短期记忆网络和第二长短期记忆网络对第五阶段多模态融合特征在垂直方向扫描,得到第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息;
依据第五阶段多模态融合特征中各特征值的对应位置,对所述第一长短期记忆网络和第二长短期记忆网络的中间隐状态的输出信息进行拼接,得到垂直语义特征图;
使用并行的第三长短期记忆网络和第四长短期记忆网络对垂直语义特征图在水平方向扫描,得到第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息;
依据垂直语义特征图中各特征值的对应位置,对所述第三长短期记忆网络和第四长短期记忆网络的中间隐状态的输出信息进行拼接,得到水平语义特征图;
拼接垂直语义特征图和水平语义特征图,得到上下文语义信息。
6.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,所述拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征,包括:
对第五阶段多模态融合特征和上下文语义信息进行拼接后,经过卷积,得到上下文语义特征。
7.如权利要求1所述的一种RGB-D图像的语义分割方法,其特征在于,所述对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型,包括:
对上下文语义特征进行上采样,得到第一上采样特征;
将第一上采样特征与第四阶段多模态融合特征融合后,进行上采样,得到第二上采样特征;
将第二上采样特征与第三阶段多模态融合特征融合后,进行上采样,得到第三上采样特征;
将第三上采样特征与第二阶段多模态融合特征融合后,进行上采样,然后经过卷积得到语义分割图和语义分割模型。
8.一种RGB-D图像的语义分割系统,其特征在于,包括:
编码模块,用于提取RGB-D图像各阶段的RGB编码特征和深度编码特征;
特征融合模块,用于将各同一阶段的RGB编码特征和深度编码特征输入注意力模型,得到与各阶段对应的各多模态融合特征;其中,第三阶段RGB编码特征、第四阶段RGB编码特征和第五阶段RGB编码特征为其前一个阶段的RGB编码特征和多模态融合特征的对应位置元素相加后,经过卷积操作得到;
上下文语义提取模块,用于使用长短期记忆网络提取第五阶段多模态融合特征的上下文语义信息,拼接第五阶段多模态融合特征和上下文语义信息,得到上下文语义特征;
解码模块,用于对上下文语义特征进行上采样,使用跳跃连接方式与对应阶段的多模态融合特征融合,得到语义分割图和语义分割模型。
9.如权利要求8所述的一种RGB-D图像的语义分割系统,其特征在于,还包括训练模块,用于使用反向传播训练所述语义分割模型,更新所述语义分割模型中的参数,得到训练好的语义分割模型。
CN201910430602.3A 2019-05-22 2019-05-22 一种rgb-d图像的语义分割方法和系统 Active CN110298361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430602.3A CN110298361B (zh) 2019-05-22 2019-05-22 一种rgb-d图像的语义分割方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430602.3A CN110298361B (zh) 2019-05-22 2019-05-22 一种rgb-d图像的语义分割方法和系统

Publications (2)

Publication Number Publication Date
CN110298361A CN110298361A (zh) 2019-10-01
CN110298361B true CN110298361B (zh) 2021-05-04

Family

ID=68027029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430602.3A Active CN110298361B (zh) 2019-05-22 2019-05-22 一种rgb-d图像的语义分割方法和系统

Country Status (1)

Country Link
CN (1) CN110298361B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796105A (zh) * 2019-11-04 2020-02-14 中国矿业大学 一种基于多模态数据融合的遥感图像语义分割方法
CN111062964B (zh) * 2019-11-28 2023-07-14 深圳市华尊科技股份有限公司 图像分割方法及相关装置
CN110969632B (zh) * 2019-11-28 2020-09-08 北京推想科技有限公司 一种深度学习模型的训练方法、图像处理方法及装置
CN111160140B (zh) * 2019-12-13 2023-04-18 浙江大华技术股份有限公司 一种图像检测方法及装置
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN111242132A (zh) * 2020-01-07 2020-06-05 广州赛特智能科技有限公司 室外道路场景语义分割方法、装置、电子设备及存储介质
CN111292340B (zh) * 2020-01-23 2022-03-08 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN111340766B (zh) * 2020-02-21 2024-06-11 北京市商汤科技开发有限公司 目标对象的检测方法、装置、设备和存储介质
CN113361529B (zh) * 2020-03-03 2024-05-10 北京四维图新科技股份有限公司 图像语义分割方法、装置、电子设备及存储介质
CN111340814B (zh) * 2020-03-03 2024-04-09 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111553391A (zh) * 2020-04-09 2020-08-18 东南大学 语义分割技术中的特征融合方法
CN111709947B (zh) * 2020-04-24 2024-04-02 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111260653B (zh) * 2020-04-27 2020-08-25 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112329780B (zh) * 2020-11-04 2023-10-27 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112507898B (zh) * 2020-12-14 2022-07-01 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN112562855B (zh) * 2020-12-18 2021-11-02 深圳大学 一种肝细胞癌术后早期复发风险预测方法、介质及终端设备
CN112527968A (zh) * 2020-12-22 2021-03-19 大唐融合通信股份有限公司 一种基于神经网络的作文评阅方法和系统
CN112861911B (zh) * 2021-01-10 2024-05-28 西北工业大学 一种基于深度特征选择融合的rgb-d语义分割方法
CN112862830B (zh) * 2021-01-28 2023-12-22 陕西师范大学 一种多模态图像分割方法、系统、终端及可读存储介质
CN113011555B (zh) * 2021-02-09 2023-01-31 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN113240631B (zh) * 2021-04-22 2023-12-12 北京中科慧眼科技有限公司 基于rgb-d融合信息的路面检测方法、系统和智能终端
CN113222003B (zh) * 2021-05-08 2023-08-01 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及系统
CN113283435B (zh) * 2021-05-14 2023-08-22 陕西科技大学 一种基于多尺度注意力融合的遥感图像语义分割方法
CN113298154B (zh) * 2021-05-27 2022-11-11 安徽大学 一种rgb-d图像显著目标检测方法
CN113313718B (zh) * 2021-05-28 2023-02-10 华南理工大学 一种基于深度学习的急性腰椎骨折mri图像分割系统
CN113538442B (zh) * 2021-06-04 2024-04-09 杭州电子科技大学 一种使用自适应特征融合的rgb-d显著目标检测方法
CN113393443B (zh) * 2021-06-17 2023-02-14 华南理工大学 一种he病理图像细胞核分割方法及系统
CN113449623B (zh) * 2021-06-21 2022-06-28 浙江康旭科技有限公司 一种基于深度学习的轻型活体检测方法
CN114120253B (zh) * 2021-10-29 2023-11-14 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN114372986B (zh) * 2021-12-30 2024-05-24 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114913325B (zh) * 2022-03-24 2024-05-10 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN114972756A (zh) * 2022-05-30 2022-08-30 湖南大学 一种医学图像的语义分割方法及装置
CN114723951B (zh) * 2022-06-08 2022-11-04 成都信息工程大学 一种用于rgb-d图像分割的方法
CN116109645B (zh) * 2023-04-14 2023-07-07 锋睿领创(珠海)科技有限公司 基于先验知识的智能处理方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FuseNet: Incorporating Depth into Semantic;Caner Hazirbas et al.;《ACCV 2016》;20171231;第213–228页 *
In Defense of Pre-trained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images;Marin Or si et al.;《arXiv》;20190412;第1-10页 *
LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling;Zhen Li et al.;《arXiv》;20160726;第1-17页 *

Also Published As

Publication number Publication date
CN110298361A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110298361B (zh) 一种rgb-d图像的语义分割方法和系统
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN113469094B (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN111680176B (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN107103285B (zh) 基于卷积神经网络的人脸深度预测方法
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110222607A (zh) 人脸关键点检测的方法、装置及系统
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN111611925A (zh) 一种建筑物检测与识别方法及装置
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN116109920A (zh) 一种基于Transformer的遥感图像建筑物提取方法
CN112733777B (zh) 一种遥感图像的道路提取方法、装置、设备和存储介质
CN114612666A (zh) 一种基于多模态对比学习的rgb-d语义分割方法
CN111311732B (zh) 3d人体网格获取方法及装置
CN117392488A (zh) 一种数据处理方法、神经网络及相关设备
CN112288702A (zh) 一种基于车联网的道路图像检测方法
CN111476075A (zh) 利用1x1卷积的基于CNN的客体检测方法及装置
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN115937594A (zh) 基于局部与全局特征融合的遥感图像分类方法和装置
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200825

Address after: Room 101, building 1, block C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Weiming Information Technology Co.,Ltd.

Applicant after: Institute of Information Technology, Zhejiang Peking University

Address before: Room 288-1, 857 Xinbei Road, Ningwei Town, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant before: Institute of Information Technology, Zhejiang Peking University

Applicant before: Hangzhou Weiming Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191001

Assignee: Zhejiang smart video security Innovation Center Co.,Ltd.

Assignor: Institute of Information Technology, Zhejiang Peking University

Contract record no.: X2022330000930

Denomination of invention: A Semantic Segmentation Method and System for RGB D Images

Granted publication date: 20210504

License type: Common License

Record date: 20221229

EE01 Entry into force of recordation of patent licensing contract