CN107403430B - 一种rgbd图像语义分割方法 - Google Patents

一种rgbd图像语义分割方法 Download PDF

Info

Publication number
CN107403430B
CN107403430B CN201710453788.5A CN201710453788A CN107403430B CN 107403430 B CN107403430 B CN 107403430B CN 201710453788 A CN201710453788 A CN 201710453788A CN 107403430 B CN107403430 B CN 107403430B
Authority
CN
China
Prior art keywords
image
long
depth
network
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710453788.5A
Other languages
English (en)
Other versions
CN107403430A (zh
Inventor
林倞
甘宇康
李冠彬
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201710453788.5A priority Critical patent/CN107403430B/zh
Publication of CN107403430A publication Critical patent/CN107403430A/zh
Application granted granted Critical
Publication of CN107403430B publication Critical patent/CN107403430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供了一种RGBD图像语义分割方法,包括以下步骤:S1、采集训练样本的数据;S2、构建可配置的深度模型,并将训练样本的数据输入深度模型,以对深度模型进行训练;S3、获取需要进行语义分割的彩色图及其对应的深度图,利用训练后的深度模型对彩色图和深度图进行分析,预测RGBD图像中每个像素所属的物体类别;S4、根据S3的结果,形成并输出预测的图像语义分割图。本发明利用深层次的卷积神经网络和长短时记忆网络以及大数据,能有效地融合彩色图像和深度图像的特征,并且能有效地挖掘图像中的上下文信息,拥有很高的准确率。

Description

一种RGBD图像语义分割方法
技术领域
本发明涉及计算机视觉和模式识别领域,具体涉及一种基于卷积神经网络和长短时记忆网络的RGBD图像语义分割方法。
背景技术
语义分割是计算机视觉研究中的一个重要领域,其主要任务是让计算机能够知道图像中每个像素“是什么”,它的应用包括机器人任务规划,姿态估计以及基于内容的图像检索等。语义分割的目标是希望计算机能自动地预测未知图像中每个像素所属的物体类别,如桌子、路面、墙等。语义分割可以分为基于室外场景图像的语义分割和基于室内场景图像的语义分割两个方向。近年来出现的廉价的深度传感器,如kinect、realsence、xtion等,让基于室内场景图像的语义分割算法多了一个可以利用的数据源。这对提高语义分割算法的识别准确率有非常大的帮助。
但是,目前的基于RGB图像的语义分割算法由于场景图像中物体被遮挡、物体形状外观变化大、物体分布密集以及环境嘈杂等因素,难以做到鲁棒。而基于RGBD图像的语义分割算法不仅要面对RGB图像中存在的挑战,还要面临怎么利用好深度图像提供的信息的问题。
目前基于RGBD图像的语义分割存在以下两个主要的问题:
1)如何更好地表达和融合彩色图像和深度图像的数据。
2)如何在特征学习过程中得到图像全局的上下文信息。
综上,现有的基于RGBD图像的语义分割方法在彩色图和深度图的数据融合上多是简单地层叠卷积网络的特征,这种方法往往不能很好地融合彩色图和深度图的特征,也不具有学习图像全局上下文信息的能力。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于卷积神经网络和长短时记忆网络的RGBD图像语义分割方法,该方法能够有效地融合彩色图和深度图的信息,同时还能学习到图像的全局上下文信息,提高了对RGBD图像进行语义分割的准确率。
为实现上述目的,本发明采用以下技术方案:
一种RGBD图像语义分割方法,包括以下步骤:
S1、采集训练样本的数据;
S2、构建可配置的深度模型,并将训练样本的数据输入深度模型,以对深度模型进行训练;
S3、获取需要进行语义分割的彩色图及其对应的深度图,利用训练后的深度模型对彩色图和深度图进行分析,预测RGBD图像中每个像素所属的物体类别;
S4、根据S3的结果,形成并输出预测的图像语义分割图;
其中,所述深度模型包括三个依次串联的子网络;
第一子网络用于对彩色图像和深度图像数据的基础表达进行提取和学习,包括用于提取彩色图的特征的第一卷积神经网络,以及用于提取深度图的特征的第二卷积神经网络;
第二子网络用于融合彩色图和深度图的特征以及学习图像的全局上下文信息,包括用于提取彩色图的上下文信息的第一长短时记忆网络,用于提取深度图像的上下文信息的第二长短时记忆网络,以及用于融合彩色图和深度图的上下文信息的第三长短时记忆网络;
第三子网络包括第三卷积神经网络,用于融合局部特征和全局特征,进而预测图像像素所属的物体类别;
彩色图依次经过第一卷积神经网络、第一长短时记忆网络处理后汇入第三长短时记忆网络;深度图依次经过第二卷积神经网络、第二长短时记忆网络处理后汇入第三长短时记忆网络;第三子网络根据第二子网络的输出和第一卷积神经网络的输出层叠得到的特征,输出RGBD图像中每个像素属于每一物体类别的概率值,进而预测RGBD图像像素所属的物体类别,最终输出图像语义分割图。
进一步地,所述S1包括:
S101、分别通过摄像头和深度传感器在同一位置对同一方向的景物进行拍摄,分别得到彩色图及其对应的深度图;
S102、使用标注软件对S101获得图片的每个像素标注其所属类别,获得图像语义分割标注图;
S103、将深度图编码成HHA特征;
所述S2中,对深度模型进行训练的方法包括:
S201、输入训练样本;
S202、初始化各卷积神经网络以及长短时记忆网络及其参数,所述参数包括卷积神经网络和长短时记忆网络中每层的权重和偏置;
S203、采用正向传播算法和后向传播算法,利用训练样本学习出构建深度模型的网络参数,即训练出用于在S3中进行物体类别预测的深度模型。
所述S3包括:
S301、载入训练好的模型;
S302、输入待分析的测试图像,所述测试图像包括彩色图以及用深度传感器拍摄得到的对应的深度图;
S303、利用训练好的模型,预测图像中每个像素所属的物体类别。
进一步地,所述S201中的训练样本所包含的数据包括:包括彩色图像数据、深度图像数据和图像语义分割标注图,其中深度图像被编码成HHA特征。
进一步地,在所述深度模型中,第一卷积神经网络是在海量数据集ImageNet上预先训练好的;第二卷积神经网络的参数是随机初始化的。
进一步地,所述第一至第三卷积神经网络由卷积层、降采样层和矫正线性单元层堆叠而成;
所述卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling(对邻域内特征点取最大)操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化;
其中,所述第一卷积神经网络包括多个串联的卷积层,其中还穿插有降采样层;所述第二卷积神经网络包括多个串联的卷积层,其中还穿插有降采样层;所述第三卷积神经网络由1个卷积层组成。
进一步地,所述第二子网络包括6个长短时记忆层;
其中,所述第一长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第二长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第三长短时记忆网络包括1个从左到右扫描的长短时记忆层,以及1个从右到左扫描的长短时记忆层。
进一步地,每个长短时记忆层包括多个长短时记忆单元,每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元,其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。
进一步地,所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量,其中(H,W)为输入图片大小。
进一步地,S203中的后向传播算法需要先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω),然后求得其对于神经网络参数ω的梯度,采用随机下降的算法更新ω以最小化损失函数J,损失函数J(ω)定义为:
Figure BDA0001323193370000051
其中,batchsize为输入的RGBD图像数目,H和W分别是图像的高和宽,gt是真实的像素所属类别,c是预测的像素所属类别,x是输入的RGBD图像。
进一步地,在S3中,预测RGBD图像像素所属物体类别的具体方法为:
将所有图片输入到载入好的模型中,得到预测的每个像素属于每一物体类别的概率,将概率最大的物体类别作为对应像素所属的物体类别。
与现有技术相比,本发明的有益效果是:
第一,本发明利用深度学习,构建深层次的卷积神经网络,来从大量的训练样本(这些训练样本包含了多样的室内场景,如客厅、厨房、办公室、卧室等。)中自动学习出有效的特征,而不在依赖人工设计的先验条件和场景分布的约束。通过学习出的有效特征,直接预测出图像中每个像素所属的物体类别。
第二,本发明用一个模型实现了彩色图像和深度图像数据的融合,以及学习到有效的图像全局上下文信息,充分利用彩色图和深度图融合后得到的有效的局部和全局特征,显著地提高了基于RGBD图像的语义分割算法的准确性。并且本发明具有端对端训练的可微分结构,可以整体优化模型的各个模块。
本发明利用深层次的卷积神经网络和长短时记忆网络以及大数据,能有效地融合彩色图像和深度图像的特征,并且能有效地挖掘图像中的上下文信息,拥有很高的准确率。
附图说明
图1是本发明提供的一种RGBD图像语义分割方法的流程示意图。
图2是本发明中深度模型中各层的分布图。
图3是本发明提供的一种RGBD图像语义分割方法的数据流向图。
具体实施方式
下面将结合附图和具体的实施例,对本发明的技术方案进行详细说明。
如图1所示,本发明提供的一种RGBD图像语义分割方法包括以下步骤:
S1、采集训练样本的数据;
S2、构建可配置的深度模型,并将训练样本的数据输入深度模型,以对深度模型进行训练;
S3、获取需要进行语义分割的彩色图及其对应的深度图,利用训练后的深度模型对彩色图和深度图进行分析,预测RGBD图像中每个像素所属的物体类别;
S4、根据S3的结果,形成并输出预测的图像语义分割图;。
具体地,所述S1包括:
S101、分别通过摄像头和深度传感器在同一位置对同一方向的景物进行拍摄,分别得到彩色图及其对应的深度图;
S102、使用标注软件对S101获得图片的每个像素标注其所属类别,获得图像语义分割标注图;
S103、将深度图像编码成HHA特征;
进一步地,所述S2中,对深度模型进行训练的方法包括:
S201、输入训练样本;
S202、初始化各卷积神经网络以及长短时记忆网络及其参数,所述参数包括卷积神经网络和长短时记忆网络中每层的权重和偏置;
S203、采用正向传播算法和后向传播算法,利用训练样本学习出构建深度模型的网络参数,即训练出用于在S3中进行物体类别预测的深度模型。
进一步地,所述S3包括:
S301、载入训练好的模型;
S302、输入待分析的测试图像,所述测试图像包括彩色图以及用深度传感器拍摄得到的对应的深度图;
S303、利用训练好的模型,预测图像中每个像素所属的物体类别。
下面将对各步骤的中一些必要的细节进行详细说明。
具体地,所述S201中的训练样本所包含的数据包括:包括彩色图像数据、深度图像数据和图像语义分割标注图,其中深度图像被编码成HHA特征。
进一步地,S203中的后向传播算法具体为:先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω),然后求得其对于神经网络参数ω的梯度,采用随机下降的算法更新ω以最小化损失函数J,损失函数J(ω)定义为:
Figure BDA0001323193370000081
其中,batchsize为输入的RGBD图像数目,H和W分别是图像的高和宽,gt是真实的像素所属类别,c是预测的像素所属类别,x是输入的RGBD图像。
进一步地,在S3中,预测RGBD图像像素所属物体类别的具体方法为:
将所有图片输入到载入好的模型中,得到预测的每个像素属于每一物体类别的概率,将概率最大的物体类别作为对应像素所属的物体类别。
下面将对本发明采用的深度模型的结构进行详细说明。
具体地,所述深度模型包括三个依次串联的子网络;
第一子网络用于对彩色图像和深度图像数据的基础表达进行提取和学习,包括用于提取彩色图的特征的第一卷积神经网络,以及用于提取深度图的特征的第二卷积神经网络;
第二子网络用于融合彩色图和深度图的特征以及学习图像的全局上下文信息,包括用于提取彩色图的上下文信息的第一长短时记忆网络,用于提取深度图像的上下文信息的第二长短时记忆网络,以及用于融合彩色图和深度图的上下文信息的第三长短时记忆网络;
第三子网络包括第三卷积神经网络,用于融合局部特征和全局特征,进而预测图像像素所属的物体类别;具体地,所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量,其中(H,W)为输入图片大小。
其中,在所述深度模型中,第一卷积神经网络是在海量数据集ImageNet上预先训练好的;由于深度图像没有对应的海量标注数据集,第二卷积神经网络的参数是随机初始化的。
进一步地,所述第一至第三卷积神经网络由卷积层、降采样层和矫正线性单元层堆叠而成;
所述卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling(对邻域内特征点取最大)操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化;
其中,所述第一卷积神经网络包括19个串联的卷积层,其中还穿插有降采样层;所述第二卷积神经网络包括3个串联的卷积层,其中还穿插有降采样层;所述第三卷积神经网络由1个卷积层组成。
进一步地,所述第二子网络包括6个长短时记忆层;
其中,所述第一长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第二长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第三长短时记忆网络包括1个从左到右扫描的长短时记忆层,以及1个从右到左扫描的长短时记忆层。
具体地,每个长短时记忆层包括多个长短时记忆单元,每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元,其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。
深度模型中各层的具体分布如图2所示,其中,conv为卷积层,pool为降采样层,lstm为长短时记忆层。
所述卷积层为二维卷积层,用于输入的图像或特征在二维空间进行卷积,提取一些重要的特征。假设输入图像的宽度和高度分别为w和h,三维卷积核的大小为W′×h′×m′,其中w′,h′,m′分别表示宽度,高度和通道数。卷积后可以获得一个特征图。其中位于特征图(x,y)位置处的值可以表示成:
Figure BDA0001323193370000101
其中p(x+i)(y+j)(s+k)表示输入的第(s+k)个通道在(x+i,y+j)位置的像素值,ωijk表示卷积核的参数,b表示跟与该特征图相关的偏置。故此我们可以得到一个特征图,每个特征图的大小为(W-W′+1,h-h′+1)。由于单个卷积核只能抽取一种类型的特征,因此我们在每层卷积层中引入了多个卷积核抽取多种不同的特征。
所述降采样层使用max-pooling(对邻域内特征点取最大)操作,用于对特征图按照一定策略(选取最大值)进行降采样。这是一种被广泛应用的有效过程,它能够提取出保持形状和偏移不变性的特征。对于一组特征图,max-pooling操作通过对它们降采样,得到同样数量的一组低分辨率特征图。并且本发明在a1×a2大小的特征图上应用2×2的max-pooling操作,抽取2×2不重叠区域上的最大值,得到大小为a1/2×a2/2的新特征图。
矫正线性单元层采用简单的非线性阈值函数,对输入进行只允许非负信号通过的变换。矫正线性单元层是神经网络里的一个基本单元层,在所有的卷积单元层后面都会有这一个单元层的存在。假设表示g本层的输出,W表示本层边的权重,a表示本层输入,则我们有:
g=max(0,WTa);
实验证明在深层卷积神经网络中,使用校正线性单元可使网络的训练收敛速度比使用传统的激励函数更快。
所述长短时记忆层可以看做是一个包含T个长短时记忆单元的小网络,T是输入网络的连续帧数量。长短时记忆单元由输入门it,忘记门ft,输出门ot和一个记忆单元组成,各门函数的表达形式如下:
it=g(Wxixt+Whiht-1+bi);
ft=g(Wxfxt+Whfht-1+bf);
ot=g(Wxoxt+Whoht-1+b0);
其中xt表示t时刻的外部输入,ht表示t时刻的长短时记忆单元的输出,g表示sigmoid函数。输入门和记忆单元ct间的转换关系如下:
c_int=tanh(Wxcxt+Whcht-1+bc_in);
ct与ht的状态更新方式如下:
ct=ft·ct-1+it·c_int
ht=ot·tanh(ct);
对于整个长短时记忆层,要求的输入时T×N×c_int,其中N是同时输入的独立图像序列的数量,c_int代表输入为xt时是否记住xt-1的内容。
如图3所示,本发明中,在进行模型训练或语义分割时,彩色图依次经过第一卷积神经网络、第一长短时记忆网络处理后汇入第三长短时记忆网络;深度图依次经过第二卷积神经网络、第二长短时记忆网络处理后汇入第三长短时记忆网络;第三子网络根据第二子网络的输出和第一卷积神经网络的输出层叠得到的特征,输出RGBD图像中每个像素属于每一物体类别的概率值,进而预测RGBD图像像素所属的物体类别,最终输出图像语义分割图。
基于以上结构,在本发明实施例中,S2中训练深度模型的过程如下:
假设共有N个训练样本(X1,y1),…(XN,yN),其中Xi表示输入的第i幅图像,yi∈RH*W表示第i幅图像中每个像素所属的物体类别,其中每个元素的取值范围为0-37。在训练过程,前向传播完成后,后向传播先利用前向传播的结果求出预测的像素所属物体类别与真实的像素所属物体类别的残差J(ω),然后求得其对于参数ω的梯度
Figure BDA0001323193370000121
并采用SGD优化算法更新ω以最小化残差,残差的损失函数J(ω)定义如下。
Figure BDA0001323193370000122
其中,batchsize为输入网络图像数目。
另外本发明在实施训练的过程中,第一卷积神经网络采用了预训练的的参数值,使用海量标注的数据集预训练该网络,使其能够抽取出更具有表达性的特征。
进一步地,在本发明实施例中,S303中预测图像中每个像素所属的物体类别的方法如下:
设给定的数据集为{In,Ln},n=1,……,N,N为数据集样本总数。其中Ii表示第i张图像,Li表示第i张图像对应的真实的语义分割标注,在本模型中,像素所属的类别共有38类(含背景),标号为0到37。
给定测试图像,输入训练好的模型中,可获得图像对应的语义分割的预测结果,评价标准如下:
Figure BDA0001323193370000131
其中,C是物体类别的总数,在本模型中是37(不含背景),lpred是网络预测的像素所属的物体类别标号,lgt是真实的像素所属物体类别标号。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种RGBD图像语义分割方法,其特征在于,包括以下步骤:
S1、采集训练样本的数据;
S2、构建可配置的深度模型,并将训练样本的数据输入深度模型,以对深度模型进行训练;
S3、获取需要进行语义分割的彩色图及其对应的深度图,利用训练后的深度模型对彩色图和深度图进行分析,预测RGBD图像中每个像素所属的物体类别;
S4、根据S3的结果,形成并输出预测的图像语义分割图;
其中,所述深度模型包括三个依次串联的子网络;
第一子网络用于对彩色图像和深度图像数据的基础表达进行提取和学习,包括用于提取彩色图的特征的第一卷积神经网络,以及用于提取深度图的特征的第二卷积神经网络;
第二子网络用于融合彩色图和深度图的特征以及学习图像的全局上下文信息,包括用于提取彩色图的上下文信息的第一长短时记忆网络,用于提取深度图像的上下文信息的第二长短时记忆网络,以及用于融合彩色图和深度图的上下文信息的第三长短时记忆网络;
第三子网络包括第三卷积神经网络,用于融合局部特征和全局特征,进而预测图像像素所属的物体类别;
彩色图依次经过第一卷积神经网络、第一长短时记忆网络处理后汇入第三长短时记忆网络;深度图依次经过第二卷积神经网络、第二长短时记忆网络处理后汇入第三长短时记忆网络;第三子网络根据第二子网络的输出和第一卷积神经网络的输出层叠得到的特征,输出RGBD图像中每个像素属于每一物体类别的概率值,进而预测RGBD图像像素所属的物体类别,最终输出图像语义分割图。
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
S101、分别通过摄像头和深度传感器在同一位置对同一方向的景物进行拍摄,分别得到彩色图及其对应的深度图;
S102、使用标注软件对S101获得图片的每个像素标注其所属类别,获得图像语义分割标注图;
S103、将深度图编码成HHA特征;
所述S2中,对深度模型进行训练的方法包括:
S201、输入训练样本;
S202、初始化各卷积神经网络以及长短时记忆网络及其参数,所述参数包括卷积神经网络和长短时记忆网络中每层的权重和偏置;
S203、采用正向传播算法和后向传播算法,利用训练样本学习出构建深度模型的网络参数,即训练出用于在S3中进行物体类别预测的深度模型;
所述S3包括:
S301、载入训练好的模型;
S302、输入待分析的测试图像,所述测试图像包括彩色图以及用深度传感器拍摄得到的对应的深度图;
S303、利用训练好的模型,预测图像中每个像素所属的物体类别。
3.根据权利要求2所述的方法,其特征在于,所述S201中的训练样本所包含的数据包括:包括彩色图像数据、深度图像数据和图像语义分割标注图,其中深度图像被编码成HHA特征。
4.根据权利要求1所述的方法,其特征在于,在所述深度模型中,第一卷积神经网络是在海量数据集ImageNet上预先训练好的;第二卷积神经网络的参数是随机初始化的。
5.根据权利要求1所述的方法,其特征在于,所述第一至第三卷积神经网络由卷积层、降采样层和矫正线性单元层堆叠而成;
所述卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用简单的非线性阀值函数,对输入信号进行只允许非负信号通过的变化;
其中,所述第一卷积神经网络包括多个串联的卷积层,其中还穿插有降采样层;所述第二卷积神经网络包括多个串联的卷积层,其中还穿插有降采样层;所述第三卷积神经网络由1个卷积层组成。
6.根据权利要求1所述的方法,其特征在于,所述第二子网络包括6个长短时记忆层;
其中,所述第一长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第二长短时记忆网络包括1个从下到上扫描的长短时记忆层,以及1个从上到下扫描的长短时记忆层;
所述第三长短时记忆网络包括1个从左到右扫描的长短时记忆层,以及1个从右到左扫描的长短时记忆层。
7.根据权利要求6所述的方法,其特征在于,每个长短时记忆层包括多个长短时记忆单元,每个长短时记忆单元包括输入门、输出门、忘记门和一个记忆单元,其中忘记门用于选择对记忆单元以前记录的内容进行遗忘。
8.根据权利要求1所述的方法,其特征在于,所述第三卷积神经网络用于将第二子网络和第一卷积神经网络的输出映射到一个HxWx38维的实数向量,其中(H,W)为输入图片大小。
9.根据权利要求书2所述的方法,其特征在于,S203中的后向传播算法需要先求出正向传播算法预测的像素所属类别以及真实的像素所属类别之间的损失函数J(ω),然后求得其对于神经网络参数ω的梯度,采用随机下降的算法更新ω以最小化损失函数J,损失函数J(ω)定义为:
Figure FDA0002465633710000041
其中,batchsize为输入的RGBD图像数目,H和W分别是图像的高和宽,gt是真实的像素所属类别,c是预测的像素所属类别,x是输入的RGBD图像。
10.根据权利要求书2所述的方法,其特征在于,在S3中,预测RGBD图像像素所属物体类别的具体方法为:
将所有图片输入到载入好的模型中,得到预测的每个像素属于每一物体类别的概率,将概率最大的物体类别作为对应像素所属的物体类别。
CN201710453788.5A 2017-06-15 2017-06-15 一种rgbd图像语义分割方法 Active CN107403430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710453788.5A CN107403430B (zh) 2017-06-15 2017-06-15 一种rgbd图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710453788.5A CN107403430B (zh) 2017-06-15 2017-06-15 一种rgbd图像语义分割方法

Publications (2)

Publication Number Publication Date
CN107403430A CN107403430A (zh) 2017-11-28
CN107403430B true CN107403430B (zh) 2020-08-07

Family

ID=60404428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710453788.5A Active CN107403430B (zh) 2017-06-15 2017-06-15 一种rgbd图像语义分割方法

Country Status (1)

Country Link
CN (1) CN107403430B (zh)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019109290A1 (en) * 2017-12-07 2019-06-13 Qualcomm Incorporated Context set and context fusion
CN108154465B (zh) * 2017-12-19 2022-03-01 北京小米移动软件有限公司 图像处理方法及装置
CN108229548A (zh) * 2017-12-27 2018-06-29 华为技术有限公司 一种物体检测方法及装置
CN110363210B (zh) * 2018-04-10 2023-05-05 腾讯科技(深圳)有限公司 一种图像语义分割模型的训练方法和服务器
CN108596102B (zh) * 2018-04-26 2022-04-05 北京航空航天大学青岛研究院 基于rgb-d的室内场景物体分割分类器构造方法
US11630987B2 (en) * 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
CN108765425B (zh) * 2018-05-15 2022-04-22 深圳大学 图像分割方法、装置、计算机设备和存储介质
WO2019218136A1 (zh) 2018-05-15 2019-11-21 深圳大学 图像分割方法、计算机设备和存储介质
CN108734713A (zh) * 2018-05-18 2018-11-02 大连理工大学 一种基于多特征图的交通图像语义分割方法
CN108895981B (zh) * 2018-05-29 2020-10-09 南京怀萃智能科技有限公司 一种三维测量方法、装置、服务器和存储介质
CN108764146A (zh) * 2018-05-29 2018-11-06 杭州视氪科技有限公司 一种地形和目标检测方法
CN108629946B (zh) * 2018-06-14 2020-09-04 清华大学深圳研究生院 一种基于rgbd传感器的人体跌倒检测方法
CN109035257B (zh) * 2018-07-02 2021-08-31 百度在线网络技术(北京)有限公司 人像分割方法、装置及设备
CN109087349B (zh) * 2018-07-18 2021-01-26 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN109145747B (zh) * 2018-07-20 2021-10-08 华中科技大学 一种水面全景图像语义分割方法
CN109101972A (zh) * 2018-07-26 2018-12-28 天津大学 一种带上下文信息编码的语义分割卷积神经网络
CN109284779A (zh) * 2018-09-04 2019-01-29 中国人民解放军陆军工程大学 基于深度全卷积网络的物体检测方法
CN109308493B (zh) * 2018-09-25 2020-11-03 南京大学 一种基于堆叠神经网络的递进式图像解析方法
CN109447923A (zh) * 2018-09-27 2019-03-08 中国科学院计算技术研究所 一种语义场景补全系统与方法
CN109359564B (zh) * 2018-09-29 2022-06-24 中山大学 一种图像场景图生成方法及装置
CN110160502B (zh) 2018-10-12 2022-04-01 腾讯科技(深圳)有限公司 地图要素提取方法、装置及服务器
WO2020077604A1 (zh) * 2018-10-19 2020-04-23 深圳大学 图像语义分割方法、计算机设备和存储介质
CN109544559B (zh) * 2018-10-19 2022-07-08 深圳大学 图像语义分割方法、装置、计算机设备和存储介质
CN110163862B (zh) * 2018-10-22 2023-08-25 腾讯科技(深圳)有限公司 图像语义分割方法、装置及计算机设备
CN109447247B (zh) * 2018-10-23 2021-11-16 北京旷视科技有限公司 获得用于图像处理任务的卷积神经网络的方法及装置
CN111127510B (zh) * 2018-11-01 2023-10-27 杭州海康威视数字技术股份有限公司 一种目标对象位置的预测方法及装置
CN109218706B (zh) * 2018-11-06 2020-11-06 浙江大学 一种由单张图像生成立体视觉图像的方法
CN109670409B (zh) * 2018-11-28 2022-10-21 浙江大学 一种语义棒状像素的场景表示系统及方法
EP3664017B1 (en) * 2018-12-06 2022-03-02 Robert Bosch GmbH Method and device for digital image or video data processing
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109801297B (zh) * 2019-01-14 2020-12-11 浙江大学 一种基于卷积实现的图像全景分割预测优化方法
CN109800873B (zh) * 2019-01-29 2021-03-23 北京旷视科技有限公司 图像处理方法及装置
CN110245567B (zh) * 2019-05-16 2023-04-07 达闼机器人股份有限公司 避障方法、装置、存储介质及电子设备
CN110232326A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 一种三维物体识别方法、装置及存储介质
CN110163876B (zh) * 2019-05-24 2021-08-17 山东师范大学 基于多特征融合的左心室分割方法、系统、设备及介质
CN110276265A (zh) * 2019-05-27 2019-09-24 魏运 基于智能三维立体监控设备的行人监测方法及装置
CN110188765B (zh) 2019-06-05 2021-04-06 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
CN110288695B (zh) * 2019-06-13 2021-05-28 电子科技大学 基于深度学习的单帧图像三维模型表面重建方法
CN110232418B (zh) * 2019-06-19 2021-12-17 达闼机器人有限公司 一种语义识别方法、终端及计算机可读存储介质
WO2020258297A1 (zh) * 2019-06-28 2020-12-30 深圳市大疆创新科技有限公司 图像语义分割方法、可移动平台及存储介质
CN110276767B (zh) * 2019-06-28 2021-08-31 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110443205B (zh) * 2019-08-07 2022-09-13 北京华捷艾米科技有限公司 一种手部图像分割方法及装置
CN110675403B (zh) * 2019-08-30 2022-05-03 电子科技大学 一种基于编码辅助信息的多实例图像分割方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
US11263756B2 (en) * 2019-12-09 2022-03-01 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
CN111292340B (zh) * 2020-01-23 2022-03-08 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN111368829B (zh) * 2020-02-28 2023-06-30 北京理工大学 一种基于rgb-d图像的视觉语义关系检测方法
CN111583322A (zh) * 2020-05-09 2020-08-25 北京华严互娱科技有限公司 一种基于深度学习的2d图像场景深度预测及语义分割方法和系统
CN111798456A (zh) * 2020-05-26 2020-10-20 苏宁云计算有限公司 一种实例分割模型的训练方法、装置、实例分割方法
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112115864B (zh) * 2020-09-18 2022-05-17 北京航空航天大学 红外图像及深度图像双模态目标分割方法及装置
CN112330709A (zh) * 2020-10-29 2021-02-05 奥比中光科技集团股份有限公司 一种前景图像提取方法、装置、可读存储介质及终端设备
CN112270379B (zh) * 2020-11-13 2023-09-19 北京百度网讯科技有限公司 分类模型的训练方法、样本分类方法、装置和设备
CN112819044A (zh) * 2021-01-20 2021-05-18 江苏天幕无人机科技有限公司 用于目标对象的目标操作任务补偿的神经网络的训练方法
CN113139983A (zh) * 2021-05-17 2021-07-20 北京华捷艾米科技有限公司 一种基于rgbd的人像分割方法及装置
CN113743417B (zh) * 2021-09-03 2024-02-23 北京航空航天大学 语义分割方法和语义分割装置
CN113989318B (zh) * 2021-10-20 2023-04-07 电子科技大学 基于深度学习的单目视觉里程计位姿优化与误差修正方法
CN113902765B (zh) * 2021-12-10 2022-04-12 聚时科技(江苏)有限公司 基于全景分割的半导体自动分区方法
CN114758191A (zh) * 2022-04-15 2022-07-15 浪潮(北京)电子信息产业有限公司 一种图像识别方法、装置及电子设备和存储介质
CN115018857B (zh) * 2022-08-10 2022-11-11 南昌昂坤半导体设备有限公司 图像分割方法、装置、计算机可读存储介质及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN105894502A (zh) * 2016-03-30 2016-08-24 浙江大学 基于超图模型的rgbd图像显著性检测方法
WO2016168690A1 (en) * 2015-04-16 2016-10-20 Cylance Inc. Recurrent neural networks for malware analysis
CN106372648A (zh) * 2016-10-20 2017-02-01 中国海洋大学 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN106384353A (zh) * 2016-09-12 2017-02-08 佛山市南海区广工大数控装备协同创新研究院 一种基于rgbd的目标定位方法
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
CN106504294A (zh) * 2016-10-17 2017-03-15 浙江工业大学 基于扩散曲线的rgbd图像矢量化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168690A1 (en) * 2015-04-16 2016-10-20 Cylance Inc. Recurrent neural networks for malware analysis
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN105894502A (zh) * 2016-03-30 2016-08-24 浙江大学 基于超图模型的rgbd图像显著性检测方法
CN106462771A (zh) * 2016-08-05 2017-02-22 深圳大学 一种3d图像的显著性检测方法
CN106384353A (zh) * 2016-09-12 2017-02-08 佛山市南海区广工大数控装备协同创新研究院 一种基于rgbd的目标定位方法
CN106504294A (zh) * 2016-10-17 2017-03-15 浙江工业大学 基于扩散曲线的rgbd图像矢量化方法
CN106372648A (zh) * 2016-10-20 2017-02-01 中国海洋大学 基于多特征融合卷积神经网络的浮游生物图像分类方法

Also Published As

Publication number Publication date
CN107403430A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
CN107403430B (zh) 一种rgbd图像语义分割方法
US10839543B2 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
CN111190981B (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
EP3510561B1 (en) Predicting depth from image data using a statistical model
US11274922B2 (en) Method and apparatus for binocular ranging
US11763433B2 (en) Depth image generation method and device
Clark et al. Learning to solve nonlinear least squares for monocular stereo
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
US9042648B2 (en) Salient object segmentation
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
JP7447932B2 (ja) 画像処理システム、画像処理方法及びプログラム
Choudhary et al. Visibility probability structure from sfm datasets and applications
KR20210113443A (ko) 룸 레이아웃 추정 방법들 및 기술들
Wang et al. 3d lidar and stereo fusion using stereo matching network with conditional cost volume normalization
CN107862702B (zh) 一种结合边界连通性与局部对比性的显著性检测方法
CN110276768B (zh) 图像分割方法、图像分割装置、图像分割设备及介质
CN111539983B (zh) 基于深度图像的运动物体分割方法及系统
CN110728707A (zh) 基于非对称深度卷积神经网络的多视角深度预测方法
KR102299586B1 (ko) 드론 촬영 영상의 빅데이터를 활용한 인공지능 기반 건물 시공법 도출 방법, 장치 및 시스템
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
CN113177470B (zh) 行人轨迹预测方法、装置、设备及存储介质
CN113838135B (zh) 基于lstm双流卷积神经网络的位姿估计方法、系统及介质
KR102299295B1 (ko) 드론 촬영 영상의 빅데이터를 활용한 인공지능 기반 건물 유지 보수 견적 산출 방법, 장치 및 시스템
CN114627397A (zh) 行为识别模型构建方法以及行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171128

Assignee: GUANGDONG TECSUN TECHNOLOGY Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054810

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240102

Application publication date: 20171128

Assignee: Guangzhou Quying Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054796

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240102

Application publication date: 20171128

Assignee: SHENDAYUN NETWORK (SHENZHEN) Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054660

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20231229

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171128

Assignee: Guangzhou Lide Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2023980054828

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240104

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171128

Assignee: Guangzhou Zhanpeng Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001988

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240205

Application publication date: 20171128

Assignee: Guangzhou Avanti Electronic Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001987

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240205

Application publication date: 20171128

Assignee: Spectrum Blue Cloud (Guangzhou) Digital Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001990

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240205

Application publication date: 20171128

Assignee: Guangzhou Zhanyi Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980001989

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240205

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171128

Assignee: Guangzhou Love Time Information Technology Co.,Ltd.

Assignor: SUN YAT-SEN University

Contract record no.: X2024980002610

Denomination of invention: A semantic segmentation method for RGBD images

Granted publication date: 20200807

License type: Common License

Record date: 20240307