CN111739037B - 一种针对室内场景rgb-d图像的语义分割方法 - Google Patents
一种针对室内场景rgb-d图像的语义分割方法 Download PDFInfo
- Publication number
- CN111739037B CN111739037B CN202010758773.1A CN202010758773A CN111739037B CN 111739037 B CN111739037 B CN 111739037B CN 202010758773 A CN202010758773 A CN 202010758773A CN 111739037 B CN111739037 B CN 111739037B
- Authority
- CN
- China
- Prior art keywords
- convolution
- semantic segmentation
- rgb
- feature map
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种针对室内场景RGB‑D图像的语义分割方法,该方法以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;并将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块。该方法改进了传统的RGB语义分割方法,使模型对深度信息敏感,进而提升语义分割效果。
Description
技术领域
本发明涉及计算机图像处理领域,尤其涉及一种针对室内场景RGB-D图像的语义分割方法。
背景技术
语义分割是计算机视觉中非常重要的一个应用,被广泛运用在机器人、自动驾驶、安防监控等诸多领域。目前RGB-D传感器已经相当成熟,它不仅能提供色彩信息,还能提供深度信息。深度信息在色彩边界不明显、纹理特征较弱的场景中,对语义分割有很强的指导作用,而传统的语义分割方法并不能充分利用深度信息。
发明内容
针对现有的RGB图像分割算法无法利用图像深度信息的不足,本发明提出一种针对室内场景RGB-D图像的语义分割方法,以增强图像分割算法的性能,具体技术方案如下:
一种针对室内场景RGB-D图像的语义分割方法,该方法具体包括如下步骤:
S1:构建语义分割模型;
(1)以开源Deeplab v3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;
(2)将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块;
所述的局部像素预分组卷积模块的计算方式如下:
(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出k×k个点的点云坐标{p i},i=1,2,…,k2;
(2.2)计算k×k个点的协方差矩阵A
其中,T代表转置;
(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js, -(k+2)s/2+(j+1)s]j, j=1,2,…,k;
(2.7)将各点与中心点的有向距离d i落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后将k个2D卷积输出求和,将求和的结果作为所述的局部像素预分组卷积模块的输出;
(3)将Resnet101网络输出的特征图输入Deeplab v3+的解码器解码后输出分类得分图;
S2:选择开源RGB-D语义分割数据集,用反向传播算法训练S1得到的语义分割模型;
S3:将测试RGB-D图像输入S2训练好的语义分割模型中,根据输出的分类得分图计算各像素点类别,输出语义分割图像。
进一步地,所述的解码器的计算过程如下:
(1)提取Resnet101网络第一个卷积层输出的特征图,即低层级特征图;
(2)将低层级特征图输入多尺度空洞卷积模块;所述的低层级特征图分别通过四个不同尺度的空洞卷积层和一个均值池化操作,并将这五个输出叠加,然后通过1×1的卷积压缩通道数,生成压缩后的特征图;再用双线性差值算法将压缩后的特征图上采样至和低层级特征图一致的尺寸,并将上采样后的特征图与低层级特征图叠加;
(3)将步骤(2)得到的叠加后的特征图通过3个3×3卷积,输出通道数为类别数的分类得分图。
进一步地,k为3。
进一步地,s为0.5。
本发明的有益效果如下:
与传统RGB语义分割算法不同,本方法引入了图像的深度信息,在色彩边界不明显、纹理特征较弱的场景中,深度信息提供的边缘特征能对语义分割提供正确指导,从而相较传统方法有较为明显的性能提升。
附图说明
图1为本发明的模型构架图;
图2为发明方法效果图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的针对室内场景RGB-D图像的语义分割方法具体包括如下步骤:
S1:构建语义分割模型;
(1)使用开源深度学习框架pytorch搭建算法模型。以开源Deeplab v3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道。深度(Depth)通道只做均值池化操作,作用域为3×3,步长(stride)为2。总共进行4次池化操作,分别对应Resnet101中4次步长(stride)为2的卷积/池化操作,从而保证深度图尺寸与RGB通道的特征图一致;
(2)将Resnet101网络的四个卷积层中的第一个3×3卷积层替换为局部像素预分组卷积模块;
所述的局部像素预分组卷积模块的计算方式如下:
(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出k×k个点的点云坐标{p i},i=1,2,…,k2;k优选为3;
(2.2)计算k×k个点的协方差矩阵A
其中,T代表转置;
(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js, -(k+2)s/2+(j+1)s]j ,j=1,2,…,k;s优选为0.5。
(2.7)将各点与中心点的有向距离d i落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后将k个2D卷积输出求和,将求和的结果作为所述的局部像素预分组卷积模块的输出;
(3)将Resnet101网络输出的特征图输入Deeplab v3+的解码器解码后输出分类得分图;
所述的解码器的计算过程如下:
(1)提取Resnet101网络第一个卷积层输出的特征图,即低层级特征图;
(2)将Resnet101网络输出的特征图输入多尺度空洞卷积模块;所述的Resnet101网络输出的特征图分别通过四个不同尺度的空洞卷积层和一个均值池化操作,并将这五个输出叠加,然后通过1×1的卷积压缩通道数,生成压缩后的特征图;再用双线性差值算法将压缩后的特征图上采样至和低层级特征图一致的尺寸,并将上采样后的特征图与低层级特征图叠加;其中,四个不同尺度的空洞卷积层分别为:(kernel_size=1,stride=1);(kernel_size=3,stride=1,atrous_rate=6);(kernel_size=3,stride=1, atrous_rate=12);(kernel_size=3,stride=1, atrous_rate=18),其中,kernel_ size表示卷积核大小,stride表示卷积步长,atrous_rate表示空洞卷积系数。
(3)将步骤(2)得到的叠加后的特征图通过3个3×3卷积,输出通道数为类别数的分类得分图。这里的类别数为41。
(4)再以交叉熵损失(cross-entropy loss)作为损失函数,以随机梯度下降法作为优化函数。至此模型框架构建完成。
S2:选择开源RGB-D语义分割数据集,用反向传播算法训练S1得到的语义分割模型;
这里选择开源的nyu depth v2语义分割数据集,该数据集总计包含带标注的RGB-D图像1449张,以其中795张作为训练集,剩余654张作为测试集。对训练集内的图像进行随机翻转、剪裁、gamma值变换方法进行数据增强(data augmentation)。模型加载imagenet预训练参数,由于局部像素预分组卷积模块中将原有的一个3×3卷积替换成了3个3×3卷积,这里的做法是将3个3×3卷积赋予同样的预训练参数。使用pytorch框架完成模型训练。
S3:将测试RGB-D图像输入S2训练好的语义分割模型中,根据输出的分类得分图计算各像素点类别,输出语义分割图像。
图2为利用本发明的方法进行语义分割的效果图,左侧为原始图片,右侧为语义分割后的图片。
以原始的Deeplab v3模型作为对比,在nyu depth v2测试集中测试本方法的效果,结果都以平均交并比(MIoU)指标体现。实验结果如下,本方法在加入自定义的局部像素预分组卷积模块后,相较原始Deeplab v3模型提升了约4%。
表1 本发明的方法与Deeplab v3模型的效果对比表
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (4)
1.一种针对室内场景RGB-D图像的语义分割方法,其特征在于,该方法具体包括如下步骤:
S1:构建语义分割模型;
(1)以开源Deeplab v3+模型为基础,对网络结构进行改造:以Resnet101作为特征提取网络,增加一个与RGB输入并行的深度的输入通道,通过池化运算保证深度图尺寸与RGB通道的特征图一致;
(2)将Resnet101网络的第一个卷积层替换为局部像素预分组卷积模块;
所述的局部像素预分组卷积模块的计算方式如下:
(2.1)设该模块的卷积感受野为k×k,通过该模块对应的深度图获取卷积感受野内像素对应的深度值,并通过深度值转化出k×k个点的点云坐标{p i},i=1,2,…,k2;
(2.2)计算k×k个点的协方差矩阵A
其中,T代表转置;
(2.6)以s为宽度,划分出k个深度区间[-(k+2)s/2+js, -(k+2)s/2+(j+1)s]j ,j=1,2,…,k;
(2.7)将各点与中心点的有向距离d i落入同一个区间的点分到同一个组,共计k组;再将同组的点进行一个2D卷积操作,然后将k个2D卷积输出求和,将求和的结果作为所述的局部像素预分组卷积模块的输出;
(3)将Resnet101网络输出的特征图输入Deeplab v3+的解码器解码后输出分类得分图;
S2:选择开源RGB-D语义分割数据集,用反向传播算法训练S1得到的语义分割模型;
S3:将测试RGB-D图像输入S2训练好的语义分割模型中,根据输出的分类得分图计算各像素点类别,输出语义分割图像。
2.根据权利要求1所述的针对室内场景RGB-D图像的语义分割方法,其特征在于,所述的解码器的计算过程如下:
(1)提取Resnet101网络第一个卷积层输出的特征图,即低层级特征图;
(2)将低层级特征图输入多尺度空洞卷积模块;所述的低层级特征图分别通过四个不同尺度的空洞卷积层和一个均值池化操作,并将这五个输出叠加,然后通过1×1的卷积压缩通道数,生成压缩后的特征图;再用双线性差值算法将压缩后的特征图上采样至和低层级特征图一致的尺寸,并将上采样后的特征图与低层级特征图叠加;
(3)将步骤(2)得到的叠加后的特征图通过3个3×3卷积,输出通道数为类别数的分类得分图。
3.根据权利要求1所述的针对室内场景RGB-D图像的语义分割方法,其特征在于,k为3。
4.根据权利要求1所述的针对室内场景RGB-D图像的语义分割方法,其特征在于,s为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758773.1A CN111739037B (zh) | 2020-07-31 | 2020-07-31 | 一种针对室内场景rgb-d图像的语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010758773.1A CN111739037B (zh) | 2020-07-31 | 2020-07-31 | 一种针对室内场景rgb-d图像的语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739037A CN111739037A (zh) | 2020-10-02 |
CN111739037B true CN111739037B (zh) | 2020-12-01 |
Family
ID=72656766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010758773.1A Active CN111739037B (zh) | 2020-07-31 | 2020-07-31 | 一种针对室内场景rgb-d图像的语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739037B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112571425B (zh) * | 2020-11-30 | 2022-04-01 | 汕头大学 | 一种带压堵漏机器人的漏点定位自主控制方法及系统 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
CN115496818B (zh) * | 2022-11-08 | 2023-03-10 | 之江实验室 | 一种基于动态物体分割的语义图压缩方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349250A (zh) * | 2019-06-28 | 2019-10-18 | 浙江大学 | 一种基于rgbd相机的室内动态场景的三维重建方法 |
US10600204B1 (en) * | 2016-12-28 | 2020-03-24 | Ocuvera | Medical environment bedsore detection and prevention system |
-
2020
- 2020-07-31 CN CN202010758773.1A patent/CN111739037B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600204B1 (en) * | 2016-12-28 | 2020-03-24 | Ocuvera | Medical environment bedsore detection and prevention system |
CN110349250A (zh) * | 2019-06-28 | 2019-10-18 | 浙江大学 | 一种基于rgbd相机的室内动态场景的三维重建方法 |
Non-Patent Citations (2)
Title |
---|
一种由粗至精的RGB-D室内场景语义分割方法;刘天亮等;《东南大学学报》;20160731;第46卷(第04期);全文 * |
基于RGB-D图像的室内场景CAD模型重建;江航等;《信息技术》;20191231(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111739037A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN104484886B (zh) | 一种mr图像的分割方法及装置 | |
CN116229056A (zh) | 基于双分支特征融合的语义分割方法、装置、设备 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN113743417A (zh) | 语义分割方法和语义分割装置 | |
CN110210492A (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN108388901B (zh) | 基于空间-语义通道的协同显著目标检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN111160378A (zh) | 基于单张图像的多任务增强的深度估计系统 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN118154603A (zh) | 基于级联多层特征融合网络的显示屏缺陷检测方法及系统 | |
CN115222754A (zh) | 一种基于知识蒸馏和对抗学习的镜面图像分割方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
Di et al. | FDNet: An end-to-end fusion decomposition network for infrared and visible images | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |