CN112329780B

CN112329780B - 一种基于深度学习的深度图像语义分割方法

Info

Publication number: CN112329780B
Application number: CN202011215611.XA
Authority: CN
Inventors: 盛伟国; 陈浩天
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2023-10-27
Anticipated expiration: 2040-11-04
Also published as: CN112329780A

Abstract

本发明公开了一种基于深度学习的深度图像语义分割方法。本发明步骤如下：1：处理数据集并将处理后的数据集输入到ResNet网络模型中。2：将步骤1中处理好的数据集输入到ResNet网络下采样阶段，在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合，得到下采样编码阶段提取到的特征。3：将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段，在上采样编码阶段过程加入强化监督模块，优化语义分割结果，进行更深层的特征提取。4：利用步骤3所训练获得的网络模型进行深度图像语义分割。本发明使特征在深层的网络中不被损耗，在上采样过程加入强化监督模块，优化语义分割结果。

Description

一种基于深度学习的深度图像语义分割方法

技术领域

本发明涉及语义分割技术领域，具体涉及一种基于深度学习的深度图语义分割方法，用于室内环境的识别。

背景技术

语义分割是计算机视觉领域中最重要的任务之一。对场景的理解是机器人实现人工智能并与外界展开交互的关键技术。要让机器人协助人类，甚至独立地完成工作，必须让其具有两种基础能力，其一，是能识别出工作环境中存在什么类型的物体，其二，必须识别出特定类型物体所在的位置。

目前国内外学者所研究的语义分割技术的目标，则是通过单个算法同时完成物体分类及物体检测两种任务，让机器人能快速而准确地获得外界的场景信息。作为实现场景理解的一项关键技术，语义分割算法尝试在像素级别对图像进行分类，即对输入图像中每一个像素位置的所属物体的类别进行分类并标注，从而得到不同类别物体在图像中所在位置的区域分割结果。在典型的语义分割结果的描述，不同颜色的区域分别表述不同的物体类别。可以看出，算法使得机器人能识别出图像中具有什么物体，物体所在的位置，以及物体间具有的空间关系。

语义分割是迈向场景理解的主要步骤。这一直为机器视觉技术的难点，此前一直难以获得较高的分割精确度。而深度学习技术的出现，使得精确语义分割成为可能。自2012年以来，随着深层卷积神经网络的兴起，深层卷积网络已经成为提取图像特征最有效的方法。卷积网络不需要对图像做复杂的预处理，直接输入原图像就能作为网络的输入，最重要的是卷积网络采用误差反向传播，更新网络参数。通过卷积网络提取的图像特征不仅在分类任务上具有很高的分类性能，而且在物体检测和语义分割任务上也具有非常明显的优势。

发明内容

本发明的目的在于解决现有深度图语义分割方法中存在的缺点和不足，提出一种基于深度学习的深度图语义分割方法，以实现准确率更高的深度图语义分割方法。

本发明解决其技术问题所采用的方案是：

一种基于深度学习的深度图像语义分割方法，包括如下步骤：

步骤1：处理数据集并将处理后的数据集输入到ResNet网络模型中。

步骤2：将步骤1中处理好的数据集输入到ResNet网络下采样阶段，在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合，得到下采样编码阶段提取到的特征。

步骤3：将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段，在上采样编码阶段过程加入强化监督模块，优化语义分割结果，进行更深层的特征提取。

步骤4：利用步骤3所训练获得的网络模型进行深度图像语义分割。

本发明有益效果如下：

本发明将优化的带有编码-解码结构的残差网络用于深度图像语义分割模型中。使用特征数量更多的样本作为输入，并加入具有残差结构的网络将网络层数做深，在下采样过程使用分别训练逐渐融合的方式提取图像信息在将网络做深的基础上保留浅层网络中具有的特征，使特征在深层的网络中不被损耗，在上采样过程加入强化监督模块，优化语义分割结果。

附图说明

图1为本发明的整体流程图，整体流程分为4个模块，第一模块为数据输入模块，此模块将预处理好的数据输入到ResNet网络的下采样，此模块使用分别训练逐渐融合的方式提取图像信息。此后将提取到的特征输入ResNet网络的上采样模块，优化语义分割结果。最后输出语义分割的具体结果。

图2为本发明网络结构的结构图，该网络是以ResNet-34为基准的深度神经网络，包括RGB图像训练分支(主要分支)和深度图像训练分支(次要分支)。2个分支单独训练又逐渐融合，即分别训练逐渐融合结构。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1和2所示，一种基于深度学习的深度图语义分割方法，具体包括如下步骤：

1-1数据集主要来源于NYU-DepthV2数据集由Microsoft Kinect的RGB和Depth摄像机记录的各种室内场景的视频序列组成。它具有以下特点：1449张详细标记的RGB和深度图像；来自多个城市的464个不同场景；对每个具体的分类有一个实例号(如1号床、2号床、3号床等)

1-2数据集中的数据进行预处理，删除冗余特征、处理缺失值、去除不合理数据、特征归一化。对于缺失的数据通过着色方案进行了填充。再把带有标签的数据集作为Matlab的.mat文件中。

1-3将处理后的数据集分类标签化，由于原数据集的标签过于细化，场景覆盖了常见的室内环境，包括办公室工作空间、会议室和厨房区域。并且对象之间有所遮挡，所以把数据集通过归并分类的方法，分类成wall、floor、bed、chair等40个类。

步骤2：将步骤1中处理好的数据集输入到ResNet网络下采样阶段，在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合，得到下采样编码阶段提取到的特征。ResNet网络模型包括主要分支结构和次要分支结构，其中主要分支结构包括首个卷积层Conv1、池化层Pool1以及残差层Layer1～Layer4。

2-1主要分支结构的池化层Pool1输出和次要分支结构的池化层Pool1-d输出以元素相加的形式融合，并把融合结果作为主要分支结构的残差层Layer1的输入。

2-2以此类推，主要分支结构的残差层Layer2、Layer3、Layer4和上采样解码阶段的上采样层Trans1输入数据分别来自主要分支结构的残差层Layer1和次要分支结构Layer1-d元素相加的融合、主要分支结构的残差层Layer2和次要分支结构Layer2-d元素相加的融合、主要分支结构的残差层Layer3和次要分支结构Layer3-d元素相加的融合、主要分支结构的残差层Layer4和次要分支结构Layer4-d元素相加的融合；

2-3将所有数据信息汇集到上采样解码阶段的主要分支结构，下采样编码阶段的次要分支结构完结。

步骤3：将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到上采样编码阶段，在上采样编码阶段过程加入强化监督模块，优化语义分割结果，进行更深层的特征提取。

3-1在上采样编码阶段，ResNet网络采用3个跳跃结构保留精细特征用以提高分割精度。但主要分支结构的残差层Layer4之后的结构被带有反残差模块的反卷积层代替。

3-2上采样解码阶段的上采样层Trans2输入是主要分支结构的残差层Layer3与次要分支结构的残差层Layer3-d层信息融合后再与上采样解码阶段的上采样层Trans1的输出信息融合产生的。

上采样解码阶段的上采样层Trans3输入是主要分支结构的残差层Layer2与次要分支结构的残差层Layer2-d层信息融合后再与上采样解码阶段的上采样层Trans2的输出信息融合产生的。

上采样解码阶段的上采样层Trans4输入是主要分支结构的残差层Layer1与次要分支结构的残差层Layer1-d层信息融合后再与上采样解码阶段的上采样层Trans3的输出信息融合产生的。

以此类推，如图2所示，将这种信息融合模式在上采样解码阶段的上采样层Trans1～Trans4贯穿始终，其作用是优化语义推断的分割细节。

3-3最后上采样解码阶段的上采样层Trans4的输出经过反卷积层Final Trans后输出最终数据；

4-1将步骤3中提取出的深层特征用损失函数来衡量模型的表现，损失函数越低代表模型在分割任务中的表现越好。本模型使用交叉熵损失函数对模型进行评价，计算公式为：

其中，P(x＝k)为像素点属于正确类别k的概率；K为分类算法中类别的数量；x_i为第i个类别的特征值。

4-2.当网络最后一层使用softmax函数时，交叉熵的公式为：

本模型的损失函数是以Conv1～Conv4和最终5个输出结果搭建的5个交叉熵函数之和。

训练ResNet模型时，采用带动量项系数的随机梯度下降方法更新参数。训练初始动量项系数为0.9，学习速率初始为0.002，训练100次后，训练学习速率乘以系数0.9进行衰减。

本发明所提出的结构加入了深度图与RGB图的语义分割的特征，并通过残差结构网络在加深网络层数的同时保留浅层网络中的特征信息，同时通过强化监督模块，最终实现准确率更高的深度图语义分割方法。

Claims

1.一种基于深度学习的深度图像语义分割方法，其特征在于包括如下步骤：

步骤1：处理数据集并将处理后的数据集输入到ResNet网络模型中；

步骤2：将步骤1中处理好的数据集输入到ResNet网络下采样阶段，在下采样编码阶段使用分别训练逐渐融合的方式将RGB图像和深度图像的信息进行融合，得到下采样编码阶段提取到的特征；

步骤3：将步骤2中由ResNet网络下采样编码阶段提取到的特征输入到在上采样编码阶段，在上采样编码阶段过程加入强化监督模块，优化语义分割结果，进行更深层的特征提取；

步骤4：利用步骤3所训练获得的网络模型进行深度图像语义分割；

所述的ResNet网络模型包括主要分支结构和次要分支结构，其中主要分支结构包括首个卷积层Conv1、池化层Pool1以及残差层Layer1～Layer4，具体实现如下：

2-1主要分支结构的池化层Pool1输出和次要分支结构的池化层Pool1-d输出以元素相加的形式融合，并把融合结果作为主要分支结构的残差层Layer1的输入；

2-3将所有数据信息汇集到上采样解码阶段的主要分支结构，下采样编码阶段的次要分支结构完结；

所述的步骤3具体实现如下：

3-1在上采样编码阶段，ResNet网络采用3个跳跃结构保留精细特征用以提高分割精度；但主要分支结构的残差层Layer4之后的结构被带有反残差模块的反卷积层代替；

3-2上采样解码阶段的上采样层Trans2输入是主要分支结构的残差层Layer3与次要分支结构的残差层Layer3-d层信息融合后再与上采样解码阶段的上采样层Trans1的输出信息融合产生的；

上采样解码阶段的上采样层Trans3输入是主要分支结构的残差层Layer2与次要分支结构的残差层Layer2-d层信息融合后再与上采样解码阶段的上采样层Trans2的输出信息融合产生的；

上采样解码阶段的上采样层Trans4输入是主要分支结构的残差层Layer1与次要分支结构的残差层Layer1-d层信息融合后再与上采样解码阶段的上采样层Trans3的输出信息融合产生的；

以此类推，将这种信息融合模式在上采样解码阶段的上采样层Trans1～Trans4贯穿始终，其作用是优化语义推断的分割细节；

3-3最后上采样解码阶段的上采样层Trans4的输出经过反卷积层Final Trans后输出最终数据。

2.根据权利要求1所述的一种基于深度学习的深度图像语义分割方法，其特征在于步骤1具体实现如下：

1-1数据集主要来源于NYU-Depth V2，数据集由Microsoft Kinect的RGB和Depth摄像机记录的各种室内场景的视频序列组成；

1-2数据集中的数据进行预处理，删除冗余特征、处理缺失值、去除不合理数据、特征归一化；对于缺失的数据通过着色方案进行填充；再把带有标签的数据集作为Matlab的.mat文件中；

1-3将处理后的数据集分类标签化，所以把数据集通过归并分类的方法，分类成40个类。

3.根据权利要求2所述的一种基于深度学习的深度图像语义分割方法，其特征在于所述的步骤4具体实现如下：

4-1将步骤3中提取出的深层特征用损失函数来衡量模型的表现，使用交叉熵损失函数对模型进行评价，计算公式为：

其中，P(x＝k)为像素点属于正确类别k的概率；K为分类算法中类别的数量；x_i为第i个类别的特征值；

4-2.当网络最后一层使用softmax函数时，交叉熵的公式为：

所述的损失函数是以Conv1～Conv4和最终5个输出结果搭建的5个交叉熵函数之和。