CN110633706A

CN110633706A - 一种基于金字塔网络的语义分割方法

Info

Publication number: CN110633706A
Application number: CN201910711584.6A
Authority: CN
Inventors: 颜成钢; 宋家驹; 张旗; 许瑶江; 李明珠; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-12-31
Anticipated expiration: 2039-08-02
Also published as: CN110633706B

Abstract

本发明公开了一种基于金字塔网络的语义分割方法。本发明包括如下步骤：1：场景RGB图片经过预训练模型提取出特征图Ⅰ，特征图Ⅰ的大小为输入的场景RGB图片的1/8大小；2：在池化前，记录特征图Ⅰ的最大池化值，然后基于池化和卷积操作，对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理，得到4个不同维度的特征图；3：通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ；4：将步骤3所得到的特征图Ⅱ经过一个编码器和解码器，得到特征图Ⅲ；5：将特征图Ⅲ与特征图Ⅱ合并，生成特征图Ⅳ；6：将步骤5获得的特征图Ⅳ再经过一个卷积层，得到最终输出。本发明提高了算法的检测精度，提高了分割的准确率。

Description

一种基于金字塔网络的语义分割方法

技术领域

本发明属于计算机视觉技术领域，特别地，本发明涉及一种基于金字塔网络的语义分割方法。

背景技术

语义分割的场景分析是计算机视觉中的基本主题。目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完整理解。它预测每个元素的标签，位置和形状。该主题对于自动驾驶，机器人传感等潜在应用具有广泛的兴趣。正是由于语义分割具有重大的应用价值和科研价值，语义分割新方法的提出就显得极为重要。

整体而言，语义分割是一种旨在于场景理解的高难度任务。场景理解作为计算机视觉的核心问题，在从图像提取知识应用数量急剧增长的今天显得尤为重要。这些应用包括：自动驾驶、人机交互、计算机摄影、图像搜索引擎、及增强现实。这些问题在过去已经使用多种计算机视觉及机器学习的方法得以解决。尽管这些方法深受欢迎，但深度学习已经改变了这个局面，许多计算机视觉的问题—包括语义分割—正在被使用深度框架解决，通常是CNNs(Convolutional Neural Networks，卷积神经网络)，其能够显著地提高准确率，有时甚至是效率。然而，深度学习相比机器学习及计算机视觉的其他分支还远未成熟。鉴于此，关于深度学习现状的概述及回顾还较少。由于大量的文献的发表，这让研究人员开始研究、紧跟发展趋势变得异常耗时。这让了解语义分割发展趋势，并且合适地解读他们的方案，修正欠佳结果，验证结果变得相对困难。

在计算机视觉领域中，对语义分割结果的新方法的提出都是人们一直以来所追求的事情。因此，在本发明中提出一种新的语义分割方法，可以对场景进行联想，从而大大的提高了分割的正确率，并且在拥有较高分辨率的同时，对于分割结果的边界的定位也能较为准确。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于金字塔网络的语义分割方法。其中输入为一张场景RGB图片，该方法利用卷积神经网络(CNN)、池化(pooling)、空洞卷积、上采样、卷积层进行相互迭代，本发明解决其技术问题是采取以下技术方案实现的：

步骤1：场景RGB图片经过预训练模型(ResNet101)提取出特征图Ⅰ，特征图Ⅰ的大小为输入的场景RGB图片的1/8大小。

步骤2：在池化前，记录特征图Ⅰ的最大池化值，然后基于池化和卷积操作，对步骤1提取出的特征图Ⅰ进行4个不同尺度的维度处理，得到4个不同维度的特征图；

步骤3：通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ。

步骤4：将步骤3所得到的特征图Ⅱ经过一个编码器和解码器(encoder-decoder过程)，得到特征图Ⅲ；

步骤5：将特征图Ⅲ与特征图Ⅱ合并，生成特征图Ⅳ；

步骤6：将步骤5获得的特征图Ⅳ再经过一个卷积层，得到最终输出。

本发明的特点及有益效果：

本发明利用金字塔解析网络进行特征提取,并对其结果进行了较大程度的优化，提高了算法的检测精度，克服了现有技术的不足，可以提取全集特征，进行场景联想，从而提高分割的准确率，并且拥有比较高的分辨率和较为准确的分割边界定位，获得了良好的目标检测结果。

附图说明

图1为步骤1中的部分附图说明。

图2为本发明方法总体流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于金字塔网络的语义分割方法，具体包括如下步骤：

步骤5：将特征图Ⅲ与特征图Ⅱ合并，生成特征图Ⅳ；

所述的步骤1具体实现方法如下：

对于输入的场景RGB图片,首先通过一个ResNet网络(如图1)提取图像特征图(feature map)；为了进一步降低来自不同子区域的上下文信息损失，提出多级全局先验，包含不同尺度和不同子区域的信息，特征图经过不同程度的池化得到融合的带有整体信息的特征。

所述的ResNet网络：以ResNet101为基础进行改进，除了使用后面的softmax分类做loss，额外的在第四阶段添加了一个辅助的loss，两个loss一起传播，使用不同的权重，共同优化参数。这样做有利于快速收敛。同时ResNet网络利用Softmax分类器对多类别目标计算分类得分，利用边界框回归对边框进行调整；利用多任务损失函数对多类别分类器和边界框回归器进行联合优化训练，实现图像分类和目标定位。

所述的Softmax将多分类的输出数值转化为相对概率，更容易理解和比较。

所述的步骤2具体实现方法如下：

特征图Ⅰ经过不同程度的池化得到融合的带有整体信息的特征，并记录特征图Ⅰ的最大池化值(max pooling)。不同尺度的维度处理，得到4个不同维度的特征图；4个不同维度的特征图大小分别为1×1、2×2、3×3和6×6，

池化的过程：把特征图看作一个矩阵，并在这个矩阵上划分出几个不重合的区域，然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练，这个过程就是池化。

采用1×1卷积层对上下文特征进行降维，保持全局特征的权重，如果金字塔的level大小为N，则卷积层后变为1/N；

所述的步骤3通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ，具体实现方法如下：

(1)将4个不同维度的特征图进行双线性差值(bilinear interpolation)的上采样操作，得到与池化前相同大小的特征图Ⅱ；

双线性插值的上采样操作：图像上采样的主要目的是放大图像，即在原有图像像素的基础上，在像素点值之间采用合适的插值算法插入新的元素；利用原图像中目标点四周的四个真实存在的像素值来共同决定目标图中的一个像素值，其核心思想是在两个方向分别进行一次线性插值。

所述的步骤4：将步骤3所得到的特征图Ⅱ经过一个编码器和解码器(encoder-decoder过程)，得到特征图Ⅲ，具体实现如下：

(1)基于VGG16的对称网络结构，且将全卷积层去掉，这样有利于在最深的编码器输出处保留较高分辨率的特征图，使SegNet比其他许多近来的结构显著的小并且训练起来更容易；SegNet的关键部件是解码器网络，由一个对应于每个编码器的解码器层次组成。在不考虑内存的情况下，编码器中的每一层特征层都应该记录下来。但是这种方式在实际应用中是不太现实的，因此提出了另一种存储方式。这种方式只保存max-pooling indices，也就是每个窗口内的最大特征值的位置。在encoder阶段做max-pooling时，将池化索引(pooling indices)记录下来，在解码器上采样(decoder upsamples)使用这些池化索引(pooling indices)得到稀疏的上采样特征图(upsampled maps)，再用可训练的解码器滤波器组(trainable filters)进行卷积得到稠密的特征图Ⅲ(feature maps)。在解码网络中重用max-pooling indics有多个实践好处：

1.它改进了边界划分

2.减少了实现端到端训练的参数数量

3.这种upsampling的形式可以仅需要少量的修改而合并到任何编码－解码形式的架构

所述的步骤5：将特征图Ⅲ与特征图Ⅱ合并，生成特征图Ⅳ；具体实现如下：

(1)利用concat函数将解码器中输出的特征图Ⅲ与特征图Ⅱ合并；

所述的concat函数用于实现输入数据的拼接；

Claims

1.一种基于金字塔网络的语义分割方法，其特征在于包括如下步骤：

步骤1：场景RGB图片经过预训练模型提取出特征图Ⅰ，特征图Ⅰ的大小为输入的场景RGB图片的1/8大小；

步骤3：通过上采样层将4个不同维度的特征图合并成池化前相同大小的特征图Ⅱ；

步骤4：将步骤3所得到的特征图Ⅱ经过一个编码器和解码器，得到特征图Ⅲ；

步骤5：将特征图Ⅲ与特征图Ⅱ合并，生成特征图Ⅳ；

2.根据权利要求1所述的一种基于金字塔网络的语义分割方法，其特征在于步骤1所述的ResNet网络：

以ResNet101为基础进行改进，除了使用后面的softmax分类做loss，在第四阶段添加了一个辅助的loss；两个loss一起传播，使用不同的权重，共同优化参数；同时ResNet网络利用Softmax分类器对多类别目标计算分类得分，利用边界框回归对边框进行调整；利用多任务损失函数对多类别分类器和边界框回归器进行联合优化训练。

3.根据权利要求2所述的一种基于金字塔网络的语义分割方法，其特征在于所述的步骤2具体实现方法如下：

特征图Ⅰ经过不同程度的池化得到融合的带有整体信息的特征，并记录特征图Ⅰ的最大池化值；经过不同尺度的维度处理，得到4个不同维度的特征图；4个不同维度的特征图大小分别为1×1、2×2、3×3和6×6；采用1×1卷积层对上下文特征进行降维，保持全局特征的权重，如果金字塔的level大小为N，则卷积层后变为1/N。

4.根据权利要求3所述的一种基于金字塔网络的语义分割方法，其特征在于所述的步骤4具体实现如下：

在编码器阶段做max-pooling时，将池化索引(pooling indices)记录，在解码器进行上采样(decoder upsamples)使用这些池化索引(pooling indices)得到稀疏的上采样特征图(upsampled maps)，再用可训练的解码器滤波器组进行卷积得到稠密的特征图Ⅲ。

5.根据权利要求4所述的一种基于金字塔网络的语义分割方法，其特征在于所述的步骤5利用concat函数将解码器中输出的特征图Ⅲ与特征图Ⅱ合并。