CN109145713A

CN109145713A - 一种结合目标检测的小目标语义分割方法

Info

Publication number: CN109145713A
Application number: CN201810706689.8A
Authority: CN
Inventors: 杨明; 胡太
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2019-01-04
Anticipated expiration: 2038-07-02
Also published as: CN109145713B

Abstract

本发明公开了一种结合目标检测的小目标语义分割方法，步骤：搭建DeepLab‑Attention语义分割网络，训练该网络得到整体语义分割模型；制作小目标检测数据集和小目标语义分割数据集；通过小目标检测数据集训练基于YOLOv2的小目标检测网络；设计一个小目标语义分割网络，利用小目标语义分割数据集训练该网络，得到小目标语义分割模型；在测试阶段，分别将测试图像作为上述整体语义分割模型和小目标检测网络的输入，得到整幅图像的分割结果和图像存在的小目标边界框，并通过小目标语义分割模型进行修正。本发明能大大降低小目标的分割难度，从而有效地提高小目标的分割性能。

Description

一种结合目标检测的小目标语义分割方法

技术领域

本发明属于图像处理技术领域，特别涉及了一种结合目标检测的小目标语义分割方法。

背景技术

图像语义分割是计算机视觉三大任务之一，它的目标是对图像中的每个像素点做类别标记，得到一副图像的语义分割图。从传统的图像分割角度来看，图像语义分割是在语义层面上将图像分割成多个区域，然后为每个区域分配合适的类别标签。目前，语义分割在自动驾驶、实时道路监控、自动虚拟试衣和医疗疾病系统等方面都有广泛的应用。在深度学习兴起之前，语义分割的主要方法是使用条件随机场模型来建立概率图模型，近几年来，深度卷积神经网络由于具有很强的学习能力，计算机视觉领域逐渐趋于成熟。同时随着高速计算设备GPU的发展，解决语义分割问题的主流框架已经被深度学习方法所取代。

尽管深度神经网络在图像理解方面精度有了很大的提高，但在这些复杂场景下仍然面临诸多挑战，如较难分割小目标区域或目标区域的条状部位，即当原始图像通过全卷积神经网络得到具有多个类别通道特征图之后，由于步长大于等于2的池化层和卷积层存在，分割结果的图像尺寸缩小了若干倍。如果这样的池化层或卷积层达到一定的个数，小目标或目标的条状部位在网络的深层输出特征中将会消失。

现有较优的语义分割算法通常基于全卷积神经网络(FCN)框架，FCN的训练过程包括前向传播、损失值计算、反向传播和SGD更新参数。FCN一般使用交叉熵损失函数作为网络的损失层，它对图像所有像素点的误分类损失值求和得到总的损失值。但是，小目标所在区域内包含的像素点数目相比其他目标包含的像素点数目要少很多，当小目标区域内的像素点分类错误时并不会对总的损失产生太大的影响，因此这样的损失函数不适用于小目标的分割。

发明内容

为了解决上述背景技术提出的技术问题，本发明旨在提供一种结合目标检测的小目标语义分割方法，降低小目标的分割难度，从而有效地提高小目标的分割性能。

为了实现上述技术目的，本发明的技术方案为：

一种结合目标检测的小目标语义分割方法，包括以下步骤：

(1)搭建DeepLab-Attention语义分割网络，通过数据集训练该网络得到整体语义分割模型；

(2)根据数据集提供的实例边界标注文件，制作小目标检测数据集；根据数据集提供的像素级真实标记图，裁剪小目标图像块，制作小目标语义分割数据集；

(3)通过步骤(2)得到的小目标检测数据集训练基于YOLO v2的小目标检测网络；

(4)设计一个小目标语义分割网络，利用步骤(2)得到的小目标语义分割数据集训练该网络，并将步骤(3)得到的小目标检测网络所预测得到的小目标类别作为先验信息输入网络中辅助学习，得到小目标语义分割模型；

(5)在测试阶段，分别将测试图像作为上述整体语义分割模型和小目标检测网络的输入，得到整幅图像的分割结果和图像存在的小目标边界框，并通过小目标语义分割模型得到的小目标分割结果对整幅图像的分割结果进行修正。

进一步地，在步骤(1)中，所述DeepLab-Attention语义分割网络为结合多尺度输入的DeepLab网络模型，每个基于DeepLab的神经网络得到对应尺度图像的特征评分图后，通过Attention模型学习得到的权重进行融合，获取最终的分割评分图。

进一步地，步骤(2)的具体步骤如下：

(21)对于训练集中每一副图像，数据集都有一副对应的真实语义分割图和一个包含了图像中所有目标边界框信息的标注文件，结合这两个文件，计算每个目标下所包含的像素点个数；

(22)设定一个阈值若目标内像素点个数大于则将该目标实例从目标边界框的标注文件中移除，即只保留小目标的边界框信息，对训练集中所有图像做上述操作即得到小目标检测数据集；若目标内像素点个数小于等于则根据该目标的边界框分别裁剪原始图像和真实分割图，分配其ID并将裁剪后的图像和分割图分别保存到本地两个文件夹，文件名即为分配的ID，对训练集中所有图像做上述操作即得到小目标语义分割数据集。

进一步地，在步骤(4)中，利用小目标语义分割数据集训练小目标语义分割网络时，利用跳层连接的思想，在网络的深层特征图中，除了结合先验信息外，还结合了网络浅层特征图，使得深层网络在包含了语义信息的基础上同时具有边缘检测的能力。

进一步地，步骤(4)的具体步骤如下：

(41)首先需要对数据集所有图像进行预处理，预处理流程包括：图像零均值化、维度转换、矩阵升维；选择HDF5Data层作为小目标语义分割网络的输入层，将预处理后的输入图像、先验类别矩阵和真实分割图作为输入数据存储为HDF5文件格式；

(42)基于ResNet101网络进行微调，在该网络最后一层后级联一个输出通道数为512的卷积层，并与浅层特征、类别先验矩阵融合；各层网络参数初始化方式：ResNet101网络层直接通过预训练的参数赋值，最后三个卷积层参数初始化方式为高斯随机初始化；

(43)学习率策略选择Caffe框架中的poly策略，即学习率呈多项式的方式衰减，各层的学习率遵循微调的准则，即微调参数学习率较小，需随机初始化的参数学习率相对较大；最终通过SGD优化算法以0.9的动量来训练小目标语义分割网络。

进一步地，步骤(5)的具体步骤如下：

(51)对于一副测试图像，利用步骤(1)训练好的整体语义分割模型得到该幅图像的整体语义分割图；同时，利用步骤(3)训练好的小目标检测网络，检测该幅图像中是否包含小目标；

(52)如果该图像中不包含小目标，那么整体语义分割模型得到的分割结果即为最终测试图像的分割结果；如果该图像中包含小目标，则根据检测的边界框对小目标进行裁剪，将裁剪后的图像与检测得到的类别作为步骤(4)训练好的小目标语义分割模型的输入，得到小目标分割结果，并利用小目标分割结果对整体语义分割图对应的局部区域进行修正。

进一步地，利用小目标分割结果对整体语义分割图对应的局部区域进行修正的方法如下：

设小目标图像块分割图为S，整体语义分割图为M，对于S中每一个像素标记，若该标记为非背景类别，且该像素点标记与M中相应位置标记不一致，则利用S中的标记替换M中对应位置的标记。

采用上述技术方案带来的有益效果：

本发明能够在保证数据集整体分割精度有一定提升的基础上，同时具有较优的小目标分割性能。

本发明设计了一个适合低分辨率下小目标语义分割网络，该网络用于单独处理图像中小目标的区域，并以小目标和先验类别作为输入，最终分割得到小目标图像块中像素级的目标区域，该网络有效地解决了复杂场景下小目标的分割难题。

附图说明

图1是本发明的整体流程图；

图2是本发明所使用DeepLab网络中“空洞”卷积示意图；

图3是本发明中小目标分割网络结构图；

图4是本发明在测试阶段的算法流程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，本发明提出的一种结合目标检测的小目标语义分割方法，包括如下步骤：

步骤1：搭建DeepLab-Attention语义分割网络，即结合多尺度输入的DeepLab网络模型，通过数据集训练网络得到整体语义分割模型。

整体语义分割图像的网络结构是基于多尺度输入图像的语义分割方法，且每个尺度的输入图像通过独立的卷积神经网络学习得到像素级的特征。其中所有尺度下的神经网络都基于DeepLab网络，DeepLab网络是一种对全卷积神经网络(FCN)结构进行部分调整后的语义分割模型。每个基于DeepLab的神经网络得到对应尺度图像的特征评分图后，通过学习得到的权重进行融合获取最终的分割评分图，而该权重通过Attention模型学习得到。

DeepLab首先对基于VGG16的全卷积神经网络在结构上做了改进，它将第4个池化层(pool4)和第5个池化层(pool5)的步长从2调整为1，所以之前的总步长从32变为8，即最终的输出评分图相对原始图像只缩小了8倍。如果在网络训练时需要继续基于VGG16模型进行微调(fine-tune)，每一层的感受野必须与FCN网络一致，但是修改步长之后，卷积核作用区域发生变化，即感受野大小发生了改变。为了既能够改变网络结构又能在预训练的模型上进行微调，DeepLab使用了“空洞”卷积(dilated convolution)方法。正如图2的(a)所示，普通卷积核的作用区域一般是连续的，但为了保证感受野不发生变化，在对部分卷积层步长调整之后(如图2(b))，对卷积运算方式同样做了调整，调整方式如下：卷积核大小不变，但元素之间保留“空洞”(间隔)。如图2的(c)所示，之前每个卷积的作用范围从3修改为5，而总的感受野大小如花括号所示与(a)的感受野近似相等。具体做法是对第4个池化层(pool4)后的3个卷积层设置其“空洞”值为2，即卷积的作用步长为2；对第5个池化层(pool5)后的第一个卷积层设置空洞大小为4，即卷积的作用步长为4。除此之外，为了继续控制感受野的大小，DeepLab还将第5个池化层后的卷积层核大小从7×7调整为3×3。DeepLab方法对FCN网络进行了一系列的改进之后，网络的参数数量减少而分割的精度相比FCN有了一定的提升。

步骤2：根据数据集提供的实例边界框标注文件，制作小目标检测数据集；同时根据数据集提供的像素级真实标记图，裁剪小目标图像块，制作该场景下的小目标语义分割数据集。分为以下两个步骤：

①对于训练集中每一副图像，数据集都有一副对应的真实语义分割图(groundtruth)和一个包含了图像中所有目标边界框信息的标注文件，结合这两个文件，计算每个目标下所包含的像素点个数。

②设定一个阈值若目标内像素点个数大于则将该目标实例从目标边界框的标注文件中移除，即只保留小目标的边界框信息，对训练集中所有图像做上述操作即可得到只包含小目标的检测训练集；若目标内像素点个数小于等于则根据该目标的边界框分别裁剪原始图像和真实分割图，分配其ID并将裁剪后的图像和分割图分别保存到本地两个文件夹，文件名即为分配的ID，对训练集中所有图像做上述操作即可得到低分辨率下的小目标语义分割数据集。

步骤3：通过第2步得到的小目标检测数据集训练基于YOLO v2的小目标检测网络，并保存模型到本地。

步骤3中YOLO v2目标检测网络基于YOLO v1目标检测网络，YOLO v1在单个网络内同时检测目标的类别和位置，它的结构共由24个卷积层、若干个池化层和两个全连接层组成，最后一层全连接层的作用是预测类别概率和边界框坐标大小，最终输出7×7×30的张量(tensor)。而YOLO v2在YOLO v1的基础上进行了一系列的改进，使其能够获得更优、更快、更强的检测性能。对于网络的输入图像，本发明将原先的低分辨率256×256的大小提升至高分辨率448×448的大小，使得最终输出特征图的尺寸与旧版本YOLO相比大了很多。在网络结构上，YOLO v2在v1基础上添加了批量归一化层(batch normalization)，卷积神经网络在每一层输出后，它的分布都会改变，这导致网络训练的难度加大。YOLO v2引入了Anchor边界框，首先通过中心点得到若干个Anchor，这样的Anchor可以理解为不同形状的矩形模板，然后通过这些Anchor预测与真实边界框的位置偏移及置信度。此外，本发明使用K-means算法对所有边界框进行聚类，聚类得到的结果即为最优的Anchor模板。距离度量是K-means算法的关键，YOLO v2使用IoU评价准则即两个边界框的重叠程度表示两者的相似度。基于K-means聚类的方式获得Anchor模板减小了神经网络的学习难度，更有助于提高坐标位置的预测精度。

步骤4：设计一个仅针对小目标分割的语义分割网络，并用第2步得到的小目标语义分割数据集训练该网络，因为在第3步已经通过检测网络预测得到小目标的类别，所以在训练小目标语义分割网络时，可以将该预测的类别作为先验信息输入到神经网络中辅助学习，最终训练得到小目标语义分割模型。

需设计并训练一个针对低分辨率图像下的小目标分割网络，如图3所示，该网络只需分割出特定先验类别下的小目标区域，而不需要关注他们周围的背景。由于没有其他目标的干扰，一幅图像中只包含了一个较小的目标，所以可以首先将单个小目标放大到一个较大尺寸的图像，使之成为一个较为模糊的大目标。裁剪后的小目标图像块尺寸较小，对其放大后虽然尺寸发生了变化，但图像的分辨率依然很低，且块中只包含单个目标，没有足够多的上下文来推测目标的类别，因此即使利用较深的神经网络训练难度也比较大。但是，在小目标检测阶段，模型已经检测到小目标可能的类别。因此，该类别可以作为一种先验信息辅助语义分割网络的学习，当模型已经获得了目标的先验类别，剩下的工作类似于传统分割算法，只需根据已知类别分割出特定的图像块。此外，为了验证先验类别的正确性，需设计足够深的网络以具备较丰富的语义学习能力，本发明使用了基于ResNet101网络对放大后的小目标图像块进行训练，这样较深的网络可以有效地提取到图像中丰富的语义信息。

正如上段所述，一旦已经获知类别，模型剩余的工作主要集中在目标边缘的检测，所以边缘信息对于该任务尤为重要。相关研究表明，在深度神经网络中，离输入图像较近的浅层能够更多地提取到图像的边缘特征。但是，网络的层数越深，边缘特征信息丢失得越多，导致模型得到的分割图越粗糙。本发明提出的算法利用跳层连接(skip-net)的思想，在网络的深层特征图中，除了结合先验类别信息之外，同时还结合了网络浅层特征图，使得深层网络在包含了语义信息的基础上也同时具有边缘检测的能力。

训练小目标分割网络的具体步骤如下：

①首先需要对所有图像进行预处理，预处理流程包括：图像零均值化、维度转换、矩阵升维。选择HDF5Data层作为小目标语义分割网络的输入层，将预处理后的输入图像、先验类别矩阵和真实分割图作为输入数据存储为HDF5文件格式；

②基于ResNet101网络进行微调，在该网络最后一层后级联一个输出通道数为512的卷积层，并与浅层特征、类别先验矩阵融合。各层网络参数初始化方式如下：ResNet101网络层直接通过预训练的参数赋值，而最后三个卷积层参数初始化方式为高斯随机初始化；

③学习率策略选择Caffe框架中的poly策略，即学习率呈多项式的方式衰减，各层的学习率遵循微调的准则，即微调参数学习率较小，需随机初始化的参数学习率因子相对较大。最终通过SGD优化算法以0.9的动量(momentum)来训练小目标语义分割网络模型。

本发明所提出的小目标语义分割网络结构如图3所示，由于需要将目标检测预测的类别作为先验信息辅助分割网络的学习，因此需将先验类别融入到网络中。具体的做法是构建一个先验矩阵，矩阵中的元素取值都为先验类别值，当训练神经网络时，先验矩阵作为一个通道与神经网络深层特征图进行拼接，拼接后新的特征图即包含了类别先验信息，后序的网络层将联合深层特征和先验类别信息继续学习。正如上文所述，需将浅层特征图与深层特征图融合，因此本网络将先验矩阵、浅层特征和深层特征共同拼接成一个新的特征图，这样的特征包含了浅层给予的边缘信息，有助于在类别已知条件下对低分辨率图像进行有效地分割。

步骤5：在测试阶段，分别将测试图像作为DeepLab-Attention语义分割网络和小目标检测网络的输入，得到整幅图像的分割结果和图像中可能存在的小目标边界框，然后通过小目标得到的分割结果对整幅图像的分割结果进行修正。如图4所示，具体步骤如下：

①对于一副测试图像，利用训练好的DeepLab-Attention语义分割网络得到该幅图像的整体语义分割图。同时，利用训练好的小目标检测网络，检测该幅图像中是否包含小目标；

②如果该图像中不包含小目标，那么DeepLab-Attention语义分割网络得到的分割结果即为最终测试图像的分割结果；如果该图像中包含小目标，则根据检测的边界框对小目标进行裁剪。将裁剪后的图像与检测得到的类别作为低分辨率下小目标分割网络的输入，通过训练好的小目标分割模型得到较优的小目标分割结果，并利用该分割结果对整体分割图对应的局部区域进行修正，修正方式如下：假设小目标图像块分割图为S，DeepLab-Attention模型对整幅图像的分割图为M，对于S中每一个像素标记，若该标记为非背景类别，且该像素点标记与M中相应位置标记不一致，则利用S中的标记替换M中对应位置的标记，修正后的分割结果即为该幅图像最终的分割结果。

综合上述，本发明提出一种结合目标检测的小目标语义分割方法，该方法包含模型训练和图像语义分割两个过程。首先利用目标检测模型检测得到图像中所有小目标的边界框，根据目标的边界框对图像裁剪制作小目标图像数据集，同时设计一个小目标语义分割网络并通过小目标图像数据集对其训练得到分割模型。利用该模型对测试图像中检测到的小目标进行分割，最后用小目标块的分割结果对完整图像的语义分割结果进行修正，修正后的分割图对小目标具有较好的分割效果。该方法可以大大降低小目标的分割难度，从而有效地提高小目标的分割性能。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种结合目标检测的小目标语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，在步骤(1)中，所述DeepLab-Attention语义分割网络为结合多尺度输入的DeepLab网络模型，每个基于DeepLab的神经网络得到对应尺度图像的特征评分图后，通过Attention模型学习得到的权重进行融合，获取最终的分割评分图。

3.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，步骤(2)的具体步骤如下：

4.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，在步骤(4)中，利用小目标语义分割数据集训练小目标语义分割网络时，利用跳层连接的思想，在网络的深层特征图中，除了结合先验信息外，还结合了网络浅层特征图，使得深层网络在包含了语义信息的基础上同时具有边缘检测的能力。

5.根据权利要求4所述结合目标检测的小目标语义分割方法，其特征在于，步骤(4)的具体步骤如下：

6.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，步骤(5)的具体步骤如下：

7.根据权利要求6所述结合目标检测的小目标语义分割方法，其特征在于，利用小目标分割结果对整体语义分割图对应的局部区域进行修正的方法如下：