CN109145939B

CN109145939B - 一种小目标敏感的双通道卷积神经网络语义分割方法

Info

Publication number: CN109145939B
Application number: CN201810706675.6A
Authority: CN
Inventors: 杨明; 胡太
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2021-11-02
Anticipated expiration: 2038-07-02
Also published as: CN109145939A

Abstract

本发明公开了一种小目标敏感的双通道卷积神经网络语义分割方法，步骤为：使用Caffe深度学习框架搭建非加权学习网络和加权学习网络；对于两个通道的网络，分别使用双阶段训练方式对网络进行训练得到对应的语义分割模型；以验证集图像作为输入，通过两个语义分割模型得到两个通道的输出评分图，利用不同的模型融合算法对两个通道的输出评分图进行融合，并根据特定的评价指标选择最优的模型融合算法；根据语义分割模型和选择的最优模型融合算法来分割测试图像。本发明能够保证在数据集整体分割精度较优的前提下，对图像中存在的小目标区域较为敏感。

Description

一种小目标敏感的双通道卷积神经网络语义分割方法

技术领域

本发明属于图像处理技术领域，特别涉及了一种小目标敏感的双通道卷积神经网络语义分割方法。

背景技术

图像语义分割是计算机视觉三大任务之一，它的目标是对图像中的每个像素点做类别标记，得到一副图像的语义分割图。从传统的图像分割角度来看，图像语义分割是在语义层面上将图像分割成多个区域，然后为每个区域分配合适的类别标签。目前，语义分割在自动驾驶、实时道路监控、自动虚拟试衣和医疗疾病系统等方面都有广泛的应用。在深度学习兴起之前，语义分割的主要方法是使用条件随机场模型来建立概率图模型，近几年来，深度卷积神经网络由于具有很强的学习能力，计算机视觉领域逐渐趋于成熟。同时随着高速计算设备GPU的发展，解决语义分割问题的主流框架已经被深度学习方法所取代。

尽管深度神经网络在图像理解方面精度有了很大的提高，但在这些复杂场景下仍然面临诸多挑战，如较难分割小目标区域或目标区域的条状部位，即当原始图像通过全卷积神经网络得到具有多个类别通道特征图之后，由于步长大于等于2的池化层和卷积层存在，分割结果的图像尺寸缩小了若干倍。如果这样的池化层或卷积层达到一定的个数，小目标或目标的条状部位在网络的深层输出特征中将会消失。

现有较优的语义分割算法通常基于全卷积神经网络(FCN)框架，FCN的训练过程包括前向传播、损失值计算、反向传播和SGD更新参数。FCN一般使用交叉熵损失函数作为网络的损失层，它对图像所有像素点的误分类损失值求和得到总的损失值。但是，小目标所在区域内包含的像素点数目相比其他目标包含的像素点数目要少很多，当小目标区域内的像素点分类错误时并不会对总的损失产生太大的影响，因此这样的损失函数不适用于小目标的分割。

发明内容

为了解决上述背景技术提出的技术问题，本发明旨在提供一种小目标敏感的双通道卷积神经网络语义分割方法，将小目标敏感的神经网络分割结果和标准的神经网络分割结果进行融合，解决分割小尺寸目标和其他目标精度不平衡的问题。

为了实现上述技术目的，本发明的技术方案为：

一种小目标敏感的双通道卷积神经网络语义分割方法，包括以下步骤：

(1)使用Caffe深度学习框架搭建两个通道的卷积神经网络：非加权学习网络和加权学习网络；所述非加权学习网络用于对图像中目标的主体部位进行分割，加权学习网络用于对图像中小目标进行分割；

(2)对于所述两个通道的网络，分别使用双阶段训练方式对网络进行训练得到对应的语义分割模型；

(3)以验证集图像作为输入，通过步骤(2)得到的两个语义分割模型得到两个通道的输出评分图，利用不同的模型融合算法对两个通道的输出评分图进行融合，并根据特定的评价指标选择最优的模型融合算法；

(4)在测试阶段，根据步骤(2)得到的语义分割模型和步骤(3)选择的最优模型融合算法来分割测试图像。

进一步地，在步骤(1)中，所述非加权学习网络与加权学习网络的网络主体结构相同，利用Attention模型结合多尺度分割网络作为网络主体结构；非加权学习网络的损失函数采用普通的交叉熵损失函数，加权学习网络的损失函数采用小目标敏感的交叉熵损失函数，小目标敏感的交叉熵损失函数将图像中的小目标区域的分类损失和其他区域的分类损失分开考虑，使用特定权值因子对小目标区域的分类损失进行增强，并与其他目标区域的分类损失累加得到总损失值。

进一步地，所述小目标敏感的交叉熵损失函数如下：

上式中，L(θ)为小目标敏感的交叉熵损失函数，

k∈[0,|C|-1]，j∈[0,|C|]，|C|表示总类别数，

表示当前模型对数据集中第i个图像关于真实类别k的标记评分，w为小目标区域内像素分类损失的权重，P′和P″分别为小目标区域像素集合和非小目标区域像素集合。

进一步地，在步骤(2)中，所述双阶段训练方式如下：

第一步：首先从完整训练集中随机抽取一部分数据，再使用抽取的数据训练网络模型，该模型的初始参数值微调自预训练网络模型；

第二步：然后在所有训练集上以第一步得到的网络模型作为初始化参数再次训练网络模型。

进一步地，步骤(2)的具体步骤如下：

(21)将数据划分为训练集、验证集和测试集，对训练集中每个样本的真实标记图进行维度转换，将三维的真实标记图转换为二维的标记图，使其适用于Caffe框架的输入层；

(22)对于非加权学习网络，创建数据集图像索引文件作为Caffe框架输入层的参数，该索引文件每一行包含输入图片和对应分割标记图的文件路径；对于加权学习网络，同样创建数据集图像索引文件作为Caffe框架中输入层的参数，而该索引文件每一行除了包含输入图片和对应该分割标记图的文件路径外，还包含了小目标区域的标记图，即标记每个像素点是否在小目标所包含的区域；

(23)对于两个网络中任意一个网络，首先使用已经训练好的VGGNet模型参数分别作为网络的初始化参数，网络最后两个全连接层的参数使用高斯随机的方式进行初始化，从完整训练数据集中抽取一部分数据训练网络模型，利用Caffe深度学习框架对网络进行训练，当迭代次数达到6000时停止训练得到网络粗模型的参数，然后利用粗模型作为初始化参数在所有训练集上对网络模型再次训练。

进一步地，在步骤(3)中，不同的模型融合算法分别为线性加权、最大池化和平均池化，特定的评价指标为平均IoU。

进一步地，步骤(4)的具体步骤如下：

(41)配置Caffe测试网络结构文件：测试网络的输入数据来自内存，使用Caffe框架的内存输入层；测试网络最后一层得到输出置信图，置信图共有C+1个通道，C为总类比数，每个通道的大小与原始图像大小一致，每个像素点的值表示原始图像对应位置对应类别的置信评分；

(42)对于一副待分割的图像，首先进行去均值化和维度转换操作，然后将转换后的图像作为双通道网络的输入进行预测，获得两个C+1个通道的输出评分图，并通过最优模型融合算法对两个输出评分图进行融合得到新的评分图，根据新的评分图得到最终的分割图。

采用上述技术方案带来的有益效果：

本发明设计了一个双通道卷积神经网络，并选择合适的模型融合算法，将小目标敏感的神经网络分割结果和标准的神经网络分割结果进行融合，有效地解决了分割小尺寸目标和其他目标精度不平衡的问题。同时，为解决复杂场景下小目标分割的难题，首先设计了一个适合小目标分割的损失函数，然后将该损失函数应用于全卷积神经网络的损失层，从而使网络能够对小目标分割较为敏感。

附图说明

图1是本发明的整体流程图；

图2是本发明完整的算法架构图；

图3是基于多尺度和Attention模型的主网络深度学习架构图；

图4是本发明涉及的双阶段模型训练方法示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，本发明提出的一种小目标敏感的双通道卷积神经网络语义分割方法，包括如下步骤：

步骤1，使用Caffe深度学习框架分别搭建非加权学习网络和加权学习网络。其中，非加权学习网络用于对图像中目标的主体部位进行分割，加权学习网络用于对图像中小目标进行分割。

搭建的算法架构如图2所示，算法包含两个结构相似的网络：非加权学习网络和加权学习网络。非加权学习网络是指网络使用普通的损失函数对网络进行训练，它负责分割目标的主体区域，现有基于FCN的语义分割网络都可作为非加权学习网络；加权学习网络是指网络使用带权重的小目标敏感损失函数对网络进行训练，它负责分割小目标区域，训练得到的分割模型能够有效地对图像中包含的小目标进行分割。这两个网络分别需要独立地完成训练，训练得到的两个模型再使用模型融合的方式进行融合。非加权学习和加权学习两个网络主体结构一致，唯一不同的是它们的损失函数前者是普通的交叉熵损失函数，后者是小目标敏感的交叉熵损失函数，下文讲阐述加权学习网络中所使用的小目标敏感的交叉熵损失函数。

为了解决FCN损失函数对小目标分割不敏感问题，本发明提出一种适合小目标分割的损失函数。以该损失函数作为FCN的损失层，则可使得网络模型的训练更加关注小目标区域内像素点的分类损失。因此在训练阶段，将每张图像的像素点集合分为小目标区域像素集合P′和非小目标区域像素集合P″，对于非小目标区域的每个像素点类别标记，使用原始的交叉熵损失函数计算其分类损失；而对于小目标区域中的像素点类别标记，使用带权重的交叉熵损失函数计算其分类损失，然后将图像的所有像素点标记损失值相加得到最终的损失。具体损失函数形式如下：

其中，

k∈[0,|C|-1]，j∈[0,|C|]，|C|表示总类别数，

表示当前模型对数据集中第i个图像关于真实类别k的标记评分，w为小目标区域内像素分类损失的权重，并通过交叉验证的方式得到，一般来说，w值大于1。由于在训练时对小目标的分类损失做了代价增强，使得小目标标记损失与其他目标区域的损失求和后，小目标的分类损失占总损失的比重较大，因此这样的损失层构建得到的语义分割网络对小目标较为敏感。

对于非加权学习网络和加权学习网络，如图3所示，本发明选用利用Attention模型结合多尺度分割网络(简称Attention模型)作为网络的主体结构。首先训练该网络得到语义分割模型作为非加权学习网络，然后将网络中的原始交叉熵损失函数替换为小目标敏感的交叉熵损失函数，以新的小目标分割敏感网络作为加权学习网络进行训练得到另一个语义分割模型。其中，小目标敏感的交叉熵损失函数将图像中的小目标区域的分类损失和其他区域的分类损失分开考虑，使用特定权值因子对小目标区域的分类损失进行增强，并与其他目标区域的分类损失累加得到总损失值。

Attention网络在全卷积神经网络(FCN)中引入多尺度特征概念，提取多尺度特征的一种常见方法是将若干个不同大小的输入图像分别作为多个深度网络的输入，然后将多尺度特征合并得到新的特征再进行像素级的分类。Attention网络提出了一种关注机制，可以方便地加权每个像素位置的多尺度特征。最重要的是，多尺度输入图像可以与Attention网络层共同训练。如图3所示，若需融合两个尺度的分割结果，则分别提取每个尺度下的特征，对于每个深度网络，模型采用了全卷积神经网络结构。提取到每个尺度的深度特征之后，使用Attention网络模型提供的权重进行加权求和得到最终的预测评分图。Attention网络模型是由两层卷积神经网络组成，它的输入即为所有尺度下的深度特征，最终输出得到每个尺度下的权重。该方法根据深度神经网络感受野固定不变的问题，设计了多尺度特征融合方法，在一定程度上可以自适应图像中不同尺度的目标。但是若图像中存在极小的目标，同时训练阶段使用标准交叉熵损失函数时还是会出现上文所说的小目标不敏感问题。所以本发明以该方法作为基本网络结构，将其分别作为图2的非加权学习网络和加权学习网络的主体结构。

步骤2，对于两个通道的网络，分别使用双阶段训练方式对网络进行训练得到分割模型。双阶段的训练方式是指：首先使用部分数据训练网络得到粗模型参数，然后利用粗模型作为网络的初始参数对其再次训练得到每个网络的最终模型参数。此外，两个网络模型都是基于Caffe深度学习框架进行训练。

神经网络参数初始化对模型的训练速度起着决定性的作用，若初始参数与目标参数接近，模型训练较容易收敛；若初始参数与目标参数相差很大，那么模型训练则会比较困难。以本发明所提出的Attention网络作为主体结构的双通道卷积神经网络为例，若用VGG16的预训练参数作为模型的初始参数进行微调，虽然训练速度比网络参数完全初始化方式要快，但是毕竟还是从一个不同的特征空间迁移至新的特征空间；此外，若神经网络的层数过深，模型在训练时很容易陷入局部最优解。所以本发明使用了双阶段的训练方法，即把训练任务分为两个阶段，第一阶段训练得到的结果服务于第二阶段，实验验证该方法可以有效地提高模型的训练精度，同时减小模型的训练速度。

因此，步骤2中所述的双阶段训练即为如下两步：第一步，首先从完整训练数据集中随机抽取一部分数据，然后使用抽取的数据训练网络模型，模型的初始参数值微调自预训练网络模型；第二步，在所有训练集上以第一步得到的模型作为初始化参数对网络模型再次训练。

本发明所有的网络模型都是基于Caffe深度学习框架进行训练，Caffe框架是一个开源的深度学习软件平台，它是由伯克利贝尔实验室和人工智能研究开发社区共同研发设计。它提供了一个快速搭建深度学习网络的功能，其模块化的设计以及在GPU上高性能的运行使其在工业视觉上应用相当广泛。

训练一个深度神经网络，关键在于网络参数的初始赋值，若网络的初始参数选择较优，则可以促使网络更容易收敛到一个较优的解；反之，若网络初始参数设置不合理，则模型训练可能需要花费很长时间才能收敛，甚至导致网络模型的参数随着迭代次数的增加越来越偏离较优解。本发明中的两个网络在训练阶段都是基于经典网络的参数进行微调，参数的微调是希望将其他特征空间(源域)下的参数迁移到较相似的特征空间(目标域)中，如对于自然场景的目标分类和语义分割两个任务，它们的特征空间较为相近，所以可以将预训练的目标分类网络模型参数作为网络结构相似的语义分割网络的初始化参数。在设置网络参数时，对于特征表示层，固定或设置较小的学习率；对于全连接层(分类层)则设置较大的学习率。由于两个任务都是对自然场景的图像进行语义理解，所以它们的特征表示较为一致，如都需要检测目标边缘、纹理和眼睛等浅层特征和局部语义特征。在网络训练时，目标任务提供的新数据会着重学习分类层的参数以适应当前的任务场景。此外，若目标任务网络存在源任务微调网络没有的层，如原始目标分类最后三层为全连接层，全卷积神经网络最后三层却为卷积层，这种情况需使用参数初始化的方式为新的网络层赋予初始值。本算法使用预先训练好的VGG16模型对网络参数进行微调，选择VGG16模型中第5个池化层(pool5)前所有的卷积层参数作为本发明所提出的网络相应层的初始参数，而pool5之后的卷积层参数使用高斯随机初始化方法获得。

双通道网络模型训练具体分为以下几个步骤：

①划分数据和数据处理：将数据划分为训练集、验证集和测试集，对训练数据集中每个样本的真实标记图进行维度转换，将三维的真实标记图转换为二维的标记图，使其适用于Caffe框架的输入层；

②生成训练索引文件：对于非加权学习网络，创建数据集图像索引文件作为Caffe框架输入层的参数，该索引文件每一行包含输入图片和对应分割标记图的文件路径。对于加权学习网络，同样创建数据集图像索引文件作为Caffe框架中输入层的参数，而该索引文件每一行除了包含输入图片和对应该分割标记图的文件路径外，还包含了小目标区域的标记图，该标记图是一个与图像大小一致的二维矩阵，它的每个元素的值若为1即为小目标所包含的像素，若为0即为非小目标所包含的像素。而小目标区域标记图通过数据集给定的真实标记得到，设定一个小目标区域像素数目阈值，计算每个像素标记连通图中元素中的总数目，若总数目小于该阈值，则该连通图(像素区域)即为小目标区域。使用SGD方法优化两个网络模型参数，同时在Caffe求解配置文件设置其他训练参数；

③双阶段网络训练：如图4所示，对于两个网络中任意一个网络，首先使用已经训练好的VGGNet模型参数分别作为网络的初始化参数，网络最后两个全连接层的参数使用高斯随机的方式进行初始化，从完整训练数据集中抽取一部分数据训练网络模型，利用Caffe深度学习框架对网络进行训练，当迭代次数达到6000时停止训练得到网络粗模型的参数，然后利用粗模型作为初始化参数在所有训练集上对网络模型再次训练。这样的训练方式可以有效地减少训练时间，同时模型也能快速地收敛。

步骤3，以验证集图像作为输入，通过步骤2得到的网络模型得到两个网络的输出评分图，利用不同的模型融合算法对两个通道的输出评分图进行融合，根据特定的评价指标选择最优的模型融合算法用于步骤4的图像测试。

如图2的算法架构图所示，在验证数据集上，使用三种不同的模型融合算法对双通道的模型结果进行融合，三种融合算法分别为：对所有子模型的输出评分图进行线性加权、最大池化和平均池化。融合后得到的结果通过语义分割的评价指标平均IoU(Intersectionover Union)进行评估，最终选择最优的融合算法应用于后续步骤的图像测试。

步骤4，分割模型测试，根据步骤2得到的网络模型和步骤3得到最优融合算法分割所有的测试图像。分割模型测试包括如下步骤：

①配置Caffe测试网络结构文件：测试网络的输入数据来自内存，即使用Caffe框架的内存输入层；测试网络最后一层得到输出置信图，置信图共有C+1个通道，每个通道的大小与原始图像大小一致，每个像素点的值表示原始图像对应位置对应类别的置信评分；

②对于一副待分割的图像，首先进行去均值化和维度转换操作，然后将转换后的图像作为双通道网络的输入进行预测，获得两个C+1个通道的输出评分图，并通过合适的模型融合算法对两个输出评分图进行融合得到新的评分图，根据该评分图得到最终的分割图。

综合上述，本发明小目标敏感的双通道卷积神经网络语义分割方法，包含模型训练和图像语义分割两个过程。首先利用Caffe深度学习框架搭建网络结构同时训练模型，得到最优的深度神经网络模型后对测试数据集进行图像语义分割。本发明是一种基于深度学习的像语义分割方法，该方法能够快速和准确地完成大规模的图像语义分割任务，对自然场景下的小目标分割和模糊边界分割问题较为敏感，进而提高了图像语义分割数据集的整体分割性能。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，包括以下步骤：

(1)使用Caffe深度学习框架搭建两个通道的卷积神经网络：非加权学习网络和加权学习网络；所述非加权学习网络用于对图像中目标的主体部位进行分割，加权学习网络用于对图像中小目标进行分割；加权学习网络的损失函数采用小目标敏感的交叉熵损失函数，小目标敏感的交叉熵损失函数将图像中的小目标区域的分类损失和其他区域的分类损失分开考虑，使用特定权值因子对小目标区域的分类损失进行增强，并与其他目标区域的分类损失累加得到总损失值；

所述小目标敏感的交叉熵损失函数如下：

上式中，L(θ)为小目标敏感的交叉熵损失函数，

k∈[0,|C|-1]，j∈[0,|C|]，|C|表示总类别数，

表示当前模型对数据集中第i个图像关于真实类别k的标记评分，w为小目标区域内像素分类损失的权重，P′和P″分别为小目标区域像素集合和非小目标区域像素集合；

(2)对于所述两个通道的卷积神经网络，分别使用双阶段训练方式对网络进行训练得到对应的语义分割模型；

2.根据权利要求1所述小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，在步骤(1)中，所述非加权学习网络与加权学习网络的网络主体结构相同，利用Attention模型结合多尺度分割网络作为网络主体结构；非加权学习网络的损失函数采用普通的交叉熵损失函数。

3.根据权利要求1所述小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，在步骤(2)中，所述双阶段训练方式如下：

第一步：首先从完整训练集中随机抽取一部分数据，再使用抽取的数据训练网络模型，该模型的初始参数值通过预训练网络模型微调得到；

第二步：然后在完整训练集上以第一步得到的网络模型作为初始化参数再次训练网络模型。

4.根据权利要求1所述小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，步骤(2)的具体步骤如下：

(21)将数据划分为训练集、验证集和测试集，对训练集中每个样本的真实标记图进行维度转换，将三维的真实标记图转换为二维的标记图，使其适用于Caffe深度学习框架的输入层；

(22)对于非加权学习网络，创建数据集图像索引文件作为Caffe深度学习框架输入层的参数，该索引文件每一行包含输入图片和对应分割标记图的文件路径；对于加权学习网络，同样创建数据集图像索引文件作为Caffe深度学习框架中输入层的参数，而该索引文件每一行除了包含输入图片和对应分割标记图的文件路径外，还包含了小目标区域的标记图，即标记每个像素点是否在小目标所包含的区域；

(23)对于两个网络中任意一个网络，首先使用已经训练好的VGGNet模型参数作为网络的初始化参数，网络最后两个全连接层的参数使用高斯随机的方式进行初始化，从完整训练数据集中抽取一部分数据训练网络模型，利用Caffe深度学习框架对网络进行训练，当迭代次数达到6000时停止训练得到网络粗模型的参数，然后利用粗模型作为初始化参数在所有训练集上对网络模型再次训练。

5.根据权利要求1所述小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，在步骤(3)中，不同的模型融合算法分别为线性加权、最大池化和平均池化，特定的评价指标为平均IoU。

6.根据权利要求1所述小目标敏感的双通道卷积神经网络语义分割方法，其特征在于，步骤(4)的具体步骤如下：

(41)配置Caffe测试网络结构文件：测试网络的输入数据来自内存，使用Caffe深度学习框架的内存输入层；测试网络最后一层得到输出置信图，置信图共有C+1个通道，C为总类比数，每个通道的大小与原始图像大小一致，置信图上每个像素点的值表示原始图像对应位置对应类别的置信评分；

(42)对于一幅待分割的图像，首先进行去均值化和维度转换操作，然后将转换后的图像作为双通道网络的输入进行预测，获得两个C+1个通道的输出评分图，并通过最优模型融合算法对两个输出评分图进行融合得到新的评分图，根据新的评分图得到最终的分割图。