CN107766794B

CN107766794B - 一种特征融合系数可学习的图像语义分割方法

Info

Publication number: CN107766794B
Application number: CN201710864343.6A
Authority: CN
Inventors: 韩亚洪; 于健壮
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2021-05-14
Anticipated expiration: 2037-09-22
Also published as: CN107766794A

Abstract

本发明涉及一种特征融合系数可学习的图像语义分割方法，该方法步骤主要包括先在图像分类数据集上训练一个由图像到类别标签的深度卷积网络分类模型；将分类模型中的全连接层类型转为卷积层类型，得到全卷积深度神经网络模型，进行像素级别的类别预测；然后扩展卷积层分枝，给每一个分支设置一个系数，特征融合层按照系数比重进行融合，将此系数设置为可学习的状态；其次在图像语义分割数据集上进行微调训练，同时进行系数学习，得到语义分割模型；经微调训练和融合系数学习，可得到1至20组融合系数；最后在每组中选出系数最大的那个分支，进行最终组合，再次微调训练和系数学习，得到最终的语义分割模型。本发明使特征融合效果达到最好的状态。

Description

一种特征融合系数可学习的图像语义分割方法

技术领域

本发明涉及深度学习及计算机视觉技术领域，具体涉及一种特征融合系数可学习的图像语义分割方法。

背景技术

过去的几年中，深度卷积神经网络在计算机视觉领域，包括图片分类、目标检测、姿态估计以及语义分割任务上，取得了非常大的性能提升。当下，进行语义分割任务的主要方式是使用深度神经网络进行密集的像素预测；同时也有一些工作，会结合条件随机场方法，对语义分割结果进行后处理，使分割结果更精细一些。之前，大部分使用深度神经网络进行语义分割方法，是先从图像中检测出一些物体候选框，之后将这些框与类别结合起来，作为分割结果。自从，全卷积神经网络出现以后，便快速的被很多人所使用。全卷积深度神经网络可以直接进行像素级别的类别预测，同时可以，端到端的进行训练。经过全卷积网络预测出的语义分割结果还有些粗糙，Chen L C等人，将这种结果结合图模型的方法，使用全连接条件随机场做进一步后处理，使分割结果更精细。

为了使性能进一步提升，许多基于深度神经网络的工作通过特征融合的方法，以得到更丰富的语义特征信息。Long J等人在反卷积的过程中不断融合其他层的特征，使得分割结果趋于精细。Xie S等人在使用深度神经网络进行边界检测任务时，将所有卷积层的特征都融合了起来，得到了较好的边界检测性能。Chen L C、Zhao H等人通过融合不同尺度的语义特征进行语义分割任务，取得了很不错的效果。Shuai B等人在全卷积网络工作的基础上，扩展出更多的卷积层，然后将这些卷积层的输出特征融合起来，使的全卷积网络的性能有了很大的提升。特征融合已是提升语义分割性能的一个基础的方法。通过融合更多的语义特征，能获得更多的语义信息。然而，并不是融合特征越多越好，语义特征之间存在着大量的冗余信息，一维的融合更多的特征，会增加计算量和计算时间，同时也可能无助于性能的提升；同时，融合哪些层的特征，并没有明确的可以依据的方法。基本都是凭借直觉和经验来选层，是比较盲目的。本发明，通过一种融合系数可学习的方法，一方面可以让各个特征进行最优比例的进行融合，另一方面，通过判断学出的融合融合系数的大小，可以判断该层特征的的重要性，从而可以为筛选层提供了依据。

发明内容

本发明的目的在于提高现有语义分割方法的精度，提供一种特征融合系数可学习的图像语义分割方法，本发明通过在训练分割模型时，对特征融合系数进行学习，从而达到选择较优的层的特征进行融合和融合时按照最优的融合比例，使语义分割性能不断提升的目的。

本发明的技术方案:一种特征融合系数可学习的图像语义分割方法，该方法包括以下步骤：

步骤(1)：在图像分类数据集上训练一个由图像到类别标签的深度卷积网络分类模型；

步骤(2)：将深度卷积神经网络分类模型中的全连接层类型转为卷积层类型，得到全卷积深度神经网络模型，进行像素级别的类别预测；

步骤(3)：将全卷积深度神经网络的后端部分的常规卷积转化为扩张卷积，并添加扩张卷积分支，然后在全卷积深度神经网络末端进行特征融合；

步骤(4)：将步骤(3)中全卷积深度神经网络末端扩展卷积层分枝，给每一个分支设置一个系数，特征融合层按照系数比重进行融合，将此系数设置为可学习的状态；

步骤(5)：将步骤(4)修改后得到的全卷积深度神经网络，在图像语义分割数据集上进行微调训练，同时进行系数学习，得到语义分割模型；

步骤(6)：经过步骤(1)至(5)得到一组包含2至10个融合系数的组合，由步骤(3)中经过1至20组多尺度分支组合，再经微调训练和融合系数学习，可得到1至20组融合系数；

步骤(7)：在每组中选出系数最大的那个分支，进行最终组合，再次微调训练和系数学习，得到最终的语义分割模型。

所述步骤(2)中全连接层类型转为卷积层类型的具体方法为：

(1)、将全连接层的内积操作类型修改为卷积操作类型；

(2)、全连接层是将所有的输入元素与全连接层的权值进行内积操作，映射为一维的向量；

(3)、卷积层则是对输入的元素进行卷积处理，得到的结果是二维的特征图。

所述步骤(3)中将常规卷积转化为扩张卷积操作的具体方法为：常规卷积处理，是取相邻的元素进行卷积，

而扩张卷积取的元素之间有间隔；

当输入为一维向量x(i)时，卷积输出为y(i)，w(s)为核大小为S卷积核，d为扩张系数，扩张卷积的操作定义如下公式所示：

所述步骤(4)中对全卷积深度神经网络末端扩展多个卷积层分枝的具体操作方法为：

(1)、在全连接层转化为的卷积层的位置，并列的添加不同扩张系数的扩张卷积层；

(2)、将这些不同扩张系数的卷积层的特征按一定的融合系数，进行融合；

(3)、融合操作是特征图对应位置乘以融合系数后相加。

所述步骤(5)中微调训练和特征系数学习的具体方法为：

(1)、基于分类网络构建语义分割模型的过程中，分类网络训练好的参数用来对语义分割模型相应参数初始化；

(2)、在语义分割数据集上进行端到端的微调训练；在训练的过程中，融合系数同时得到更新和学习；

其中，融合系数的学习算法如下：

L(*)为全卷积神经网络的损失函数，表示如下：

LossFunction：L(w，x，y，Y) (2)

其中，w是网络的权值参数，x为网络的输入，y为预测输出，Y是标签；

不同尺度的特征融合方程如下公式所示：

其中，f_k(*)是第k层的处理函数，w_k为该层的权值，x_k为该层的输入，a_k为该层对应的融合系数，a_k更新时，计算梯度的方法如下：

G为计算融合系数梯度时，用于临时表示的梯度矩阵；公式(4)结合公式(3)，推导出公式(5)，通过梯度矩阵所有元素求和，就得到了融合系数更新时所需的梯度，g_ij为梯度矩阵第(i，j)位置的元素，同时，给融合系数添加一个约束项：

融合系数学习时，更新规则如下：

v_i+1：＝η*v_i-μ*α*(a_k)_i-α*(Δa_k)_i (8)

(a_k)_i+1：＝(a_k)i+v_i+1 (9)

其中，i是迭代次数，η是冲量参数，α是学习率，μ是权重衰减参数。

与现有技术相比，本发明具有的优点：本发明采用融合系数可学习的方式进行特征融合，可以利用不同特征对最后的语义分割结果贡献不同的特性，使特征融合效果达到最好的状态。同个特征融合时，不同特征对应不同的融合系数，可以看出各个特征对最终的语义分割性能贡献的大小。当这些特征存在大量冗余，同时减小融合特征的数量时，我们可以选择贡献较大的特征来使用，抛弃贡献较小的特征。这样就可以避免，选择特征时凭借经验或直觉判断的盲目性。

附图说明

图1为扩张卷积在2D空间上的示意图：

(a)、(b)、(c)分别是深度卷积神经网络的前三个连续的卷积层在特征图上的扩张卷积操作。

图2为融合系数可学习的深度卷积语义分割网络的网络结构示意图。

图3为分支扩展时的细节示意图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明，并不对本发明作任何的限制。

本发明一种特征融合系数可学习的图像语义分割方法，具体步骤如下：

首先，在图像分类数据集上训练一个由图像到类别标签的深度卷积网络分类模型：

我们一般直接使用VGG16网络，已经预训练好的分类模型参数，来初始化我们的语义分割网络，而不是自己去训练。

其次，将深度卷积神经网络分类模型的全连接层转为卷积层，得到全卷积深度神经网络模型，该模型可以进行像素级别的类别预测：

VGG16网络的最后三层(fc6、fc7、fc8)是全连接层，这三层的操作类型是内积操作。即将所有的输入元素与全连接层的权值进行内积操作，映射为一维的向量。而卷积层则是对输入的元素进行卷积处理，得到的结果是二维的特征图。我们在这里将全连接层的内积操作类型修改为卷积操作类型。经过这样的修改之后，整个网络就变成全卷积网络了。

然后，将全卷积深度神经网络的后端部分的卷积转化扩张卷积，并添加多个扩张卷积分支，在全卷积深度神经网络的末端进行多个分支特征融合：

我们为了增大整个网络的感知域，在conv5_1、conv5_2、conv5_3三个卷积层使用扩张系数均为2的扩张卷积，取代原有的卷积操作。然后在pool5层之后，扩展三个卷积层，网络的后端变为4个分支，分别使用扩张系数为{6，10，16，22}的扩张卷积操作。然后在fc8层位置，将4个分支的特征，进行按照不同的系数进行融合，如图2所示。

其中将卷积操作转化为扩张卷积操作的具体方法为：常规卷积处理，是取相邻的元素进行卷积，而扩张卷积是取的元素之间有一定的间隔。当输入为一维向量x(i)时，卷积输出为y(i)，w(k)为核大小为k的卷积核，d为扩张系数，扩张卷积的操作定义如下公式所示：

再次，将上述步骤中全卷积深度神经网络末端的扩展多个卷积层分枝，按照一定的系数进行融合，将这些系数设置为可学习的状态：

对全卷积深度神经网络末端扩展多个卷积层分枝的具体操作方法为：

(2)、将这些不同扩张系数的卷积层的特征进行按一定的融合系数，进行融合；

(3)、融合操作是特征图对应位置乘以融合系数后相加。

通常进行多种特征融合时，都是直接相加，也就是说融合系数为1，按照相同的重要性融合。在分割模型训练的过程中，这些融合系数保持固定不变。本发明中，为了使各种特征以最优的比例进行融合，使这些融合系数在模型训练的过程中进行学习和更新，使特征以最优的比例进行融合。

第五步，将上述步骤修改后得到的全卷积深度神经网络在图像语义分割数据集上进行微调训练，同时进行系数学习，得到语义分割模型：

其中微调训练具体方法为：基于分类网络构建语义分割模型的过程中，分类网络VGG16训练好的参数用来对语义分割模型相应参数初始化。在网络的后端扩展的3个分支中，也使用相同的参数进行初始化。然后，在语义分割数据集上进行端到端的微调训练。微调训练使用增广的语义分割数据集PASCAL VOC2012，该数据集含有21个目标类别，其中包含背景类别。用于训练的图片有10,582张，用于训练的图片有1,449张。微调训练时，使用“poly”的学习策略，batch size为10，学习率为0.001，冲量衰减为0.0005。先固定学习系数为1，训练迭代数量20,000次，之后固定所有的权重，仅训练融合系数。这时置融合系数层的lr_mult为100，batch size为120，迭代2,500次，我们得到最后的语义分割模型和学习到的融合系数。

其中，融合系数的学习算法如下：

L(*)为全卷积神经网络的损失函数，表示如下：

LossFunction：L(w，x，y，Y) (2)

不同尺度的特征融合方程如下公式所示：

G为计算融合系数梯度时，用于临时表示的梯度矩阵；公式(4)结合公式(3)，可推导出公式(5)，通过梯度矩阵所有元素求和，就得到了融合系数更新时所需的梯度，g_ij为梯度矩阵第(i，j)位置的元素，同时，给融合系数添加一个约束项。

融合系数的更新规则如下：

v_i+1：＝η*v_i-μ*α*(a_k)_i-α*(Δa_k)_i (8)

(a_k)_i+1：＝(a_k)_i+v_i+1 (9)

第六步，经过上述步骤1至5，可得到一组融合系数，通过步骤3，经过多次不同的多尺度分支组合，再经微调训练和融合系数学习，可得到多组融合系数。

最后，在每组中选出系数最大的那个分支，进行最终组合，再次进行微调训练和系数学习，得到最终的语义分割模型。

图1为扩张卷积在2D空间上的示意图：(a)、(b)、(c)分别是深度卷积神经网络的前三个连续的卷积层在特征图上的扩张卷积操作。其中，卷积核大小都为3，扩张系数分别为{1,2,4}。每一个特征图里面含有2个框。小框位于大框左上角，小框是扩张卷积处理前的每个元素感知域大小，大框是扩张卷积处理后的每个元素感知域大小。

图2为融合系数可学习的深度卷积语义分割网络的网络结构示意图。网络的输入为图像，输出为语义分割结果。其中，图中Conv1_～Pool5部分是VGG16前面13个卷积层，其中，conv5_1、conv5_2、conv5_3三个卷积层都使用了扩张系数为2的扩张卷积操作，其余卷积层的扩张系数为1。Fc6层由原来的一个分支，扩展为4个分支，分别使用了不同的扩张系数{6,10,16,22}进行扩张卷积处理。其中，在Fc8层进行4个不同分支的特征融合，a_i为每个分支对应的特征融合系数。在进行网咯训练时，这里的系数也要同时更新和学习。

图3为分支扩展时的细节示意图。在Pool5层输入特征图之后，Fc6层在这个特征图上，分别使用4个不同的扩张系数进行不同的扩张卷积处理，不同的扩张卷积处理，得到的是不同尺度语义信息特征。

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

参考文献

【1】Chen L C,Papandreou G,Kokkinos I,et al.《Deeplab:基于深度卷积网络、扩张卷积和全连条件随机域的图像语义分割》,arXiv preprint arXiv:1606.00915,2016.

【2】Long J,Shelhamer E,Darrell T.《基于全卷积网络的语义分割》,计算机视觉与模式识别,2015:3431-3440.

【3】Zhao H,Shi J,Qi X,et al.《金字塔场景解析网络》,arXiv preprint arXiv:1612.01105,2016.

【4】Girshick R,Donahue J,Darrell T,et al.《基于多层次特征的准确目标检测和语义分割》,计算机视觉和模式识别,2014:580-587.

【5】Xie S,Tu Z.《全局-嵌套的边界检测》,国际计算机视觉会议.2015:1395-1403.

【6】Shuai B,Liu T,Wang G.《基于改良的全卷积网络的语义分割》,arXivpreprint arXiv:1611.08986,2016.

【7】Simonyan K,Zisserman A.《基于极深卷积网络的超大规模图像识别》,arXivpreprint arXiv:1409.1556,2014.

【8】Everingham M,Eslami A,Van Gool L,et al.《PASCAL视觉目标分类竞赛：回顾》,国际计算机视觉期刊,2015,111(1):98.

【9】

P,Koltun V.《基于高斯边缘势能的全连接条件随机域的高效推断》，神经信息处理会议.2011:109-117.

【10】Tompson J J,Jain A,LeCun Y,et al.《基于卷积网络和图模型联合训练的人类姿态估计》,神经信息处理会议.2014:1799-1807.