CN108596330B

CN108596330B - 一种并行特征全卷积神经网络装置及其构建方法

Info

Publication number: CN108596330B
Application number: CN201810468647.5A
Authority: CN
Inventors: 曹铁勇; 方正; 张雄伟; 杨吉斌; 孙蒙; 李莉; 赵斐; 洪施展; 项圣凯
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2022-03-15
Anticipated expiration: 2038-05-16
Also published as: CN108596330A

Abstract

本发明公开了一种并行特征全卷积神经网络及其构建方法。所述神经网络包括卷积神经网络，并行膨胀模块，并行特征上采样模块，特征图求和模块，特征图并列模块和几个卷积层。构建方法为：移除卷积神经网络最后的分类层，设计并行膨胀模块和并行特征上采样模块提取卷积神经网络中间层特征图；特征图求和模块提取出的特征图，通过加法操作两两相加；特征图并列模块提取出的特征图直接并列输出；从上述特征图求和模块、特征图并列模块输出的特征图分别组成一个张量，通过一个对应的卷积层，然后共同输入到网络末端的卷积层，融合所有加和及并列特征，输出融合结果。本发明有较少的网络参数量，更好地利用了网络中的特征图，可以应用到图像的像素级别标注任务中。

Description

一种并行特征全卷积神经网络装置及其构建方法

技术领域

本发明属于图像信号处理技术领域，特别是一种并行特征全卷积神经网络装置及其构建方法。

背景技术

卷积神经网络(CNN)是深度学习在图像处理和计算机视觉中应用范围最广泛的网络。CNN最开始被设计来用于图像识别分类，即输入图像经过CNN后输出图像中的类别标签。但是，在图像处理的一些领域，仅仅识别整个图像的类别是远远不够的。比如图像语义分割，需要将图像中每一个像素点的类别都标注出来，这时的输出就不是一个类别标签，而是一张与原图像大小相同的映射图，该映射图中每个像素都标记了原图像中对应像素所属的语义类别。这时，仅靠CNN是无法完成任务的，需要对CNN做出结构上的改进，最早的CNN改造成像素级别标注任务的网络是全卷积网络(FCN)(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”in Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.3431–3440.)，该网络将传统CNN尾部的分类层换成了卷积层和反卷积层，以得到与原图像大小相同的输出映射图像，FCN最早用于图像的语义分割，后来也被用于其它类的像素级别的标注任务。FCN主要应用在以下两个方面：

(1)图像显著性检测：图像的显著性检测目的是找出图像中的显著前景目标，简单地说就是通过算法检测出图像地前景和背景目标，如果用FCN来学习显著性检测模型，一般网络的损失函数为标注图与生成映射图之间的欧几里得距离或者交叉熵。

(2)图像语义分割：不同于显著性目标检测，语义分割要找出每幅图像中所有语义内容并进行标注，既要分割出前景也有背景，同时还要将标注区域进行分类。在利用FCN训练语义分割模型时，一般损失函数由交叉熵和一个Softmax分类函数构成。

在全卷积网络中，存在两个主要的问题，一个问题是以往的全卷积网络不能够很好地利用所有中间层特征图信息以得出最终结果，所以在大多数针对像素级别标注任务的全卷积网络中，需要添加后处理过程，这就会使整个模型更加复杂。另一个问题就是现有全卷积网络参数量很大，需要占用很大的内存及运算资源，难以推广。

发明内容

本发明的目的在于提供一种网络参数量少、更好地利用网络中的特征图的并行特征全卷积神经网络装置及其构建方法，从而可以应用到图像的像素级别标注任务中。

实现本发明目的的技术解决方案为：一种并行特征全卷积神经网络装置，包括卷积神经网络，并行膨胀模块，并行特征上采样模块，特征图求和模块，特征图并列模块和几个卷积层，其中：

所述卷积神经网络为网络主体，包括卷积层和池化层，从卷积层和池化层中提取特征图；

所述并行膨胀模块，包含U个不同的膨胀卷积层，其中每个膨胀卷积层设置不同膨胀因子，U是1到16间的任意值，U个膨胀卷积层的膨胀因子应各不相同，且不超过16；膨胀卷积层用于扩大感受野，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小；同时包含一个空白支路，不对该支路的特征图进行任何操作，该空白支路用于提取不经过膨胀的特征图，并行膨胀模块的输出是由所有支路特征图合并而成的一个张量，包含了经过不同膨胀因子以及不膨胀处理的特征图；

所述并行特征上采样模块，若卷积神经网络有M次降采样过程，则包括M-1个上采样支路，每个上采样支路的输入来自于对应并行膨胀模块的输出，对于从第二次降采样后的特征图，对应上采样支路需要1个反卷积层，第三次降采样后的特征图需要2个反卷积层，依次类推，第M次降采样后的特征图上采样支路需要M-1个反卷积层；

所述特征图求和模块，从并行特征上采样模块中提取出的特征图，通过加法操作两两相加，然后将所有加和的特征图输出；

所述特征图并列模块，从并行特征上采样模块中提取出的特征图，直接并列输出；

从上述特征图求和模块输出的特征图组成一个张量；同时另一边，没有经过和操作的特征图并列模块输出的特征图也组成一个张量，这两个张量分别先通过一个对应的卷积层以加深网络深度，然后共同输入到网络末端的卷积层，融合所有加和及并列特征，以输出融合结果。

进一步地，所述并行膨胀模块中，每个膨胀卷积层的输入特征图和输出特征图的大小相同，每个膨胀卷积输出特征图的通道数自行设定，应小于对应卷积神经网络中特征提取层输出特征图的个数。

进一步地，所述并行膨胀模块，从卷积神经网络经过第二次降采样后开始构建，从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个，用该层输出的特征图作为第一个并行膨胀模块的输入，依次类推，对每一次降采样过后的特征图，构建一个并行膨胀模块，从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。

进一步地，所述并行特征上采样模块中，每个上采样模块的输出通道数一致。

进一步地，所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果，最后一个反卷积层中的激活函数根据具体任务进行选择：如果用该网络进行图像语义分割任务的训练，则激活函数为softmax分类函数；如果进行显著性检测任务的训练，则激活函数为sigmoid函数。

一种并行特征全卷积神经网络的构建方法，包括以下步骤：

步骤1，选取卷积神经网络：将卷积神经网络中用于分类的全连接层和分类层去除，只留下中间的卷积层和池化层，并从卷积层和池化层中提取特征图；

步骤2，构造并行膨胀模块：所述并行膨胀模块，包含U个不同的膨胀卷积层，其中每个膨胀卷积层设置不同膨胀因子，U是1到16间的任意值，U个膨胀卷积层的膨胀因子应各不相同，且不超过16；膨胀卷积层用于扩大感受野，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小；同时包含一个空白支路，不对该支路的特征图进行任何操作，该空白支路用于提取不经过膨胀的特征图，并行膨胀模块的输出是由所有支路特征图合并而成的一个张量，包含了经过不同膨胀因子以及不膨胀处理的特征图；

步骤3，构造并行特征上采样模块：所述并行特征上采样模块，若卷积神经网络有M次降采样过程，则包括M-1个上采样支路，每个上采样支路的输入来自于对应并行膨胀模块的输出，对于从第二次降采样后的特征图，对应上采样支路需要1个反卷积层，第三次降采样后的特征图需要2个反卷积层，依次类推，第M次降采样后的特征图上采样支路需要M-1个反卷积层；

步骤4，构造特征图求和模块、特征图并列模块：所述特征图求和模块，从并行特征上采样模块中提取出的特征图，通过加法操作两两相加，然后将所有加和的特征图输出；所述特征图并列模块，从并行特征上采样模块中提取出的特征图，直接并列输出；

步骤5，从上述特征图求和模块输出的特征图组成一个张量；同时另一边，没有经过和操作的特征图并列模块输出的特征图也组成一个张量，这两个张量分别先通过一个对应的卷积层以加深网络深度，然后共同输入到网络末端的卷积层，融合所有加和及并列特征，以输出融合结果。

进一步地，步骤2所述并行膨胀模块中，每个膨胀卷积层的输入特征图和输出特征图的大小相同，每个膨胀卷积输出特征图的通道数自行设定，应小于对应卷积神经网络中特征提取层输出特征图的个数；

所述并行膨胀模块，从卷积神经网络经过第二次降采样后开始构建，从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个，用该层输出的特征图作为第一个并行膨胀模块的输入，依次类推，对每一次降采样过后的特征图，构建一个并行膨胀模块，从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。

进一步地，步骤3所述并行特征上采样模块中，每个上采样模块的输出通道数一致。

进一步地，步骤5所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果，最后一个反卷积层中的激活函数根据具体任务进行选择：如果用该网络进行图像语义分割任务的训练，则激活函数为softmax分类函数；如果进行显著性检测任务的训练，则激活函数为sigmoid函数。

本发明与现有技术相比，其显著优点为：(1)能较好地利用网络中特征图，能够进行端到端的训练，不需要额外后处理过程，并且相比以往全卷积网络有更少的参数量和更快的运算速度；(2)该网络有较少的网络参数量，更好地利用了网络中的特征图，网络性能较好，能较好地解决像素级别标注问题。

附图说明

图1是本发明并行特征全卷积神经网络的整体结构图。

图2是本发明并行特征全卷积神经网络中的并行膨胀模块示意图。

图3是采用3种不同上采样方式的示意图。

图4是VGG网络的结构图。

图5是不同层特征的求和模块示意图。

具体实施方式

一种并行特征全卷积神经网络装置，包括卷积神经网络，并行膨胀模块，并行特征上采样模块，特征图求和模块，特征图并列模块和几个卷积层，其中：

所述并行膨胀模块，包含U个不同的膨胀卷积层，其中每个膨胀卷积层设置不同膨胀因子，U可以是1到16间的任意值，自行选取，U个膨胀卷积层的膨胀因子应各不相同，且不超过16。膨胀卷积层用于扩大感受野，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小；同时包含一个空白支路，不对该支路的特征图进行任何操作，该空白支路用于提取不经过膨胀的特征图，并行膨胀模块的输出是由所有支路特征图合并而成的一个张量，包含了经过不同膨胀因子以及不膨胀处理的特征图；

一种并行特征全卷积神经网络的构建方法，包括以下步骤：

步骤2，构造并行膨胀模块：所述并行膨胀模块，包含U个不同的膨胀卷积层，其中每个膨胀卷积层设置不同膨胀因子，U是1到16间的任意值，自行选取，U个膨胀卷积层的膨胀因子应各不相同，且不超过16；膨胀卷积层用于扩大感受野，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小；同时包含一个空白支路，不对该支路的特征图进行任何操作，该空白支路用于提取不经过膨胀的特征图，并行膨胀模块的输出是由所有支路特征图合并而成的一个张量，包含了经过不同膨胀因子以及不膨胀处理的特征图；

下面结合附图对本发明作进一步详细描述。

实施例1

首先，图1为本发明所公开的并行特征全卷积网络结构简图。该网络由卷积神经网络，并行膨胀模块，上采样模块，特征求和模块，以及特征图并列和几个卷积层(Conv)组成。

(1)卷积神经网络：

卷积神经网络可以选取当前已有的所有卷积神经网络，包括VGG-Net，ResNet，DenseNet等，卷积神经网络是用作图像分类的网络，一般由一些卷积层，池化层和全连接层构成，我们在构建全卷积网络时，需要将卷积网络中用于分类的全连接层和分类层去除，只留下中间的卷积层和池化层，并从这些中间层提取输出特征图，一般提取每个池化层后的特征图。

(2)并行膨胀模块构造：

并行膨胀模块由几个并行膨胀卷积以及一个非膨胀支路构成，并行膨胀模块构造时，应包含多个不同膨胀卷积层，其中每个膨胀卷积层设置不同膨胀因子。同时应该包含一个空白支路，不对该支路的特征图进行任何操作。对每个膨胀卷积层，其输入输出特征图的大小应该相同，每个膨胀卷积输出特征图的通道数可自行设定。图2中是一个包含4个膨胀卷积的并行膨胀模块，膨胀因子分别为2,4,8,16。如图2所示，图2中每个圆圈代表一个膨胀卷积操作，其中的数字是该卷积核的膨胀因子，中间的一条是没有卷积操作的支路。每个膨胀卷积输出大小与输入大小相同。膨胀卷积的定义如下：

假设F是一个二维图像，大小为N*N，k是一个大小为K*K的滤波器，则F与k的卷积操作定义为：

其中

在这里表示卷积符号，S(x,y)是得到的卷积结果。设l为膨胀因子，则膨胀因子为l的卷积

定义为：

膨胀卷积可以有效地扩大感受野，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。一般来说，在像素级别的标注任务中，大的感受野可以让网络学习到更多局部信息，但是局部信息并不是越多越好，在内容复杂的图像中，更多的局部信息可以帮助网络获得更准确的结果，但是内容简单的图像中，太多的局部信息反倒会恶化全卷积网络的结果。针对这种情况，本专利所提出的并行膨胀模块能很好地解决上述矛盾，通过并行膨胀卷积的方式，让全卷积网络在学习过程中自动选择所有特征(包括膨胀卷积后的特征以及非膨胀卷积后的特征)，给予网络更大的空间来判定最后的结果，这样使结果更加准确。并行膨胀模块一般从卷积神经网络经过第二次降采样后开始构建，从第二次降采样之后，第三次降采样之前的卷积层或池化层中选取一个，用该层输出的特征图作为第一个并行膨胀卷积模块的输入，依次类推，对每一次降采样过后的特征图，构建一个并行膨胀模块，从输出该尺寸特征图的卷积层或者池化层提取输出。输出特征图通道数可自行设定，只要小于对应卷积神经网络中特征提取层输出特征图的个数即可。

(3)并行特征上采样模块构造：

本专利提出的并行特征上采样结构如图3右下角所示，图中是一个由四个上采样支路组成的并行上采样模块，对应图1中的上采样模块1,2,3,4，图3中每个圆圈代表反卷积操作，2×表示上采样因子。反卷积操作前面和后面的C表示输入和输出特征图的通道数。并行特征上采样模块的输入来自于并行膨胀模块的输出，对于从第二次降采样后的特征图，对应上采样支路需要1个反卷积层，第三次降采样后的特征图需要2个反卷积层，依次类推，第M次降采样后的特征图上采样支路需要M-1个反卷积层。反卷积是卷积的逆操作，在FCN中，反卷积用来将特征图进行上采样，因为CNN原始结构中是一系列的下采样结构(包括卷积和池化)，卷积神经网络中，每个卷积层的输入输出图像之间的大小关系可以表示为：

其中O_conv是输出图像的长或宽，I_conv是输入图像的长或宽，K是卷积核大小，P是零填充数，S为卷积步长。

而反卷积输入输出的大小关系为：

O_deconv＝(I_deconv-1)S+K-SP (4)

其中O_deconv是输出图像的长或宽，I_deconv是输入图像的长或宽，K是卷积核大小，P是零填充数，S为卷积步长。池化层的输出大小都是输入的一半。

图3中另外两种上采样结构是当前一些FCN的上采样结构，一种是图3左侧的直接上采样结构，其上采样因子依次设定为2,4,8,16。一种图3顶部的级联步进式上采样结构，通过级联4个上采样因子为2的反卷积层进行上采样。这两种结构都有其缺点，第一种使用了过大的上采样因子，会导致最后一层的特征图变模糊，丢失信息。而第二种结构，由于其每个反卷积输入特征图通道数逐级增多，需要大量的参数。而本专利提出的并行上采样结构，解决了上述两种结构的问题，不仅能很好地保存特征图信息，参数量也只有级联步进式上采样结构的三分之一。

(4)各层特征加和模块构造

图5是本专利所提出的各层特征图加和模块，其中f₁-f₄代表从并行特征上采样模块中提取出的特征图张量，通过6个加法操作，将特征图两两相加，然后将所有加和的特征图输出到后端处理。特征图间的两两相加能够加强不同层之间的特征传递，可以实现特征互补，从而使网络更好的利用所有特征图。这里由于需要每层特征图两两相加，所以需要保证f₁-f₄的通道数一致，才能进行对应相加的操作。并行特征上采样模块中，每个支路的输出通道数应一致。

(5)并连使用加和特征与并列特征

如图1所以，在从特征加和模块出来的特征图，组成一个张量；同时另一边，没有经过和操作的特征图，也组成一个张量，这两个张量分别先通过两个卷积层(图1Conv1及Conv2)处理，这两个卷积层用作分别对两种特征图运算，可以加深网络深度，以使模型获得更好的结果，然后共同输入到网络末端的卷积层(图1Conv3层)，用以输出融合两种特征图的结果，然后通过一个反卷积层(图1Deconv层)进行两倍上采样，得到最终结果。在最后的反卷积层中包含激活函数，根据具体任务进行选择，比如用该网络进行图像语义分割任务的训练，则激活函数为softmax分类函数，如果进行显著性检测任务的训练，则激活函数为sigmoid函数。该结构的优点是可以让网络自主选择这两种特征(加和特征和并列特征)，以针对不同情况得到更好的结果。

(6)网络训练：在构建好网络之后，便可以针对具体任务进行网络的学习训练。针对不同任务选择不同的损失函数。例如针对显著性检测的任务，需要先选择好训练集图像及其对应标注图，损失函数一般为为标注图与生成映射图之间的欧几里得距离。如下式所示

其中Z＝Z_i(i＝1,...,N₁)是训练集图像，f(Z_i)是该图像通过网络后的输出结果，M_i(i＝1,...,N₁)是对应训练图像的标注图。网络的参数可以通过梯度下降法最小化(1)式进行更新。针对不同的训练任务，可以选取不同损失函数及参数更新方法。

下面以VGG卷积网络为例说明并行特征全卷积网络的构造方式，即将图1中的卷积神经网络替换为图4中的VGG网络，VGG网络结构如图4所示，其中pooling表示池化层，VGG中的降采样过程都在池化层中完成，所以该网络包含5个降采样层，如前所述，可以从Pooling2-5四个池化层中分别提取特征图，所以需要4个并行膨胀模块，在并行上采样模块中，需要4条上采样支路。卷积神经网络中，数据流动是以4维张量的形式存在的，假设输入图像是大小为N*N，则输入张量大小为1*3*N*N，在经过卷积后，会输出不同通道数的特征图，根据网络结构，第一个并行膨胀模块从pooling2层中提取特征图张量，为1*C*(N/4)*(N/4)，C是特征图的通道数，由之前的并行膨胀卷积块输出。这里可以根据情况自行选择，一般来说C越大，最终模型参数越多，在设计本发明中的特征提取模块时，主要关注每个中间层输出特征图的大小关系。从Pooling2中提取出的特征图大小为(N/4)*(N/4)，Pooling3输出特征图大小为(N/8)*(N/8)，Pooling4输出特征图的大小为(N/16)*(N/16)，Pooling5输出特征图的大小为(N/32)*(N/32)。

如之前所述，但是在像素级别的标注任务中，需要获得与原图像大小相同的输出结果图，同时，每一层的特征图信息都不相同，要综合利用所有层的特征，就要对所有输出特征图进行上采样。对此构建了一个并联的上采样结构，将所有层的特征图经过上采样到N/2*N/2。如图3右下角所示，从Pooling2中提取出的特征图经过一个反卷积后特征图尺寸变为(N/2)*(N/2)，从Pooling3中提取出的特征图经过2个反卷积后特征图尺寸变为(N/2)*(N/2)，以此类推，将所有层特征图大小都上采样到(N/2)*(N/2)。每个上采样支路输出通道数应相等。最后，由之前所述构建特征图并列和加和模块。

Claims

1.一种并行特征全卷积神经网络装置，其特征在于，包括卷积神经网络，并行膨胀模块，并行特征上采样模块，特征图求和模块，特征图并列模块和几个卷积层，其中：

所述并行特征上采样模块，若卷积神经网络有M次降采样过程，则包括M－1个上采样支路，每个上采样支路的输入来自于对应并行膨胀模块的输出，对于从第二次降采样后的特征图，对应上采样支路需要1个反卷积层，第三次降采样后的特征图需要2个反卷积层，依次类推，第M次降采样后的特征图上采样支路需要M-1个反卷积层；

从上述特征图求和模块输出的特征图组成一个张量；同时另一边，没有经过和操作的特征图并列模块输出的特征图也组成一个张量，这两个张量分别先通过一个对应的卷积层以加深网络深度，然后共同输入到网络末端的卷积层，融合所有加和及并列特征，以输出融合结果；

所述并行膨胀模块中，每个膨胀卷积层的输入特征图和输出特征图的大小相同，每个膨胀卷积输出特征图的通道数自行设定，应小于对应卷积神经网络中特征提取层输出特征图的个数；

所述并行膨胀模块，从卷积神经网络经过第二次降采样后开始构建，从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个，用该层输出的特征图作为第一个并行膨胀模块的输入，依次类推，对每一次降采样过后的特征图，构建一个并行膨胀模块，从输出尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入；

所述并行特征上采样模块中，每个上采样模块的输出通道数一致；

所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果，最后一个反卷积层中的激活函数根据具体任务进行选择：如果用该网络进行图像语义分割任务的训练，则激活函数为softmax分类函数；如果进行显著性检测任务的训练，则激活函数为sigmoid函数。

2.一种并行特征全卷积神经网络的构建方法，其特征在于，包括以下步骤：

步骤3，构造并行特征上采样模块：所述并行特征上采样模块，若卷积神经网络有M次降采样过程，则包括M－1个上采样支路，每个上采样支路的输入来自于对应并行膨胀模块的输出，对于从第二次降采样后的特征图，对应上采样支路需要1个反卷积层，第三次降采样后的特征图需要2个反卷积层，依次类推，第M次降采样后的特征图上采样支路需要M-1个反卷积层；

步骤5，从上述特征图求和模块输出的特征图组成一个张量；同时另一边，没有经过和操作的特征图并列模块输出的特征图也组成一个张量，这两个张量分别先通过一个对应的卷积层以加深网络深度，然后共同输入到网络末端的卷积层，融合所有加和及并列特征，以输出融合结果；

步骤2所述并行膨胀模块中，每个膨胀卷积层的输入特征图和输出特征图的大小相同，每个膨胀卷积输出特征图的通道数自行设定，应小于对应卷积神经网络中特征提取层输出特征图的个数；

所述并行膨胀模块，从卷积神经网络经过第二次降采样后开始构建，从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个，用该层输出的特征图作为第一个并行膨胀模块的输入，依次类推，对每一次降采样过后的特征图，构建一个并行膨胀模块，从输出尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入

步骤3所述并行特征上采样模块中，每个上采样模块的输出通道数一致

步骤5所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果，最后一个反卷积层中的激活函数根据具体任务进行选择：如果用该网络进行图像语义分割任务的训练，则激活函数为softmax分类函数；如果进行显著性检测任务的训练，则激活函数为sigmoid函数。