CN108596330B - 一种并行特征全卷积神经网络装置及其构建方法 - Google Patents
一种并行特征全卷积神经网络装置及其构建方法 Download PDFInfo
- Publication number
- CN108596330B CN108596330B CN201810468647.5A CN201810468647A CN108596330B CN 108596330 B CN108596330 B CN 108596330B CN 201810468647 A CN201810468647 A CN 201810468647A CN 108596330 B CN108596330 B CN 108596330B
- Authority
- CN
- China
- Prior art keywords
- parallel
- module
- feature
- layer
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 238000010276 construction Methods 0.000 title abstract description 9
- 238000010586 diagram Methods 0.000 claims abstract description 81
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 42
- 238000011176 pooling Methods 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 31
- 230000010339 dilation Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种并行特征全卷积神经网络及其构建方法。所述神经网络包括卷积神经网络,并行膨胀模块,并行特征上采样模块,特征图求和模块,特征图并列模块和几个卷积层。构建方法为:移除卷积神经网络最后的分类层,设计并行膨胀模块和并行特征上采样模块提取卷积神经网络中间层特征图;特征图求和模块提取出的特征图,通过加法操作两两相加;特征图并列模块提取出的特征图直接并列输出;从上述特征图求和模块、特征图并列模块输出的特征图分别组成一个张量,通过一个对应的卷积层,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,输出融合结果。本发明有较少的网络参数量,更好地利用了网络中的特征图,可以应用到图像的像素级别标注任务中。
Description
技术领域
本发明属于图像信号处理技术领域,特别是一种并行特征全卷积神经网络装置及其构建方法。
背景技术
卷积神经网络(CNN)是深度学习在图像处理和计算机视觉中应用范围最广泛的网络。CNN最开始被设计来用于图像识别分类,即输入图像经过CNN后输出图像中的类别标签。但是,在图像处理的一些领域,仅仅识别整个图像的类别是远远不够的。比如图像语义分割,需要将图像中每一个像素点的类别都标注出来,这时的输出就不是一个类别标签,而是一张与原图像大小相同的映射图,该映射图中每个像素都标记了原图像中对应像素所属的语义类别。这时,仅靠CNN是无法完成任务的,需要对CNN做出结构上的改进,最早的CNN改造成像素级别标注任务的网络是全卷积网络(FCN)(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”in Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.3431–3440.),该网络将传统CNN尾部的分类层换成了卷积层和反卷积层,以得到与原图像大小相同的输出映射图像,FCN最早用于图像的语义分割,后来也被用于其它类的像素级别的标注任务。FCN主要应用在以下两个方面:
(1)图像显著性检测:图像的显著性检测目的是找出图像中的显著前景目标,简单地说就是通过算法检测出图像地前景和背景目标,如果用FCN来学习显著性检测模型,一般网络的损失函数为标注图与生成映射图之间的欧几里得距离或者交叉熵。
(2)图像语义分割:不同于显著性目标检测,语义分割要找出每幅图像中所有语义内容并进行标注,既要分割出前景也有背景,同时还要将标注区域进行分类。在利用FCN训练语义分割模型时,一般损失函数由交叉熵和一个Softmax分类函数构成。
在全卷积网络中,存在两个主要的问题,一个问题是以往的全卷积网络不能够很好地利用所有中间层特征图信息以得出最终结果,所以在大多数针对像素级别标注任务的全卷积网络中,需要添加后处理过程,这就会使整个模型更加复杂。另一个问题就是现有全卷积网络参数量很大,需要占用很大的内存及运算资源,难以推广。
发明内容
本发明的目的在于提供一种网络参数量少、更好地利用网络中的特征图的并行特征全卷积神经网络装置及其构建方法,从而可以应用到图像的像素级别标注任务中。
实现本发明目的的技术解决方案为:一种并行特征全卷积神经网络装置,包括卷积神经网络,并行膨胀模块,并行特征上采样模块,特征图求和模块,特征图并列模块和几个卷积层,其中:
所述卷积神经网络为网络主体,包括卷积层和池化层,从卷积层和池化层中提取特征图;
所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U是1到16间的任意值,U个膨胀卷积层的膨胀因子应各不相同,且不超过16;膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;
所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果。
进一步地,所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数。
进一步地,所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。
进一步地,所述并行特征上采样模块中,每个上采样模块的输出通道数一致。
进一步地,所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
一种并行特征全卷积神经网络的构建方法,包括以下步骤:
步骤1,选取卷积神经网络:将卷积神经网络中用于分类的全连接层和分类层去除,只留下中间的卷积层和池化层,并从卷积层和池化层中提取特征图;
步骤2,构造并行膨胀模块:所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U是1到16间的任意值,U个膨胀卷积层的膨胀因子应各不相同,且不超过16;膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
步骤3,构造并行特征上采样模块:所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
步骤4,构造特征图求和模块、特征图并列模块:所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
步骤5,从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果。
进一步地,步骤2所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数;
所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。
进一步地,步骤3所述并行特征上采样模块中,每个上采样模块的输出通道数一致。
进一步地,步骤5所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
本发明与现有技术相比,其显著优点为:(1)能较好地利用网络中特征图,能够进行端到端的训练,不需要额外后处理过程,并且相比以往全卷积网络有更少的参数量和更快的运算速度;(2)该网络有较少的网络参数量,更好地利用了网络中的特征图,网络性能较好,能较好地解决像素级别标注问题。
附图说明
图1是本发明并行特征全卷积神经网络的整体结构图。
图2是本发明并行特征全卷积神经网络中的并行膨胀模块示意图。
图3是采用3种不同上采样方式的示意图。
图4是VGG网络的结构图。
图5是不同层特征的求和模块示意图。
具体实施方式
一种并行特征全卷积神经网络装置,包括卷积神经网络,并行膨胀模块,并行特征上采样模块,特征图求和模块,特征图并列模块和几个卷积层,其中:
所述卷积神经网络为网络主体,包括卷积层和池化层,从卷积层和池化层中提取特征图;
所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U可以是1到16间的任意值,自行选取,U个膨胀卷积层的膨胀因子应各不相同,且不超过16。膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;
所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果。
进一步地,所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数。
进一步地,所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。
进一步地,所述并行特征上采样模块中,每个上采样模块的输出通道数一致。
进一步地,所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
一种并行特征全卷积神经网络的构建方法,包括以下步骤:
步骤1,选取卷积神经网络:将卷积神经网络中用于分类的全连接层和分类层去除,只留下中间的卷积层和池化层,并从卷积层和池化层中提取特征图;
步骤2,构造并行膨胀模块:所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U是1到16间的任意值,自行选取,U个膨胀卷积层的膨胀因子应各不相同,且不超过16;膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
步骤3,构造并行特征上采样模块:所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
步骤4,构造特征图求和模块、特征图并列模块:所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
步骤5,从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果。
进一步地,步骤2所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数;
所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出该尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入。
进一步地,步骤3所述并行特征上采样模块中,每个上采样模块的输出通道数一致。
进一步地,步骤5所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
下面结合附图对本发明作进一步详细描述。
实施例1
首先,图1为本发明所公开的并行特征全卷积网络结构简图。该网络由卷积神经网络,并行膨胀模块,上采样模块,特征求和模块,以及特征图并列和几个卷积层(Conv)组成。
(1)卷积神经网络:
卷积神经网络可以选取当前已有的所有卷积神经网络,包括VGG-Net,ResNet,DenseNet等,卷积神经网络是用作图像分类的网络,一般由一些卷积层,池化层和全连接层构成,我们在构建全卷积网络时,需要将卷积网络中用于分类的全连接层和分类层去除,只留下中间的卷积层和池化层,并从这些中间层提取输出特征图,一般提取每个池化层后的特征图。
(2)并行膨胀模块构造:
并行膨胀模块由几个并行膨胀卷积以及一个非膨胀支路构成,并行膨胀模块构造时,应包含多个不同膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子。同时应该包含一个空白支路,不对该支路的特征图进行任何操作。对每个膨胀卷积层,其输入输出特征图的大小应该相同,每个膨胀卷积输出特征图的通道数可自行设定。图2中是一个包含4个膨胀卷积的并行膨胀模块,膨胀因子分别为2,4,8,16。如图2所示,图2中每个圆圈代表一个膨胀卷积操作,其中的数字是该卷积核的膨胀因子,中间的一条是没有卷积操作的支路。每个膨胀卷积输出大小与输入大小相同。膨胀卷积的定义如下:
假设F是一个二维图像,大小为N*N,k是一个大小为K*K的滤波器,则F与k的卷积操作定义为:
膨胀卷积可以有效地扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小。一般来说,在像素级别的标注任务中,大的感受野可以让网络学习到更多局部信息,但是局部信息并不是越多越好,在内容复杂的图像中,更多的局部信息可以帮助网络获得更准确的结果,但是内容简单的图像中,太多的局部信息反倒会恶化全卷积网络的结果。针对这种情况,本专利所提出的并行膨胀模块能很好地解决上述矛盾,通过并行膨胀卷积的方式,让全卷积网络在学习过程中自动选择所有特征(包括膨胀卷积后的特征以及非膨胀卷积后的特征),给予网络更大的空间来判定最后的结果,这样使结果更加准确。并行膨胀模块一般从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后,第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀卷积模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出该尺寸特征图的卷积层或者池化层提取输出。输出特征图通道数可自行设定,只要小于对应卷积神经网络中特征提取层输出特征图的个数即可。
(3)并行特征上采样模块构造:
本专利提出的并行特征上采样结构如图3右下角所示,图中是一个由四个上采样支路组成的并行上采样模块,对应图1中的上采样模块1,2,3,4,图3中每个圆圈代表反卷积操作,2×表示上采样因子。反卷积操作前面和后面的C表示输入和输出特征图的通道数。并行特征上采样模块的输入来自于并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层。反卷积是卷积的逆操作,在FCN中,反卷积用来将特征图进行上采样,因为CNN原始结构中是一系列的下采样结构(包括卷积和池化),卷积神经网络中,每个卷积层的输入输出图像之间的大小关系可以表示为:
其中Oconv是输出图像的长或宽,Iconv是输入图像的长或宽,K是卷积核大小,P是零填充数,S为卷积步长。
而反卷积输入输出的大小关系为:
Odeconv=(Ideconv-1)S+K-SP (4)
其中Odeconv是输出图像的长或宽,Ideconv是输入图像的长或宽,K是卷积核大小,P是零填充数,S为卷积步长。池化层的输出大小都是输入的一半。
图3中另外两种上采样结构是当前一些FCN的上采样结构,一种是图3左侧的直接上采样结构,其上采样因子依次设定为2,4,8,16。一种图3顶部的级联步进式上采样结构,通过级联4个上采样因子为2的反卷积层进行上采样。这两种结构都有其缺点,第一种使用了过大的上采样因子,会导致最后一层的特征图变模糊,丢失信息。而第二种结构,由于其每个反卷积输入特征图通道数逐级增多,需要大量的参数。而本专利提出的并行上采样结构,解决了上述两种结构的问题,不仅能很好地保存特征图信息,参数量也只有级联步进式上采样结构的三分之一。
(4)各层特征加和模块构造
图5是本专利所提出的各层特征图加和模块,其中f1-f4代表从并行特征上采样模块中提取出的特征图张量,通过6个加法操作,将特征图两两相加,然后将所有加和的特征图输出到后端处理。特征图间的两两相加能够加强不同层之间的特征传递,可以实现特征互补,从而使网络更好的利用所有特征图。这里由于需要每层特征图两两相加,所以需要保证f1-f4的通道数一致,才能进行对应相加的操作。并行特征上采样模块中,每个支路的输出通道数应一致。
(5)并连使用加和特征与并列特征
如图1所以,在从特征加和模块出来的特征图,组成一个张量;同时另一边,没有经过和操作的特征图,也组成一个张量,这两个张量分别先通过两个卷积层(图1Conv1及Conv2)处理,这两个卷积层用作分别对两种特征图运算,可以加深网络深度,以使模型获得更好的结果,然后共同输入到网络末端的卷积层(图1Conv3层),用以输出融合两种特征图的结果,然后通过一个反卷积层(图1Deconv层)进行两倍上采样,得到最终结果。在最后的反卷积层中包含激活函数,根据具体任务进行选择,比如用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数,如果进行显著性检测任务的训练,则激活函数为sigmoid函数。该结构的优点是可以让网络自主选择这两种特征(加和特征和并列特征),以针对不同情况得到更好的结果。
(6)网络训练:在构建好网络之后,便可以针对具体任务进行网络的学习训练。针对不同任务选择不同的损失函数。例如针对显著性检测的任务,需要先选择好训练集图像及其对应标注图,损失函数一般为为标注图与生成映射图之间的欧几里得距离。如下式所示
其中Z=Zi(i=1,...,N1)是训练集图像,f(Zi)是该图像通过网络后的输出结果,Mi(i=1,...,N1)是对应训练图像的标注图。网络的参数可以通过梯度下降法最小化(1)式进行更新。针对不同的训练任务,可以选取不同损失函数及参数更新方法。
下面以VGG卷积网络为例说明并行特征全卷积网络的构造方式,即将图1中的卷积神经网络替换为图4中的VGG网络,VGG网络结构如图4所示,其中pooling表示池化层,VGG中的降采样过程都在池化层中完成,所以该网络包含5个降采样层,如前所述,可以从Pooling2-5四个池化层中分别提取特征图,所以需要4个并行膨胀模块,在并行上采样模块中,需要4条上采样支路。卷积神经网络中,数据流动是以4维张量的形式存在的,假设输入图像是大小为N*N,则输入张量大小为1*3*N*N,在经过卷积后,会输出不同通道数的特征图,根据网络结构,第一个并行膨胀模块从pooling2层中提取特征图张量,为1*C*(N/4)*(N/4),C是特征图的通道数,由之前的并行膨胀卷积块输出。这里可以根据情况自行选择,一般来说C越大,最终模型参数越多,在设计本发明中的特征提取模块时,主要关注每个中间层输出特征图的大小关系。从Pooling2中提取出的特征图大小为(N/4)*(N/4),Pooling3输出特征图大小为(N/8)*(N/8),Pooling4输出特征图的大小为(N/16)*(N/16),Pooling5输出特征图的大小为(N/32)*(N/32)。
如之前所述,但是在像素级别的标注任务中,需要获得与原图像大小相同的输出结果图,同时,每一层的特征图信息都不相同,要综合利用所有层的特征,就要对所有输出特征图进行上采样。对此构建了一个并联的上采样结构,将所有层的特征图经过上采样到N/2*N/2。如图3右下角所示,从Pooling2中提取出的特征图经过一个反卷积后特征图尺寸变为(N/2)*(N/2),从Pooling3中提取出的特征图经过2个反卷积后特征图尺寸变为(N/2)*(N/2),以此类推,将所有层特征图大小都上采样到(N/2)*(N/2)。每个上采样支路输出通道数应相等。最后,由之前所述构建特征图并列和加和模块。
Claims (2)
1.一种并行特征全卷积神经网络装置,其特征在于,包括卷积神经网络,并行膨胀模块,并行特征上采样模块,特征图求和模块,特征图并列模块和几个卷积层,其中:
所述卷积神经网络为网络主体,包括卷积层和池化层,从卷积层和池化层中提取特征图;
所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U是1到16间的任意值,U个膨胀卷积层的膨胀因子应各不相同,且不超过16;膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;
所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果;
所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数;
所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入;
所述并行特征上采样模块中,每个上采样模块的输出通道数一致;
所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
2.一种并行特征全卷积神经网络的构建方法,其特征在于,包括以下步骤:
步骤1,选取卷积神经网络:将卷积神经网络中用于分类的全连接层和分类层去除,只留下中间的卷积层和池化层,并从卷积层和池化层中提取特征图;
步骤2,构造并行膨胀模块:所述并行膨胀模块,包含U个不同的膨胀卷积层,其中每个膨胀卷积层设置不同膨胀因子,U是1到16间的任意值,U个膨胀卷积层的膨胀因子应各不相同,且不超过16;膨胀卷积层用于扩大感受野,感受野的定义是卷积神经网络每一层输出的特征图上的像素点在原始图像上映射的区域大小;同时包含一个空白支路,不对该支路的特征图进行任何操作,该空白支路用于提取不经过膨胀的特征图,并行膨胀模块的输出是由所有支路特征图合并而成的一个张量,包含了经过不同膨胀因子以及不膨胀处理的特征图;
步骤3,构造并行特征上采样模块:所述并行特征上采样模块,若卷积神经网络有M次降采样过程,则包括M-1个上采样支路,每个上采样支路的输入来自于对应并行膨胀模块的输出,对于从第二次降采样后的特征图,对应上采样支路需要1个反卷积层,第三次降采样后的特征图需要2个反卷积层,依次类推,第M次降采样后的特征图上采样支路需要M-1个反卷积层;
步骤4,构造特征图求和模块、特征图并列模块:所述特征图求和模块,从并行特征上采样模块中提取出的特征图,通过加法操作两两相加,然后将所有加和的特征图输出;所述特征图并列模块,从并行特征上采样模块中提取出的特征图,直接并列输出;
步骤5,从上述特征图求和模块输出的特征图组成一个张量;同时另一边,没有经过和操作的特征图并列模块输出的特征图也组成一个张量,这两个张量分别先通过一个对应的卷积层以加深网络深度,然后共同输入到网络末端的卷积层,融合所有加和及并列特征,以输出融合结果;
步骤2所述并行膨胀模块中,每个膨胀卷积层的输入特征图和输出特征图的大小相同,每个膨胀卷积输出特征图的通道数自行设定,应小于对应卷积神经网络中特征提取层输出特征图的个数;
所述并行膨胀模块,从卷积神经网络经过第二次降采样后开始构建,从第二次降采样之后、第三次降采样之前的卷积层或池化层中选取一个,用该层输出的特征图作为第一个并行膨胀模块的输入,依次类推,对每一次降采样过后的特征图,构建一个并行膨胀模块,从输出尺寸特征图的卷积层或者池化层的输出特征图作为并行膨胀模块的输入
步骤3所述并行特征上采样模块中,每个上采样模块的输出通道数一致
步骤5所述融合结果经过最后一个反卷积层输出得到与输入图像大小相同的像素级别标注结果,最后一个反卷积层中的激活函数根据具体任务进行选择:如果用该网络进行图像语义分割任务的训练,则激活函数为softmax分类函数;如果进行显著性检测任务的训练,则激活函数为sigmoid函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810468647.5A CN108596330B (zh) | 2018-05-16 | 2018-05-16 | 一种并行特征全卷积神经网络装置及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810468647.5A CN108596330B (zh) | 2018-05-16 | 2018-05-16 | 一种并行特征全卷积神经网络装置及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596330A CN108596330A (zh) | 2018-09-28 |
CN108596330B true CN108596330B (zh) | 2022-03-15 |
Family
ID=63631400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810468647.5A Active CN108596330B (zh) | 2018-05-16 | 2018-05-16 | 一种并行特征全卷积神经网络装置及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596330B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359574B (zh) * | 2018-09-30 | 2021-05-14 | 宁波工程学院 | 基于信道级联的广域视场行人检测方法 |
WO2020077535A1 (zh) * | 2018-10-16 | 2020-04-23 | 深圳大学 | 图像语义分割方法、计算机设备和存储介质 |
CN109447088A (zh) * | 2018-10-16 | 2019-03-08 | 杭州依图医疗技术有限公司 | 一种乳腺影像识别的方法及装置 |
CN109615059B (zh) * | 2018-11-06 | 2020-12-25 | 海南大学 | 一种卷积神经网络中边缘填充和滤波器膨胀运算方法及系统 |
CN109544451A (zh) * | 2018-11-14 | 2019-03-29 | 武汉大学 | 一种基于渐进式迭代反投影的图像超分辨率重建方法和系统 |
CN113902921B (zh) | 2018-11-30 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN109784194B (zh) * | 2018-12-20 | 2021-11-23 | 北京图森智途科技有限公司 | 目标检测网络构建方法和训练方法、目标检测方法 |
US11017542B2 (en) * | 2018-12-21 | 2021-05-25 | Beijing Voyager Technology Co., Ld. | Systems and methods for determining depth information in two-dimensional images |
CN110008949B (zh) * | 2019-01-24 | 2020-03-17 | 华南理工大学 | 一种图像目标检测方法、系统、装置和存储介质 |
CN109840905A (zh) * | 2019-01-28 | 2019-06-04 | 山东鲁能软件技术有限公司 | 电力设备锈迹检测方法及系统 |
CN109859204B (zh) * | 2019-02-22 | 2020-12-11 | 厦门美图之家科技有限公司 | 卷积神经网络模型检验方法及装置 |
CN110059538B (zh) * | 2019-02-27 | 2021-07-09 | 成都数之联科技有限公司 | 一种基于深度密集神经网络的水体识别方法 |
CN110176015B (zh) * | 2019-05-22 | 2021-04-23 | 招商局金融科技有限公司 | 基于深度学习的图像处理方法、装置及存储介质 |
CN112069370A (zh) * | 2019-06-11 | 2020-12-11 | 北京地平线机器人技术研发有限公司 | 神经网络结构搜索方法、装置、介质和设备 |
CN110516723B (zh) * | 2019-08-15 | 2023-04-07 | 天津师范大学 | 一种基于深度张量融合的多模态地基云图识别方法 |
CN111738338B (zh) * | 2020-06-23 | 2021-06-18 | 征图新视(江苏)科技股份有限公司 | 基于级联膨胀fcn网络应用于马达线圈的缺陷检测方法 |
CN113205481A (zh) * | 2021-03-19 | 2021-08-03 | 浙江科技学院 | 基于阶梯状递进神经网络的显著性物体检测方法 |
CN113191208B (zh) * | 2021-04-09 | 2022-10-21 | 湖北工业大学 | 一种用于遥感图像实例分割的特征提取方法和计算机设备 |
CN116186575B (zh) * | 2022-09-09 | 2024-02-02 | 武汉中数医疗科技有限公司 | 一种基于机器学习的乳腺采样数据处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650690A (zh) * | 2016-12-30 | 2017-05-10 | 东华大学 | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 |
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN107784654A (zh) * | 2016-08-26 | 2018-03-09 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN107798381A (zh) * | 2017-11-13 | 2018-03-13 | 河海大学 | 一种基于卷积神经网络的图像识别方法 |
CN107958271A (zh) * | 2017-12-06 | 2018-04-24 | 电子科技大学 | 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120330869A1 (en) * | 2011-06-25 | 2012-12-27 | Jayson Theordore Durham | Mental Model Elicitation Device (MMED) Methods and Apparatus |
US20170328194A1 (en) * | 2016-04-25 | 2017-11-16 | University Of Southern California | Autoencoder-derived features as inputs to classification algorithms for predicting failures |
CN107563405A (zh) * | 2017-07-19 | 2018-01-09 | 同济大学 | 基于多分辨率神经网络的车库自动驾驶语义目标识别方法 |
CN107590831B (zh) * | 2017-08-30 | 2021-02-05 | 电子科技大学 | 一种基于深度学习的立体匹配方法 |
CN107767413B (zh) * | 2017-09-20 | 2020-02-18 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN107886967B (zh) * | 2017-11-18 | 2018-11-13 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
-
2018
- 2018-05-16 CN CN201810468647.5A patent/CN108596330B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784654A (zh) * | 2016-08-26 | 2018-03-09 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN106650690A (zh) * | 2016-12-30 | 2017-05-10 | 东华大学 | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 |
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN107798381A (zh) * | 2017-11-13 | 2018-03-13 | 河海大学 | 一种基于卷积神经网络的图像识别方法 |
CN107958271A (zh) * | 2017-12-06 | 2018-04-24 | 电子科技大学 | 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统 |
Non-Patent Citations (5)
Title |
---|
FCN于反卷积(Deconvolution)、上采样(UpSampling);skyfengye;《CSDN》;20180301;正文第1-3页 * |
Fusion of Heterogeneous Intrusion Detection Systems for Network Attack Detection;K Jayakumar et al;《Scientific world journal》;20150729;1-8 * |
基于盲反卷积的图像上采样算法;卢少平;《第六届和谐人机环境联合学术会议(HHME2010)》;20100930;1-6 * |
电液伺服系统的神经网络建模方法研究;童仲志等;《高技术通讯》;20090625;第19卷(第6期);620-626 * |
融合背景感知和颜色对比的显著性检测方法;刘峰等;《计算机辅助设计与图形学学报》;20161231;第28卷(第10期);1705-1712 * |
Also Published As
Publication number | Publication date |
---|---|
CN108596330A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596330B (zh) | 一种并行特征全卷积神经网络装置及其构建方法 | |
CN108717569B (zh) | 一种膨胀全卷积神经网络装置及其构建方法 | |
Zhou et al. | Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images | |
CN110232394B (zh) | 一种多尺度图像语义分割方法 | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN109461157B (zh) | 基于多级特征融合及高斯条件随机场的图像语义分割方法 | |
Fayyaz et al. | STFCN: spatio-temporal FCN for semantic video segmentation | |
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN111178316B (zh) | 一种高分辨率遥感影像土地覆盖分类方法 | |
JP6395158B2 (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN112906720A (zh) | 基于图注意力网络的多标签图像识别方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
CN112132844A (zh) | 基于轻量级的递归式非局部自注意力的图像分割方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN111860411A (zh) | 一种基于注意力残差学习的道路场景语义分割方法 | |
van den Brand et al. | Instance-level segmentation of vehicles by deep contours | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN112861931A (zh) | 一种基于差异注意力神经网络的多级别变化检测方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN112699889A (zh) | 基于多任务监督的无人驾驶实时道路场景语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |