CN110472732A

CN110472732A - 优化特征提取方法及其神经网络结构

Info

Publication number: CN110472732A
Application number: CN201910761868.6A
Authority: CN
Inventors: 吴华; 杨双; 于山虎; 韦统启; 孙鑫盛
Original assignee: Hangzhou Jingmou Intelligent Technology Co Ltd
Current assignee: Zibo Ningmou Intelligent Technology Co ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-19
Anticipated expiration: 2039-08-19
Also published as: CN110472732B

Abstract

一种优化特征提取方法及其神经网络结构，通过分别提取图像的水平方向特征和垂直方向特征进行拼接得到特征图后，再从中分别提取空间关注特征和通道关注特征，经合并后得到优化特征提取图。本发明能够兼顾图像水平方向与垂直方向特征信息融合以及空间关注(关注特征提取)机制和通道关注(通道关注特征提取)机制，具有较强鲁棒性。

Description

优化特征提取方法及其神经网络结构

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种优化特征提取方法及其神经网络结构

背景技术

现有主干网络参数量和计算量通常都比较高，导致在计算资源和存储资源很有限的嵌入式设备上无法适用；另外由于主干网可无差别的应用于许多领域，具有较强通用性的同时，针对一些特征存在明显特质的应用场景时无法灵活调整配置。

发明内容

本发明针对现有技术存在的上述不足，提出一种优化特征提取方法及其神经网络结构，能够兼顾图像水平方向与垂直方向特征信息融合以及空间关注(关注特征提取)机制和通道关注(通道关注特征提取)机制，具有较强鲁棒性。

本发明是通过以下技术方法实现的：

本发明涉及一种优化特征提取方法，通过分别提取图像的水平方向特征和垂直方向特征进行拼接得到二维特征图后，再从中分别提取空间关注特征和通道关注特征，经合并后得到优化特征提取图。

所述的空间关注特征和通道关注特征，其激活函数为y＝(x-min+α)/(max-min)，其中：max和min为所有通道的最大值/最小值，α为学习参数，其更新学习方式采用但不限于SGD momentum。

优选地，将得到的优化特征提取图作为输入进一步通过所述优化特征提取方法，以得到具有更强信息表达力的二次或多次优化特征提取图。

进一步优选地，将本次二维特征图与上次优化特征提取图进行按位相加，得到输出特征图，其中：上次优化特征图即本次优化特征提取方法的输入。

所述的按位相加，优选先经过上采样处理。

本发明涉及一种优化特征提取装置，由若干个特征提取模块串联组成，其中每个特征提取模块包括HV模块和CS模块，其中：HV模块的输入为原始图像或上一级特征提取模块的输出，HV模块的输出作为CS模块的输入，CS模块输出优化特征图。

所述的HV模块包括：并联的水平方向特征提取网络和垂直方向特征提取网络，其输出经拼接得到HV模块的输出图。

所述的水平方向特征提取网络包括：分别用于提取图像水平方向的两个并联的卷积层以及将输出按位相加的输出层。

所述的垂直方向特征提取网络包括：用于提取图像垂直方向的卷积层、用于变化图像尺寸的卷积及上采样层以及将提取到的特征图与输入的特征图按位相加的输出层。

所述的CS模块包括：并联的空间关注特征提取网络和通道关注特征提取网络，其输出经拼接得到CS模块的输出图。

所述的空间关注特征提取网络包括：通道压缩层、对输入的特征图和压缩后的单通道特征图进行空间关注特征提取并合并各个通道特征图的输出层。

所述的通道关注特征提取网络包括：深度二维卷积层、池化层、对输入的特征图和卷积后的特征图进行通道关注特征提取并合并各个通道特征图的输出层。

本发明涉及一种包含上述优化特征提取装置的图像特征提取系统，包括：特征提取(feature_extract)骨干网络、特征图输出模块和结果输出模块，其中：三个结果输出模块分别与特征图输出模块的输出端相连并各自输出三个特征图对应的结果。

技术效果

与现有技术相比，本发明在参数量和计算量远低于传统主干网的前提下，保证较高的模型性能。且针对不同领域的图像特征，可在一定程度上调整主干网通道结构，从而适应领域需求。

附图说明

图1为HV模块示意图；

图2为CS模块示意图；

图3为图像特征提取系统示意图；

图4为特征提取骨干网络示意图；

图5为特征图输出模块示意图；

图6为结果输出模块示意图。

具体实施方式

实施例1

如图1所示，本实施例包括以下步骤：

步骤1、采用长宽1600的3通道图像输入至HV模块的水平方向特征提取网络，得到水平方向最终的特征图。

所述的水平方向特征提取网络包括：

101层为卷积核3*3、滑动步长2的卷积层，将图像大小压缩到长宽800的32通道特征图，并作为HV模块的输入送入网络。

102层进行分割(slice)操作，将特征图分成通道数分别为8、8、16的三个分支，从上到下分别位第一分支、第二分支和第三分支。

103层和104层分别对第一分支和第二分支使用1*3的卷积核进行运算以提取图像水平方向的特征，其中104层的dalition为3，以增大感受视野。

105层将第一分支和第二分支的特征图按位相加，得到水平方向最终的特征图。

步骤2、将步骤1中长宽1600的3通道图像输入垂直方向特征提取网络，将得到的垂直方向特征图和水平方向特征图进行拼接，得到HV模块的输出图。

所述的垂直方向特征提取网络包括：

106层对第三分支使用3*1的卷积核进行运算以提取垂直方向的特征。

为提高收敛程度，本实施例采用ResNet的残差结构，对第三分支进一步分割，其中：107层、108层和109层得到长宽为800的16通道特征图，110层将原始第三分支输入的特征图进行按位相加运算，得到垂直方向最终的特征图。

107层采用的卷积核为3*1，滑动步长2*1，将特征图在垂直方向缩小一倍。

108层采用双线性插值法进行上采样，将特征图在水平垂直方向增大一倍。

109层采用的卷积核为1*3，滑动步长1*2，将特征图在水平方向缩小一倍。

111层将水平方向特征图和垂直方向特征图进行拼接，从而得到HV模块的输出图。

所述的HV模块中，卷积层均使用深度二维卷积(depthwise)，以保证较好的模型效果的同时大幅减少模型参数和计算量。

所述的第三分支中的卷积与反卷积对长和宽两个方向使用了不同的滑动步长，且使用了1*3和3*1两种卷积核配置，使得网络可以更灵活的包含不同尺度上的信息。

所述的HV模块的输出图为长宽800的24通道特征图。

步骤3、将HV模块的输出图输入CS模块。

如图2所示，所述的CS模块包括：并联的空间关注特征提取网络和通道关注特征提取网络，具体包括：

201层为卷积核1*1、滑动步长1的卷积层，将特征图通道扩展到32，并作为CS模块的输入送入网络。

202层进行分割(slice)操作，将特征图分成通道数均为16的两个分支，即空间关注特征提取分支和通道关注特征提取分支。

203层为卷积核1*1、滑动步长1的卷积层，将空间关注特征提取分支的通道压缩到1。

204层对原始的空间关注特征提取分支特征图和压缩后的单通道特征图进行关注特征提取运算，具体：将压缩后的单通道特征图激活后作为权重，对原始特征图每个通道进行按位相乘运算，得到空间关注特征提取分支最终的特征图。

205层为卷积核3*3的深度二维(depthwise)卷积，卷积运算后特征图通道数不变，

206层对输入特征图进行全局平均池化计算，计算后得到一个16通道的1*1特征图。

207对原始通道关注特征提取分支特征图和206层输出的特征图进行通道关注特征提取运算，具体为：将206层输出的特征图激活后作为权重，用每个通道的特征值与原始通道关注特征提取分支的特征图相应通道的所有元素相乘，得到通道关注特征提取分支最终的特征图。

208层对最终的空间关注特征提取特征和通道关注特征提取特征进行按位相加运算。

209层的卷积层采用卷积核为1*1，将特征图通道数变化为32。

所述的激活，以空间关注特征激活为例，对203层得到的单通道特征图求最大值和最小值。同理，通道关注特征激活时，对206层输出的16通道特征图求最大值和最小值，这里的16个通道大小都是1*1，因此也就是对这16个数求最大值和最小值，之后对特征图每个特征进行激活，激活的公式为y＝(x-min+α)/(max-min)，其中：α为学习参数，在整个神经网络的计算中自动学习。

相比于传统的sigmoid函数，本方法的激活方式的映射范围不仅限于0到1之间，甚至可以取到负值，因此本方法中的关注特征提取机制不仅可以起到特征筛选的作用，还可以利用到一些负面特征的信息。并且本方法的激活函数包含一个可学习的参数α，使得关注特征提取机制更加灵活智能，提升了整个CS模块的网络容量。

上述CS模块，充分融合了神经网络中的关注特征提取机制并采用创新的激活函数，使模型能够充分利用图像上下文信息，从而提高模型精度。

实施例2

对于一些特殊的应用，如目标检测往往需要在最终的输出端同时得到多种分辨率的特征图。为此，本实施例提出一种图像特征提取系统，能够根据实际应用需求，将不同分辨率的特征图进行同时输出，得到的特征图具有更强的信息表达力。

如图3所示，所述的图像特征提取系统包括：特征提取(feature_extract)骨干网络、特征图输出模块和结果输出模块，其中：三个结果输出模块分别与特征图输出模块的输出端相连并各自输出三个特征图对应的结果。

如图4所示，本实施例中的特征提取骨干网络包括五个串联的优化特征提取装置，每个优化特征提取装置包括HV模块和CS_s模块，其中的CS_s模块不包含用于降采样的209层，即输出的特征图尺寸不变。

如图5所示，本实施例中的特征图输出模块包括六个串联的优化特征提取装置，其中：奇数位置的优化特征提取装置中设有降采样层，偶数位置的优化特征提取装置不包含降采样层，奇数位置的优化特征提取装置中HV模块的输出经过上采样后，与上一个奇数位置的优化特征提取装置中CS模块的降采样层的输出进行按位相加，从而分别得到三个输出特征图。

如图2所示，所述降采样层在本实施例中通过增加210层实现，从而缩小优化特征提取图的尺寸，该210层的maxpooling采用卷积核为3*3，滑动步长为2，将特征图大小缩减4倍，输出长宽为400*400的32通道特征图，即优化特征提取图。

所述的maxpooling可根据需求选择性的去除，maxpooling的主要目的是降采样，减小特征图大小，减小整个网络大小，去除maxpooling层则可以获取更大的特征图，从而包含更多的特征信息。实际应用中较合理的用法是在不同的CS模块选择性的使用或不使用maxpooling，使整个网络的特征图大小合理的、逐步的减小。

所述的结果输出模块包括并联的分类卷积单元和回归卷积单元，通过输入特征图得到对应的分类结果和回归结果。

所述的分类卷积单元Conv_cls和回归卷积单元conv_reg均采用卷积层实现，其输出特征图大小与输入特征一致，所述的分类结果代表检测结果为人脸或非人脸的概率，回归结果代表检测框的中心点x，y以及宽高w，h的偏移量。

综上，本实施例图像特征提取系统输出结果的特征通道数由检测窗(anchor)的个数决定，分类结果的输出通道数为2*anchor个数，回归结果的通道数为4*anchor个数。

本实施例中使用的anchor数为10个，10个anchor框的参数配置如下(每个框的四个参数分别代表anchor框左上和右下角坐标的x，y值)：

-4	-5	4	5
				-8	-10	8	10
-13	-16	13	16
				-18	-25	18	25
-26	-31	26	31
				-35	-48	35	48
-42	-45	42	45
				-51	-65	51	65
-62	-80	62	80
				-79	-70	79	70

其中前两个anchor应用于特征图1，中间四个anchor应用于特征图2，最后四个anchor应用于特征图3。

如图3所示，当输入图像为1600*1600的3通道彩色图像，优选经过一个卷积核为3*3、滑动步长为2的卷积层将图像大小压缩到长宽800的32通道特征图后输入上述系统，得到输出的特征图1大小为800*800，特征图2大小为400*400，特征图3大小为200*200。不同尺寸的输入图像会得到相应的输出特征图及结果，最终获得的检测结果为结果1、2、3的总和。

进一步地，使用公开数据集WIDER Face以及采集的一些人脸标注数据图像作为训练集，数据集中均标注了人脸的真实位置，即grount truth。

在训练过程中，与ground truth的交并比(IOU)大于0.5的预测框作为正样本，IOU小于0.3的预测框作为负样本。由于实际数据集中负样本比例远高于正样本，因此在选取负样本时采用与正样本比例1：3的方式随机抽样。

上述系统分别使用softmax函数作为loss函数进行分类结果的输出的网络训练，使用smooth L1函数作为loss函数进行回归结果的输出的训练。

网络输入的batch_size值设置为1，即每次输入一张图像；学习率设置为0.01，每经过4万次迭代学习率参数值调整为原来的十分之一；网络训练总的迭代数为20万次；训练过程中优化器设置为SGD momentum。

进一步地，使用如下增强方法处理训练图像，以获得可以在有限的数据量下，丰富数据样本的内容的效果：

1、在(0.25，2)之间随机选取一个值，以该值为比例对输入图像进行缩放；

2、随机对图像进行水平方向和垂直方向的翻转；

3、在(0.5，1)之间随机选取一个值，以该值为比例随机裁剪图像的一部分作为输入；

4、随机改变图像亮度、饱和度、对比度等。

本实施例输入320*320分辨率的图像，在GPU RTX2060下inference耗时大约在10ms。网络大小在900kb左右，远低于使用其他主干网络的模型(VGG 500MB左右，mobileNet也至少需要几MB)。在wider face数据集上测试mAP值可达到0.85左右。在如此低参数量的前提下，表现十分优异。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方法均受本发明之约束。

Claims

1.一种优化特征提取方法，其特征在于，通过分别提取图像的水平方向特征和垂直方向特征进行拼接得到二维特征图后，再从中分别提取空间关注特征和通道关注特征，经合并后得到优化特征提取图。

2.根据权利要求1所述的优化特征提取方法，其特征是，所述的空间关注特征和通道关注特征，其激活函数为y＝(x-min+α)/(max-min)，其中：max和min为所有通道的最大值/最小值，α为学习参数。

3.根据权利要求1所述的优化特征提取方法，其特征是，将得到的优化特征提取图作为输入进一步通过所述优化特征提取方法，以得到具有更强信息表达力的二次或多次优化特征提取图。

4.根据权利要求3所述的优化特征提取方法，其特征是，将本次二维特征图与上次优化特征提取图进行按位相加，得到输出特征图，其中：上次优化特征图即本次优化特征提取方法的输入。

5.一种优化特征提取装置，其特征在于，由若干个特征提取模块串联组成，其中每个特征提取模块包括HV模块和CS模块，其中：HV模块的输入为原始图像或上一级特征提取模块的输出，HV模块的输出作为CS模块的输入，CS模块输出优化特征图。

6.根据权利要求5所述的优化特征提取装置，其特征是，所述的HV模块包括：并联的水平方向特征提取网络和垂直方向特征提取网络，其输出经拼接得到HV模块的输出图。

7.根据权利要求5所述的优化特征提取装置，其特征是，所述的CS模块包括：并联的空间关注特征提取网络和通道关注特征提取网络，其输出经拼接得到CS模块的输出图。

8.根据权利要求6所述的优化特征提取装置，其特征是，所述的水平方向特征提取网络包括：分别用于提取图像水平方向的两个并联的卷积层以及将输出按位相加的输出层。

9.根据权利要求8所述的优化特征提取装置，其特征是，所述的垂直方向特征提取网络包括：用于提取图像垂直方向的卷积层、用于变化图像尺寸的卷积及上采样层以及将提取到的特征图与输入的特征图按位相加的输出层。

10.根据权利要求7所述的优化特征提取装置，其特征是，所述的空间关注特征提取网络包括：通道压缩层、对输入的特征图和压缩后的单通道特征图进行空间关注特征提取并合并各个通道特征图的输出层。

11.根据权利要求10所述的优化特征提取装置，其特征是，所述的卷积层，将压缩后的单通道特征图激活后作为权重，对原始特征图每个通道进行按位相乘运算，得到空间关注特征提取分支最终的特征图。

12.根据权利要求10所述的优化特征提取装置，其特征是，所述的通道关注特征提取网络包括：深度二维卷积层、池化层、对输入的特征图和卷积后的特征图进行通道关注特征提取并合并各个通道特征图的输出层。

13.根据权利要求12所述的优化特征提取装置，其特征是，所述的卷基层将池化层输出的特征图激活后作为权重，用每个通道的特征值与原始通道关注特征提取分支的特征图相应通道的所有元素相乘，得到通道关注特征提取分支最终的特征图。

14.一种包含权利要求5～13中任一所述优化特征提取装置的图像特征提取系统，其特征在于，包括：特征提取骨干网络、特征图输出模块和结果输出模块，其中：三个结果输出模块分别与特征图输出模块的输出端相连并各自输出三个特征图对应的结果。

15.根据权利要求14所述的图像特征提取系统，其特征是，所述的特征提取骨干网络包括五个串联的优化特征提取装置，每个优化特征提取装置包括HV模块和CS_s模块，其中的CS_s模块不包含用于降采样层，即输出的特征图尺寸不变。

16.根据权利要求14所述的图像特征提取系统，其特征是，所述的特征图输出模块包括六个串联的优化特征提取装置，其中：奇数位置的优化特征提取装置中设有降采样层，偶数位置的优化特征提取装置不包含降采样层，奇数位置的优化特征提取装置中HV模块的输出经过上采样后，与上一个奇数位置的优化特征提取装置中CS模块的降采样层的输出进行按位相加，从而分别得到三个输出特征图。

17.根据权利要求14所述的图像特征提取系统，其特征是，所述的结果输出模块包括并联的分类卷积单元和回归卷积单元，通过输入特征图得到对应的分类结果和回归结果。