CN110110719A

CN110110719A - 一种基于注意层区域卷积神经网络的目标检测方法

Info

Publication number: CN110110719A
Application number: CN201910238640.9A
Authority: CN
Inventors: 汪晓妍; 钟幸宇; 黄晓洁; 夏明�; 毛立朝; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-08-09

Abstract

一种基于注意层区域卷积神经网络的目标检测方法，包括以下步骤：步骤1：数据集的采集与制作；步骤2：数据增强，增强网络的泛化能力；步骤3：将数据集输入到深度神经网络进行训练，选取深度残差网络或其变体；步骤4：输出深度残差网络前三个残差块的特征图；步骤5：对残差网络的第四个残差块后置一个权值模块，预测的结果来抑制作用不大的特征图，强化作用大的特征图；步骤6：将融合后的特征图与深度残差网络的第四个残差块叠加在一起，将感兴趣区域ROI映射到叠加的特征图上；步骤7：将感兴趣区域ROI对应的特征进行类别的分类和位置坐标的回归。本发明解决了目标的多尺度问题，目标检测的性能有了较好的提高。

Description

一种基于注意层区域卷积神经网络的目标检测方法

技术领域

本发明涉及计算机视觉人工智能技术领域。特别涉及一种基于融合特征图(Feature Map)的目标检测方法。

技术背景

随着人工智能领域深度学习的快速发展，计算机视觉越来越多的领域受到了巨大的机遇和挑战。很多计算机视觉任务如分割，分类，识别检测等在性能上取得了巨大的进步和提高，如在分类任务中，神经网络的分类准确率已经超过人类。在目标检测领域，深度学习的算法性能也远超传统的目标检测方法。

目标检测主要是由目标识别和目标定位两部分组成，然而由于目标识别更注重语义信息，其应具有移动不变性(图像中对象位置移动，其识别类别不变)；而目标定位更注重位置信息，其应具有移动可变性(图像中对象位置移动，其检测到的位置也随之移动)，因此目标识别和目标定位之间存在矛盾。然而深度神经网络随着下采样，特征图的尺寸变小，因此位置信息会有损失。为了弥补位置信息损失，许多目标检测的网络将不同尺度的特征图用跳跃连接(skip connection)结合起来，以此来获得更优的目标检测性能。

由于不同的特征图具有不同的特点，尺寸大的特征图主要表示低级特征，如边缘特征，尺寸小的特征图主要表示高级特征。如何融合不同尺度的特征图受到科研人员的的重视程度越来越高，因此如何融合不同尺度的特征图是一个非常有意义的的研究课题。

发明内容

为了综合利用不同特征图(Feature Map)的特点，本发明提出一种利用不同特征图特点，来获取包含更优位置信息与语义信息的特征图的方法，由于利用了不同尺度的特征图，因此也较好的解决了目标的多尺度问题，目标检测的性能有了较好的提高，整个目标检测框架主要包含两个部分，一个部分为常规的目标检测系统，另一个部分为注意力层(Attention Layer Part)模块，其中注意力层模块的作用是根据训练到的来强化有用的特征而抑制无用的特征，以此来得到更有的特征图。

本发明解决其技术问题所采用的技术方案是：

一种基于注意层区域卷积神经网络的目标检测方法，所述的方法包括以下步骤：

步骤1：数据集的采集与制作；

步骤2：数据增强，增强网络的泛化能力；

步骤3：将数据集输入到深度神经网络进行训练，选取深度残差网络(ResNet)或其变体；

步骤4：输出深度残差网络前三个残差块的特征图；

步骤5：对残差网络的第四个残差块后置一个权值模块，预测的结果来抑制作用不大的特征图，强化作用大的特征图；

步骤6：将融合后的特征图与深度残差网络的第四个残差块叠加在一起，将感兴趣区域ROI(Region Of Interesting)映射到叠加的特征图上；

步骤7：将感兴趣区域ROI对应的特征进行类别的分类和位置坐标的回归。

本发明的有益效果表现：在目标检测任务中可以利用不同特点的特征图进行融合来获取更优的特征图，提高分类与定位的精度，从而提升深度神经网络的性能。

附图说明

图1是目标检测的整体框架的示意图。

图2是权值模块的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方案并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1和图2，一种基于注意层区域卷积神经网络的目标检测方法包括一下步骤：

步骤1：数据集的采集与制作，并按一定的比率进行划分训练集与测试集。然后对训练集划为K份(如K＝5)进行交叉验证(Cross Validation)。

步骤2：对数据集进行数据增强，如对数据进行旋转(包括左右翻转，上下翻转)，对图像随机加噪(如高斯噪音，椒盐噪音)。

步骤3：将训练集输入到深度神经网络中，提取特征；可以选取预训练的深度残差网络ResNet或其变体(如ResNeXt,DenseNet等)，具体的层数可以根据实际情况选取，比如ResNet-50，ResNet-101等；比如数据集的数量比较少，则应该选取浅层的网络，这样网络的参数的数量相对比较少，可以防止过拟合；由于网络是预训练的，因此网络卷积核的初始参数(权值w和偏差b)已经给出，使用预训练模型的好处是可以加快收敛速度，提高网络的准确率。

步骤4：如图1所示，当数据输入到预训练的预训练基底网络(BackBone Network)中时，输出深度残差网络前三个残差块的特征图，为使不同大小的特征图能融合在一起，需要对这些特征图进行双线性插值，插值之后使用大小为1×1的卷积核进行卷积，其目的是对其进行正则化(Normalization),加快随机梯度下降法模型的收敛速度。

步骤5：如图1所示，深度残差网络的第四个残差块后置一个权值模块，其作用是抑制无有的特征，强化有用的特征。权值模块如图2所示：其由一个池化层(Pooling Layer)，两个全连接层(Fully Connected Layer)和两个激活函数(Activation Function)组成。特征图首先经过池化层将H×W大小的的特征图下采样(subsample)到1x1大小的特征图，然后经过一个全连接层之后，使用ReLU(Rectified Linear Unit)非线性激活函数：

f(x)＝max(0,x) (1)

使其具有求解线性不可分的能力。然后经过一个全连接层和Sigmoid非线性激活函数：

将最终输出为大小为[0,1]区间的值。将预测的结果与步骤4的结果相乘之后，使用Element-Wise相加，得到最终融合的特征图。

步骤6：将融合之后的特征图与深度残差网络第四个残差块叠加在一起，然后利用RPN(Region Proposal Network)得到的坐标，将对应感兴趣区域的特征进行ROIPooling操作，使得不同大小的感兴趣区域的尺寸一样。

步骤7：将步骤6的结果分别输入两个全连接层，分别进行位置的回归训练以及类别的分类操作，其中全连接层的参数设定，根据实际情况来选取。比如分类的类别为21类，则分类全连接层的数量为21，另外一个全连接层为4*21。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述的方法包括以下步骤：

步骤1：数据集的采集与制作；

步骤2：数据增强，增强网络的泛化能力；

步骤4：输出深度残差网络前三个残差块的特征图；

2.如权利要求1所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤1中，并按一定的比率进行划分训练集与测试集。然后对训练集划为K份进行交叉验证。

3.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤2中，对数据集进行数据增强，如对数据进行旋转，对图像随机加噪。

4.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤3：将训练集输入到深度神经网络中，提取特征；可以选取预训练的深度残差网络ResNet或其变体，层数可以根据实际情况选取；由于网络是预训练的，因此网络卷积核的初始参数已经给出。

5.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤4，当数据输入到预训练的预训练基底网络中时，输出深度残差网络前三个残差块的特征图，为使不同大小的特征图能融合在一起，需要对这些特征图进行双线性插值，插值之后使用大小为1×1的卷积核进行卷积，其目的是对其进行正则化,加快随机梯度下降法模型的收敛速度。

6.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤5，深度残差网络的第四个残差块后置一个权值模块，其作用是抑制无有的特征，强化有用的特征，权值模块由一个池化层，两个全连接层和两个激活函数组成，特征图首先经过池化层将H×W大小的的特征图下采样到1x1大小的特征图，然后经过一个全连接层之后，使用ReLU非线性激活函数：

f(x)＝max(0,x) (1)

使其具有求解线性不可分的能力，然后经过一个全连接层和Sigmoid非线性激活函数：

将最终输出为大小为[0,1]区间的值，将预测的结果与步骤4的结果相乘之后，使用Element-Wise相加，得到最终融合的特征图。

7.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤6中，将融合之后的特征图与深度残差网络第四个残差块叠加在一起，然后利用RPN得到的坐标，将对应感兴趣区域的特征进行ROIPooling操作，使得不同大小的感兴趣区域的尺寸一样。

8.如权利要求1或2所述的一种基于注意层区域卷积神经网络的目标检测方法，其特征在于，所述步骤7中，将步骤6的结果分别输入两个全连接层，分别进行位置的回归训练以及类别的分类操作，其中全连接层的参数设定，根据实际情况来选取。