CN112070713A

CN112070713A - 一种引入attention机制的多尺度目标检测方法

Info

Publication number: CN112070713A
Application number: CN202010636328.8A
Authority: CN
Inventors: 况丽娟; 戴宪华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-12-11

Abstract

本发明涉及一种引入attention机制的多尺度检测技术，涉及图像处理领域，该方法包括采集待测图像，将待测图像导入attention yolo‑v3，attention yolo‑v3是在yolo‑v3基础上进行扩展的，添加一个具有通道注意力机制的SENet，使用现有的检测对目标进行并行预测。将待测图片输入到一个预训练好的神经网络中(darknet‑53+FPN)获得三种尺度的feature map；通过聚类得到三种尺度共九种先验框anchor boxs；feature map网格中的每一点会生成三种候选框bbox；计算预测框与真实框的IOU，为真实框分配一个最佳匹配；再将这些候选的bbox进行分类和边框(BBox)回归，最后nms过滤掉一部分候选的bbox。加入注意力机制训练使得其可以获得高准确率，最后还利用了多尺度训练以及多尺度测试提高了检测精度。

Description

一种引入attention机制的多尺度目标检测方法

技术领域

本发明涉及图像处理领域，尤其是一种引入attention机制的yolo-v3多尺度检测技术。

目标检测被广泛地应用于行人检测、智能辅助驾驶、智能监控、火焰烟雾检测以及智能机器人等领域,目标检测技术虽然发展迅速，但是也存在很多问题，光照、遮挡、背景混淆、尺度问题一直是目标检测的难点。

深度卷积神经网络在目标检测任务上表现非常出色,这主要归功于大样本和其复杂的形式，深度使得模型拥有了很强的非线性表达能力。但目前的很多目标检测算法将检测过程看成是回归问题来处理，还不能很好的区分前景和背景，容易出现错捡和漏检。针对上述问题，可以利用深度学习进行目标检测，最后结合人工修改少量误检的方式从而更智能、高效的完成此任务。

发明内容

针对上述问题及技术需求，提出了一种基于attention yolo-v3的目标检测方法，该方法不仅利用了经典的实时目标检测检测方法yolo-v3，结合语意信息多加注意力机制，以及结合特征金字塔网络，从而提高了网络检测精度。提出引入注意力机制的Attention-YOLO算法，在特征提取网络中加入通道注意力及空间注意力机制，最终仅增加1.4％的参数量，在不影响实时性的前提下改进了其对于关键特征的提取筛选能力；

本发明的技术方案如下：

一种基于attention yolo-v3的目标检测方法，该attention yolo-v3包括卷积神经网络 darknet-53、具有通道注意力机制的SENet、特征金字塔网络、分类器，方法包括：

采集待测图像，将待测图像输入darknet-53网络，该网络大量使用3*3与1*1卷积层依次连接的形式，并且添加了shortcut连接，其网络结构比复杂，有53个卷积层。

在darknet-53前向传播过程中加入具有通道注意力机制的SENet。步骤是先对 H′×W′×C′的特征输入X进行卷积操作，得到待处理的W×H×C的特征图U.接着对得到的U 分别进行Fsq和Fscale.

Fsq操作：对于每一个通道进行全局平均池化，得到一个1×1×C的特征图z。公式为：

其中，U_c表示的是U的第c个通道。

Fscale操作：将z作为一个全连接神经网络的输入，该神经网络的权重为W. Fex(z,W)表示的是一个全连接层的计算过程。得到不同通道特征图的权重系数s,再通过与U对应通道上的特征图进行相乘，以此来表示不同通道的特征图的重要性程度。具体形式如下式所示：s＝F_ex(z,W),X_c＝F_scale(u_c,s_c)＝s_c·u_c.

在darknet-53卷积结果中取最顶层的特征，自顶向下的采用上采样进行，每进行一次up-sample时，输出特征层扩大一倍。而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合，从而形成FPN特征金字塔网络结构；在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积。

yolo-v3采用k-means聚类得到三种尺度共9种尺寸先验框，COCO数据集上在最小的13*13特征图上(有最大的感受野)用较大的先验框(116*90)，(156*198)，(373*326)，适合检测较大的对象。中等的26*26特征图上(中等感受野)应用中等的先验框(30*61)， (62*45)，(59*119)，适合检测中等大小的对象。较大的52*52特征图上(较小的感受野)应用较小的先验框(10*13)，(16*30)，(33*23)，适合检测较小的对象。

输入416*416*3的图像，通过darknet网络得到三种不同尺度的feature-map，对输出的feature-map网格化得到输出特征层，每个尺度预测3种大小的anchor-box，包含着预测的信息。YOLOv3共有13*13*3+26*26*3+52*52*3个预测。计算预测框与真实框的IOU，为真实框分配一个最佳匹配。

feature-map(特征图)中的每一个cell都会预测3个bbox，每个bbox都会预测三个东西：每个框的位置(4个值，中心坐标tx和ty，框的高度bh和宽度bw)、框的置信度、 N个类别。因此对于coco数据集，在网络输入为416*416时，网络的输出大小为13*13(3* (4+1+80))＝43095

损失函数为

其中前两项是预测的bbox与真实框的中心坐标误差和宽高误差，后两项是置信度误差和分类误差。

检测的过程中在同一目标的位置上会产生大量的候选框，需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。

FPN可以生成不同尺度特征将所述特征向量输入所述分类器中进行具体分类,确定所述特征向量对应的类别并输出检测结果；预测对象类别时不使用softmax，改成使用logistic 的输出进行预测。这样能够支持多标签对象。

读入attention yolo-v3在coco数据集上的参数

选取训练样本集，所述训练样本集中包括若干个样本图像和每个所述样本图像中的目标框的监督信息，所述目标框用于对目标进行标注,所述监督信息包括所述样本图像中的目标框的位置信息和属性信息，所述目标框的位置信息包括所述目标框的横坐标和纵坐标，所述目标框的属性信息包括所述目标框的长度和宽度；

保持所述卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述卷积神经网络最后一个尺度的网络结构的基础网络参数对选取训练集进行多尺度训练；

选取训练样本集，所述训练样本集中包括多个尺度的样本图像，将所述训练样本设置多个尺度图像输入attention yolo-v3中；

FPN预测网络预测所有Bbox的位置和类别置信度打分，并输入NMS以去除冗余的Bbox，最终输出检测结果。

根据计算候选框以及真实框之间误差计算类别损失、边框损失，反馈给神经网络使得不断更新所述attention yolo-v3网络的参数；

其进一步的技术方案为，将待测图像导入卷积神经网络，包括：选取测试样本集，所述测试样本集中包括多个尺度的样本图像，将所述测试样本设置多个尺度图像输入已训练好的attention yolo-v3中，从而提高检测精度。

本发明的有益技术效果是：

1、本申请公开了一种基于attention yolo-v3的目标检测方法，在经典的单阶段检测网络yolo-v3的基础上具有通道注意力机制的SENet，通过多任务学习从而提高了检测精度；

2、通过多尺度训练、多尺度测试的方法，不仅提高了模型的鲁棒性，而且提高了对不同scale的检测精度。

3、增加attention机制，结合了特征的语意信息，加入该机制后，可以提高网络的性能。

附图说明

图1是本申请中的目标检测方法的流程图。

图2是本申请中的attention结合darknet-53的网络结构图。

图3是本申请中的多尺度示意图。

图4是SENet网络示意图。

图5是利用attention yolo-v3的检测效果

具体实施方式

下面结合附图对本发明做进一步的说明。

本申请中公开了一种基于attention yolo-v3的目标检测方法，其中待检测的目标为行人，存在拍摄角度、光线不完全受控、行人拥挤密集、遮挡等情况。本发明中的attention yolo-v3包括卷积神经网络、特征金字塔结构FPN和分类器，卷积神经网络利用的是具有残差结构的darknet-59网络，使用的分类器是logistic分类器。

本发明公开的方法在使用attention yolo-v3检测目标之前，需要对attentionyolo-v3 进行训练，因此本发明分为两部分，第一部分是训练模型部分，第二部分是对测试集的目标检测部分，主要流程参考图1。

第一步，首先读入基本网络yolo-v3在coco数据集上的权重，将读取的参数作为卷积神经网络参数的初始，将训练数据多个尺度的输入网络中，经过卷积神经网络对图像进行自下而上的特征提取，特征图经过卷积核计算，通常是越变越小的，也有一些特征层的输出和原来大小一样。

具有通道注意力机制的SENet网络分为两部分处理，一是Squeeze即为压缩部分，将原始feature map的维度H*W*C用global average pooling压缩为1*1*C，相当于这一维参数获得了之前H*W全局的视野，感受区域更广。二是Excitation部分加入一个FC全连接层对每个通道的重要性进行预测，得到不同channel的重要性大小后再作用到之前的featuremap 的对应channel上，再进行卷积操作。

构造FPN网络结构，FPN网络自上而下的路径把更抽象，语义更强的高层特征图进行上取样，然后把该特征横向连接至前一层特征，因此高层特征得到加强。值得注意的是，横向连接的两层特征在空间尺寸上要相同。这样做应该主要是为了利用底层的定位细节信息。把高层特征做2倍上采样，然后将其和对应的前一层特征结合(前一层要经过1*1的卷积核才能用，目的是改变channels，应该是要和后一层的channels相同)，结合方式就是做像素间的加法。重复迭代该过程，直至生成最精细的特征图。

特征图中的每一个cell都会预测3个边界框，每个bbox都会预测三个东西：每个框的位置(4个值，中心坐标tx和ty，，框的高度bh和宽度bw)、框的置信度、N个类别。因此对于coco数据集，在网络输入为416*416时，网络的输出大小为13*13(3*(4+1+80)) ＝43095

损失函数前两项是预测的bbox与真实框的中心坐标误差和宽高误差，后两项是置信度误差和分类误差。分类用的多类别交叉熵损失函数，置信度用的二分类交叉熵。只有正样本才参与class，xywh的loss计算，负样本只参与置信度loss。

第二部分，为目标检测部分，在训练得到attention yolo-v3后，通过该attentionyolo-v3对待测图像进行目标检测，包括以下步骤：

第一步，采集待测图像，对待测图像进行多尺度处理；

第二步，将多尺度待测图像导入卷积神经网络，卷积神经网络对输入的图像进行特征提取，测试数据的特征在特征金字塔网络FPN中生成特征映射图，并对其进行前景和后景的粗略分类以及粗边框回归，最后经过logistic进行更加精细分类以及边框回归。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其它改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种引入attention机制的多尺度目标检测方法，其特征在于，该attention yolo-v3包括yolo-v3模型的骨架卷积神经网络darknet-53、具有通道注意力机制的SENet、特征金字塔网络、分类器，所述方法包括：

采集待测图像，将待测图像输入darknet-53网络，该网络大量使用3*3与1*1卷积层依次连接的形式，并且添加了shortcut连接，其网络结构复杂，有53个卷积层。

在darknet-53前向传播过程中加入具有通道注意力机制的SENet。步骤是先对H′×W′×C′的特征输入X进行卷积操作，得到待处理的W×H×C的特征图U.接着对得到的U分别进行Fsq和Fscale.

Fsq操作：对于每一个通道进行全局平均池化，得到一个1×1×C的特征图z。计算公式为：

其中，U_c表示的是U的第c个通道。

Fscale操作：将z作为一个全连接神经网络的输入，该神经网络的权重为W。Fex(*,W)表示的是一个全连接层的计算过程。得到不同通道特征图的权重系数s,再通过与U对应通道上的特征图进行相乘，以此来表示不同通道的特征图的重要性程度。具体计算如下式所示：s＝F_ex(z,W)X_c＝F_scale(u_c,s_c)＝s_c·u_c

在darknet-53卷积结果中取最顶层的特征，自顶向下的采用上采样进行，每进行一次up-sample时，输出特征层扩大一倍。而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合，从而形成FPN特征金字塔网络结构；在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，目的是用于消除上采样的混叠效应；

采用k-means聚类得到三种尺度共9种尺寸先验框，COCO数据集上在最小的13*13特征图上(有最大的感受野)用较大的先验框(116*90)，(156*198)，(373*326)，中等的26*26特征图上(中等感受野)应用中等的先验框(30x61)，(62*45)，(59*119)，较大的52*52特征图上(较小的感受野)应用较小的先验框(10*13)，(16*30)，(33*23)。

2.根据权利要求所述的方法，其特征在于，输入416*416*3的图像，通过darknet网络得到三种不同尺度的feature-map，对输出的feature-map网格化得到输出特征层，每个尺度预测3种大小的anchor-box，包含着预测的信息，共有13*13*3+26*26*3+52*52*3个预测。

feature-map(特征图)中的每一个cell都会预测3个bbox，每个bbox都会预测三个东西：标框的属性信息包括所述目标框的长度和宽度；每个框的位置(4个值，中心坐标tx和ty，框的高度bh和宽度bw)、框的置信度、N个类别。因此对于coco数据集，在网络输入为416*416时，网络的输出大小维度为13*13(3*(4+1+80))＝43095。

3.根据权利要求1或2所述的方法，其特征在于，损失函数为其中前两项是预测的bbox与真实框的中心坐标误差和宽高误差，后两项是置信度误差和分类误差。检测的过程中在同一目标的位置上会产生大量的候选框，需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。FPN可以生成不同尺度特征将所述特征向量输入所述分类器中进行具体分类,确定所述特征向量对应的类别并输出检测结果；预测对象类别时不使用softmax，改成使用logistic的输出进行预测，这样能够支持多标签对象。

4.所述方法还包括：读入attention yolo-v3在coco数据集上的参数，选取训练样本集，所述训练样本集中包括若干个样本图像和每个所述样本图像中的目标框的监督信息，所述目标框用于对目标进行标注,所述监督信息包括所述样本图像中的目标框的位置信息和属性信息，所述目标框的位置信息包括所述目标框的横坐标和纵坐标，所述目标框的属性信息包括所述目标框的长度和宽度；

保持所述卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述卷积神经网络最后一个尺度的网络结构的基础网络参数对选取训练集进行多尺度训练。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

FPN预测网络预测所有Bbox的位置和类别置信度打分，并输入NMS以去除冗余的Bbox，最终输出检测结果。其中，FPN预测网络的每一个预测是一个(4+5)＝9维向量，这个9维向量包含Bbox坐标(4个数值)，Bbox包含对象类别的置信度打分。

根据计算候选框以及真实框之间误差计算类别损失、边框损失，反馈给神经网络使得不断更新所述attention yolo-v3网络的参数。