CN113011308A

CN113011308A - 一种引入注意力机制的行人检测方法

Info

Publication number: CN113011308A
Application number: CN202110276432.5A
Authority: CN
Inventors: 刘琚; 张�杰; 孙国霞; 江潇; 张昱; 赵雪圻; 鲁昱
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-22

Abstract

本发明提出一种引入注意力机制的行人检测方法。针对行人检测因存在行人相互遮挡、尺寸大小不一会导致大量的漏检的现象。本发明提出的方法基于YOLOv3目标检测网络，并加入针对卷积核的注意力机制SKNet网络结构，通过注意力机制模块改变特征图中原始通道的卷积核权重，使得被遮挡通道权重降低，未被遮挡通道权重提高；此外通过注意力机制模块改变特征图中原始通道的卷积核权重，使得不同的图像能够得到具有不同重要性的卷积核，提高多尺度预测效果，优化小行人检测效果。本发明设计的方法在复杂的行人检测应用场景中进行了实验，减小了漏检率，达到了优异的效果，充分证明方法具有较强的泛化能力。

Description

一种引入注意力机制的行人检测方法

技术领域

本发明涉及一种引入注意力机制的行人检测方法，属于计算机视觉中的行人检测技术领域。

背景技术

行人检测是计算机视觉和模式识别领域中的重要课题之一。行人检测可以简单分为两个任务：定位、分类。定位就是将行人在图像中的具体位置标识出来，得到对应的回归框。分类就是对行人目标赋予标签，由于行人检测只存在两个类别，即行人以及背景，所以分类任务比较容易完成。因此，行人检测的最重要的任务就是对行人目标进行准确定位。行人检测技术有很强的使用价值，它可以与多人跟踪、行人重识别等技术结合，应用于汽车无人驾驶系统、智能机器人、智能视频监控、人体行为分析、人流量统计系统、智能交通领域。行人检测的目标是要为出现在一幅图像内的每一个行人用一个矩形框标记出来。然而由于行人兼具刚性和柔性物体的特性，极大地受到行人个体之间外观差异的影响，且往往摄像头距离行人较远，使得行人多为中小物体，现实场景下行人实例也相对密集。传统的行人检测方法主要利用行人外观等浅层信息作为判断依据，容易导致误判；此外，由于采用的特征往往是人为设计的，因此对扭曲、拉伸等行人不能很好地进行检测；最后在复杂场景下，行人存在相互遮挡、尺寸不一等现象，会导致大量的漏检。针对目前行人检测中的行人遮挡问题，目前已有的有效手段包括采用注意力机制，通过改变特征图中原始通道的权重，使得被遮挡通道权重降低，未被遮挡通道权重提高，从而提高被遮挡行人的检测效果；或将行人划分成网格，利用网络进行学习，从而预测出此行人是否被遮挡，进而改变其检测分数；还有通过构建密度图模块来学习行人密度，并设计Adaptive NMS针对性地改变NMS后处理的交并比(Intersection Over Union,IOU)阈值。

由于行人的本身的特点如外观、姿态、尺寸各不相同，并且还会受到天气、背景、交通状况等多种因素的影响，且行人多处于纷繁复杂的城市街景中，有很多干扰背景如电线杆、树木等类似行人外观的垂直结构，使得网络误认为它们是行人，从而造成大量的错检、漏检问题。因此，如何进一步解决行人漏检是亟待解决的问题。

发明内容

针对现有技术的不足，本发明提供了一种引入注意力机制的行人检测方法。具体技术方案如下：

一种引入注意力机制的行人检测方法，该方法基于YOLOv3目标检测网络，并加入针对卷积核的注意力机制SKNet网络结构，通过注意力机制模块改变特征图中原始通道的卷积核权重，使得被遮挡通道权重降低，未被遮挡通道权重提高，从而提高被遮挡行人的检测效果，该方法包括以下步骤：

步骤1：将获取的行人检测数据集进行预处理；

步骤2：构建引入注意力机制的行人检测卷积神经网络，所述引入注意力机制的行人检测卷积神经网络包括用于特征提取的基础网络结构darknet53、添加的注意力机制模块SKNet中包含3×3,5×5，7×7三种不同卷积核应对不同尺度的行人，以及实现多尺度检测的三条分支Y1,Y2,Y3；

步骤3：将预处理后的行人检测数据集通过所述引入注意力机制的行人检测卷积神经网络得到预测结果，利用损失函数计算预测结果与标签的误差；

步骤4：基于损失函数对所述引入注意力机制的行人检测卷积神经网络进行优化，通过梯度下降与反向传播不断迭代以更新网络参数，使网络达到最优性能；

步骤5：当引入注意力机制的行人检测卷积神经网络在行人检测数据集达到理想精度后进行稀疏训练，对需要剪枝的层对应的批标准化γ系数进行大幅压缩，然后就可以对不重要的通道或者层进行剪枝。

步骤6：将待检测的行人图像输入到达到最优性能的所述引入注意力机制的行人检测卷积神经网络，得到最终的检测结果。

进一步，所述步骤2中，经过darknet53网络获得的特征图X使用三个不同的卷积核3×3,5×5,7×7，三种不同卷积核应对三种不同尺度的行人分组卷积之后得到U₁,U₂,U₃三个特征图，然后相加得到了U，如式(1)所示：

U＝U₁+U₂+U₃ (1)

U中融合了多个感受野的信息，得到的U形状是[C,H,W]的特征图，其中C代表特征图通道数,H代表特征图高度,W代表特征图宽度，然后沿着H和W维度求平均值，获得每一个通道上的全局信息如式(2)所示：

其中s_c表示获得的全局信息，

代表全局平均池化，H表示特征图的高度，W表示特征图的宽度，U(i，j)表示特征图中每个点

之后对输出s_c做全连接找到每一个通道占的比重大小，如式(3)所示：

其中z表示每一个通道占的比重大小，

表示全连接层函数，δ是relu函数，B表示批标准化处理，W是一个d×C维的向量。

为了研究d对模型效率的影响，引入了一个衰减率r来控制d的值，如式(4)所示：

其中d表示W的第一个特征维度，C代表通道数，L设置为32；

然后分别使用了三个线性变换，从Z维变为原来的C维，这样完成了针对通道维度的信息提取，之后再使用Softmax函数进行归一化，如式(5)所示：

其中A_c，B_c，C_c分别表示三个不同的线性变换，z表示每一个通道占的比重大小。

这时候每个通道对应一个分数，代表其通道的重要程度，这相当于一个掩膜，将这三个分别得到的掩膜分别乘以对应的U1，U2，U3，得到A1，A2，A3，然后三个模块相加，进行信息融合，得到最终模块V，如式(6)所示：

V＝a_cU₁+b_cU₂+c_cU₃ (6)

模块V相比于最初的特征图X经过了信息的提炼，融合了多个感受野的信息。

进一步，所述步骤2中实现多尺度检测的三个分支Y1，Y2，Y3，Y1是下采样32倍之后的特征图，感受野最大，因此适合检测图像中尺寸较大的物体；从Y1中的倒数第二层的卷积层上采样x2再与最后一个16x16大小的特征图相加，再次通过多个卷积后输出的特征图大小，Y2相比Y1变大两倍，适合检测图像中尺寸中等的物体，Y3和Y2相似，得到的特征图感受野最小，适合检测图像中尺寸最小的物体。

进一步，所述步骤5中，引入一种通道级稀疏化的剪枝方法，通过对每个通道都引入一个缩放因子γ，然后对网络中的参数和缩放因子进行联合训练，对缩放因子进行稀疏正则化处理，最后，对小缩放因子的通道进行剪枝，并对剪枝后的网络进行微调，在保证网络精度的前提下得到最终剪枝后的网络。

本发明同现有技术相比，其有益效果表现在：

1、在监控场景下由于摄像头远近，拍摄角度不同行人大小不一。传统的网络结构一旦训练完成后，卷积核大小参数固定，每个卷积核的权重相同。然而不同尺度(远近、大小)的目标应采用不同大小的感受视野(卷积核)才会有更好的效果。本发明引入注意力机制，通过改变特征图中原始通道的权重，使得被遮挡通道权重降低，未被遮挡通道权重提高，从而提高被遮挡行人的检测效果，降低检测过程中的漏检率；

2、本发明引入注意力机制的同时，引入一种通道级稀疏化的剪枝方法，引入注意力机制后的行人检测方法能使得行人检测的漏检率更低，识别率更高，同时由于加入了注意力模块导致模型体积变大参数量变多，通过模型剪枝，使得算法的检测速度没有下降，最终得到良好的行人检测结果。

附图说明

图1是本发明的流程示意图；

图2是本发明中引入注意力机制的卷积神经网络的结构示意图；

图3是本发明中注意力机制模块的结构示意图；

图4是引入注意力机制的卷积神经网络检测方法进行检测的检测结果示意图；

图5模型剪枝整体流程图；

图6是添加注意力机制在caltech行人数据库消融实验效果对比图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种引入注意力机制的行人检测方法，包括如下步骤：

S1：将获取的行人检测数据集进行预处理；行人检测数据集为从Caltech数据集，Caltech数据集有11个文件夹Set00～Set10，每个文件夹包括多个视频，其中，视频的分辨率为640*480；预处理是指将行人检测数据集中的各帧图像转换为标准的VOC数据格式，再生成对应的带标注的文件，文件格式为.xml，即文件后续为.xml。

S2：构建引入注意力机制的行人检测卷积神经网络，引入注意力机制的卷积神经网络包括用于特征提取的基础网络结构darknet53，用来改变特征图中原始通道的卷积核权重，使得不同的图像能够得到具有不同重要性的卷积核的注意力机制模块SKNet和实现多尺度检测的三条分支Y1，Y2，Y3；基础网络结构darknet53共有53个卷积层因此称为darknet53，其中主要包括3个基础组件：1.DBL：网络结构中的最小组件，由卷积层+批标准化层+Leaky_relu激活函数三者组成；2.Res unit：其中包含2个DBL，借鉴Resnet网络中的残差结构，让网络可以构建的更深。3.ResX：由一个DBL和X个Res unit组件构成，是网络结构中的大组件。darknet53网络依次包括1个DBL，1个Res1，1个Res2，2个Res8，1个Res4，其中每个Res模块前面的DBL由于卷积层的步长都为2，所以都起到下采样的作用，因此经过5次ResX模块后，得到的特征图大小缩小为是原始图片的1/32。

注意力机制模块SKNet网络由分离，融合，选择三个操作组成。分离操作是指对输入特征图X进行不同卷积核大小的完整卷积操作(包括分组卷积，批标准化，线性修正单元激活函数(ReLU function))。融合操作是通过聚合来自多个路径的信息，以获得选择权重的全局和综合表示；选择操作则根据选择权重聚合不同大小的内核的特征映射。初始输入的特征图通过注意力模块SKNet之后则获得信息提炼后的特征图。在本发明中，经过darknet53网络获得的特征图X使用三个不同的卷积核3×3，5×5，7×7，三种不同卷积核应对三种不同尺度的行人分组卷积之后得到U₁，U₂，U₃三个特征图，然后相加得到了U，如式(1)所示：

U＝U₁+U₂+U₃ (1)

U中融合了多个感受野的信息，得到的U形状是[C，H，W]的特征图，其中C代表特征图通道数，H代表特征图高度，W代表特征图宽度，然后沿着H和W维度求平均值，获得每一个通道上的全局信息如式(2)所示：

其中s_c表示获得的全局信息，

其中z表示每一个通道占的比重大小，

其中d表示W的第一个特征维度，C代表通道数，L设置为32；

V＝a_cU₁+b_cU₂+ccU₃ (6)

经过信息提炼之后的特征图再经过实现多尺度检测的三个分支Y1，Y2，Y3。Y1是下采样32倍之后的特征图，感受野最大，因此适合检测图像中尺寸较大的物体，从Y1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加，再次通过多个卷积后输出的特征图大小.相比Y1变大两倍，适合检测图像中尺寸中等的物体。Y3和Y2相似，得到的特征图感受野最小，适合检测图像中尺寸最小的物体。

S3：将预处理后的行人检测数据集通过卷积神经网络得到预测结果，利用损失函数计算预测结果与标签的误差；其中损失函数为基于分类的交叉熵损失，基于定位的Smooth L1损失函数，置信度误差损失的加权和，使用随机梯度下降法为优化方法，初始学习率设置为0.001，损失不再下降作为训练结束条件。

S4：基于损失函数进行网络优化，通过梯度下降与反向传播不断迭代以更新网络参数，使网络达到最优性能；使用在ImageNet数据集上预训练的共享卷积神经网络的参数作为共享卷积神经网络的初始参数，基于尺度的子网络的初始化参数使用分布初始化参数，即常见的深度学习初始化方式；在训练中，通过梯度下降进行反向传播，进行参数更新。

S5：当引入注意力机制的行人检测卷积神经网络在行人检测数据集达到理想精度后进行稀疏训练，对需要剪枝的层对应的批标准化γ系数进行大幅压缩，然后就可以对不重要的通道或者层进行剪枝。

S6：将待检测的行人图像输入到达到最优性能的卷积神经网络，得到最终的检测结果。

从Caltech数据集提取测试集，将测试集中的待检测的行人图像输入到训练好后的引入注意力机制的行人检测卷积神经网络，得到最终的检测结果，如图4所示。

将测试集中的待检测行人图像经过消融实验，经过实验可知，现有技术中的YOLOv3检测方法、YOLOv3+SENet，YOLOv3+CBAM和本发明中的YOLOv3+SKNet行人检测卷积神经网络的miss rate-FPPI曲线如图5所示,从图5中可以明显看出本发明提出的方法在基本不增加参数量的同时能够明显降低误检率。

Claims

1.一种引入注意力机制的行人检测方法，该方法基于YOLOv3目标检测网络，并加入针对卷积核的注意力机制SKNet网络结构，通过注意力机制模块改变特征图中原始通道的卷积核权重，使得被遮挡通道权重降低，未被遮挡通道权重提高，从而提高被遮挡行人的检测效果，该方法包括以下步骤：

步骤1：将获取的行人检测数据集进行预处理；

2.如权利要求1所述的引入注意力机制的行人检测方法，其特征在于：所述步骤2中，经过darknet53网络获得的特征图X使用三个不同的卷积核3×3,5×5,7×7，三种不同卷积核应对三种不同尺度的行人分组卷积之后得到U₁,U₂,U₃三个特征图，然后相加得到了U，如式(1)所示：

U＝U₁+U₂+U₃ (1)

其中s_c表示获得的全局信息，

代表全局平均池化，H表示特征图的高度，W表示特征图的宽度，U(i，j)表示特征图中每个点；

其中z表示每一个通道占的比重大小，

表示全连接层函数，δ是relu函数，B表示批标准化处理，W是一个d×C维的向量；

其中d表示W的第一个特征维度，C代表通道数，L设置为32；

其中A_c,B_c,C_c分别表示三个不同的线性变换，z表示每一个通道占的比重大小；

这时每个通道对应一个分数，代表其通道的重要程度，这相当于一个掩膜，将这三个分别得到的掩膜分别乘以对应的U1,U2,U3，得到A1,A2,A3，然后三个模块相加，进行信息融合，得到最终模块V，如式(6)所示：

V＝a_cU₁+b_cU₂+c_cU₃ (6)

3.如权利要求1所述的引入注意力机制的行人检测方法，其特征在于：所述步骤2中实现多尺度检测的三个分支Y1,Y2,Y3，Y1是下采样32倍之后的特征图，感受野最大，因此适合检测图像中尺寸较大的物体；从Y1中的倒数第二层的卷积层上采样x2再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出的特征图大小，Y2相比Y1变大两倍，适合检测图像中尺寸中等的物体，Y3和Y2相似，得到的特征图感受野最小，适合检测图像中尺寸最小的物体。

4.如权利要求1所述的引入注意力机制的行人检测方法，其特征在于：所述步骤5中，引入一种通道级稀疏化的剪枝方法，通过对每个通道都引入一个缩放因子γ，然后对网络中的参数和缩放因子进行联合训练，对缩放因子进行稀疏正则化处理，最后，对小缩放因子的通道进行剪枝，并对剪枝后的网络进行微调，在保证网络精度的前提下得到最终剪枝后的网络。