CN112396035A

CN112396035A - 基于注意力检测模型的物体检测方法和装置

Info

Publication number: CN112396035A
Application number: CN202011417489.4A
Authority: CN
Inventors: 闫龙川; 玄佳兴; 陈智雨; 高德荃; 白东霞; 郭永和; 李妍; 牛佳宁; 李国民; 李江涛
Original assignee: State Grid Blockchain Technology Beijing Co ltd; State Grid Information and Telecommunication Co Ltd; State Grid E Commerce Co Ltd
Current assignee: State Grid Blockchain Technology Beijing Co ltd; State Grid Information and Telecommunication Co Ltd; State Grid E Commerce Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-23

Abstract

本申请提供一种基于注意力检测模型的物体检测方法和装置，方法包括，利用每一个特征层从待检测图像中提取出图像特征，并利用注意力层对图像特征执行卷积注意力计算得到注意力图像特征；注意力检测模型有多个特征层，第一个特征层的输入为输入特征，其他特征层的输入为前一特征层的输出，注意力图像特征中根据目标物体的像素计算得到的目标元素的数值大于图像特征中目标元素的数值；最后根据注意力图像特征检测出待检测图像中目标物体的所在区域。利用注意力层增强图像特征中由目标物体的像素计算得到的元素，可以增大这些元素的候选框的置信度值，这样后续检测步骤更容易检测出包含目标物体的候选框，从而提高检测结果的准确度。

Description

基于注意力检测模型的物体检测方法和装置

技术领域

本发明涉及深度学习领域，特别涉及一种基于注意力检测模型的物体检测方法和装置。

背景技术

现有的物体检测模型，一般是利用模型中的多个特征层分别提取得到图像的多个图像特征，然后直接对图像特征中的每一个元素进行置信度计算，得到每个元素对应的候选框的置信度值，然后按置信度值筛选出符合置信度条件的候选框作为物体预测框，由此确定出图像中目标物体所在区域。

这种物体检测模型的问题在于，进行置信度计算时，每个元素所用的计算参数是相同的，导致不同元素的候选框的置信度值差别较小，难以从不同元素的候选框中准确区分出表征目标物体所在区域的候选框和其他的候选框，检测结果准确度较低。

发明内容

针对上述现有技术存在的问题，本申请提供一种基于注意力检测模型的物体检测方法和装置，以提高物体检测结果的准确度。

本申请第一方面提供一种基于注意力检测模型的物体检测方法，包括：

获取待检测图像，并利用所述注意力检测模型的输入网络提取所述待检测图像的输入特征；

针对所述注意力检测模型的每一个特征层，利用所述特征层从所述待检测图像中提取出图像特征，并利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征；其中，所述注意力检测模型包括依次连接的多个特征层；其中第一个所述特征层的输入为所述输入特征，除第一个所述特征层以外的每一个特征层的输入均为前一个所述特征层输出的图像特征；所述注意力图像特征中目标元素的数值大于对应的图像特征中所述目标元素的数值；所述目标元素指代根据所述待检测图像中目标物体的像素计算得到的元素；

对所述注意力图像特征执行置信度计算，得到所述注意力图像特征中每一个元素对应的候选框的置信度值；

删除每一个对应的置信度值不符合置信度条件的候选框，并将剩余的所述候选框确定为所述待检测图像的物体预测框；其中，所述物体预测框用于指示所述目标物体在所述待检测图像中所在区域。

可选的，所述利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征，包括：

对所述特征层输出的图像特征执行通道注意力计算，得到所述图像特征的通道注意力图；

对所述图像特征和所述通道注意力图合并得到的增强图像特征执行空间注意力计算，得到所述图像特征的空间注意力图；

将所述空间注意力图和所述增强图像特征合并，得到所述图像特征对应的注意力图像特征。

可选的，所述对所述特征层输出的图像特征执行通道注意力计算，得到所述图像特征的通道注意力图，包括：

分别对所述图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；

利用预先构建的多层感知机处理所述平均池化特征，得到平均池化参数，并利用所述多层感知机处理所述最大池化特征，得到最大池化参数；

将所述平均池化参数与所述最大池化参数的和输入激活模块，得到所述图像特征的通道注意力图。

可选的，所述对所述图像特征和所述通道注意力图合并得到的增强图像特征执行空间注意力计算，得到所述图像特征的空间注意力图，包括：

分别对增强图像特征进行平均池化运算和最大池化运算，得到平均池化增强特征和最大池化增强特征；

将所述平均池化增强特征和所述最大池化增强特征合并得到合并池化特征；

利用预设尺寸的卷积核对所述合并池化特征进行卷积运算，并将卷积运算得到的运算结果输入激活模块，得到所述图像特征的空间注意力图。

可选的，针对所述注意力检测模型的第一个特征层，利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征之前，还包括：

利用归一化层对第一个所述特征层输出的图像特征进行批处理归一化运算，得到归一化图像特征；

其中，所述利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征，包括：

利用所述特征层连接的注意力层对所述归一化图像特征执行卷积注意力计算，得到注意力图像特征。

本申请第二方面提供一种基于注意力检测模型的物体检测装置，包括：

获取单元，用于获取待检测图像，并利用所述注意力检测模型的输入网络提取所述待检测图像的输入特征；

提取单元，用于针对所述注意力检测模型的每一个特征层，利用所述特征层从所述待检测图像中提取出图像特征，并利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征；其中，所述注意力检测模型包括依次连接的多个特征层；其中第一个所述特征层的输入为所述输入特征，除第一个所述特征层以外的每一个特征层的输入均为前一个所述特征层输出的图像特征；所述注意力图像特征中目标元素的数值大于对应的图像特征中所述目标元素的数值；所述目标元素指代根据所述待检测图像中目标物体的像素计算得到的元素；

计算单元，用于对所述注意力图像特征执行置信度计算，得到所述注意力图像特征中每一个元素对应的候选框的置信度值；

确定单元，用于删除每一个对应的置信度值不符合置信度条件的候选框，并将剩余的所述候选框确定为所述待检测图像的物体预测框；其中，所述物体预测框用于指示所述目标物体在所述待检测图像中所在区域。

可选的，所述提取单元利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征时，具体用于：

可选的，所述提取单元对所述特征层输出的图像特征执行通道注意力计算，得到所述图像特征的通道注意力图时，具体用于：

可选的，所述提取单元对所述图像特征和所述通道注意力图合并得到的增强图像特征执行空间注意力计算，得到所述图像特征的空间注意力图时，具体用于：

可选的，所述提取单元针对所述注意力检测模型的第一个特征层，利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征之前，还用于：

其中，所述提取单元利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征时，具体用于：

本申请提供一种基于注意力检测模型的物体检测方法和装置，方法包括，获取待检测图像，并利用注意力检测模型的输入网络提取待检测图像的输入特征；利用每一个特征层从待检测图像中提取出图像特征，并利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征；注意力检测模型包括依次连接的多个特征层；第一个特征层的输入为输入特征，其他特征层的输入均为前一特征层输出的图像特征；注意力图像特征中根据目标物体的像素计算得到的目标元素的数值大于对应的图像特征中目标元素的数值；对注意力图像特征执行置信度计算，得到注意力图像特征中每一个元素对应的候选框的置信度值；最后筛选出置信度值符合置信度条件的候选框作为物体预测框；物体预测框用于指示目标物体在待检测图像中所在区域。利用注意力层增强图像特征中由目标物体的像素计算得到的元素，可以增大这些元素对应的候选框的置信度值，这样后续检测步骤更容易检测出包含目标物体的候选框，从而提高检测结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的注意力检测模型的结构示意图；

图2为本申请实施例提供的一种基于注意力检测模型的物体检测方法的流程图；

图3为本申请实施例提供的图像特征中元素对应的候选框的示意图；

图4为本申请实施例提供的一种基于注意力检测模型的物体检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明设计一种带有注意力层（也可以称为注意力机制，或者卷积注意力模块，Convolutional Block Attention Module，CBAM）的SSD模型，提升了目标检测的精准度和运算速度。随着大数据的不断发展，图片数据和视频数据急剧增加，伴随着人工智能技术的发展和监控检测领域的安全需求，目标检测技术不断取得进步。SSD模型因其检测精度高、检测速度快等特点，在目标检测领域被广泛应用。然而，与大多数物体检测模型，SSD算法对小尺寸物体的特征提取支撑性不足（特别是在复杂的行业应用场景中：电力线路监测、数据中心巡检、机房监控等），导致目标检测性能不足。同时，在多目标检测场景下，SSD模型的损失函数收敛速度比较慢。

针对复杂场景小目标特征提取的问题，本发明以SSD模型为基础，提出采用注意力层提高卷积神经网络对图片的特征提取能力，从而提高算法的检测精度。针对实用化场景下算法响应时间的问题，本专利提出在特征提取之前对特征层进行了批处理归一化操作，进而提升神经网络在训练过程中损失函数的收敛速度方面。同时，为了便于实际应用中对目标种类和数量的实时统计，本专利在图像处理的过程中设计了字典，实现目标计数的功能，提升实际运维场景中的效率。

首先对本申请所涉及的专业术语进行简要说明：

SSD( Single Shot Multi Box Detector，多框单点检测)模型是一种基于深度学习的物体检测模型，它作为当前最为主流的检测模型之一，借鉴了FasterＲ-CNN中的anchors机制，结合了YOLO的回归的思想，并针对不同尺度的特征表达不同的特点，采取了多尺度目标特征提取的方法，这样使得SSD算法在保证检测精度的同时，兼顾了检测速度。

物体检测，也叫目标检测，是一种基于目标几何和统计特征的图像分割方法，它将目标物体的分割和识别合二为一，准确性和实时性是整个物体检测系统的一项重要能力。尤其是在复杂场景中，需要对多个目标物体进行实时处理时，快速地进行目标物体自动提取和识别就显得特别重要。

本申请提供一种基于注意力检测模型的物体检测方案，该方案主要利用如图1所示的注意力检测模型实现，下面结合图1说明本申请提供的注意力检测模型的结构。

本申请提供的注意力检测模型，可以认为是在现有的SSD模型的基础上通过增加归一化层和多个注意力层而得到的一个改进模型。如图1所示，本申请的注意力检测模型包括输入层，六个特征层，以及每一个特征层连接的注意力层，所有注意力层的输出会全部输入至置信度模块，置信度模块进行置信度计算后的结果在输出至筛选模块，按一定的置信度条件筛选出最终在待检测图像上显示的物体预测框。

需要说明的是，图1中第一个特征层所连接的归一化层为一个可选的数据处理层，也就是说，在本申请部分实施例提供的注意力检测模型中，也可以不设置图1所示的归一化层。

请参考图2，本申请实施例提供的基于注意力检测模型的物体检测方法可以包括如下步骤：

S201、获取待检测图像，并利用注意力检测模型的输入网络提取待检测图像的输入特征。

待检测图像可以由用户通过网络上传。输入网络是一个预先构建的简单的神经网络结构，用于对待检测图像进行初步的图像处理，处理后的图像就是步骤S201所述的输入特征。

具体的，输入层可以对待检测图像进行下采样，锐化和图像滤波等处理，其中图像滤波的作用是为了删除待检测图像中的噪声，以提高后续的检测的准确度。

S202、针对注意力检测模型的每一个特征层，利用特征层从待检测图像中提取出图像特征，并利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征。

其中，注意力检测模型包括依次连接的多个特征层；其中第一个特征层的输入为输入特征，除第一个特征层以外的每一个特征层的输入均为前一个特征层输出的图像特征；注意力图像特征中目标元素的数值大于对应的图像特征中目标元素的数值；目标元素指代根据待检测图像中目标物体的像素计算得到的元素。

S203、对注意力图像特征执行置信度计算，得到注意力图像特征中每一个元素对应的候选框的置信度值。

S204、删除每一个对应的置信度值不符合置信度条件的候选框，并将剩余的候选框确定为待检测图像的物体预测框。

其中，物体预测框用于指示目标物体在待检测图像中所在区域。

可选的，本申请提供的物体检测方法还可以包括：

S205、对待检测图像中检测得到的目标物体进行分类计数。

在具体实现本发明提供的方法时，可以利用Flask框架构建用于实现本发明提供的物体检测方法的计算机程序（即目标检测程序），然后将目标检测程序封装成可供调用的函数，另一方面可以利用HTML和Javascript构建目标检测系统前端，使得用户可以通过网页将图片、本地视频和网络摄像头拍摄的视频发送至目标检测系统，然后目标检测系统对图片以及构成视频的每一帧图像进行物体检测，并将检测结果实时的显示在网页上。

下面对相关步骤进行详细说明：

步骤S202的具体执行过程是，首先将输入网络输出的输入特征输入至特征层1，由特征层1进行卷积运算后，得到特征层1输出的图像特征（记为第一图像特征）。

随后，第一图像特征一方面被输入至特征层2，由特征层2进行卷积运算后得到特征层2输出的图像特征（记为第二图像特征），另一方面第一图像特征被输入至特征层1连接的注意力层1（在有归一化层的情况下，就是输入至归一化层），由注意力层1对第一图像特征进行卷积注意力计算，得到第一图像特征对应的注意力图像特征。

特征层2输出的第二图像特征同理，同时被输入至注意力层2和特征层3，注意力层2进行卷积注意力计算后得的第二图像特征对应的一个注意力图像特征，特征层3则对第二图像特征进行卷积运算，得到第三图像特征。

后续的其他特征层和注意力层的计算过程以此类推。

需要说明的是，注意力检测模型中每一个特征层均包含若干个卷积核（例如可以包含尺寸为7x7的卷积核），卷积核用于对输入特征层的图像特征（或输入特征）进行卷积运算，利用卷积核进行卷积运算的具体过程可以参考相关的现有技术。

每一个特征层输出的图像特征，其尺寸可以用C×H×W表示，每一个特征层输出的图像特征的尺寸可以相同，也可以不同，C，H和W均为正整数，对于任意一个图像特征，上述尺寸的含义是，这个图像特征包括C个特征矩阵，每一个特征矩阵包括H行W列的元素，每个元素相当于实数。

注意力层（卷积注意力模块）是一种用于卷积神经网络的简单而有效的注意力模块。给定一个中间特征图，卷积块注意力模块会沿着两个独立的维度（通道和空间）依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化。由于卷积块注意力模块是轻量级的通用模块，因此可以忽略该模块的开销而将其无缝集成到任何卷积神经网络架构中，并且可以与基础卷积神经网络一起进行端到端训练。

在步骤S202中利用用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征的过程，具体可以包括：

对特征层输出的图像特征执行通道注意力计算，得到图像特征的通道注意力图；

对图像特征和通道注意力图合并得到的增强图像特征执行空间注意力计算，得到图像特征的空间注意力图；

将空间注意力图和增强图像特征合并，得到图像特征对应的注意力图像特征。

需要说明的是，当注意力检测模型包含图1所示的归一化层时，上述处理过程中，输入注意力层1的就是经过归一化层处理的归一化图像特征，换言之，这种情况下需要将上述卷积主力计算的过程中的图像特征替换为归一化图像特征。

上述计算过程中，对特征层输出的图像特征执行通道注意力计算，得到图像特征的通道注意力图的具体计算过程可以是：

分别对图像特征进行平均池化运算和最大池化运算，得到平均池化特征和最大池化特征；

利用预先构建的多层感知机处理平均池化特征，得到平均池化参数，并利用多层感知机处理最大池化特征，得到最大池化参数；

将平均池化参数与最大池化参数的和输入激活模块，得到图像特征的通道注意力图。

上述计算通道注意力图的过程可以用如下公式（1）表示：

公式（1）中，F表示输入注意力层的图像特征（或归一化图像特征），Sig表示sigmoid函数，该函数是一种现有的激活函数，相当于上述通道注意力计算过程中的激活模块，MLP（Multilayer Perceptron）表示多层感知机，Avgpool表示对图像特征F进行平均池化运算，Maxpool表示对图像特征F进行最大池化运算。F1表示对图像特征F1进行通道注意力计算得到的通道注意力图。

其中，对图像特征进行平均池化运算，是指，利用一个具有预先设定的尺寸的池化窗口（如可以是2×2的池化窗口）在图像特征包含的每一个特征矩阵上移动，每次移动后池化窗口覆盖的区域均紧挨着移动前池化窗口覆盖的区域（即移动前后的两个区域的某一条边重合，但是两个区域互不重叠），每当池化窗口覆盖一个新的区域，计算池化窗口当前覆盖的元素（以上述2×2的池化窗口，一次可以覆盖4个元素，即两行两列）的算术平均值，将得到的计算结果作为最终的平均池化特征中的一个元素，当图像特征中每一个元素均进行过上述平均值计算后，对这个图像特征的平均池化运算就完成，计算得到的所有平均值按照计算时池化窗口的位置组合，就得到这个图像特征对应的平均池化特征。

对图像特征进行最大池化运算的过程，和上述平均池化运算的过程基本一致，区别在于，每当池化窗口覆盖一个新区域时，从该区域内的所有元素中筛选出最大的元素，作为本次的计算结果（区别于平均池化运算中将平均值作为计算结果），同样的，当图像特征中每一个元素均经过上述筛选后，对图像特征的最大池化运算过程完成，筛选得到的所有元素按照筛选时池化窗口的位置组合，就得到这个图像特征对应的最大池化特征。

多层感知机是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。在本方案中，多层感知机具体用于将最大池化特征和平均池化特征，分别映射为一个包含C个参数的一维向量，即映射为如下形式的向量：

（A₁，A₂……A_C-1，A_C）。

其中，C就是输入至这个注意力层的图像特征的通道数（一个图像特征包含的特征矩阵的数量，称为通道数）。

多层感知机输出的这两个一维向量，就是前述计算过程中提及的平均池化参数和最大池化参数，最后，利用激活函数对多层感知机输出的两个一维向量进行激活运算（相当于将平均池化参数与最大池化参数的和输入激活模块），就可以得到通道注意力图F1。

可以看出，通道注意力图也是一个包含C个参数的一维向量。

在本方案中，通道注意力图的作用，在于突出图像特征中有意义的特征矩阵。一个图像中，每一种物体的特征在同一个图像特征的不同特征矩阵上的显著程度是不同的，例如，可能汽车的特征在第一特征矩阵上较为显著，而房屋的特征在第二特征矩阵上较为显著。显然，在物体检测这一应用场景中，那些目标物体的特征较为突出的特征矩阵是有意义的特征矩阵，而其他特征矩阵则是无意义的特征矩阵。

通过模型构建阶段的训练，本方案通过通道注意力计算得到的通道注意力图可以对有意义的特征矩阵进行增强，具体来说，通道注意力图的每一个参数，均对应于图像特征的一个特征矩阵，获得通道注意力图之后，针对每一个特征矩阵，可以将这个特征矩阵的每一个元素均乘以通道注意力图中对应的参数，其中，有意义的特征矩阵对应的参数大于无意义的特征矩阵对应的参数，因此，通过上述计算，可以使有意义的特征矩阵的元素相对于无意义的特征矩阵的元素显著增大。

通过这种方式，可以让有意义的特征矩阵在后续的置信度计算中占据更大的权重，相应的，有意义的特征矩阵包含的目标物体的显著特征也会具有更大的权重，因此能够更准确的从待检测图像中识别并定位出目标物体。

上述将特征矩阵和通道注意力图中对应参数相乘的过程，就相当于，将图像特征和通道注意力图合并，得到增强图像特征的过程。这一过程可以用下述公式（2）表示：

F2就是合并得到的增强图像特征。

对图像特征和通道注意力图合并得到的增强图像特征执行空间注意力计算，得到图像特征的空间注意力图的具体计算过程可以包括：

将平均池化增强特征和最大池化增强特征合并得到合并池化特征；

利用预设尺寸的卷积核对合并池化特征进行卷积运算，并将卷积运算得到的运算结果输入激活模块，得到图像特征的空间注意力图。

上述计算过程可以用如下的公式（3）表示：

公式（3）中，F3表示经过空间注意力计算得到的空间注意力图。需要说明的是，空间注意力图F3是一个尺寸为H×W的矩阵，H和W就是输入注意力层的图像特征中特征矩阵的尺寸，上述Conv_7×7表示以尺寸为7×7对合并池化特征进行卷积运算，合并池化特征，就是公式（3）中Avgpool（F2）与Maxpool（F2）的和。

Avgpool（F2）表示对增强图像特征进行平均池化运算，Maxpool（F2）表示对增强图像特征进行最大池化运算。计算过程参考前文，此处不再赘述。

可以理解的，针对任意一个特征矩阵，其内部的元素中只有那些根据待检测图像中目标物体的像素计算得到的元素（即目标元素）对于检测目标物体是有价值的，而其他的元素则是对检测目标物体这一目的的干扰。例如，待检测图像中目标物体位于图像的左下角，相应的，特征矩阵中，根据图像左下角的像素计算得到的，同样位于特征矩阵左下角的元素对于检测目标物体是有价值的，而其他元素，例如位于特征矩阵上方的元素则会在检测目标物体时形成干扰。

在本方案计算得到的空间注意力图中，和目标元素对应的部分的参数具有较大的数值，而不和目标元素对应的那部分参数则具有较小的数值。因此，空间注意力图能够聚焦于输入图像的何处是含有特征信息的部分，与通道注意力互补。

将空间注意力图和增强图像特征合并，得到图像特征对应的注意力图像特征，具体是指，针对特征矩阵的每一个元素，将这个元素和空间注意力图中位于相同位置的参数相乘，得到的结果作为合并后的注意力图像特征中对应位置的元素。上述合并过程可以用如下的公式（4）表示：

其中，F4表示合并后得到的注意力图像特征。

从上述步骤S202的计算过程的核心在于，计算出图像特征的通道注意力图和空间注意力图，然后将通道注意力图和空间注意力图与图像特征合并，得到注意力图像特征。通过上述注意力计算，增加了卷积神经网络特征提取的有效性，使得目标检测的平均精度明显提升。

可选的，对于第一个特征层，可以设置如图1所示的归一化层，在这种情况下，第一个特征层输出图像特征之后，需要：

利用归一化层对第一个特征层输出的图像特征进行批处理归一化运算，得到归一化图像特征；

对应的，第一个特征层所连接的注意力层的具体作用是：

利用特征层连接的注意力层对归一化图像特征执行卷积注意力计算，得到注意力图像特征。

下面对归一化运算的过程进行说明：

公式（5）：

公式（6）：

公式（7）：

公式（8）：

上述公式中，x_i表示进行归一化运算的图像特征包含的每一个元素，m表示图像特征包含的元素的数量，Ub表示批量均值，也就是进行归一化的图像特征包含的所有元素的数值的算术平均值，S表示归一化的图像特征包含的所有元素的数值的方差，即批量方差，L为预设的常数，ga和beta是在训练本申请提供的模型时根据模型的损失迭代更新的参数，x1_i表示归一化数值，y_i表示最终归一化层输出的归一化图像特征所包含的元素。

批处理归一化：批处理归一化（Batch Norm）是为了解决训练过程中数据分布的改变，提高网络泛化性，加快网络训练的一种算法。在网络训练的过程中，参数不断地在更新，前一层网络参数的更新，就会导致下一层网络输入数据分布的变化，那么该层网络就要去适应新的数据分布，这样大大影响了网络训练的速度。另一方面，卷积神经网路的训练过程就是在学习数据分布，如果数据分布不断发生变化的话，那么会降低网络的泛化能力。批处理归一化的本质就是对数据进行预处理，把数据送入网络之前，先对它进行归一化，这样做可以减少数据分布的变化，使得网络的泛化性和训练速度大大提高。

在SSD模型中，每一个图像特征的每一个元素均对应有多个尺寸不同的候选框，相应的，本方案中每一个注意力图像特征的每一个元素也对应有不同尺寸的候选框。

可选的，候选框的尺寸可以按如下规则设定：

对应的注意力图像特征在检测模型中的位置越靠后，则其元素对应的候选框的尺寸越大，例如，图1中由注意力层1输出的注意力图像特征，其对应的候选框尺寸就大于注意力层6输出的注意力图像特征。

需要说明的是，每一个候选框的尺寸以像素为单位表示，例如，若待检测图像的尺寸是4000像素×3000像素，则一个候选框的尺寸可以设置为100像素×50像素。

每一个注意力图像特征中，元素对应的候选框的数量可以预先设定，例如，在本方案中，可以设定注意力层1输出的注意力图像特征中每个元素的候选框为4，类似的，注意力层2输出的注意力图像特征的候选框数量为6，后续四个注意力层对应的候选框数量依次为6、6、4、4。

对于每一个元素，该元素对应的候选框的置信度，可以根据这个元素以及周围相邻的元素的数值计算得到，具体的计算过程可以参考相关的现有技术，此处不再赘述。

对于每一个候选框，这个候选框的置信度值，用于表征在待检测图像中这个候选框对应的区域内包含完整的目标物体的概率，置信度值越大，在对应区域存在目标物体的概率越大。

本申请所提供的注意力检测模型可以同时用于检测多种目标物体，例如可以同时从待检测图像中识别出汽车，房屋，猫这三种目标物体及其所在位置，每一种目标物体对应一个标签，相应的，在步骤S203的计算置信度的过程中，每一个候选框就可以计算出多个置信度值，每一个置信度值对应一种目标物体，用于表示对应区域内包含对应种类的目标物体的概率。

例如，一个候选框可以计算出0.3，0.4，0.5三个置信度值，其中0.3表示对应区域包含汽车的概率，0.4表示对应区域包含房屋的概率，0.5表示对应区域包含0.5的概率。

在本申请提供的注意力检测模型中，候选框和待检测图像的位置关系可以参考图3进行理解：

如图3左侧的图像a表示待检测图像，其中的动物表示目标物体，右侧的图像b和图像c则表示本申请的注意力检测模型中某两个注意力层输出的注意力图像特征，其中每一个实线的方格表示注意力图像特征的一个元素，各个虚线的矩形框则表示元素对应的候选框。

如前文所述，每个候选框的尺寸可以用像素表示，针对某一个注意力图像特征，可以将待检测图像根据这个注意力图像特征包含的元素的数量对应的划分为多个方格，例如图3中的图像c包含4行，4列，共计16个元素，相应的可以将待检测图像均等的划分为4行，4列的16个小方格，由此，待检测图像的每一个小方格就对应图像特征的一个元素。

在此基础上，对于图像c表征的注意力图像特征的某一个元素G，可以将这个元素在待检测图像中对应的方格作为中心方格，然后基于这个中心方格确定出一个和元素G对应的候选框一致的区域，这个区域就是元素G在待检测图像中对应的区域，或者，也可以将这个区域理解为候选框在待检测图像上的投影，而候选框的置信度值，其实就表示通过上述方法确定出的待检测图像的对应区域内，包含目标物体的概率。

上述置信度条件具体包括以下两方面：

第一方面，候选框的置信度值应当大于设定的置信度阈值；

第二方面，当有多个候选框全部或部分重叠时，以多个重叠的候选框中置信度值最大的候选框作为物体预测框，其他的候选框则予以删除。

需要说明的是，上述第二方面中的重叠，是指，候选框在待检测图像中对应的区域重叠。

也就是说，步骤S204具体包括两个子步骤：

第一，从每一个注意力图像特征中，删除每一个置信度值小于或等于置信度阈值的候选框。

第二，针对经过第一个子步骤删除后，剩余的所有候选框（包括每一个注意力图像的每一个元素的剩余的候选框），根据候选框是否重叠，将这些候选框划分为多组，然后，针对每一组候选框，保留其中置信度值最大的候选框作为物体预测框，并删除这一组的其他候选框。第二个子步骤可以称为非极大值抑制过程。

需要说明的是，当每一个候选框对应有多个置信度值时（即检测模型用于检测多种目标物体时），一个候选框只要有一个置信度值符合上述置信度条件，就可以作为物体预测框。其中，在非极大值抑制过程中，若每个候选框有多个置信度值，那么在比较不同候选框的置信度值的时候，只能将对应于同一种目标物体的置信度值进行比对。

获得上述物体预测框之后，就可以在待检测图像上绘制出对应的目标物体所在区域，然后将待检测图像反馈给用户。

具体的，可以按照步骤S203中说明的将候选框投影在待检测图像上的方法，将最终确定的物体预测框投影在待检测图像上，得到多个矩形区域，这些矩形区域就是待检测图像上目标物体的所在区域。

可选的，检测出目标物体后，步骤S205中可以对目标物体进行分类计数。具体的，通过以目标物体的类别为键，待检测图像中每一类目标物体的数量为值，建立待检测图像的字典，在未检测时，将每一类目标物体的数量初始化为0，如{'铁塔':0, '变压器':0,……, '绝缘子':0}。在目标物体检测的过程中，将检测到的目标按照类别进行累加，并写入到字典对应的键值对中。通过对键值对的值进行非零判断，将值非零的键值对写入到本地文档中，再将文档中的内容以JSON文件的形式传输到前端页面进行显示。由此，用户可以从文档中直观地看出待检测图像有哪几种目标物体，每一种目标物体具体有几个。

当本方案应用于对视频中每一个图像帧的物体检测时，每传输完一帧的目标计数结果，程序会清空文档内容以保存下一帧的目标计数结果，这样可以保证在目标检测的过程中，文档内容不会堆积，因而能够对文档内容进行快速读取，保障了目标计数结果显示的实时性。

现有的SSD模型存在以下缺点：

第一方面，现有的SSD模型虽然在检测精度和检测速度方面具有优势，但是对小尺寸物体的检测，SSD算法的检测效果比较差。

具体来说，现有的SSD模型一般利用逆卷积结构，增加网络中低层的特征提取能力，提高SSD目标检测算法的平均精准度；这类模型结合深度可分离卷积,逐点分组卷积与通道重排提出轻量化特征提取最小单元，将SSD网络结构特征提取部分替换为轻量化特征提取最小单元的组合，使模型可在小显存容量GPU设备与嵌入式ARM设备上运行。但是，该方法是基于无差别的逐点分离卷积，在计算置信度值的阶段，每一个图像特征的各个元素对置信度值的影响系数相同，无法突出图像特征中与目标物体相关的特征，难以对突出的特征进行差异化的提取，对复杂特征提取存在一定的不足，导致检测结果的准确度较低。

第二方面，现有的SSD模型在网络训练的过程中，容易受到数据分布的影响，这样会使得网络学习速度变慢，损失函数收敛变慢。

第三方面，现有的物体检测技术只是对目标物体进行检测并将检测到的目标物体以物体预测框从图像中框选出来，并没有对检测到的目标的各个种类分别进行计数。

相对的，针对第一方面的缺点，本发明提供的基于注意力检测模型的物体检测方法，在计算候选框的置信度值之前，利用注意力层对图像特征中与目标物体相关的特征进行增强，有效的提高了卷积神经网络对图片的特征提取能力，再对所有的候选框按照置信度条件进行筛选，最终得到的目标检测的结果和对应的目标种类的数量，进而提高了算法的检测精度。

可以看出，本方案的注意力层，实质上相当于给图像特征中与目标物体相关的元素（也就是根据目标物体的像素计算得到的元素）赋予了较大的权重，利用注意力图（包括通道注意力图和空间注意力图）和图像特征进行自适应优化，这样可以提高这些与目标物体相关的元素在计算置信度值的阶段对相应候选框的贡献，从而形成更强的特征提取能力。

针对第二方面的缺点，本方案在第一个用于检测的特征层后面，根据输入输出通道数确定批处理归一化的参数，以便对特征层进行批处理归一化操作，抑制了数据分布对网络训练速度的影响，加快了网络在训练过程中损失函数的收敛速度，从而利用批处理技术提高训练时注意力检测模型的收敛速度。

针对第三方面的缺点，本方案通过建立字典的方式，以目标的种类和该种类目标对应的数量作为键值对，在目标检测的过程中，将识别到的各目标的数量按照累加的方式写入对应的键值对，通过判断每个键值对的值非零进行输出，由此实现了目标计数的功能，这样使得改进的SSD算法可以在目标检测的过程中，实时的统计出检测到的目标种类和对应种类的数量。

也就是说，本方案构建了用于对检测出的目标物体进行分类计数的字典，并将检测结果反馈到前端，实现了对目标种类和目标数量的实时统计及展示。

可以理解的，本申请提供的注意力检测模型需要预先利用人工标注的图像样本进行训练。训练过程的原理是：

获得多张人工标注的图像样本，每一张图像样本上，均用矩形框标注出目标物体的所在区域，这些矩形框可以记为样本物体框。

利用待训练的注意力检测模型逐一检测每一张图像样本，得到每一张图像样本的物体预测框，并在图像样本中确定出物体预测框对应的区域的位置。

获得本次检测得到的物体预测框后，可以根据图像样本中这些物体预测框和标注的样本物体框的重叠程度，选择出重叠程度大于设定阈值的多个和样本物体框匹配的物体预测框，将选择出来的和样本物体框匹配的物体预测框的数量记为N。

进而可以按照下述公式（9）计算得到本次检测的损失值Loss:

其中，L_con表示置信度损失函数，L_loc表示位置损失函数，alpha是预设的系数。置信度损失函数和位置损失函数的具体表达式可以参考相关文献。

需要说明的是，上述置信度损失函数和位置损失函数需要对每一个物体预测框进行计算，也就是说，本次检测的损失值Loss，其实是每一个物体预测框的置信度损失函数的数值和位置损失函数的数值相加，然后将最后的和除以N得到的数值。

公式（9）中，z用于表征被计算的物体预测框和样本物体框是否匹配，若匹配则z等于1，若不匹配则z等于0，c表示被计算的物体预测框的置信度值，l表示被计算的物体预测框在图像样本中对应区域的位置参数（如坐标，尺寸等），g表示图像样本中标注的样本物体框的位置参数。

若计算得到的本次检测的损失值不符合预设的收敛条件（如损失值小于设定的收敛阈值），则可以根据本次检测的损失值，更新上述待训练的注意力检测模型的参数，更新完成后，再次执行前述利用待训练的注意力检测模型逐一检测每一张图像样本，得到每一张图像样本的物体预测框，并在图像样本中确定出物体预测框对应的区域的位置的步骤，直至某一次检测后计算得到的损失值符合收敛条件为止，此时就完成了对注意力检测模型的训练。

可选的，本发明可以采用平均精度均值（mAP）评估训练好的注意力检测模型的准确度，mAP 兼顾了查准率和查全率，常被用作多目标检测的模型评价指标。mAP 的计算公式如下述公式（10）所示：

其中，Q为目标物体的种类数，即注意力检测模型一共用于检测Q种不同的目标物体，q为某类物体在不同查全率下的查准率，AveP（q）是求某类物体的平均精度。

结合本申请任一实施例提供的基于注意力检测模型的物体检测方法，本申请第二方面提供一种基于注意力检测模型的物体检测装置，请参考图4，该装置可以包括如下单元：

获取单元401，用于获取待检测图像，并利用注意力检测模型的输入网络提取待检测图像的输入特征；

提取单元402，用于针对注意力检测模型的每一个特征层，利用特征层从待检测图像中提取出图像特征，并利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征。

计算单元403，用于对注意力图像特征执行置信度计算，得到注意力图像特征中每一个元素对应的候选框的置信度值。

确定单元404，用于删除每一个对应的置信度值不符合置信度条件的候选框，并将剩余的候选框确定为待检测图像的物体预测框。

可选的，提取单元利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征时，具体用于：

可选的，提取单元对特征层输出的图像特征执行通道注意力计算，得到图像特征的通道注意力图时，具体用于：

可选的，提取单元对图像特征和通道注意力图合并得到的增强图像特征执行空间注意力计算，得到图像特征的空间注意力图时，具体用于：

可选的，提取单元针对注意力检测模型的第一个特征层，利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征之前，还用于：

其中，提取单元利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征时，具体用于：

本申请提供的基于注意力检测模型的物体检测装置，其具体工作原理可以参考本申请实施例提供的基于注意力检测模型的物体检测方法中的对应步骤，此处不再赘述。

本申请提供一种基于注意力检测模型的物体检测装置，获取单元401获取待检测图像，并利用注意力检测模型的输入网络提取待检测图像的输入特征；提取单元402利用每一个特征层从待检测图像中提取出图像特征，并利用特征层连接的注意力层对图像特征执行卷积注意力计算，得到注意力图像特征；注意力检测模型包括依次连接的多个特征层；第一个特征层的输入为输入特征，其他特征层的输入均为前一特征层输出的图像特征；注意力图像特征中根据目标物体的像素计算得到的目标元素的数值大于对应的图像特征中目标元素的数值；计算单元403对注意力图像特征执行置信度计算，得到注意力图像特征中每一个元素对应的候选框的置信度值；最后确定单元404筛选出置信度值符合置信度条件的候选框作为物体预测框；物体预测框用于指示目标物体在待检测图像中所在区域。

利用注意力层增强图像特征中由目标物体的像素计算得到的元素，可以增大这些元素对应的候选框的置信度值，这样后续检测步骤更容易检测出包含目标物体的候选框，从而提高检测结果的准确度。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力检测模型的物体检测方法，其特征在于，包括：

2.根据权利要求1所述的物体检测方法，其特征在于，所述利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征，包括：

3.根据权利要求2所述的物体检测方法，其特征在于，所述对所述特征层输出的图像特征执行通道注意力计算，得到所述图像特征的通道注意力图，包括：

4.根据权利要求2所述的物体检测方法，其特征在于，所述对所述图像特征和所述通道注意力图合并得到的增强图像特征执行空间注意力计算，得到所述图像特征的空间注意力图，包括：

5.根据权利要求1所述的物体检测方法，其特征在于，针对所述注意力检测模型的第一个特征层，利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征之前，还包括：

6.一种基于注意力检测模型的物体检测装置，其特征在于，包括：

7.根据权利要求6所述的物体检测装置，其特征在于，所述提取单元利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征时，具体用于：

8.根据权利要求7所述的物体检测装置，其特征在于，所述提取单元对所述特征层输出的图像特征执行通道注意力计算，得到所述图像特征的通道注意力图时，具体用于：

9.根据权利要求7所述的物体检测装置，其特征在于，所述提取单元对所述图像特征和所述通道注意力图合并得到的增强图像特征执行空间注意力计算，得到所述图像特征的空间注意力图时，具体用于：

10.根据权利要求7所述的物体检测装置，其特征在于，所述提取单元针对所述注意力检测模型的第一个特征层，利用所述特征层连接的注意力层对所述图像特征执行卷积注意力计算，得到注意力图像特征之前，还用于：