CN112396115B

CN112396115B - 基于注意力机制的目标检测方法、装置及计算机设备

Info

Publication number: CN112396115B
Application number: CN202011322670.7A
Authority: CN
Inventors: 张国辉; 杨国青; 宋晨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2023-12-22
Anticipated expiration: 2040-11-23
Also published as: CN112396115A; WO2021208726A1

Abstract

本发明公开了一种基于注意力机制的目标检测方法、装置及计算机设备，该方法包括：接收用户输入的待检测图像；将待检测图像输入至卷积神经网络模型中，提取到待检测图像的多层特征图；根据注意力机制对多层特征图进行加权，得到加权后的特征图；根据多层特征图生成待检测图像的特征金字塔；将加权后的特征图分别与特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从融合后的特征金字塔中获取与目标图像相匹配的特征图；根据目标检测模型对与目标图像相匹配的特征图进行目标检测，得到目标图像。本发明基于人工智能中的神经网络技术，通过引入注意力机制对卷积输出层的特征进行融合，大幅度提高了在进行不同目标检测任务时的精度。

Description

基于注意力机制的目标检测方法、装置及计算机设备

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于注意力机制的目标检测方法、装置及计算机设备。

背景技术

在现有的目标检测技术中，无论是在两阶段的Faster RCNN的多层特征融合上，还是在单阶段的YOLO的多层特征融合上，均采用的是特征金字塔将高层特征上采样后和临近的底层特征拼接以进行特征融合。当需要执行小目标的检测任务时，需采用特征金字塔中大尺寸的特征图来进行目标检测；当需要执行大目标的检测任务时，需采用特征金字塔中小尺寸的特征图来进行目标检测。虽然采用特征金字塔进行目标检测具有较好的检测精度，但是仍然无法满足理想检测的精确度。因此，如何在特征金字塔的基础上提高对进行不同目标检测任务时的检测的精确度为本发明所需解决的问题。

发明内容

本发明实施例提供了一种基于注意力机制的目标检测方法、装置及计算机设备，旨在解决现有技术中基于特征金字塔进行不同目标检测任务时的检测精度无法满足检测需求的问题。

第一方面，本发明实施例提供了一种基于注意力机制的目标检测方法，其包括：

接收用户输入的待检测图像；

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

根据所述多层特征图生成所述待检测图像的特征金字塔；

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

第二方面，本发明实施例提供了一种基于注意力机制的目标检测装置，其包括：

接收单元，用于接收用户输入的待检测图像；

第一生成单元，用于将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

第二生成单元，用于根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

第三生成单元，用于根据所述多层特征图生成所述待检测图像的特征金字塔；

融合单元，用于将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

获取单元，用于从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

目标检测单元，用于根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于注意力机制的目标检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于注意力机制的目标检测方法。

本发明实施例提供了一种基于注意力机制的目标检测方法、装置及计算机设备，该方法包括：接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。通过上述方法可以在进行目标检测任务时，自适应的调节不同的特征层权重，同时最后的融合特征更适用于目标检测任务，在额外时间开销较小的情况下可大幅度的提高检测精度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于注意力机制的目标检测方法的流程示意图；

图2为本发明实施例提供的基于注意力机制的目标检测方法的子流程示意图；

图3为本发明实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图4为本发明实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图5为本发明实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图6为本发明实施例提供的基于注意力机制的目标检测装置的示意性框图；

图7为本发明实施例提供的基于注意力机制的目标检测装置的子单元示意性框图；

图8为本发明实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图9为本发明实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图10为本发明实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图11为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于注意力机制的目标检测方法的流程示意图。所述基于注意力机制的目标检测方法在服务器中进行搭建并运行，在服务器接收到例如手提电脑、平板电脑等智能终端设备发送的待检测图像后，将所述待检测图像进行特征提取，得到所述待检测图像的多层特征图，然后根据预设的注意力机制对所述多层特征图进行加权，得到加权后的特征图，所述加权后的特征图与所述多层特征图中的每层特征图的相对应，然后通过对所述多层特征图中的每层特征图再次进行卷积，得到所述待检测图像的特征金字塔，最后将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，所述融合后的特征金字塔更适配目标图像的检测，在额外时间开销较小的情况下可大幅度的提高检测精度。

下面对所述基于注意力机制的目标检测方法进行详细说明。如图1所示，该方法包括以下步骤S110～S170。

S110、接收用户输入的待检测图像。

接收用户输入的待检测图像。具体的，所述待检测图像中包含有目标图像的特征信息，用户通过终端如手提电脑、平板电脑、智能手机等终端设备向服务器发送所述待检测图像，服务器在接收到所述待检测图像后，便可执行所述基于注意力机制的目标检测方法，得到所述待检测图像的融合后的特征金字塔，以适应于不同的目标检测任务。

S120、将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。具体的，所述卷积神经网络模型为预先训练好且用于对输入的所述待检测图像进行特征提取，得到所述待检测图像的多层特征图的模型，即所述待检测图像输入到所述卷积神经网络模型中后，所述待检测图像依次经过若干卷积层、池化层、激活函数层，所述多层特征图中的每层特征图自底向上的通道数逐渐变多，尺寸逐渐变小，每层提取的特征被送入下一层作为输入，即所述多层特征图由所述待检测图像输入至所述卷积神经网络模型中后经过的不同卷积阶段的特征图组成，所述多层特征图自底向上的特征图的语义信息的丰富度逐渐增强，分辨率逐渐降低。所述多层特征图中最底层的特征图中的语义信息最少，分辨率最高，不适用于对小的目标进行检测；所述多层特征图中最顶层的特征图中的语义最丰富，分辨率最低，不适用于对大的目标进行检测。其中，卷积神经网络可以为VGG(Visual Geometry Group，超分辨率测试序列)卷积神经网络、深度ResNet(ResidualNetworks，残差网络)等深度卷积神经网络。例如，当所述卷积神经网络的卷积过程包含conv1、conv2、conv3、conv4四个阶段时，提取conv1、conv2、conv3、conv4四个阶段最后一层的特征图，便可得到所述待检测图像的多层特征图。

S130、根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。具体的，注意力机制本质上与人类的选择性视觉注意力机制类似，核心思想是从众多信息中选择出对当前任务目标更关键的信息。所述注意力机制用于获取所述多层特征图中的每层特征图的权重，在获取到所述多层特征图中的每层特征图的权重后，将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加便可完成对所述多层特征图进行加权，进而得到所述加权后的特征图。

在另一实施例中，如图2所示，步骤S130包括：子步骤S131和子步骤S132。

S131、根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。

根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。本发明实施例中所述注意力机制为空间注意力机制，所述待检测图像输入到所述卷积神经网络模型中，得到所述多层特征图后，所述多层特征图中的每层特征图均具有相应的权值。由于所述多层特征图中的每层特征图的输出均为实数，而所述多层特征图中的每层特征图的权重之和为1。因此，在根据所述注意力机制获取到所述多层特征图中的每层特征图的权值后，对所述每层特征图的权值进行归一化处理，便可得到所述多层特征图中的每层特征图的权重，其中，归一化处理即为将所述每层特征图的权值规整到(0，1)之间。在本发明实施例中，所述注意力机制为空间注意力机制，采用Sigmoid函数对所述每层特征图的权值进行归一化处理便可得到所述多层特征图中的每层特征图的权重。

S132、根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。

根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。具体的，通过所述注意力机制获取到所述多层特征图中的每层特征图的权重后，将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到一个尺寸以及语义信息适中的特征图，即所述加权后的特征图。所述加权后的特征图的特征值的计算公式表示为：F＝f₁×w₁+f₂×w₂+…f_i×w_i)，其中，f_i为所述多层特征图中的某一特征图的特征值，w_i为所述多层特征图中的某一特征图的权重。

S140、根据所述多层特征图生成所述待检测图像的特征金字塔。

根据所述多层特征图生成所述待检测图像的特征金字塔。具体的，所述特征金字塔为通过所述多层特征图自顶向下进行构建。所述特征金字塔可用于对不同任务的目标检测。当需要检测所述待检测图像中的小目标时，只需采用所述特征金字塔中大尺寸的特征图进行目标识别便可获得丰富的语义信息；当需要检测所述待检测图像中的大目标时，只需采用所述特征金字塔中小尺寸的特征图进行识别便可获得丰富的语义信息。

在另一实施例中，如图3所示，步骤S140包括子步骤S141和S142。

S141、根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。具体的，所述多层特征图中的每层特征图通过使用所述卷积核进行卷积后，所述多层特征图中的每层特征图中的每层特征图的通道数相等，以便于后续通过所述多层特征图构建特征金字塔。所述卷积核的大小可根据实际情况进行设定，在此不做限制。例如，若所述多层特征图中的每层特征图自顶向下依次为C1、C2、C3、C4、C5，将C1、C2、C3、C4、C5通过1*1大小的卷积核进行卷积以使得C1、C2、C3、C4、C5在进行卷积后的通道数相等。

S142、根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。

根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。具体的，所述卷积后的多层特征图中的每层特征图的通道数相等，所述卷积后的多层特征图中的特征图的层数与所述特征金字塔的层数相等以及每层的尺寸大小均相等。

在另一实施例中，如图4所示，步骤S142包括子步骤S1421和S1422。

S1421、根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。

根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。具体的，所述卷积后的多层特征图中的顶层的特征图在所述卷积后的多层特征图中尺寸最小，语义最丰富，因此可直接将所述卷积后的多层特征图中的顶层的特征图作为所述特征金字塔的顶层的特征图。

S1422、根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。

根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。通过所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图的具体过程为：对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加，得到所述特征金字塔中与顶层相邻的特征图，其中，在进行相加的过程中，需将卷积后的所述多层特征图中与最顶层相邻的特征图缩小至原来的两倍后才可进行相加，依次自顶向下进行便可构建出所述特征金字塔。例如：将卷积后的C1作为所述特征金字塔的顶层的特征图P1，对P1进行采样，同时对卷积后的C2缩放至原来的两倍，然后将对P1采样后特征图与卷积后的C2缩放至原来的两倍的特征图进行相加便可得到所述特征金字塔中与P1相邻的P2，依次类推，便可得到所述特征金字塔中的特征图自顶向下依次为：P1、P2、P3、P4、P5。

S150、将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。具体的，所述待检测图像在所述卷积神经网络模型中进行卷积操作时，所述卷积神经网络模型卷积操作的对象是一组多维矩阵，同样的，所述待检测图像输入至所述卷积神经网络模型中，得到的所述多层特征图中的每层特征图均为一组多维矩阵，根据所述多层特征图构建的所述特征金字塔中的每层特征图，以及将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到的所述加权后的特征图也均为一组多维矩阵，故将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合的过程中，均将其所对应的矩阵进行相加，即将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，，得到一组新的多维矩阵便为所述融合后的特征金字塔。所述融合后的特征金字塔中的每层特征图比与所述特征金字塔中相对应的特征图含有更丰富的语义信息，在进行不同任务的目标检测时，可大幅度的提高了目标检测的精确度。

S160、从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。具体的，根据所述待检测图像中的目标图像的目标尺寸从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。通常用户在发送所述待检测图像的同时，也发送了对所述待检测图像进行目标检测的检测请求的指令信息，根据所述指令信息便可获取所述待检测图像中的目标图像的目标尺寸，所述目标尺寸可从所述融合后的特征金字塔中选取符合进行目标检测的特征图，然后将该特征图输入至预先训练好的目标检测模型中便可得到所述目标图像。

S170、根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。具体的，所述目标检测模型为用于从所述与所述待检测图像中的目标图像相匹配的特征图中提取多个矩形边界框的模型，该多个矩形边界框即为所述多个候选框，将与所述待检测图像中的目标图像相匹配的特征图输入至所述目标检测模型中后，所述目标检测模型将会输出所述多个候选框，其中，所述多个候选框中包括目标检测框，所述多个候选框为与所述待检测图像中的目标图像相关的候选框，所述多个候选框中均包括有部分或者全部目标图像的特征信息，进而得到所述待检测图像中的目标图像。

在另一实施例中，如图5所示，步骤S170包括子步骤S171和S172。

S171、将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。

将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。具体的，所述区域生成网络模型为预先训练好且用于对与所述待检测图像中的目标图像相匹配的特征图进行提取，得到含有目标检测框的多个候选框的模型，将与所述待检测图像中的目标图像相匹配的特征图输入至所述区域生成网络模型中后，先以预设尺寸的滑动窗口的锚点为中心通过尺寸变换以生成含有目标检测框的多个候选框，在本发明实施例中，滑动窗口的尺寸为3×3。

S172、根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。

根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。具体的，所述非极大值抑制算法简称为NMS算法，常用于计算机视觉中的边缘检测、人脸检测、目标检测等。在本实施例中，所述非极大值抑制算法用于对所述待检测图像进行目标检测。由于目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时需要通过非极大值抑制算法从所述多个候选框中找到目标检测框。所述区域生成网络模型输出所述多个候选框时，同时输出所述多个候选框中每个候选框的置信度，所述置信度为目标图像在所述多个候选框中的每个候选框中的概率，所述非极大值抑制算法根据所述多个候选框中每个候选框的置信度进行筛选，得到所述目标检测框。所述非极大值抑制算法的具体流程为：首先根据所述多个候选框中每个候选框的置信度从高往低的顺序进行排序并剔除置信度小于预设的第一阈值的候选框，计算未被剔除的候选框中每个候选框的面积，然后分别计算未被剔除的候选框中置信度最高的候选框分别与剩余未被剔除的候选框的IoU，判断计算出来的IoU是否超过预设的第二阈值，如超过预设的第二阈值，则剔除与未被剔除的候选框中置信度最高的候选框进行IoU计算的剩余未被剔除的候选框，最终得到所述目标检测框，通过所述目标检测框便可得到所述目标图像。其中，IoU即交并比是目标检测中使用的一个概念，表示的是候选框与原标记框的交叠率或者说重叠度，即候选框与原标记框的交集与并集的比值。在本实施例中，预设的第一阈值设定为0.3，预设的第二阈值设定为0.5。

在本发明实施例所提供的基于注意力机制的目标检测方法中，通过接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。通过上述方法可以在进行目标检测任务时，自适应的调节不同的特征层权重，使得最后的融合特征更适配检测任务，在额外时间开销较小的情况下可大幅度的提高检测精度。

本发明实施例还提供了一种基于注意力机制的目标检测装置100，该装置用于执行前述基于注意力机制的目标检测方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的基于注意力机制的目标检测装置100的示意性框图。

如图6所示，所述基于注意力机制的目标检测装置100，该装置包括接收单元110、第一生成单元120、第二生成单元130、第三生成单元140、融合单元150、获取单元160和目标检测单元170。

接收单元110，用于接收用户输入的待检测图像。

第一生成单元120，用于将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。

第二生成单元130，用于根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。

在其他发明实施例中，如图7所示，所述第二生成单元130包括权重获取单元131和第四生成单元132。

权重获取单元131，用于根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。

第四生成单元132，用于根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。

第三生成单元140，用于根据所述多层特征图生成所述待检测图像的特征金字塔。

在其他发明实施例中，如图8所示，所述第三生成单元140包括：卷积单元141和第五生成单元142。

卷积单元141，用于根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。

第五生成单元142，用于根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。

在其他发明实施例中，如图9所示，所述第五生成单元142包括：第一构建单元1421和第二构建单元1422。

第一构建单元1421，用于根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。

第二构建单元1422，用于根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。

融合单元150，用于将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。

获取单元160，用于从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

目标检测单元170，用于根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

在其他发明实施例中，如图10所示，所述目标检测单元170包括：第六生成单元171和筛选单元172。

第六生成单元171，用于将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。

筛选单元172，用于根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。

本发明实施例所提供的基于注意力机制的目标检测装置100用于执行上述用于接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

请参阅图11，图11是本发明实施例提供的计算机设备的示意性框图。

参阅图11，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于注意力机制的目标检测方法。

该处理器502用于提供计算和控制能力，支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于注意力机制的目标检测方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

本领域技术人员可以理解，图11中示出的设备500的实施例并不构成对设备500具体构成的限定，在其他实施例中，设备500可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032，其中计算机程序5032被处理器502执行时实现以下步骤：接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备500(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的目标检测方法，其特征在于，包括以下步骤：

接收用户输入的待检测图像；

根据预置的注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重；

将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到加权后的特征图，其中，所述加权后的特征图的特征值的计算公式表示为：F＝f1×w1+f2×w2+…fi×wi，其中，fi为所述多层特征图中的某一特征图的特征值，wi为所述多层特征图中的某一特征图的权重；

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图；

根据所述卷积后的多层特征图中的顶层的特征图构建特征金字塔的顶层的特征图；

对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加，得到所述特征金字塔中与顶层下方的特征图，其中，在所述对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加的过程中，将卷积后的所述多层特征图中与最顶层相邻的特征图缩小至原来的两倍后进行相加，依次自顶向下进行，以构建出所述特征金字塔；

将与所述目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框，其中，所述区域生成网络模型为预先训练好且用于对与所述待检测图像中的目标图像相匹配的特征图进行提取，得到含有目标检测框的多个候选框的模型，将与所述待检测图像中的目标图像相匹配的特征图输入至所述区域生成网络模型中后，以预设尺寸的滑动窗口的锚点为中心通过尺寸变换以生成含有目标检测框的多个所述候选框；

根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像，其中，所述区域生成网络模型输出多个所述候选框时，同时输出多个所述候选框中每个候选框的置信度，所述置信度为目标图像在所述多个候选框中的每个候选框中的概率，所述非极大值抑制算法根据所述多个候选框中每个候选框的置信度进行筛选，得到所述目标检测框。

2.根据权利要求1所述的基于注意力机制的目标检测方法，其特征在于，所述将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，包括：

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，得到所述融合后的特征金字塔。

3.根据权利要求1所述的基于注意力机制的目标检测方法，其特征在于，所述从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图，包括：

根据所述待检测图像中的目标图像的目标尺寸从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。

4.一种基于注意力机制的目标检测装置，其特征在于，包括：

接收单元，用于接收用户输入的待检测图像；

权重获取单元131，用于根据预置的注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重；

第四生成单元132，用于将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到加权后的特征图，其中，所述加权后的特征图的特征值的计算公式表示为：F＝f1×w1+f2×w2+…fi×wi，其中，fi为所述多层特征图中的某一特征图的特征值，wi为所述多层特征图中的某一特征图的权重；

卷积单元，用于根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图；

第一构建单元，用于根据所述卷积后的多层特征图中的顶层的特征图构建特征金字塔的顶层的特征图；

第二构建单元，用于对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加，得到所述特征金字塔中与顶层下方的特征图，其中，在所述对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加的过程中，将卷积后的所述多层特征图中与最顶层相邻的特征图缩小至原来的两倍后进行相加，依次自顶向下进行，以构建出所述特征金字塔；

第六生成单元，用于将与所述目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框，其中，所述区域生成网络模型为预先训练好且用于对与所述待检测图像中的目标图像相匹配的特征图进行提取，得到含有目标检测框的多个候选框的模型，将与所述待检测图像中的目标图像相匹配的特征图输入至所述区域生成网络模型中后，以预设尺寸的滑动窗口的锚点为中心通过尺寸变换以生成含有目标检测框的多个所述候选框；

筛选单元，用于根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像，其中，所述区域生成网络模型输出多个所述候选框时，同时输出多个所述候选框中每个候选框的置信度，所述置信度为目标图像在所述多个候选框中的每个候选框中的概率，所述非极大值抑制算法根据所述多个候选框中每个候选框的置信度进行筛选，得到所述目标检测框。

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于注意力机制的目标检测方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的基于注意力机制的目标检测方法。