CN115187820A

CN115187820A - 轻量化的目标检测方法、装置、设备、存储介质

Info

Publication number: CN115187820A
Application number: CN202110367782.2A
Authority: CN
Inventors: 张伟烽; 胡庆茂
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-10-14
Also published as: WO2022213395A1

Abstract

本发明提供了一种轻量化的目标检测方法、装置、设备、存储介质，包括：获取待检测目标的图像；将图像通过第一卷积层进行降维，获得降维后的图像；将降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支；分别提取多个第一分支的第一特征图并将多个第一分支的第一特征图进行拼接，获得第一拼接特征图；将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图；将采样后的特征图通过多个block模块进行特征提取，获得图像的特征图；根据图像的特征图进行检测。本发明在特征提取阶段采用跨通道分支策略将多个分支的特征图进行拼接后作为后续特征提取的基础，扩大接收范围并保留更多低级功能，保证检测速度的同时提升了准确率。

Description

轻量化的目标检测方法、装置、设备、存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种轻量化的目标检测方法、装置、设备、存储介质。

背景技术

目标检测是计算机视觉中的基本视觉识别，被广泛应用于自动驾驶、安全检查等领域。随着近年来深度学习在图像分类任务中的巨大成功，基于卷积神经网络(CNN)的目标检测网络已逐渐成为主流。常见的基于CNN的目标检测网络包括Faster R-CNN、R-FCN、SSD、YOLO等，这些目标检测网络都依赖于复杂的网络结构，计算量指标浮点运算数(millionfloating point operations，MFLOPs)均达到五位数，在服务器GPU上能够准确、快速运行。由于移动设备端的计算能力和内存有限，无法承载过多的网络参数和计算需求，显然，这些目标检测网络不适合在移动场景中的实时部署和应用。目前已有的轻量化目标检网络包括MobileNet-SSD、MobileNetV2-SSD Lite、Tiny-YOLO、D-YOLO等。但是，这些轻量化目标检测网络在准确度和模型的复杂度上并没有取得很好的平衡。

发明内容

为了解决现有技术的不足，本发明提供一种轻量化的目标检测方法、装置、设备、存储介质，能够在保证检测速度的同时提升目标检测的准确率。

本发明提出的具体技术方案为：一种轻量化的目标检测方法，所述目标检测方法包括：

获取待检测目标的图像；

将所述图像通过第一卷积层进行降维，获得降维后的图像；

将所述降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支，所述多个第一分支具有相同的通道数；

分别提取所述多个第一分支的第一特征图并将所述多个第一分支的第一特征图进行拼接，获得第一拼接特征图，所述多个第一分支的第一特征图在深度上依次递增；

将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图；

将所述采样后的特征图通过多个block模块进行特征提取，获得所述图像的特征图；

根据所述图像的特征图进行检测，获得所述待检测目标的检测结果。

进一步地，在将所述采样后的特征图通过多个block模块进行特征提取，获得所述图像的特征图之前，所述目标检测方法还包括：

将所述采样后的特征图分别通过多个第二卷积层进行压缩，获得多个第二分支，所述多个第二分支具有相同的通道数；

分别提取所述多个第二分支的第二特征图并将所述多个第二分支的第二特征图进行拼接，获得第二拼接特征图，所述多个第二分支的第二特征图在深度上依次递增；

相应的，将所述采样后的特征图通过多个block模块进行特征提取，获得所述图像的特征图，包括：

将所述第二拼接特征图通过多个block模块进行特征提取，获得所述图像的特征图。

进一步地，对于深度最小的第一分支/第二分支，将所述降维后的图像/采样后的特征图通过第二卷积层进行压缩，包括：

将所述降维后的图像/采样后的特征图依次通过第二池化层、第二卷积层分别进行池化、压缩。

进一步地，分别提取所述多个第一分支的第一特征图/第二分支的第二特征图并将所述多个第一分支的第一特征图/第二分支的第二特征图进行拼接，获得第一拼接特征图/第二拼接特征图，包括：

将上一个第一分支/第二分支的输出作为下一个第一分支/第二分支的残差部分并将下一个第一分支/第二分支与所述残差部分的深度相同的特征和所述残差部分进行融合，获得多个第一分支/第二分支融合后的跨分支特征图；

将多个第一分支/第二分支融合后的跨分支特征图通过第三卷积层进行特征提取，分别获得多个第一分支的第一特征图/第二分支的第二特征图；

将所述多个第一分支的第一特征图进行拼接并与所述降维后的图像进行融合/将所述多个第二分支的第二特征图进行拼接并与所述采样后的特征图进行融合，获得第一拼接特征图/第二拼接特征图。

进一步地，将所述采样后的特征图/第二拼接特征图通过多个block模块进行特征提取，获得所述图像的特征图，包括：

将所述采样后的特征图/第二拼接特征图通过多个block模块依次获得第一尺度特征图、第二尺度特征图、第三尺度特征图；

对所述第三尺度特征图进行下采样，获得第四尺度特征图；

分别对所述第三尺度特征图、第四尺度特征图进行上采样，获得第一上采样特征图、第二上采样特征图；

将所述第二尺度特征图、第一上采样特征图、第二上采样特征图进行融合，获得所述图像的特征图。

进一步地，根据所述图像的特征图进行检测，获得所述待检测目标的检测结果，包括：

将所述图像的特征图通过RPN网络，获得所述图像在RPN网络中的特征图和包含所述待检测目标的候选框；

根据所述图像在RPN网络中的特征图生成通道注意力特征图；

将所述通道注意力特征图与所述图像的特征图进行融合，获得融合后的特征图；

根据所述候选框和所述融合后的特征图获得所述待检测目标的特征图；

根据所述待检测目标的特征图获得所述待检测目标的检测结果。

进一步地，根据所述图像在RPN网络中的特征图生成通道注意力特征图，包括：

将所述图像在RPN网络中的特征图分割为第一子特征图和第二子特征图，所述第一子特征图和所述第二子特征图的通道数相等；

根据所述第一子特征图获得通道注意力权重；

将所述通道注意力权重与所述第二子特征图相乘获得通道注意力特征图。

本发明还提供了一种轻量化的目标检测装置，所述目标检测装置包括：

获取模块，用于获取待检测目标的图像；

降维模块，用于将所述图像通过第一卷积层进行降维，获得降维后的图像；

压缩模块，用于将所述降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支，所述多个第一分支具有相同的通道数；

拼接模块，用于分别提取所述多个第一分支的第一特征图并将所述多个第一分支的第一特征图进行拼接，获得第一拼接特征图，所述多个第一分支的第一特征图在深度上依次递增；

采样模块，用于将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图；

特征提取模块，用于将所述采样后的特征图通过多个block模块进行特征提取，获得所述图像的特征图；

检测模块，用于根据所述图像的特征图进行检测，获得所述待检测目标的检测结果。

本发明还提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现如上任一项所述的目标检测方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令，所述计算机指令被处理器执行时实现如上任一项所述的目标检测方法。

本发明提出的目标检测方法在特征提取阶段先将降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支，再分别提取多个第一分支的第一特征图并将多个第一分支的第一特征图进行拼接，获得第一拼接特征图，采用跨通道分支策略将多个分支的特征图进行拼接后作为后续特征提取的基础，从而通过多个通道分支之间的信息交互扩大接收范围并保留更多低级功能，在保证检测速度的同时提升了目标检测的准确率。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1为本申请实施例中的目标检测方法的示意图；

图2为本申请实施例中的跨通道分支特征提取模块的示意图；

图3为本申请实施例中的跨通道分支特征提取模块的另一示意图；

图4为本申请实施例中的多尺度特征融合模块的示意图；

图5为本申请实施例中的检测网络的示意图；

图6为本申请实施例中的通道自注意力网络的示意图；

图7为本申请实施例中的目标检测装置的示意图；

图8为本申请实施例中的设备的结构示意图。

具体实施方式

以下，将参照附图来详细描述本发明的实施例。然而，可以以许多不同的形式来实施本发明，并且本发明不应该被解释为限制于这里阐述的具体实施例。相反，提供这些实施例是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改。在附图中，相同的标号将始终被用于表示相同的元件。

基于CNN的目标检测网络根据是否包含候选区域提取网络(region proposalnetwork，RPN)被分为两类：一阶段和两阶段。一阶段的目标检测网络可以直接从特征图中对目标类别和边框进行回归和预测，网络结构比较简单、效率也更高，往往被认为更适合于轻量化的研究，而两阶段的目标检测网络由于增加了候选区域选择的步骤，可以实现更好的检测性能。目前大部分轻量级目标检测网络的研究工作都是基于一阶段，例如，MobileNet-SSD、MobileNetV2-SSD Lite、Tiny-YOLO、D-YOLO、Pelee，也有基于两阶段的轻量级目标检测网络，例如，Light-Head R-CNN。但是，现有的基于一阶段的轻量级目标检测网络和基于两阶段的轻量级目标检测网络都很难在准确度和模型的复杂度上取得很好的平衡。

基于上述问题，本申请提供了一种轻量化的目标检测方法，该目标检测方法为基于两阶段的轻量级目标检测方法，包括特征提取阶段和检测阶段，在特征提取阶段，采用跨通道分支策略在已有的轻量化分类网络的结构中增加跨通道分支，将多个分支的特征图进行拼接后作为后续特征提取的基础，从而通过多个通道分支之间的信息交互扩大接收范围并保留更多低级功能，在保证检测速度的同时提升了目标检测的准确率。具体地，本申请先获取待检测目标的图像，将待检测目标的图像通过第一卷积层进行降维，获得降维后的图像，将降维后的图像分别通过第二卷积层压缩成具有相同通道数的多个第一分支，分别提取多个第一分支的第一特征图并将多个第一分支的第一特征图进行拼接，获得第一拼接特征图，其中，多个第一分支的第一特征图在深度上依次递增，然后将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图，将采样后的特征图通过多个block模块进行特征提取，获得图像的特征图，最后根据图像的特征图进行检测，获得待检测目标的检测结果。

下面以轻量化分类网络ShuffleNetV2作为本申请的轻量化分类网络为例来对本申请的目标检测方法进行详细的描述，需要说明的是，将轻量化分类网络ShuffleNetV2作为本申请的轻量化分类网络仅仅是作为示例并不用于对本申请的目标检测方法进行限定，本申请的轻量化分类网络也可以采用其他轻量化分类网络，例如，Tiny-Darknet、MoblieNetV2、PeleeNet等。

参照图1，本实施例提供的轻量化的目标检测方法包括以下步骤：

S1、获取待检测目标的图像；

S2、将图像通过第一卷积层进行降维，获得降维后的图像；

S3、将降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支，其中，多个第一分支具有相同的通道数；

S4、分别提取多个第一分支的第一特征图并将多个第一分支的第一特征图进行拼接，获得第一拼接特征图，其中，多个第一分支的第一特征图在深度上依次递增；

S5、将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图；

S6、将采样后的特征图通过多个block模块进行特征提取，获得图像的特征图；

S7、根据图像的特征图进行检测，获得待检测目标的检测结果。

本实施例中的目标检测方法的特征提取网络是在轻量化分类网络ShuffleNetV2的基础上进行的改进，特征提取网络的具体结构如下表所示，其包括依次级联的第一卷积层(Convolution)、跨通道分支特征提取模块、第一池化层(MaxPooling)、多个block模块(ShuffleV2 block)，第一卷积层(Convolution)和第一池化层(MaxPooling)为stem阶段，多个block模块为stage2、stage3、stage4阶段，具体的，特征提取网络包括16个block模块，其中，stage2阶段包括一个步长为2的block模块和3个步长为1的block模块，stage3阶段包括一个步长为2的block模块和7个步长为1的block模块，stage4阶段包括一个步长为2的block模块和3个步长为1的block模块。

表一特征提取网络的结构

本实施例中的目标检测方法采用跨通道分支策略，在ShuffleNet V2网络的stem阶段增加了跨通道分支特征提取模块，将多个分支的特征图进行拼接后作为后续stage 2、stage 3、stage 4阶段特征提取的基础，从而通过多个通道分支之间的信息交互扩大接收范围并保留更多低级功能，在保证检测速度的同时提升了目标检测的准确率。

具体地，将步骤S1中获取的待检测目标的图像输入至第一卷积层(Convolution)中，第一卷积层(Convolution)的卷积核大小为3╳3，步长为2，通过第一卷积层(Convolution)对图像进行降维，获得降维后的图像。

参照图2，本实施例中的跨通道分支特征提取模块包括多个分支模块和拼接层(Concat)，多个分支模块用于将降维后的图像压缩成具有相同通道数的多个第一分支并提取多个第一分支的第一特征图，多个第一分支的第一特征图在深度上依次递增。每一个分支模块包括卷积核大小为1╳1的第二卷积层(1╳1Conv)，多个分支模块分别通过第二卷积层(1╳1 Conv)将降维后的图像压缩成具有相同通道数的多个第一分支。第一个分支模块只包括第二卷积层(1╳1 Conv)，从第二个分支模块开始，每一个分支模块包括卷积核大小为3╳3的卷积层(3╳3 Conv)且卷积层(3╳3 Conv)的个数依次增加，以提取多个第一分支在深度上依次递增的第一特征图，最后通过拼接层(Concat)将多个第一分支的第一特征图进行拼接，获得第一拼接特征图。图2示出了特征提取模块包括4个分支模块的情况，4个分支模块中的第一分支分别为a1～a4，当然，这里仅仅是为了作为示例示出，不用作限定，分支模块的数量可以根据实际需要进行设定。

较佳地，本实施例中的第一个分支模块在第二卷积层(1╳1 Conv)的前面增加了一个第二池化层(Pool)，通过第二池化层(Pool)先对降维后的图像进行池化处理，以增大第一个分支模块的感受野，保留主要的特征的同时减少参数。此外，在第一个分支模块包括第二池化层(Pool)的基础上，为了保留更多原始图像的信息，跨通道分支特征提取模块在第一个分支模块的前面增加了只包括第二卷积层(1╳1 Conv)的分支模块a0，该分支模块通过第二卷积层(1╳1 Conv)对降维后的图像进行通道压缩后直接输出至拼接层(Concat)。

参照图3，由于随着网络深度的增加，模型会产生退化现象，为了解决这个问题，本实施例中的跨通道分支特征提取模块中增加了残差连接，即将上一分支的输出作为下一分支的残差部分并与下一分支同样深度的特征进行融合后再进行特征提取，图3示出了在图2中的跨通道分支特征提取模块的结构的基础上增加了残差连接的跨通道分支特征提取模块的结构，具体地，步骤S4包括：

S41、将上一个第一分支的输出作为下一个第一分支的残差部分并将下一个第一分支与残差部分的深度相同的特征和残差部分进行融合，获得该第一分支融合后的跨分支特征图；

S42、将该第一分支融合后的跨分支特征图通过第三卷积层进行特征提取，分别获得多个第一分支的第一特征图；

S43、将多个第一分支的第一特征图进行拼接并与降维后的图像进行融合，获得第一拼接特征图。

以特征提取模块包括4个分支模块的情况，4个分支模块中的第一分支分别为a1～a4为例，将上一个第一分支的输出作为下一个第一分支的残差部分并将下一个第一分支与残差部分的深度相同的特征和残差部分进行融合具体为，将第一个分支模块的输出与第二个分支模块经过第二卷积层(1╳1 Conv)得到的特征图进行融合，得到第二个分支模块的融合后的跨分支特征图，然后再将第二个分支模块的融合后的跨分支特征图通过第三卷积层进行特征提取，获得第二个分支模块的第一特征图；将第二个分支模块的输出与第三个分支模块经过第二卷积层(1╳1 Conv)、卷积层(3╳3 Conv)后得到的特征图进行融合，得到第三个分支模块的融合后的跨分支特征图，再将第三个分支模块的融合后的跨分支特征图通过第三卷积层进行特征提取，获得第三个分支模块的第一特征图；将第三个分支模块的输出与第四个分支模块经过第二卷积层(1╳1 Conv)、两个卷积层(3╳3 Conv)后得到的特征图进行融合，得到第四个分支模块的融合后的跨分支特征图，再将第四个分支模块的融合后的跨分支特征图通过第三卷积层进行特征提取，获得第四个分支模块的第一特征图，其中，4个分支模块的输出γ_i表示如下：

其中，α表示通过第二卷积层(1╳1 Conv)对降维后的图像进行卷积操作，S表示通过卷积层(3╳3 Conv)进行卷积操作，i∈{1,2,......,k}，k为分支模块的数目，这里需要说明的是，α₁是先通过第二池化层(Pool)对降维后的图像进行最大池化后再通过第二卷积层(1╳1 Conv)进行卷积操作。

在获得4个分支模块的输出γ_i后，将4个分支模块的输出及分支模块a0的输出输入至拼接层(Concat)进行拼接并与降维后的图像进行融合，获得第一拼接特征图。这里需要说明的是，第三卷积层指的是每个分支模块中与拼接层(Concat)连接的卷积层(3╳3Conv)，对于分支模块的数量大于4的情况与上述原理相同，这里不再赘述。

本实施例中的跨通道分支特征提取模块通过增加残差连接，可以对原始输入特征进行补充，从而防止模型退化。

在步骤S5中，将第一拼接特征图输入至第一池化层(MaxPooling)中进行下采样，获得采样后的特征图，第一池化层(MaxPooling)的卷积核大小为3╳3，步长为2，第一池化层(MaxPooling)采用最大池化法进行池化，通过下采样可以进一步降低数据计算量。

为了进一步扩大网络的接收范围并保留更多细节，在本实施例的另一实施方式中，在ShuffleNetV2网络的第一池化层(MaxPooling)后面也增加了跨通道分支特征提取模块，此时，本实施例的另一实施方式中的特征提取网络的结构如下表所示：

表二特征提取网络的另一种结构

本实施例的另一实施方式中的目标检测方法在步骤S6之前还包括：

S600、将采样后的特征图分别通过第二卷积层(1╳1 Conv)进行压缩，获得多个第二分支，其中，多个第二分支具有相同的通道数；

S601、分别提取多个第二分支的第二特征图并将多个第二分支的第二特征图进行拼接，获得第二拼接特征图，多个第二分支的第二特征图在深度上依次递增。

具体地，将采样后的特征图再次输入至跨通道分支特征提取模块，多个分支模块用于将采样后的特征图压缩成具有相同通道数的多个第二分支并提取多个第二分支的第二特征图，多个第二分支的第二特征图在深度上依次递增。通过第二卷积层(1╳1 Conv)将采样后的特征图压缩成具有相同通道数的多个第二分支，再通过卷积层(3╳3 Conv)来提取多个第二分支在深度上依次递增的第二特征图，最后通过拼接层(Concat)将多个第二分支的第二特征图进行拼接，获得第二拼接特征图。第二拼接特征图的获取过程与第一拼接特征图的获取过程相同，这里不再赘述。

同样的，为了解决模型退化的问题，在第一池化层(MaxPooling)后面的跨通道分支特征提取模块中也增加了残差连接，即将上一分支的输出作为下一分支的残差部分并与下一分支同样深度的特征进行融合后再进行特征提取，具体结构参见图3所示，则步骤S601包括：

S6011、将上一个第二分支的输出作为下一个第二分支的残差部分并将下一个第二分支与残差部分的深度相同的特征和残差部分进行融合，获得该第二分支融合后的跨分支特征图；

S6012、将该第二分支融合后的跨分支特征图通过第三卷积层进行特征提取，分别获得多个第二分支的第二特征图；

S6013、将多个第二分支的第二特征图进行拼接并与降维后的图像进行融合，获得第二拼接特征图。

跨通道分支特征提取模块加入残差连接后获取第二拼接特征图的过程与跨通道分支特征提取模块加入残差结构后获取第一拼接特征图的过程相同，这里也不再赘述。

在步骤S6中，将采样后的特征图通过多个block模块进行特征提取，获得图像的特征图，具体为，将第二拼接特征图通过多个block模块进行特征提取，获得图像的特征图。

由于轻量级网络提取特征的能力较弱，无法保留大量通道特征，较佳地，本实施例的目标检测方法在ShuffleNet V2网络的基础上还增加了多尺度特征融合模块，通过多尺度特征融合模块对ShuffleNet V2网络的stage3、stage4阶段输出的特征进行融合，从而将低分辨率信息与高分辨率信息相结合，能够有效补充多尺度特征图之间的全局上下文信息。

参照图4，下面具体描述将多尺度特征融合模块应用到本实施例的目标检测方法中的过程，步骤S6包括：

S61、将采样后的特征图通过多个block模块依次获得第一尺度特征图、第二尺度特征图、第三尺度特征图；

S62、对第三尺度特征图进行下采样，获得第四尺度特征图；

S63、分别对第三尺度特征图、第四尺度特征图进行上采样，获得第一上采样特征图、第二上采样特征图；

S64、将第二尺度特征图、第一上采样特征图、第二上采样特征图进行融合，获得图像的特征图F_mfm。

本实施例中的第一尺度特征图为stage2阶段的输出，具体为，将第二拼接特征图依次通过一个步长为2的block模块和3个步长为1的block模块后获得的特征图即为第一尺度特征图；第二尺度特征图为stage3阶段的输出，具体为，将第一尺度特征图依次通过一个步长为2的block模块和7个步长为1的block模块后获得的特征图即为第二尺度特征图；第三尺度特征图为stage4阶段的输出，具体为，将第二尺度特征图依次通过一个步长为2的block模块和3个步长为1的block模块后获得的特征图即为第三尺度特征图。

当检测结果为分类时，高分辨率信息相对于低分辨率信息对分类影响更大，因此，为了能够保留更多的高分辨率信息，在步骤S62中，对第三尺度特征图进行下采样获得的第四尺度特征图具有更多的高分辨率信息。较佳地，为了进一步减少数据计算量，本实施例采用深度可分离卷积(3╳3 DW Conv)对第三尺度特征图进行下采样，卷积核大小为3╳3。

为了保证数据维度一致，在步骤S63中，需要对第三尺度特征图、第四尺度特征图进行上采样，以使得获得的第一上采样特征图、第二上采样特征图的数据维度与第二尺度特征图的数据维度一致。较佳地，本实施例采用双线性插值的方法对第三尺度特征图、第四尺度特征图进行上采样，上采样通过卷积核大小为1╳1的卷积层(1╳1 Conv)来实现。

较佳地，为了进一步保证数据维度一致性，在步骤S63中，需要对第二尺度特征图进行维度调整，获得升维的特征图，维度调整通过卷积核大小为1╳1的卷积层(1╳1 Conv)实现，从而保证升维的特征图的数据维度与第一上采样特征图、第二上采样特征图的数据维度一致。对应的，步骤S64中，将第二尺度特征图、第一上采样特征图、第二上采样特征图进行融合具体为将升维的特征图、第一上采样特征图、第二上采样特征图进行融合，获得图像的特征图F_mfm。

由于低分辨率信息即浅层特征信息对检测结果为分类时的作用比较小，且低分辨率信息数据量较大，会大大增加计算量，因此，综合考虑计算量和对检测结果的影响，本实施例在步骤S64中，低分辨率信息只选择了第二尺度特征图以及第一上采样特征图，高分辨率信息选择第二上采样特征图，将第二尺度特征图、第一上采样特征图、第二上采样特征图进行融合后获得图像的特征图，从而实现低分辨率信息与高分辨率信息的结合，有效补充了多尺度特征图之间的全局上下文信息，避免信息丢失。这里需要说明的是，本实施例中只选择了三个不同层次的特征信息进行了融合，且高分辨率信息只选择了第二上采样特征图，在实际应用过程中，可以根据计算量或者对检测结果的影响，继续对第四尺度特征图进行下采样，获得更多高分辨率信息，并选择更多层次的特征信息进行融合。

参照图5，本实施例中的目标检测方法中的检测网络是在已有的轻量化检测网络的基础上进行的改进，具体为，在已有的Light-Head R-CNN网络的基础上进行的改进。其中，Light-Head R-CNN网络包括RPN、PSROI(position sensitive ROI pooling)层、全连接层，本实施例中的检测网络在Light-Head R-CNN网络的基础上增加了通道自注意力网络。

具体地，RPN包括依次级联的第四卷积层(DW Conv)、第五卷积层(1╳1 Conv)、候选区域提取模块(ROIs)。这里需要说明的是，以Light-Head R-CNN网络作为示例并不用作限定，也可以在其他轻量化检测网络的基础上增加通道自注意力网络作为本实施例中的检测网络。

具体地，步骤S7包括：

S71、将图像的特征图通过RPN网络，获得图像在RPN网络中的特征图和包含待检测目标的候选框；

S72、根据图像在RPN网络中的特征图生成通道注意力特征图；

S73、将通道注意力特征图与图像的特征图进行融合，获得融合后的特征图；

S74、根据候选框和融合后的特征图获得待检测目标的特征图；

S75、根据待检测目标的特征图获得待检测目标的检测结果。

在步骤S71中，将图像的特征图依次通过第四卷积层(DW Conv)、第五卷积层(1╳1Conv)后获得图像在RPN网络中的特征图，第五卷积层(1╳1 Conv)的卷积核的大小为1╳1，较佳地，为了进一步减少数据计算量，本实施例采用深度可分离卷积通过第四卷积层(DWConv)对图像的特征图进行卷积。将图像在RPN网络中的特征图通过候选区域提取模块(ROIs)获得包含待检测目标的候选框。

为了解决轻量化网络特征提取能力较弱的问题以及目标检测区域周围空间信息丢失的问题，本实施例在已有的Light-Head R-CNN网络的基础上增加了通道自注意力网络，通过通道自注意力网络对输入至PSROI(position sensitive ROI pooling)层的特征图的特征分布进行优化，从而使得输出的特征图更加关注与检测相关的区域，提升检测结果的准确性。

具体地，步骤S72包括：

S721、将图像在RPN网络中的特征图分割为第一子特征图和第二子特征图，其中，第一子特征图和第二子特征图的通道数相等；

S722、根据第一子特征图获得通道注意力权重；

S723、将通道注意力权重与第二子特征图相乘获得通道注意力特征图。

参照图6，本实施例中的通道自注意力网络包括第一分割模块、通道注意力权重获取模块。第一分割模块用于将图像在RPN网络中的特征图F_rpn分割为第一子特征图F₁和第二子特征图F₂，其中，第一子特征图F₁和第二子特征图F₂的通道数相等，这里所说的分割是直接对通道进行均分，例如，图像在RPN网络中的特征图的通道数为8个，则将第1～4个通道对应的数据作为第一子特征图F₁，将第5～8个通道对应的数据作为第二子特征图F₂。

将第一子特征图F₁输入至通道注意力权重获取模块中，通过通道注意力权重获取模块获得通道注意力权重K，其中，通道注意力权重获取模块包括第二分割模块、分组卷积层(Group Conv)、深度可分离卷积层(DW Conv)、softmax层、第三池化层(Avg pool)、第六卷积层(1╳1 Conv)。

第二分割模块用于将第一子特征图F₁分割为第三子特征图F₃和第四子特征图F₄，其中，第三子特征图F₃和第四子特征图F₄的通道数相等，这里所说的分割是直接对通道进行均分，继续以图像在RPN网络中的特征图的通道数为8个作为示例，经过第一分割模块分割后，第一子特征图F₁的通道数为4个，则将第1～2个通道对应的数据作为第三子特征图F₃，将第3～4个通道对应的数据作为第四子特征图F₄。

将第三子特征图F₃、第四子特征图F₄分别输入至分组卷积层(Group Conv)、深度可分离卷积层(DW Conv)进行卷积处理，将分组卷积层(Group Conv)、深度可分离卷积层(DWConv)的输出进行融合后依次通过softmax层、第三池化层(Avg pool)、第六卷积层(1╳1Conv)进行处理，获得通道注意力权重K，其中，第三池化层(Avg pool)采用均值池化的方法进行池化，第六卷积层(1╳1 Conv)用于进行升维处理，以使得通道注意力权重K的维度与第二子特征图F₂的维度一致。

在获得通道注意力权重K后，将通道注意力权重K与第二子特征图F₂相乘，获得通道注意力特征图。

在步骤S73中，通过通道自注意力网络最后将通道注意力特征图与图像的特征图进行融合，获得融合后的特征图。本实施例中的通道自注意力网络将通道分离与自注意力机制进行结合，通过通道分离使得各个通道之间的信息可以互相交互，显著降低了网络结构的复杂性，从而大大减少参数的数量，通过自注意力机制可以抑制背景特征并突出前景特征。此外，通过将通道注意力特征图与图像的特征图，扩展了每个空间位置的视野，丰富输出功能。

本实施例在步骤S74～S75中通过PSROI(position sensitive ROI pooling)层将候选框映射到融合后的特征图上，根据候选框从融合后的特征图上提取待检测目标的特征图，将待检测目标的特征图通过全连接层获得待检测目标的检测结果，其中，通过全连接层获得类别概率并根据类别概率进行分类即检测结果为分类，通过全连接层获得位置偏移信息并根据位置偏移信息来获得目标所在的位置即检测结果为回归。

本实施例中的目标检测方法主要应用于移动终端设备，在将该目标检测算法部署到移动终端设备之前，需要先利用训练数据在服务器上对根据本实施例的目标检测方法构建的网络模型进行训练，训练完成后再利用评估数据对网络模型进行评估，以获得性能最好的网络模型，最后再将具有最好性能的网络模型通过onnx工具部署至移动终端来实现所述目标检测算法，对真实数据进行检测并对检测结果进行可视化。

将本实施例中的目标检测方法在公共数据集PASCAL VOC上进行验证，实验结果表明，本实施例中的目标检测方法仅仅需要528 MFLOPs便可获得70.6mAP的准确度，在准确度和模型的复杂度上取得了很好的平衡。

下面具体对将本实施例中的目标检测方法在公共数据集PASCAL VOC上的验证结构进行详细的描述。

将图像缩放为320×320作为输入，并在24GB RAM的NVIDIA TITAN RTX上训练根据本实施例的目标检测方法构建的网络模型。在训练阶段，我们采用了随机梯度优化器，学习率为0.0001，权重衰减为0.001。将所有数据集随机分为训练集(60％)、验证集(20％)、测试集(20％)，以便训练阶段、验证阶段及测试阶段的数据都具有相似的分布。这里定义百万个浮点运算(MFLOP)用于衡量轻量级网络模型的复杂性和效率，模型的性能可通过平均精度(mAP)进行评估。在训练参数一致的前提下用不同方法对PASCAL VOC数据检测，不同方法对应的MFLOP和mAP结果如表三所示。

表三不同方法在PASCAL VOC数据集上的结果对比

与大多数基于大型目标检测器的最新模型(例如YOLOv2、SSD300、SSD321、R-FCN)相比，本实施例中的目标检测方法(表2中our model)在模型复杂性方面具有较强的优势。因此，本实施例中的目标检测方法更符合移动终端设备的需求。

将本实施例中的目标检测方法与现有的轻量级检测算法进行比较可以看出，本实施例中的目标检测方法(表2中our model)比Tiny-YOLO、D-YOLO、MobileNet-SSD的MFLOPs小很多，且准确度比Tiny-YOLO、D-YOLO、MobileNet-SSD高。与Pelee相比，本实施例中的目标检测方法(表2中our model)可以产生相似的精度，而模型复杂度只有一半。可见，本实施例中的目标检测方法能够在准确度和模型的复杂度上取得很好的平衡。

参照图7，本实施例还提供了与上述目标检测方法对应的目标检测装置，该目标检测装置包括获取模块1、降维模块2、压缩模块3、拼接模块4、采样模块5、特征提取模块6、检测模块7。

具体地，获取模块1用于获取待检测目标的图像，降维模块2用于将图像通过第一卷积层进行降维，获得降维后的图像，压缩模块3用于将降维后的图像分别通过多个第二卷积层进行压缩，获得多个第一分支，其中，多个第一分支具有相同的通道数，拼接模块4用于分别提取多个第一分支的第一特征图并将多个第一分支的第一特征图进行拼接，获得第一拼接特征图，其中，多个第一分支的第一特征图在深度上依次递增，采样模块5用于将第一拼接特征图通过第一池化层进行下采样，获得采样后的特征图，特征提取模块6用于将采样后的特征图通过多个block模块进行特征提取，获得图像的特征图，检测模块7用于根据图像的特征图进行检测，获得待检测目标的检测结果。

本实施例中的拼接模块4还用于将上一个第一分支的输出作为下一个第一分支的残差部分并将下一个第一分支与残差部分的深度相同的特征和残差部分进行融合，获得该第一分支融合后的跨分支特征图，以及将该第一分支融合后的跨分支特征图通过第三卷积层进行特征提取，分别获得多个第一分支的第一特征图，以及将多个第一分支的第一特征图进行拼接并与降维后的图像进行融合，获得第一拼接特征图。

压缩模块3还用于将采样后的特征图分别通过多个第二卷积层进行压缩，获得多个第二分支，其中，多个第二分支具有相同的通道数，拼接模块4还用于分别提取多个第二分支的第二特征图并将多个第二分支的第二特征图进行拼接，获得第二拼接特征图，其中，多个第二分支的第二特征图在深度上依次递增。

本实施例中的拼接模块4还用于将上一个第二分支的输出作为下一个第二分支的残差部分并将下一个第二分支与残差部分的深度相同的特征和残差部分进行融合，获得多个第二分支融合后的跨分支特征图，以及将多个第二分支融合后的跨分支特征图通过第三卷积层进行特征提取，分别获得多个第二分支的第二特征图，以及将多个第二分支的第二特征图进行拼接并与采样后的特征图进行融合，获得第二拼接特征图。

特征提取模块6还用于将第二拼接特征图通过多个block模块进行特征提取，获得图像的特征图。具体地，特征提取模块6用于将采样后的特征图/第二拼接特征图通过多个block模块依次获得第一尺度特征图、第二尺度特征图、第三尺度特征图，以及对第三尺度特征图进行下采样，获得第四尺度特征图，以及分别对第三尺度特征图、第四尺度特征图进行上采样，获得第一上采样特征图、第二上采样特征图，以及将第二尺度特征图、第一上采样特征图、第二上采样特征图进行融合，获得图像的特征图。

本实施例中的检测模块7具体用于将图像的特征图通过RPN网络，获得图像在RPN网络中的特征图和包含待检测目标的候选框，以及根据图像在RPN网络中的特征图生成通道注意力特征图，以及将通道注意力特征图与图像的特征图进行融合，获得融合后的特征图，以及根据候选框和融合后的特征图获得待检测目标的特征图，以及根据待检测目标的特征图获得所述待检测目标的检测结果。

检测模块7还用于将图像在RPN网络中的特征图分割为第一子特征图和第二子特征图，其中，第一子特征图和所述第二子特征图的通道数相等，以及根据第一子特征图获得通道注意力权重，以及将通道注意力权重与第二子特征图相乘获得通道注意力特征图。

参照图8，本实施例提供了一种设备，包括存储器100、处理器200、网络接口202，存储器100上存储有计算机程序，处理器200执行计算机程序以实现本实施例中的目标检测方法。

存储器100可以包括高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器200可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本实施例中的目标检测方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。处理器200也可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等，还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器100用于存储计算机程序，处理器200在接收到执行指令后，执行该计算机程序以实现本实施例中的目标检测方法。

本实施例还提供了一种计算机存储介质，计算机存储介质中存储有计算机程序，处理器200用于读取并执行计算机存储介质201中存储的计算机程序，以实现本实施例中的目标检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机存储介质中，或者从一个计算机存储介质向另一个计算机存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solidstate disk，SSD))等。

本发明实施例是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种轻量化的目标检测方法，其特征在于，所述目标检测方法包括：

获取待检测目标的图像；

将所述图像通过第一卷积层进行降维，获得降维后的图像；

2.根据权利要求1所述的目标检测方法，其特征在于，在将所述采样后的特征图通过多个block模块进行特征提取，获得所述图像的特征图之前，所述目标检测方法还包括：

3.根据权利要求2所述的目标检测方法，其特征在于，对于深度最小的第一分支/第二分支，将所述降维后的图像/采样后的特征图通过第二卷积层进行压缩，包括：

4.根据权利要求3所述的目标检测方法，其特征在于，分别提取所述多个第一分支的第一特征图/第二分支的第二特征图并将所述多个第一分支的第一特征图/第二分支的第二特征图进行拼接，获得第一拼接特征图/第二拼接特征图，包括：

5.根据权利要求1或2所述的目标检测方法，其特征在于，将所述采样后的特征图/第二拼接特征图通过多个block模块进行特征提取，获得所述图像的特征图，包括：

对所述第三尺度特征图进行下采样，获得第四尺度特征图；

6.根据权利要求5所述的目标检测方法，其特征在于，根据所述图像的特征图进行检测，获得所述待检测目标的检测结果，包括：

根据所述图像在RPN网络中的特征图生成通道注意力特征图；

7.根据权利要求6所述的目标检测方法，其特征在于，根据所述图像在RPN网络中的特征图生成通道注意力特征图，包括：

根据所述第一子特征图获得通道注意力权重；

8.一种轻量化的目标检测装置，其特征在于，所述目标检测装置包括：

获取模块，用于获取待检测目标的图像；

9.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1～7任一项所述的目标检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1～7任一项所述的目标检测方法。