CN112232232A

CN112232232A - 一种目标检测方法

Info

Publication number: CN112232232A
Application number: CN202011124770.9A
Authority: CN
Inventors: 郁强; 张香伟; 毛云青
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-15
Anticipated expiration: 2040-10-20
Also published as: CN112232232B

Abstract

本申请涉及一种目标检测方法，其中方法包括获取图像；将图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到图像的浅层特征图、中层特征图及深层特征图；将浅层特征图、中层特征图及深层特征图输入到预测网络中进行融合，得到图像中待测目标的位置、待测目标包围框的大小以及置信度。通过本发明，可以在特征提取部分加深网络和加宽网络，完成特征的初步提取之后，把相邻的多个尺度的特征进行融合，使倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，不仅获得了较多的语义信息，还包含了更多的细节信息，提高了模型的特征提取精度。

Description

一种目标检测方法

技术领域

本申请涉及目标检测领域，特别是涉及一种目标检测方法。

背景技术

图像目标检测算法是深度学习的一个重要研究方向，在深度学习之前，传统的目标检测主要利用手动标注的特征，通过选择性搜索生成候选框，随后进行分类和回归。此类算法包括Viola-Jones的人脸检测算法、支持向量机(SVM)以及HOG(Histograms ofOriented Gradients)的扩展DPM(Deformable Parts Model)算法等等。

基于深度学习的静态图像目标检测算法主要是从R-CNN检测器发展而来的，该检测器从无监督算法生成的目标候选框发展而来，并使用卷积神经网络对其进行分类。该模型是尺度不变的，但是R-CNN的训练和推理的计算成本与候选框数量成线性关系。为了缓解这一计算瓶颈，Faster-RCNN开始提出设置锚框，这样网络对于学习的对象更加具有针对性，采用RPN(区域候选网络)网络来提取候选框，在COCO数据集是mAP达到了27.2％。之后在单阶段目标检测中，以yolo和SSD算法为代表的目标检测方法通过采用特征金字塔网络结构，利用浅层特征预测小目标，深层特征预测大目标，其中Joseph Redmon的YOLOv3将mAP达到了33％，Zhang的RefineDet更是达到了41.8％。在视频目标检测领域，Dai等人深度特征流在非关键视频帧上使用FlowNet网络估计光流，通过关键帧提取的特征做双线性变形的形式得到非关键帧的特征图。Wang等人引入了一个时域卷积神经网络对每一个管道进行重新打分，这样通过时间域的信息来重新评估每个候选框的置信度。zhu等人的THP-VID提出稀疏递归特征聚合、时间自适应的关键帧选取方法在ImageNet VID视频检测数据集上达到78.6％mAP。上述两阶段检测算法还有特征网络更好的HyperNet、MSCNN、PVANet和Light-Head R-CNN，RPN网络更精准的MR-CNN、FPN和CRAFT，ROI分类更完善的R-FCN、CoupleNet、Mask R-CNN和Cascade R-CNN，样本后处理的OHEM、Soft-NMS和A-Fast-RCNN，mini-Batch更大的神经网络MegDet。

进入2019年Anchor Free方法颇有点井喷的感觉，Anchor的本质是候选框，其主要的思路大都起源于2015年的DensBox和2016年的UnitBox。其中分为基于关键点的CornerNet、CenterNet、ExtremeNet，和密集预测的FSAF、FCOS、FoveaBox，这些算法在目标检测方向都有不错表现。

进入2020年神经网络架构搜索已经成为最近深度学习算法的热点。基于强化学习的神经架构搜索利用循环神经网络生成神经网络的模型描述，提出的神经架构搜索是基于梯度的。对于可伸缩图像识别领域的可转移架构学习，在文中首先在一个小数据集上搜索结构上组成一个模块，然后将模块再转移到一个大数据集上。高效结构搜索的层次化表示，提出了一种可扩展的进化搜索方法变体，一种描述神经网络结构的层次化表示方法。PNASNet该方法采用基于序列模型的优化策略学习卷积神经网络的结构。Auto-Keras使用贝叶斯优化引导网络形变，以提升NAS的效率。NASBOT提出了一种基于高斯过程的神经结构搜索框架。DARTS以可微的方式构造任务，解决了结构搜索的可伸缩性问题。

许多研究人员在目标检测领域取得了一定的进展，但是，在实际设计和使用中仍面临许多问题，主要体现在以下两个方面：

(1)视频目标检测在实际应用中检测效果不太明显，实际应用中如何提升视频目标检测精度仍是一个问题；具体而言，目前视频目标检测对小目标的提取特征能力不强，对于景区中车流量和人流量问题，当通过监控场景进行检测时，视频中的目标会随着网络加深语义信息逐渐丰富，但目标分辨率越来越模糊，使其目标检测精度不高，目前视频目标检测精度存在问题，导致景区中的车和人无法被高效地提取出来。

(2)小目标和遮挡目标检测的效果仍需要提升，特别是针对监控视频状态下小目标和遮挡目标的问题仍然是较大的挑战；目前目标检测算法中通过构造特征金字塔的方式设置多层检测器，如何进一步的提升检测效果，就需要进一步的优化特征金字塔模块。

目前针对目标检测技术存在的上述问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种目标检测方法，以至少解决相关技术中目标检测精度低、小目标和遮挡目标检测的效果不好的问题。

第一方面，本申请实施例提供了一种目标检测方法，所述方法包括：获取图像；将所述图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述图像的浅层特征图、中层特征图及深层特征图；其中，每个所述残差模块包括至少一个残差块，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图；将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度。

在其中一些实施例中，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：将所述图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；将所述特征图分别输入到通道注意力模块和特征图注意力模块；在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积；在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；将所述通道注意力模块和所述特征图注意力模块的得到的结果进行元素级相加操作，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在其中一些实施例中，将所述图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图包括：将所述图像进行1*1卷积升维，得到1*1卷积升维后的特征图；对所述1*1卷积升维后的特征图进行均等划分，经过混合深度可分离卷积进行特征提取；其中，所述混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；对所述混合深度可分离卷积的输出结果进行1*1的卷积操作、批量归一化操作和H-Swish的激活函数操作，输出特征图。

在其中一些实施例中，在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积包括：在所述通道注意力模块对所述特征图进行全局平均池化操作；重塑所述特征图，重塑后的特征图用1*1卷积升维；对升维后特征图用1*1卷积压缩其特征通道数；对所述特征通道数进行通道数扩张，得到输出项；其中，所述输出项为一维特征向量；将所述一维特征向量与所述特征图相乘，用1*1卷积进行特征融合。

在其中一些实施例中，在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积包括：将所述特征图分为四组，经过混合深度可分离卷积进行特征提取；其中，所述混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；对所述混合深度可分离卷积的输出结果进行1*1的卷积操作，得到分离的四组卷积；对所述分离的四组卷积进行元素级相加、全局平均池化、分离出四组全连接层和获取对应的四组Softmax的值的操作，将所述获取的四组Softmax的值分别和对应的特征进行元素级相乘，将元素级相乘得到的四组特征进行元素级相加，将所述元素级相加得到的结果用1*1卷积进行特征融合。

在其中一些实施例中，将所述图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述图像的浅层特征图、中层特征图及深层特征图；包括：将所述图像输入到特征提取网络中；其中，所述图像为三通道图；将所述三通道图经过3*3卷积后输入到残差网络中，其中，所述残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，所述第一残差模块、所述第二残差模块、所述第三残差模块、所述第四残差模块、所述第五残差模块、所述第六残差模块以及所述第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；在所述第四残差模块得到浅层特征图，在所述第五残差模块得到中层特征图，在所述第六残差模块得到深层特征图。

在其中一些实施例中，所述预测网络为交叉双向特征金字塔模块。

在其中一些实施例中，将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度包括：在所述第三残差模块和所述第七残差模块的输出层设置三个融合单元进行相邻两层或三层特征融合；在所述第四残差模块、所述第五残差模块和所述第六残差模块设置七个融合单元且每层的分辨率相等，在所述第四残差模块、所述第五残差模块和所述第六残差模块的倒数第二个融合单元将特征图融合到一起，所述融合单元的融合方法为上采样或者下采样；在所述第四残差模块、所述第五残差模块、所述第六残差模块的所述融合单元后面分别接一个头部预测模块，通过所述头部预测模块得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度。

第二方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种目标检测方法。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种目标检测方法。

相比于相关技术，本申请实施例提供的一种目标检测方法，目标检测精度低、小目标和遮挡目标检测的效果不好的问题。通过在特征提取网络中结合通道注意力机制和特征图注意力机制，设计新的残差结构，学习并利用通道之间的相关性，筛选出针对通道的注意力。卷积核注意力机制利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，结合两者的性质设计了一个更加鲁棒性的特征提取网络，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核(3*3、5*5、7*7和9*9)，这样不但浮点运算量上不会增加，而且还可以获得不同大小的感受野，此方法可以增强主干网路提取特征的能力。完成特征的初步提取之后，为了使提取的特征更加具有高语义信息，在预测网络中设计了一个交叉双向特征金字塔模块，在倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，深层特征包含较多的语义信息，还有足够大的感受野，浅层特征包含更多的细节信息，这样的融合方式更加接近全局特征和局部特征融合的目的，以生成更具区分性的特征。通过本发明，可以在特征提取部分加深网络和加宽网络，加深网络能对特征逐层的抽象，不断精炼提取知识，而加宽网络可以让每一层学习到更加丰富的特征，比如不同方向、不同频率的纹理特征，完成特征的初步提取之后，把相邻的多个尺度的特征进行融合，使倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，不仅获得了较多的语义信息，还包含了更多的细节信息，提高了模型的特征提取精度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种目标检测方法的流程图；

图2是根据本申请实施例的特征提取网络中的一个残差块的网络架构图；

图3是根据本申请实施例的预测网络中的交叉双向特征金字塔模块架构图；

图4是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

本实施例提供了一种目标检测方法，图1是根据本申请实施例的一种目标检测方法的流程图，如图1所示，该流程包括获取图像、初步提取特征、特征融合，具体而言，该方法包括：

步骤101，获取图像。

在本实施例中，可以通过监控视频采集图像，具体的，在监控视频中，找出L段含有待测目标的视频，Vi表示第i段视频，Vi共有Ni幅视频图像，从Ni幅视频图像中选取Mi幅视频图像作为训练与测试图像，则从L段视频可获得幅视频图像作为训练与测试图像。

在其中一些实施例中，从一段视频中的N视频图像中选取M幅视频图像作为训练与测试图像方法的数据增强。

在本实施例中，可以通过几何变换增强数据：将采集每类中的P张目标图像通过平移、旋转图像(45°，90°，180°，270°)、缩小图像(1/3,1/2)、Mosaic数据增强和剪切变换来增加数据；将数据增强后的图像的一部分作为训练数据，另一部分作为测试数据，并且训练数据和测试数据不交叉。

在其中一些实施例中，在训练前对数据进行手动标注。具体地，在Windows操作系统、linux操作系统或者MAC操作系统配置python和lxml环境之后，使用LabelImg标注工具得到待测目标的图像标签框，由标注人员对其进行边界框标注，将标注图像数据信息存为XML格式文件，生成的XML文件遵循PASCAL VOC的格式，根据训练模型框架的不同，可以把XML标注数据格式转化为和框架匹配的标签数据格式。

在步骤101当中，本发明的特征提取网络是通过标注数据训练得到的，具体为，通过监控视频采集图像，对选取的图像中作为训练与测试的数据进行数据增强，将数据增强后的图像的一部分作为训练数据，另一部分作为测试数据，并且训练数据和测试数据不交叉。对数据进行标注，得到待测目标的图像标签框。

步骤102，将图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到图像的浅层特征图、中层特征图及深层特征图；其中，每个残差模块包括至少一个残差块，在残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在本实施例中，将图像输入到特征提取网络中，根据输入到神经网络中视频图像分辨率实验测试网络的深度为D和宽度为W的一个具体值，特征提取网络的总体结构为：根据对网络深度、宽度和分辨率中的任何参数进行缩放都可以提高模型精度，随着网络深度加深(捕获到更丰富和更复杂的特征)、宽度增加(捕捉到更细粒度的特征从而易于训练)和输入网络的图像分辨率提高(捕捉到更细粒度的模式)，网络精度的回报会削弱；根据网络深度、宽度和分辨率这三个因素我们设计的特征提取网络倾向聚焦于更多细节相关领域。选定网络输入图像的分辨率为X*X，依据卷积运算的计算量，加倍网络深度会使浮点运算量加倍，而加倍网络宽度会使浮点运算量增加四倍，所以在确定输入图像分辨率后再选定网络深度D，最后在输入分辨率图像和网络深度均确定的情况下，选出特征提取网络的宽度W。

在其中一些实施例中，在残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：将图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；将特征图分别输入到通道注意力模块和特征图注意力模块；在通道注意力模块对特征图进行池化、重塑、升维、特征压缩操作，将输出项与通道注意力模块的输入项相乘并进行降维卷积；在特征图注意力模块对特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；将通道注意力模块和特征图注意力模块的得到的结果进行元素级相加操作，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在本实施例中，参考图2，特征提取网络由一个一个的残差块构成，本发明的残差块先经过1*1的卷积输出通道为C个，C个通道均匀的划分为4份，每一份特征通道数为C/4，每隔C/4个特征通道对应一个深度可分离卷积。即，3*3对应C/4个特征通道，5*5对应C/4个特征通道，7*7对应C/4个特征通道，9*9对应C/4个特征通道。混合深度可分离卷积从3*3作为起始第一个，以2i+1(1＝<i<＝4)的方式增加卷积核的大小并且本发明所用最大深度可分离卷为9*9，然后对混合深度可分离卷积的输出结果进行1*1的卷积操作、批量归一化操作和H-Swish的激活函数操作；对输出的C个通道特征分别对其进行通道注意力机制和特征图注意力机制，通过学习和利用图像各通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在其中一些实施例中，将图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到图像的浅层特征图、中层特征图及深层特征图；包括：将图像输入到特征提取网络中；其中，图像缩放为宽高一样的大小的三通道图；将三通道图经过3*3卷积后输入到残差网络中，其中，残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；在第四残差模块得到浅层特征图作为预测小目标的特征，在第五残差模块得到中层特征图作为预测中目标的特征，在第六残差模块得到深层特征图作为预测大目标的特征。

在其中一些实施例中，在通道注意力模块对特征图进行池化、重塑、升维、特征压缩操作，将输出项与通道注意力模块的输入项相乘并进行降维卷积包括：在通道注意力模块对特征图进行全局平均池化操作；重塑特征图，重塑后的特征图用1*1卷积升维；对升维后特征图用1*1卷积压缩其特征通道数；对特征通道数进行通道数扩张，得到输出项；其中，输出项为一维特征向量；将一维特征向量与特征图相乘，用1*1卷积进行特征融合。

在其中一些实施例中，在特征图注意力模块对特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积包括：将特征图分为四组，经过混合深度可分离卷积进行特征提取；其中，混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；对混合深度可分离卷积的输出结果进行1*1的卷积操作，得到分离的四组卷积；对分离的四组卷积进行元素级相加、全局平均池化、分离出四组全连接层和获取对应的四组Softmax的值的操作，将获取的四组Softmax的值分别和对应的特征进行元素级相乘，将元素级相乘得到的四组特征进行元素级相加，将元素级相加得到的结果用1*1卷积进行特征融合。

在步骤102当中，参考图2，此部分残差块中采用了特征图通道注意力机制和卷积核注意力机制的结合，学习并利用通道之间的相关性，筛选出了针对通道的注意力；卷积核注意力机制利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核，这样不但浮点运算量上减小，而且还可以获得不同大小的感受野，依此增强主干网路提取特征的能力。

步骤103，将浅层特征图、中层特征图及深层特征图输入到预测网络中进行融合，得到图像中待测目标的位置、待测目标包围框的大小以及置信度。

在其中一些实施例中，预测网络为交叉双向特征金字塔模块。

在其中一些实施例中，将浅层特征图、中层特征图及深层特征图输入到预测网络中进行融合，得到图像中待测目标的位置、待测目标包围框的大小以及置信度包括：在第三残差模块和第七残差模块的输出设置三个融合单元进行相邻两层或三层特征融合；在第四残差模块、第五残差模块和第六残差模块设置七个融合单元且每层的分辨率相等，在第四残差模块、第五残差模块和第六残差模块的倒数第二个融合单元将特征图融合到一起，融合单元的融合方法为上采样或者下采样；在第四残差模块、第五残差模块、第六残差模块的融合单元后面分别接一个头部预测模块，通过头部预测模块得到图像中待测目标的位置、待测目标包围框的大小以及置信度。

在本实施例中，预测网络是交叉双向特征金字塔，通过EfficientDet特征金字塔网络中加入交叉双向聚合尺度模块，把相邻的多个尺度的特征进行融合。参考图3，在倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，深层特征包含较多的语义信息，还有足够大的感受野，浅层特征包含更多的细节信息，这样的融合方式更加接近全局特征和局部特征融合的目的，以生成更具区分性的特征。

通过上述步骤101至步骤103，本发明提供了目标检测方法，可以根据输入的图像的分辨率在特征提取部分加深网络和加宽网络，加深网络能对特征逐层的抽象，不断精炼提取知识，而加宽网络可以让每一层学习到更加丰富的特征，比如不同方向、不同频率的纹理特征，完成特征的初步提取之后，把相邻的多个尺度的特征进行融合，使倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，不仅获得了较多的语义信息，还包含了更多的细节信息，提高了模型的特征提取精度。与现有技术相比，本发明在单个残差块内结合了特征图通道注意力机制和卷积核注意力机制，其中，特征图通道注意力机制包括通道注意力模块和特征图注意力模块，用来学习并利用通道之间的相关性，筛选出了针对通道的注意力，还结合了混合深度可分离卷，从输入的特征图利用不同大小的卷积核获得不同的感受野特征图；卷积核注意力机制利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核，这样不但浮点运算量上减小，而且还可以获得不同大小的感受野，依此增强主干网路提取特征的能力。在完成特征的初步提取之后，经过交叉双向特征金字塔进行特征融合，能够针对监控视频下小目标进行目标检测，使其不会随着网络加深淹没在上下文背景中，能提升目标检测精度。

本实施例还提供了一种电子装置，包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器302可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性(Non-Volatile)存储器。在特定实施例中，存储器304包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器304(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中，该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。例如，上述输入输出设备可以是显示屏、音箱、麦克、鼠标、键盘或其他设备。在本实施例中，输入的信息可以是图像、实时视频，输入的信息可以是分类结果、图像中待测目标的位置、待测目标包围框的大小以及置信度等等。

可选地，在本实施例中，上述处理器302可以被设置为通过计算机程序执行以下步骤：

S101、获取图像。

S102、将图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到图像的浅层特征图、中层特征图及深层特征图；其中，每个残差模块包括至少一个残差块，在残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

S103、将浅层特征图、中层特征图及深层特征图输入到预测网络中进行融合，得到图像中待测目标的位置、待测目标包围框的大小以及置信度。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的一种目标检测方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种目标检测方法。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取图像；

将所述图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述图像的浅层特征图、中层特征图及深层特征图；其中，每个所述残差模块包括至少一个残差块，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图；

将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度。

2.根据权利要求1所述的一种目标检测方法，其特征在于，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：

将所述图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；

将所述特征图分别输入到通道注意力模块和特征图注意力模块；

在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积；

在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；

将所述通道注意力模块和所述特征图注意力模块的得到的结果进行元素级相加操作，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

3.根据权利要求2所述的一种目标检测方法，其特征在于，将所述图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图包括：

将所述图像进行1*1卷积升维，得到1*1卷积升维后的特征图；

对所述1*1卷积升维后的特征图进行均等划分，经过混合深度可分离卷积进行特征提取；其中，所述混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；

对所述混合深度可分离卷积的输出结果进行1*1的卷积操作、批量归一化操作和H-Swish的激活函数操作，输出特征图。

4.根据权利要求2所述的一种目标检测方法，其特征在于，在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积包括：

在所述通道注意力模块对所述特征图进行全局平均池化操作；

重塑所述特征图，重塑后的特征图用1*1卷积升维；

对升维后特征图用1*1卷积压缩其特征通道数；

对所述特征通道数进行通道数扩张，得到输出项；其中，所述输出项为一维特征向量；

将所述一维特征向量与所述特征图相乘，用1*1卷积进行特征融合。

5.根据权利要求2所述的一种目标检测方法，其特征在于，在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积包括：

将所述特征图分为四组，经过混合深度可分离卷积进行特征提取；其中，所述混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；

对所述混合深度可分离卷积的输出结果进行1*1的卷积操作，得到分离的四组卷积；

对所述分离的四组卷积进行元素级相加、全局平均池化、分离出四组全连接层和获取对应的四组Softmax的值的操作，将所述获取的四组Softmax的值分别和对应的特征进行元素级相乘，将元素级相乘得到的四组特征进行元素级相加，将所述元素级相加得到的结果用1*1卷积进行特征融合。

6.根据权利要求1所述的一种目标检测方法，其特征在于，将所述图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述图像的浅层特征图、中层特征图及深层特征图；包括：

将所述图像输入到特征提取网络中；其中，所述图像为三通道图；

将所述三通道图经过3*3卷积后输入到残差网络中，其中，所述残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，所述第一残差模块、所述第二残差模块、所述第三残差模块、所述第四残差模块、所述第五残差模块、所述第六残差模块以及所述第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；

在所述第四残差模块得到浅层特征图，在所述第五残差模块得到中层特征图，在所述第六残差模块得到深层特征图。

7.根据权利要求6所述的一种目标检测方法，其特征在于，所述预测网络为交叉双向特征金字塔模块。

8.根据权利要求7所述的一种目标检测方法，其特征在于，将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度包括：

在所述第三残差模块和所述第七残差模块的输出层设置三个融合单元进行相邻两层或三层特征融合；在所述第四残差模块、所述第五残差模块和所述第六残差模块设置七个融合单元且每层的分辨率相等，在所述第四残差模块、所述第五残差模块和所述第六残差模块的倒数第二个融合单元将特征图融合到一起，所述融合单元的融合方法为上采样或者下采样；

在所述第四残差模块、所述第五残差模块、所述第六残差模块的所述融合单元后面分别接一个头部预测模块，通过所述头部预测模块得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任一项所述的一种目标检测方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至8中任一项所述的一种目标检测方法。