CN110598788A

CN110598788A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN110598788A
Application number: CN201910864216.5A
Authority: CN
Inventors: 陈宸; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-20
Anticipated expiration: 2039-09-12
Also published as: CN110598788B

Abstract

本申请提供了一种目标检测方法、装置、电子设备及存储介质，该方法包括：提取待处理图像的初始特征图；对所述初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；将所述初始特征图中的特征和所述待融合特征图的特征进行融合，得到所述待处理图像对应的融合特征图；根据所述融合特征图确定所述待处理图像的目标检测结果；与现有技术相比，通过本申请实施例所提供的方案，能够有效提高目标检测的效果。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种目标检测方法、装置及、电子设备及存储介质。

背景技术

目标检测算法是计算机视觉中的一个基本任务，相比分类任务识别出整张图片属于哪个类别，目标检测需要定位出图片中的目标位置并且识别出该目标的类别。

随着深度学习技术的发展，目标检测算法无论在效果还是速度上都有了较大的提高，但是现有的目标检测算法依然存在很多问题。例如，对于YOLO(you only look once，只看一次)算法、基于YOLO改进的YOLOV3-tiny、SSD(single shot object detector，单阶段目标检测器)、SSDLite(轻量级的SSD)等单阶段检测算法，这些算法虽然一般都有较好的检测速度，但算法的精度较差；再例如RefineDet(Single-Shot Refinement Neural Networkfor Object Detection，单阶段改进的目标检测神经网络)等改进的单阶段算法、以及一些两阶段检测算法，相较于最初的单阶段检测，虽然检测精测精度有了提升，但是一般网络结构都较为复杂，没有轻量级网络结构设计，检测速度不能够很好的满足需求，尤其是在工业界应用时，处理速度会严重阻碍算法的部署应用。可见，现有的目标检测算法，在目标检测速度或检测效果方便无法很好的满足实际应用需求。

发明内容

本申请的目的旨在至少能解决上述现有目标检测方案中所存在的检测速度慢或检测效果差等技术缺陷中的至少一个。为实现该目的，本申请实施例所提供的技术方案具体如下：

第一方面，本申请实施例提供了一种目标检测方法，该方法包括：

提取待处理图像的初始特征图；

对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图；

根据融合特征图确定待处理图像的目标检测结果。

可选的，对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图，包括：

对初始特征图依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到待融合特征图，其中，待融合特征图的特征维度小于对应的初始特征图的维度。

可选的，提取待处理图像的初始特征图，包括：

提取待处理图像的第一特征图；

基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，得到至少一个层级的第二特征图，初始特征图包括各层级的第二特征图；

其中，每次处理对应一个层级的第二特征图，若处理次数为至少两次，则第一次处理所对应的对象为第一特征图，除第一次处理之外的其他处理所对应的对象为上一次处理所得到的第二特征图。

基于最后一次处理得到的第二特征图，进行至少一次降低特征图分辨率和降低特征图维度的处理，得到至少一个层级的待融合特征图；

其中，每次处理对应一个层级的待融合特征图，若处理次数为至少两次，则第一次处理所对应的对象为最后一次处理得到的第二特征图，除第一次处理之外的其他处理所对应的对象为上一次处理所得到的待融合特征图。

可选的，基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，包括：

基于第一特征图，进行至少一次依次降低特征图维度、降低特征图分辨率以及提升特征图维度的处理。

基于第一特征图，进行至少一次降低特征图分辨率、提升特征图维度、基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合的处理。

可选的，基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合，包括：

对提升维度后的特征图提取对应于至少两种感受野的特征图，对所提取的至少两种感受野的特征图的特征进行融合，并将融合后的特征图的特征与提升维度后的特征图的特征进行融合。

可选的，基于提升维度后的特征图得到对应于至少两种感受野的特征图，包括：

将提升维度后的特征图划分为至少两部分子图；

基于每部分子图得到对应一种感受野的特征图。

可选的，基于每部分子图得到对应一种感受野的特征图，包括：

对于当前子图，基于当前子图、以及当前子图的相邻子图所对应的一种感受野的特征图，得到当前子图所对应的一种感受野的特征图。

可选的，将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图，包括：

将各层级的第二特征图和各层级的待融合特征图作为各待处理特征图，将最后一个层级的待融合特征图作为最高层级的目标特征图；

对于除最后一个层级的待融合特征图之外的其他层级各待处理特征图，将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图，其中，当前层级的待处理特征图所对应的高层特征为相邻的下一层级的待处理特征图所对应的目标特征图；

待处理图像对应的融合特征图包括各层级的目标特征图。

可选的，根据融合特征图确定待处理图像的目标检测结果，包括：

基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，初步检测结果包括各初始检测框的修正信息和置信度；

基于每个层级的待处理特征图各自对应的目标检测框，预测相对应的目标特征图所对应的目标检测结果，其中，目标检测框是基于初始检测框和初始检测框的初步检测结果确定的；

根据每个层级的目标特征图所对应的目标检测结果，得到待处理图像的目标检测结果。

可选的，基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，包括：

对每个层级的待处理特征图分别依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到每个层级的待处理特征图所对应的第三特征图，其中，第三特征图的维度小于对应的待处理特征图的维度；

基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的第三特征图的初步检测结果，得到每个层级的待处理特征图所对应的初步检测结果。

可选的，对每个层级的待处理特征图分别依次进行降低特征图维度、降低图像分辨率、以及提升特征图维度的处理，得到每个层级的待处理特征图所对应的第三特征图，包括：

对每个层级的待处理特征图分别依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到第一降维特征图；

对每个层级的待处理特征图进行降维处理，得到第二降维特征图，其中，同一待处理特征图所对应的第一降维特征图和第二降维特征图的感受野不同；

将每个层级的待处理特征图所对应的第一降维特征图的特征和第二降维特征图的特征进行融合，得到每个层级的待处理特征图所对应的第三特征图。

可选的，将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图，包括：

对于每个层级的待处理特征图，基于待处理特征图或对应的高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图的特征和高层级特征图的特征的目标特征图。

可选的，基于待处理特征图或对应的高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图的特征和高层级特征图的特征的目标特征图，包括：

降低待处理特征图的维度，并提升对应的高层特征图的分辨率，将降维后的待处理特征图的特征和提升分辨率后的高层特征图的特征进行融合，得到第四特征图；

基于第四特征图得到对应于至少两种感受野的特征图，并将对应于至少两种感受野的特征图的特征进行融合，得到目标特征图。

第二方面，本申请实施例提供了一种目标检测装置，该装置包括：

初始特征提取模块，用于提取待处理图像的初始特征图；

特征处理模块，用于对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

特征融合模块，用于将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图；

目标检测模块，用于根据融合特征图确定待处理图像的目标检测结果。

可选的，特征处理模块具体用于：对初始特征图依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到待融合特征图，其中，待融合特征图的特征维度小于对应的初始特征图的维度。

可选的，初始特征提取模块具体用于：

提取待处理图像的第一特征图；

可选的，特征处理模块具体用于：

可选的，初始特征提取模块在基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理时，具体用于：

可选的，初始特征提取模块基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合时，具体用于：

可选的，初始特征提取模块在基于提升维度后的特征图得到对应于至少两种感受野的特征图时，具体用于：

将提升维度后的特征图划分为至少两部分子图；

基于每部分子图得到对应一种感受野的特征图。

可选的，特征融合模块具体用于：

待处理图像对应的融合特征图包括各层级的目标特征图。

可选的，目标检测模块在根据融合特征图确定待处理图像的目标检测结果时，具体用于：

可选的，目标检测模块在基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果时，具体用于：

可选的，目标检测模块在对每个层级的待处理特征图分别依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到每个层级的待处理特征图所对应的第三特征图时，具体用于：

对每个层级的待处理特征图进行降维处理即降低特征图，得到第二降维特征图，其中，同一待处理特征图所对应的第一降维特征图和第二降维特征图的感受野不同；

可选的，特征融合模块在将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图时，具体用于：

可选的，特征融合模块在具体用于：

第三方面，本申请实施例提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；

处理器，用于通过运行计算机程序执行上述本申请第一方面或第一方面任一可选实施例中所示的目标检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该存储介质中存在有计算机程序，在计算机程序被处理器运行时执行上本申请第一方面或第一方面任一可选实施例中所示的目标检测方法。

本申请提供的技术方案带来的有益效果是：本申请实施例所提供的目标检测方法，在提取到待处理图像的初始特征图之后，会首先对该提取到的初始特征图进行特征图分辨率和特征图维度的调整，以得到待融合特征图，之后通过融合待融合特征图的特征和初始特征图的特征，从而得到了能够具有更多特征表达能力的融合特征图，并基于该融合特征图实现图像中的目标检测。该方案在初始特征图的基础上，实现了特征图维度和分辨率的调整，基于该调整可降低特征图所需要处理的数据量，通过不同层级的特征图的特征融合，保证了融合特征图的特征表达能力，因此，基于该处理后的特征图进行目标检测，能够有效提高目标检测的效果。。对于本申请实施例所提供的目标检测方案的效果以及相应的原理描述，将在后文的具体实施方式中进行详细的描述，在此不再展开描述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了本申请实施例提供的一种目标检测算法的流程示意图；

图2示出了本申请实施例提供的一种目标检测网络的整体架构示意图；

图3示出了本申请实施例提供的一种主干网络的结构示意图；

图4示出了本申请实施例提供的一种检测框修正模块的结构示意图；

图5示出了本申请一示例中提供的一种主干网络的结构示意图；

图6a示出了本申请实施例中的一种Bottleneck模块的结构示意图；

图6b示出了一种现有残差块的结构示意图；

图6c示出了一种本申请实施例中提供的一种残差块的结构示意图；

图7示出了本申请示例中提供的一种特征再提取模块的结构示意图；

图8示出了本申请示例中提供的一种检测框修正模块的结构示意图；

图9示出了本申请实施例提供的一种特征融合模块的结构示意图；

图10示出了本申请示例中提供的一种特征融合模块和目标检测模块的结构示意图；

图11示出了本申请实施例提供的一种目标检测网络的结构示意图；

图12示出了本申请实施例提供的一种目标检测装置的结构示意图；

图13为本申请实施例提供的一种的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

目标检测(Object Detection)作为计算机视觉领域的基本任务之一，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体(给出边界框)，目标检测在很多场景有用，如目标跟踪、无人驾驶和安防系统等。目前主流的目标检测算法主要是基于深度学习模型，对于目标检测任务而言，由于目标检测输出结果的丰富性，目前业界的目标检测算法有些是注重效果却忽略了速度，有些是效率可以但效果不好。然而在工业界的应用中，算法复杂度太高、处理时间太长会严重阻碍算法的部署应用，而检测精度较差的话，也无法满足工业界对于精度检测的需求。针对现有技术中存在的这些问题，本申请所提供的目标检测网络的实施例中，与现有技术相比，在检测速度和检测精度的至少一个方面有了很大的改进。一些实施例中则能够在检测速度和检测精度两个方面都有较大的提升。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

Anchor：预定义的检测框，即初始检测框，也可以称为初始定位框、初始锚点或锚框等，目标检测网络在此基础上做回归预测。

Refined Anchor：修正后的检测框，也可以称为目标检测框，是在经过初步回归预测后对预定义的检测框进行修正后的检测框，目标检测网络基于该修正后的检测框进行目标对象的预测。

Resblock：即残差块(residual block)，一种常用的神经网络模块，用于学习输入特征的残差，有助于深层网络的训练。

Res2block：本申请实施例提出的一种基于resblock的新的神经网络模块，可以融合拥有不同感受野的特征，有助于提升识别准确率。

MSCOCO：微软开源的目标检测数据集。

ms/pic：算法处理速度单位，毫秒/每张图。

mAP(Mean Average Precision)：平均准确率，用于评价目标检测算法的通用指标，取值范围为0-100％，数值越高代表算法效果越好。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种目标检测算法的流程示意图，如图中所示，该方法主要可以包括以下几个步骤：

步骤S110：提取待处理图像的初始特征图；

其中，初始特征图的提取可以通过卷积网络结构实现，具体可以采用现有的特征提取方式，也可以采用本申请实施例下文中所提供的提取方式。

步骤S120：对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

步骤S130：将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图；

步骤S140：根据融合特征图确定待处理图像的目标检测结果。

本申请实施例提供的该方法，在提取到待处理的初始特征图之后，对初始特征图的维度和分辨率进行了调整，基于该调整可降低特征图所需要处理的数据量，而通过将初始特征图和调整得到的待融合特征图的特征进行融合，保证了所得到的待处理图像的特征表达能力，从而保证了目标检测效果。

本申请的可选实施例中，对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图，包括：

本申请的可选实施例中，提取待处理图像的初始特征图，包括：

提取待处理图像的第一特征图；

在实际应用中，对于初步提取得到的待处理图像的第一特征图，由于该特征图是低层次的图像特征，由于其提供的语义信息较少，通常不会直接基于该特征进行后续的目标检测处理，而是在该特征图的基础上进行后续的特征再提取后，基于再提取的特征图进行下一步处理。当然，作为一可选方式，也可以将该第一特征图作为初始特征图中的一个。

具体的，本申请的实施例中，在得到第一特征图之后，为了在减少数据处理量的前提下，得到较高层级的特征图，可以通过基于第一特征图，进行降低特征图分辨率和提升特征图维度的处理，得到一个或多个层级的第二特征图，将各层级的第二特征图作为各初始特征图。

本申请的可选实施例中，基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，包括：

具体的，为了减少特征处理过程中需要处理的数据量，可以首先对要处理的特征(第一特征图或者是基于第一特征图得到的第二特征图)进行降维处理，之后再进行降低特征图分辨率的处理，之后再进行特征图维度的提升。可以理解的是，为了达到最终提升特征图维度的目的，提升特征图维度后的特征图的维度大于降维处理前的特征图的维度，以提升特征图的特征表达能力。

具体的，在完成特征图维度和特征图分辨率的调整后，在此基础上进一步提取多种不同感受野的特征图，并进行多感受野特征图的特征的容和处理，可以进一步提升特征图的特征表达能力，以提高后续目标检测的效果。作为一可选方式，在进行上述处理时，可以具体为进行至少一次一次降低特征图维度、将地特征图分辨率、提升特征图维度、基于提升后的维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合的处理。

本申请的可选实施例中，基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合，包括：

也就是说，对于一特征图，在将其所对应的不同感受野的特征图进行融合之后，再将融合后的特征图与该特征图再次进行融合。基于该方式，提升了所得到的特征图的特征表达能力的同时，也增大了特征图的感受野的。

本申请的可选实施例中，基于提升维度后的特征图得到对应于至少两种感受野的特征图，包括：

将提升维度后的特征图划分为至少两部分子图；

基于每部分子图得到对应一种感受野的特征图。

本申请的可选实施例中，基于每部分子图得到对应一种感受野的特征图，包括：

通过将特征图划分为多个子图后，再对子图进行不同感受野特征的提取及融合的方式，与对特征图本身直接进行不同感受野特征的提取的方式相比，能够有效减少数据处理量。而基于前子图、以及当前子图的相邻子图所对应的一种感受野的特征图，则实现了多层级的不同感受野特征的融合，得到具有更好的特征表达能力的特征图。

作为一可选方案，对于第一个子图而言，可以直接将该子图本身作为其所对应的一种感受野的特征图，此时，对于第二个子图，由于第二个子图和第一个子图的感受野是相同的，则需要基于第二个子图提取得到一种不同感受野的特征图，如通过卷积层对第二个子图进行处理，得到处理后的特征图，该特征图则为第二子图所对应的一种感受野的特征图，对于第三个子图，则可以基于第三个子图和第二个子图分别所对应的一种感受野的特征图(即基于第二个子图得到的输出特征图)，提取得到对应于再一种感受野的特征图。

也就是说，待融合特征图可以是一个，也可以是多个。若待融合特征图是一个，则可以直接基于最后一个层级的第二特征图进行降低特征图分辨率和降低特征图维度的处理后得到，若待融合特征图是多个，例如2个，则第一个则可以直接基于最后一个层级的第二特征图进行降低特征图分辨率和降低特征图维度的处理后得到，第二个则可以是基于第一个待融合特征图进行降低特征图分辨率和降低特征图维度的处理后得到。

通过在第二特征图的基础上，再次对特征图进行降低分辨率和提升特征图维度即通道数的处理，可以进一步降低特征图的分辨率并提升特征图的语义表达能力。

本申请的可选实施例中，将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图，包括：

待处理图像对应的融合特征图包括各层级的目标特征图。

需要说明的是，对于提取得到的待处理图像(后文中也会描述为输入图像)所对应的多层次(也是多尺寸)的待处理特征图，所提取的多种尺寸的特征图之间，特征图的尺寸一般是逐渐变小的，特征图的层级是逐渐增加的，例如，对于第一个第二特征图，可以是基于第一特征图得到的，第二个第二特征图则是基于第一个第二特征图得到的，此时，第二个第二特征图的尺寸通常小于第一特征图的尺寸，第二个第二特征图的层级高于第一个第二特征图的层级，即第二个第二特征图是第一个第二特征图的下一层级的特征图。也就是说，下一层级的待处理特征图相对于当前层级的待处理特征图而言，为深层或高层的特征图。通过对不同层级的特征图的特征进行融合处理，使得特征能够包含更多的语义信息。

本申请的可选实施例中，根据融合特征图确定待处理图像的目标检测结果，包括：

其中，初始检测框的修正信息一般是指相对于初始检测框而言的、目标检测框即修正后的检测框refined anchor的四个偏移量，基于该偏移量可以实现对初始检测框的修正，得到对应的目标检测框。初始检测框的置信度，也可以称为检测框的预测分数，是一个二分类标签，表征了初始检测框所对应的图像位置是否存在目标即对象的概率，根据初始预测结果，可以实现对初始检测框的过滤和修正，得到各层级的待处理特征图所对应的目标检测框，以用于相应的目标检测框的目标预测，提高预测效果。

本申请的可选实施例中，基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，包括：

具体的，在基于每个待处理特征图进行初步预测之前，可以首先通过对特征图降维和降低分辨率的处理，以减少数据处理量。本申请实施例提供的该方案，在进行降低特征图分辨率之前，首先进行较大幅度的降维处理，从而减少在降低特征图分辨率处理时的数据量，之后在完成降低特征图分辨率之后，再进行较小幅度的提升维度处理，保证特征图的特征表达能力。其中，处理后的特征图的维度一般小于处理前的特征图的维度。

本申请的可选实施例中，对每个层级的待处理特征图分别依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到每个层级的待处理特征图所对应的第三特征图，包括：

基于该方案，可以对待处理特征图进行两路降维处理，并得到对应于两种不同感受野的特征图，并通过对这两种不同感受野的特征图的特征进行融合处理，得到具有更好的特征表达能力，且提供更多的语义信息的特征图。

本申请的可选实施例中，将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图，包括：

也就是说，在将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到相应的目标特征图时，可以再次进行多感受野特征图的提取，以及多感受野特征图的特征融合。其中，在进行多种感受野的特征图的提取时，可以是对待处理特征图进行提取，也可以是对相应的高层特征图进行提取，还可以是先将待处理特征图和对应的高层级特征图进行融合，基于融合后的再提取，还可以是对待处理特征图和高层特征图分别进行多感受野特征图的提取。

作为一可选方案，基于待处理特征图或对应的高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图的特征和高层级特征图的特征的目标特征图，包括：

也就是，可以首先将待处理特征图和其所对应的高层特征图进行特征融合，再基于融合后的特征图得到多种不同感受野的特征图，之后再对多种不同感受野的特征图进行融合，得到目标特征图，以用于最终的目标检测。

对于本领域技术人员而言清楚的是，本申请实施例所提供的目标检测方法的具体实现，可以通过神经网络来实现。具有本申请实施例所提用的该方法的原理，本申请还提供了一个优雅简洁的神经网络，在实际应用中，将该神经网络搭载在处理器(如CPU)进行图像处理时，无论速度还是精度与现有技术相比，都有了较大的提升。为了更好的理解和说明本申请所提供的方案，首先结合一个具体的可选实施例，对本申请实施例所提供的目标检测网络的原理和方案进行简要的说明。

图2示出了本申请实施例提供的一种目标检测网络的结构示意图，如图中所示，该目标检测网络1000可以包括主干网络100、特征再提取模块200、检测框修正模块300、特征融合模块400、以及目标检测模块500；其中：

主干网络100，用于提取待处理图像的初始特征图；

特征再提取模块200，用于对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

检测框修正模块300，用于基于每个层级的待处理特征图(即各层级的第二特征图和各层级的待融合特征图)所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果；

特征融合模块400，用于将最后一个层级的待融合特征图作为最高层级的目标特征图，对于除最后一个层级的待融合特征图之外的其他层级各待处理特征图，将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图，其中，当前尺寸/层级的待处理特征图对应的高层特征为相邻下一尺寸/层级的待处理特征图所对应的目标特征图；

目标检测网络(Object detection module，ODM)500，用于基于每个层级的待处理特征图各自对应的目标检测框，预测相对应的目标特征图所对应的目标检测结果，其中，目标检测框是基于初始检测框和初始检测框的初步检测结果确定的。

为了提升目标检测的准确性和/或提升检测速度中的至少一项，本申请实施例所提供的目标检测网络1000在上述主干网络100、特征再提取模块200、检测框修正模块300和特征融合模块400均提出了改进的设计方案。也就是说，该目标检测网络100的主干网络100、检测框修正模块300或特征融合模块400中的至少一项，与现有技术相比都是有改进的。

具体的，本申请实施例的主干网络100、特征再提取模块200、检测框修正模块300或特征融合模块400中的至少一项满足：

如图3中所示，主干网络100(本申请实施例中的HC2net)可以包括依次级联的初始特征提取模块110和至少两个第一特征优化模块120(图中仅示出了一个)，每个第一特征优化模块120包括第一Bottleneck模块121或第一融合模块11中的至少一项，若第一特征优化模块120包括第一Bottleneck模块121和第一融合模块122，则第一Bottleneck模块121和第一融合模块122级联；具体的，第一Bottleneck模块121和第一融合模块122级联，可以是第一Bottleneck模块121和第一融合模块122依次级联，也可以是第一融合模块122和第一Bottleneck模块121依次级联，在实际应用中，为了减少计算量，可选为第一Bottleneck模块121和第一融合模块122依次级联，如图3中所示；其中，

初始特征提取模块110，用于提取待处理图像的第一特征图；

第一Bottleneck模块121，用于降低其输入特征图的分辨率、以及提升其输入特征图的特征维度；

第一融合模块122，用于基于其输入特征图得到至少两种感受野的特征图，并对所提取的至少两种感受野的特征图进行融合；每个第一特征优化模块120的输出特征图为一种尺寸(也是一种层级)的第二特征图。

其中，初始特征提取模块110的具体结构形式本申请实施例不作限定，如可以是常用的卷积模块，如卷积层和池化层等，该模块用于提取到待处理图像的较高分辨率的第一特征图，该特征图的尺寸通常较大、感受野较小，所能够提供的语义信息较少，所以通常不直接用于后续的目标检测。

可以理解的是，第一个第一特征优化模块120的输入为初始特征提取模块110的输出。对于第一特征优化模块120而言，该模块120所包含的第一Bottleneck模块121和/或第一融合模块122的具体数量本申请实施例不做限定，可以根据实际应用需求配置。在第一特征优化模块120包含多个模块(可以是第一Bottleneck模块121和/或第一融合模块122)时，所包含的各模块之间级联。例如，第一特征优化模块120包括2个第一Bottleneck模块121和1个第一融合模块122，则这三个模块可以依次级联，则第1个第一Bottleneck模块121的输入特征图为初始特征提取模块110的输出，第2个第二Bottleneck模块121的输入特征图为第一Bottleneck模块121的输出，第一融合模块122输入特征图为第2个第一Bottleneck模块121的输出，该第一特征优化模块120的输出特征图则为第一融合模块122的输入。同样的，主干网络100在包含多个第一特征优化模块120时，不同的第一特征优化模块120所包含的模块的类型和数量可以相同，也可以不同，各第一特征优化模块120之间依次级联，即下一个层级的第一特征优化模块120的输入为上一个层级的第一特征优化模块120的输出。

对于特征再提取模块200，该模块具体可以是与最后一级的第一特征优化模块120级联，特征再提取模块200可以包括一个或者依次级联的至少两个再提取子模块，其中，再提取子模块用于降低其输入特征图的分辨率和降低特征图维度，每个再提取子模块的输出为一种层级的待融合特征图。

具体的，通过在主干网络100的输出端连接特征再提取模块200，进行特征图的进一步提取，以降低主干网络所输出的特征图的分辨率并提升特征图的语义表达能力。

进一步的，本申请实施例的再提取子模块具体可以包括第三Bottleneck模块，该Bottleneck模块具体用于对其输入特征图依次进行降维、降低分辨率、以及提升特征维度的处理。

通过Bottleneck模块来降低特征图分比率，与现有的直接采用卷积处理的方式相比，由于Bottleneck模块能够首先通过1×1卷积来大大减低特征维度即通道数，因此，可以大大降低Bottleneck模块的中间卷积处理的数据量，实现网络的轻量化设计。可选的，提升特征维度后的特征图的维度可以小于输入特征图的维度，可以进一步降低数据处理量。

可选的，第三Bottleneck模块可以通过分组卷积的方式降低其输入特征图的分辨率。

如图4中所示，本申请实施例所提供的检测框修正模块300(Anchor refinemodule，ARM)可以包括依次级联的特征降维模块310和初步检测模块320，其中，特征降维模块310，用于对每种层级的待处理特征图(各层级的第二特征图和各层级的待融合特征图)分别进行降维处理，得到每种层级的待处理特征图所对应的第三特征图，特征降维模块310可以包括第二Bottleneck模块311；初步检测模块320，用于根据每种层级的第待处理特征图所对应的第三特征图，得到每种层级的待处理特征图所对应的初步检测结果；

本申请实施例所提供的特征融合模块400(Feature fusion)可以具体用于：基于待处理特征图或高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图和高层级特征图的目标特征图。

一个目标检测网络，为了保证检测速度，最重要的是要有一个轻量级的主干网络，而为了保证检测效果，则要有较强的特征表达能力。目标检测不同于分类网络，分类网络只需要考虑最后一层的特征表达能力，然而目标检测需要用到中间层特征构造特征金字塔，所以目标检测网络需要同时考虑中间层和最后层的特征表达能力。目标检测浅层网络提高特征表达能力需要遵循两个基本原则：

·要有足够大的感受野，因为目标检测需要考虑目标周围的背景信息甚至是较远处其他目标的信息，因此只有足够大的感受野才能提供足够多的语义信息。

·特征向量的维数要足够多，只有维数足够多才能有足够强的特征表达能力。

基于上述原则，本申请实施例设计了一个适用于目标检测的主干网络(本申请将该主干网络称为HC2Net)。参见上文对主干网络的描述，本申请实施例所提供的主干网络100，在通过初始特征提取模块110提取到待处理图像的初始特征图之后，通过设计第一特征优化模块120可以实现主干网络的轻量级设计和/或提升特征表达能力到的效果。

具体的，在对初始特征图进行处理时，通过第一Bottleneck模块121，可以首先通过Bottleneck模块的第一个1×1卷积，降低特征图的通道数，之后通过其第二卷积结构来降低特征图的维度，与直接降低特征图分辨率的方式相比，可以大大降低计算量，在降低特征图的分辨率之后，可以再基于Bottleneck模块的最后一个1×1卷积实现输入特征图的维度的提升，即第一Bottleneck模块121的输出特征图的通道数大于输入特征图的通道数，提升了特征图的特征表达能力。而通过第一融合模块122的设计，可以实现不同感受野的特征的融合，提升了特征图的特征表达和语义信息。

由前文描述可知，由于初始特征提取模块110提取的是低层次的图像特征，由于其提供的语义信息较少，通常不会直接基于该特征进行后续的处理，而是在该特征的基础上进行后续的特征再提取后，即经由特征优化模块的再处理后，基于该处理后的特征图实现目标检测。当然，作为一可选方式，也可以将该初始特征提取模块所输出的特征图作为一种尺度的第二特征图。

对于特征再提取模块200，通过该模块，可以实现对主干网络所提取到的特征图的分辨率和维度的调整，每个再提取子模块的输出为一种层级的待融合特征图，以进一步降低主干网络100所输出的特征图的分辨率并提升特征图的语义表达能力。

对于检测框修正模块300，在基于主干网络所提取到的第二特征图和特征再提取模块所提取到的待融合特征图进行初步预测之前，可以首先通过所设计的第二Bottleneck模块311实现对特征图的降维，且通过Bottleneck模块的结构进行降维处理，可以有效减少计算量，从而降了低数据处理的复杂度，提升了网络的检测速度。

对于特征融合模块400，通过对低层级特征图(待处理特征图)和/或高层级特征图所对应的不同感受野的特征进行融合，基于该融合结果得到用于目标检测的目标特征图，与现有的直接将低层级特征图和高层级特征图进行融合的方式相比，进一步提升了特征的表达能力，提升了特征所包含的语义信息。

可见，与现有技术相比，本申请实施例所提供的目标检测网络，在目标检测速度或目标检测效果的至少一个方面可以有较大的提升。

下面对该目标检测网络的各模块分别进行进一步的具体描述。

本申请的可选实施例中，主干网络100的第一Bottleneck模块121可以通过分组卷积的方式降低其输入特征图的分辨率。

具体的，采用分组卷积的方式进行特征图的处理，可以进一步减少计算量，实现对网络的轻量化设计。

本申请的可选实施例中，第一融合模块122在基于其输入特征图得到至少两种感受野的特征图，并对所提取的至少两种感受野的特征图进行融合时，具体用于：

基于其输入特征图得到至少两种感受野的特征图，对所提取的至少两种感受野的特征图进行融合，并将融合后的特征图与其输入特征图进行融合。

也就是说，第一融合模块122可以首先基于其输入特征图得到多种不同感受野的特征图，并对不同感受野的特征图进行融合，之后再将融合后的特征图与该模块的输入特征图再次进行融合。基于该方式，同时增大整个模块的输出特征图的感受野，并对不同感受野的特征进行了融合，提升了输出特征图的特征表达能力。

本申请的可选实施例中，第一融合模块122在基于其输入特征图得到至少两种感受野的特征图时，可以具体用于：

将其输入特征图划分为至少两部分子图，基于每部分子图得到对应一种感受野的特征图。

进一步的，第一融合模块122在基于每部分子图得到对应一种感受野的特征图时，可以具体用于：

本申请的可选实施例中，第一融合模块122在基于其输入特征图得到至少两种感受野的特征图时，并对所提取的至少两种感受野的特征图进行融合时，可以具体用于：

降低其输入特征图的维度、基于降低维度后的特征图得到至少两种感受野的特征图时，并对所提取的至少两种感受野的特征图进行融合，并提升融合后的特征图的维度。

具体的，通过首先对输入特征图进行降维处理，之后再进行后续处理的方式，可以有效减少后续所需处理的数据量，之后再通过提升特征图维度，保证了所得到的特征图具有足够强的特征表达能力。

本申请的可选实施例中，若第一特征优化模块120包括第一Bottleneck模块121和第一融合模块122，第一Bottleneck模块的输出为第一融合模块的输入。

也就是说，第一Bottleneck模块121和第一融合模块122依次级联，第一特征优化模块在同时包括这两种模块时，可以先对其输入特征图进行降低特征分辨率的处理，以减少第一融合模块122的数据处理量。

下面结合一个具体示例对本申请实施例所提供的主干网络即HC2net的架构及工作原理进行进一步说明。

图5中示出了本示例中提供的一种主干网络的结构示意图，该主干网络是一个轻量级分类网络，如图中所示，该示例图中的主干网络包括初始特征提取层(图中所示的卷积、池化层)和3个依次级联的第一特征优化模块，第一个特征优化模块包括依次级联的1个Bottleneck模块(图中所示的Bottleneck)和3个融合模块(图中所示的Res2Blocks)，第二个特征优化模块包括依次级联的1个Bottleneck模块(图中所示的Bottleneck)和7个融合模块，第三个特征优化模块包括依次级联的1个Bottleneck模块和3个融合模块，该示例中的主干网络在最后一个特征优化模块的输出端还接了一个GAP层。基于本示例的该网络结构进行图像处理的流程如下：

假设输入图像维度为w×h×3，其中，w表示图像宽度，h表示图像宽度高度，3则为图像通道数，通常为R、G、B三色通道。首先通过初始特征提取模块的操作后，本示例中，初始特征提取模块包括依次级联的批量归一化层(batchnorm)、卷积层(卷积核大小3×3，输出维度3，卷积步长stride＝2)和最大池化层(核大小3×3，stride＝2)，经过初始特征提取模块的操作，该模块的输出特征图大小迅速降为然后经过3个降低特征图分辨率的stages，即经过3个第一特征优化模块的处理，每个特征优化模块的输出特征图即为一个第二特征图，如图5中所示，该示例中的3个第一特征优化模块分别包括4个、8个和4个子模块(即第一Bottleneck模和第一融合模块)，其中第一个stage包括1个Bottleneck模块和3个Res2Block模块，输出特征图大小为第二个stage包括1个Bottleneck模块和7个Res2Block模块，输出特征图大小为第三个stage包括1个Bottleneck模块和3个Res2Block模块，输出特征图大小为其中，c是预定义的超参数，在本示例中的检测网络中使用的c＝72，相应的，c＝72时，本申请提供的主干网络即HC2Net可以命名为HC2Net72。

具体到每个stage的子模块，即图5中所示的Bottleneck模块和Res2Block模块：Bottleneck模块的作用是降低特征图分辨率和增加特征图通道数。如图6a中所示，本示例中的Bottleneck模块由一个1x1卷积，一个3x3卷积和一个1x1卷积组成，这是一种典型的Bottleneck设计，遵循ResNet的设计，图中的Conv即表示卷积，s1表示卷积步长为1，s2表示卷积步长为2。Bottleneck模块的第一个1x1卷积将特征通道数降为输入通道的1/4，以减少后面3x3卷积的计算量；第二个3x3卷积输入通道和输出通道一致，并且可以使用group＝2(即分组卷积的分组数量为2，图中以g2表示)的分组卷积，进一步减少3x3卷积的计算量；最后一个1x1卷积再将特征图通道数提升到整个模块的输出通道数。

Res2Block模块是HC2Net的核心模块，图6c中示出了本示例中的Res2Block模块的示意图，如图中所示，该模块也是先由一个1x1卷积将输出特征通道数降到输入的1/4，最后一个1x1卷积再将输出通道数提升至整个模块的输入通道数，通道数一样才能将输入加上残差。关键在中间的特征融合模块，Res2Blcok模块是基于现有ResBlock(如图6b中所示)改进的模块，如图6c中所示，Res2Blcok模块将第一个1x1卷积的输出特征按通道平均分成4份，如图中所示的X1、X2、X3和X4，(每一份即为一个子图，然后使用3x3卷积作用在不同阶段，得到每一份分别所对应的输出特征图Y1、Y2、Y3和Y4，如对于X3而言，将X3和X2所对应的3x3卷积操作后的特征图一起进行3x3卷积操作，得到X3所对应的输出特征图Y3，之后，将Y1、Y2、Y3和Y4融合后再通过1x1卷积将输出通道数提升至整个模块的输入通道数，该1x1卷积的输出可以再与该Res2Block模块的输入进行融合，得到Res2Block模块最终的输出特征图，基于本申请实施例所提供的Res2Block模块结构，增大了整个模块的感受野同时将不用感受野的特征进行融合，最后能得到更好的特征表达。

作为一个示例，图7中示出了本申请实施例提供的一种特征再提取模块200即extra模块的结构示意图，如图中所示，该特征再提取模块200包括两个级联的再提取子模块，再提取子模块具体为Bottleneck模块，第一个Bottleneck模块的输入为主干网络的最后一个特征优化模块的输出，即最后一级的特征图，第二个Bottleneck模块的输入则为第一个Bottleneck模块的输出，第一个Bottleneck模块和第二个Bottleneck模块的输出特征图分别作为一个层级的待融合特征图。

接着前文中图5中所示的主干网络所对应的示例为例继续进行说明，主干网络是一个分类网络，最后一个卷积层输出的特征大小为该示例中，目标检测网络的输入图像大小为320x320，c取值为72，则主干网络最后一个卷积层(特征优化模块)的输出特征大小为10×10×1152，即图中所示的10×10×(c·2⁴)。对于目标检测来说，10×10的特征图大小是比较大的，为了能更好的检测大目标，在该分类主干网络后加上额外层即extra模块以进一步降低特征图分辨率大小。具体的，如图7中所示的该extra模块，其由两个简单的Bottleneck模块级联组成，通过该模块可以增加了两个特征图，在extra模块的输入特征图大小为10×10×1152，增加的两个特征图即两个待融合特征图的大小分别5×5×512和3×3×512。

本申请的可选实施例中，检测框修正模块300的特征降维模块310还可以包括第一降维模块312和第二融合模块313，如图4中所示，其中：

第一降维模块312，用于对每种尺寸的待处理特征图分别进行降维处理，其中，第一降维模块输出的特征图的感受野与第二Bottleneck模块211输出的特征图的感受野不同；

第二融合模块313，用于对第一降维模块312输出的特征图和第二Bottleneck模块311输出的特征图进行融合，得到第三特征图。

具体的，该特征降维模块310，对待处理特征图通过第二Bottleneck模块311和第一降维模块312两路降维模块进行降维处理，并对两路降维后的特征图进行融合后输出，提升特征降维模块310所输出的特征图的特征表达能力，使特征图能够提供更多的语义信息。

作为一个示例，图8中示出了本申请实施例提供的一种检测框修正模块300的结构示意图，如图中所示，该检测框修正模块包括依次级联的特征降维模块和初步检测模块，其中，特征降维模块包括一路Bottleneck模块和一路1×1卷积(本示例中的第一降维模块)，在主干网络或者主干网络加extra模块提取出图像金字塔特征之后，通过该检测框修正模块(本申请中称为检测头部模块，即Light-head检测模块)将特征图转换成需要的检测框和分类输出。图8中所示的该轻量级的检测头部模块，首先对输入特征图即前文中所描述的第一特征图进行两路降维处理，第一路采用1x1卷积+3x3卷积+1x1卷积的结构(即Bottleneck模块)，接前文中的示例，本示例中，中间3x3卷积的输入输出通道都只有128，而特征金字塔的输入特征分别是288、576、1152、512、512。相比直接用3x3卷积输出256维计算量大大减少；第二路直接采用1x1卷积将输出通道降到256维。然后将两路特征相加，达到不同感受野特征的融合。最后再接两个1x1卷积将特征通道变换到需要输出的检测框和分类数大小(表征了包含目标对象的概率)，得到各输入特征图对应的初步检测结果。如图8中所示，该示例中的检测框即Anchor的数量为3个，每个检测框对应修正信息包括4个数值(相对于初始检测框的目标检测框即修正后的检测框refined anchor的四个偏移量)，因此，检测框的回归预测分支的输出数值的个数为12个，而每个检测框对应有两个置信度，因此，检测框的分类预测分支的输出的数值的个数为6个。该示例中，整个模块只有一个128维的3x3卷积，其他都是1x1卷积操作，所以模块的计算量很轻，但是最终的效果很好。

本申请的可选实施例中，如图9中所示，特征融合模块400具体可以包括依次级联的第一融合子模块410和第二融合子模块420，其中：

第一融合子模块410，用于对每个待处理特征图分别进行降维、提升待处理特征图所对应的高层特征图的分辨率，并对降维后的待处理特征图和提升分辨率后的高层特征图进行融合，得到第四特征图；

第二融合子模块420，用于基于第四特征图，得到对应于至少两种感受野的特征图，并对对应于至少两种感受野的特征图进行融合，得到目标特征图。

具体的，特征融合模块400在进行特征融合处理时，可以首先将第一特征图和其所对应的高层特征图进行融合，再基于融合后的特征图得到多种不同感受野的特征图，之后再对多种不同感受野的特征图进行融合，得到目标特征图，以用于最终的目标检测。

作为一个示例，图10中示出了本申请实施例提供的一种特征融合模块和目标检测模块的结构示意图。可以看出，该示例中的网络结构是基于RefineDet结构的轻量级目标检测网络。RefineDet的核心思想就是做两次检测，第一次检测只做是否是目标的分类，再经过特征融合和anchor refinement(检测框修正)之后再做一次检测，这次检测就要分出具体是哪一类目标，其中的feature fusion模块是一个关键。本申请也设计了一个基于Light-head的特征融合模块，如图10所示，接前文图8中所示的示例中的描述，第一次融合的两个输入特征分别为低分辨率特征(高层级特征图)经过2×2反卷积(如中所示的Deconv)提高分辨率和当前分辨率特征(待处理特征图)经过两个3×3卷积降维得到的特征，两个特征相加后经过一个Light-head模块，最后再过两个1×1卷积(目标检测模块)输出需要的检测框和分类维度，得到检测结果。同样的，该示例中，目标检测框的数量为3个，预测结果的类别的数量为图中所示的classes。

其中，对于本领域技术人员而言清楚的是，本申请实施例附图中所示出的各网络结构中，包括但不限于图中示出的卷积结构即Conv，图中所示的1×1或者3×3等，表示示例中卷积或反卷积处理时的卷积核的大小，而图中所示的1×1或者3×3等之后的数字，如128或256，则表示的是输出特征图的维度即通道数。

下面结合一个具体的可选实施例对本申请所提供的目标检测网络再次进行详细说明。

图11示出了本申请的一可选实施例中的目标检测网络的结构示意图。如图11中所示，该实施例中的目标检测网络主要可以包括以下几个模块：

·主干网络(本申请实施例中称为HC2Net72，前文中的超参数c的取值为72)：主干网络是目标检测算法的核心，用于提取图像的特征信息。主干网络是影响检测算法效果和速度的关键因素。本申请设计了名为HC2Net的主干网络，能快速有效的提取图像特征。

·特征再提取模块(本申请实施例中的extra模块)：该模块作为主干网络额外添加层，一般用于分类的主干网络最后一层卷积层的特征图，该模块可以进一步降低特征图的分辨率，提升特征图的语义表达能力。例如，主干网络最后一层卷积层输出的特征图的分辨率为输入图像的1/32x1/32，例如输入图像的尺寸为320x320，则最后一层卷积层分辨率为10x10，对于目标检测而言，这个分辨率是是比较大的。所以在目标检测网络中还可以添加一些额外层(extra模块)进一步降低主干网络输出分辨率并提升语义表达能力。

·检测结构：本申请实施例提供的该目标检测网络是基于RefineDet的检测结构进行的更轻量化的改进，在提升算法效果的同时减少了算法运行时间。

对于现有RefineDet的检测结构的改进主要可以包括以下几个部分：

·特征降维模块(本申请实施例中称为Light-head模块)：本申请提出的检测头部模块。在提取金字塔特征之后，需要一个检测头部输出检测结果，然后计算损失函数。检测头部也要考虑尽量轻量以减少算法复杂度和运算时间，同时要有较强的特征表达能力。

·特征融合模块，即Feature fusion模块：经过主干网络提取的金字塔特征有不同的分辨率，其中分辨率较高的浅层网络特征有较好的位置表达能力，有利于定位，但是语义信息不足，不利于分类；而分辨率较低的深层网络特征有较好的语义表达能力，有利于分类，但位置表达能力不足，不利于定位。因此feature fusion模块用于融合不同分辨率的特征可以同时增强特征向量的位置表达能力和语义分类能力。

目标检测算法核心就是整个神经网络即目标检测网络的设计。图10中详细画出了本实施例提出的一种快速目标检测神经网络的结构示意图，由图中可以看出，该网络可以表示为RefineDet+HC2Net72+Light-head的结构示意图。

本示例中示输入图像即待处理图像的大小为320×320，主干网络HC2Net72选用图5中所示的网络结构，extra模块选用图7中所示的网络结构，检测框修正模块选用图8中所示的网络结构，目标检测模块选用图10中所示的网络结构。

具体的，如图11中所示，在主干网络HC2Net72部分，大小为320×320的输入图像输入至图5中所示的主干网络(c＝72)后，首先经由初始特征提取模块提取得到第一特征图，如图中所示的特征图F1，F1的大小为80×80×32，F1输入至第一个第一特征优化模块(即图4中所示的包含一个Bottleneck模块和3个Res2Block的结构)之后，得到的特征图大小为40×40×288(图11中未示出)，该40×40×288的特征图再输入至第二个第一特征优化模块(即图5中所示的包含一个Bottleneck模块和7个Res2Block的结构)之后，得到的特征图大小为20×20×576，该20×20×576的特征图再输入至第三个第一特征优化模块之后，得到的特征图大小为10×10×1152。该HC2Net72结构所输出的第二特征图则包括了大小分别为40×40×288、20×20×576和10×10×1152的3个特征图。

在extra模块部分，10×10×1152的特征图输入至图7中所示的网络结构中，可以得到大小分别为5×5×512和3×3×512的特征图的两个第一特征图。至此，通过HC2Net72和extra模块得到了后续目标检测所需要的金字塔结构的特征图，即待融合特征图。

之后，如图11中所示，将每个层级的待处理特征图(即提取到的各第二特征图和待融合特征图)分别经由图8中所示的检测框修正模块的处理后，即可以得到各待处理特征图分别所对应的初步检测结果，具体包括初始检测框的修正信息和初始检测框的置信度(标识检测框中是否存在目标)。基于检测框修正模块的预测结果可以得到用于目标检测模块预测的目标检测框，如图11中所示的菱形，每个层级的特征图对应各自的目标检测框。

对应于每一个层级的待处理特征图，将其与其所对应的高层级特征经由图10中所示的特征融合模块的处理后，目标检测模块即可基于特征融合模块的输出预测得到最终的目标检测结果。对于本领域技术人员来说清楚的是，对于最后一个层级的待处理特征图，由于该特征图已经是最高层级的特征图，不存在与其对应的高层级的特征图，因此，最后一个层级的待处理特征图的特征融合模块只有该待处理特征图自身，该第一特征图的输出作为前一个层级的待处理特征图所对应的高层级特征图。

需要说明的是，对于本申请各实施例中所描述的目标检测网络中，网络中各构成部分的具体实现方式都是可以根据实际需求进行相应调整的，而不是固定不变的，前文中所给出的只是一些可选示例，并不应理解为对各过程部分的限定。例如，前文中所描述的对主干网络的设计，可以增加或者减少Bottleneck，Res2Block和stage(即第一特征优化模块)的数量，也可以增加或者减少特征层通道数量。在实际应用中，可以根据对目标检测效果和检测速度的考虑，相应的增加模块数或者特征通道数，或者减少模块数或者特征通道数等，即可以根据不同应用场景调节参数。

同样的，文中所描述的extra模块/light-head模块的结构中，也可以进行模块参数的调整，如改变通道数量和卷积核大小等。

对于本申请实施例所提供的目标检测网络的训练过程，可以采用现有的神经网络模型训练方式实现，本申请实施例中不再赘述，如可以采用端到端的模型训练方式，训练时的损失函数的计算可以包括对应于初步检测模块的初步检测损失部分和对应于目标检测模块的目标检测损失部分，其中，初步检测损失部分可以包括检测框定位损失(Anchorlocation loss)和检测框分类损失(Anchor classification loss)，目标检测损失部分可以包括目标位置损失(object location loss)和(object classification loss)。作为一可选方式，该目标检测模型的训练过程可以参照现有RefineDet的模型训练方式，损失函数的选择和计算方式也可以采用RefineDet模型训练时所采用的损失函数及计算方式。

本申请实施例所提供的目标检测网络，可以应用任何需要进行目标检测的应用场景中，如可以应用于图像视频内容推荐、自动驾驶导航、恶意内容检测、特定物品检测等计算机视觉解决任务中。由于其快速轻量的算法特点，该目标检测网络在用于CPU服务器端和移动端等算力不足的场景时，有益效果会更加明显。

为了验证本申请所提供的目标检测网络的效果，采用pytorch1.0.1框架对本申请实施例所提供的目标检测网络进行训练，并使用onnx1.3.0将训练后的目标检测网络从pytorch1.0.1转换成Caffe2测试，测试使所使用的终端设备的配置为：Intel(R)Core(TM)i7-6700 CPU@3.40GHz，即采用的是内核为因特尔酷睿i7-6700，CPU主频为3.40GHz的配置，测试数据集采用开源的MSCOCO检测数据集，基于本申请实施例所提供的目标检测网络所测试出的检测结果与现有开源算法检测结果的比对如下表1所示，其中，表1在pixel 1平台上的测试数据来源于参考论文，i7-6700平台上的测试数据为本申请发明人测试所得的数据。

表1中的时间表示检测时间，mAP@MSCOCO表示在MSCOCO检测数据集上模型检测的平均准确率。由表1可以看出，与现有的检测模型相比，本专利提出的检测模型无论在速度还是精度都有了很大的提升的。

表1不同算法在MSCOCO数据集上mAP和时间对比

模型	平台	时间	mAP@MSCOCO
				YOLOV3-tiny	i7-6700	150ms	18.0
Peleenet[8]	i7-6700	150ms	22.4
				MobileNet+SSDLite[3]	Pixel 1	270ms	22.2
MobileNetV2+SSDLite[3]	Pixel 1	200ms	22.1
				MobileNetV2+SSDLite	i7-6700	140ms	22.1
NAS-FPNLite MobileNetV2(3@48)[5]	Pixel 1	210ms	24.2
				NAS-FPNLite MobileNetV2(7@64)[5]	Pixel 1	285ms	25.7
MobileNet+RefineDet	i7-6700	153ms	24.3
				MobileNetV2+RefineDet	i7-6700	158ms	24.8
本申请所提供的目标检测网络	i7-6700	131ms	26.9

基于与上述目标检测方法相同的原理，本申请实施例提供了一种目标检测装置，该装置主要可以包括

对应于图1中所示的目标检测方法，本申请实施例提供了一种目标检测装置，如图12中所示，该目标检测装置500包括初始特征提取模块510、特征处理模块520、特征融合模块530和目标检测模块540，其中，

初始特征提取模块510，用于提取待处理图像的初始特征图；特征处理模块520，用于对初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；特征融合模块530，用于将初始特征图中的特征和待融合特征图的特征进行融合，得到待处理图像对应的融合特征图；目标检测模块540，用于根据融合特征图确定待处理图像的目标检测结果。

可选的，特征处理模块具体用于：对初始特征图依次进行降低特征图分辨率、降低特征图维度、以及提升特征图维度的处理，得到待融合特征图，其中，待融合特征图的特征维度小于对应的初始特征图的维度。

可选的，初始特征提取模块具体用于：提取待处理图像的第一特征图；基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，得到至少一个层级的第二特征图，初始特征图包括各层级的第二特征图；其中，每次处理对应一个层级的第二特征图，若处理次数为至少两次，则第一次处理所对应的对象为第一特征图，除第一次处理之外的其他处理所对应的对象为上一次处理所得到的第二特征图。

可选的，特征处理模块具体用于：基于最后一次处理得到的第二特征图，进行至少一次降低特征图分辨率和降低特征图维度的处理，得到至少一个层级的待融合特征图；其中，每次处理对应一个层级的待融合特征图，若处理次数为至少两次，则第一次处理所对应的对象为最后一次处理得到的第二特征图，除第一次处理之外的其他处理所对应的对象为上一次处理所得到的待融合特征图。

可选的，初始特征提取模块在基于第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理时，具体用于：基于第一特征图，进行至少一次依次降低特征图维度、降低特征图分辨率以及提升特征图维度的处理。

可选的，初始特征提取模块在基于提升维度后的特征图得到对应于至少两种感受野的特征图时，具体用于：将提升维度后的特征图划分为至少两部分子图；基于每部分子图得到对应一种感受野的特征图。

可选的，特征融合模块具体用于：

待处理图像对应的融合特征图包括各层级的目标特征图。

可选的，目标检测模块在根据融合特征图确定待处理图像的目标检测结果时，具体用于：基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，初步检测结果包括各初始检测框的修正信息和置信度；基于每个层级的待处理特征图各自对应的目标检测框，预测相对应的目标特征图所对应的目标检测结果，其中，目标检测框是基于初始检测框和初始检测框的初步检测结果确定的；根据每个层级的目标特征图所对应的目标检测结果，得到待处理图像的目标检测结果。

可选的，目标检测模块在基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果时，具体用于：对每个层级的待处理特征图分别依次进行降低特征维度、降低图像分辨率、以及提升特征维度的处理，得到每个层级的待处理特征图所对应的第三特征图，其中，第三特征图的维度小于对应的待处理特征图的维度；基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的第三特征图的初步检测结果，得到每个层级的待处理特征图所对应的初步检测结果。

可选的，目标检测模块在对每个层级的待处理特征图分别依次进行降低特征维度、降低图像分辨率、以及提升特征的处理，得到每个层级的待处理特征图所对应的第三特征图时，具体用于：对每个层级的待处理特征图分别依次进行降低特征维度、降低图像分辨率、以及提升特征维度的处理，得到第一降维特征图；对每个层级的待处理特征图进行降维处理，得到第二降维特征图，其中，同一待处理特征图所对应的第一降维特征图和第二降维特征图的感受野不同；将每个层级的待处理特征图所对应的第一降维特征图的特征和第二降维特征图的特征进行融合，得到每个层级的待处理特征图所对应的第三特征图。

可选的，特征融合模块在将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图时，具体用于：对于每个层级的待处理特征图，基于待处理特征图或对应的高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图的特征和高层级特征图的特征的目标特征图。

可选的，特征融合模块在具体用于：降低待处理特征图的维度，并提升对应的高层特征图的分辨率，将降维后的待处理特征图的特征和提升分辨率后的高层特征图的特征进行融合，得到第四特征图；基于第四特征图得到对应于至少两种感受野的特征图，并将对应于至少两种感受野的特征图的特征进行融合，得到目标特征图。

本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器；其中，该存储器中存储有计算机程序；该处理器在运行该计算机程序时可以执行本申请实施例所提供的目标检测方法。

在实际应用中，该电子设备可以为任一能够进行图像中目标检测处理的设备，可以包括但不限于移动终端设备、固定终端设备、服务器等等。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存在有计算机程序，在该计算机程序被处理器运行时可以执行本申请实施例所提供的目标检测方法。

作为一示例，图13示出了本申请实施例所适用一种电子设备的结构示意图，如图13所示，该电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

应该理解的是，以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标检测方法，其特征在于，包括：

提取待处理图像的初始特征图；

对所述初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

将所述初始特征图中的特征和所述待融合特征图的特征进行融合，得到所述待处理图像对应的融合特征图；

根据所述融合特征图确定所述待处理图像的目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图，包括：

对所述初始特征图依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到待融合特征图，其中，所述待融合特征图的特征维度小于对应的所述初始特征图的维度。

3.根据权利要求1所述的方法，其特征在于，所述提取待处理图像的初始特征图，包括：

提取待处理图像的第一特征图；

基于所述第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，得到至少一个层级的第二特征图，所述初始特征图包括各层级的第二特征图；

4.根据权利要求3所述的方法，其特征在于，所述对所述初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图，包括：

其中，每次处理对应一个层级的待融合特征图，若处理次数为至少两次，则第一次处理所对应的对象为所述最后一次处理得到的第二特征图，除第一次处理之外的其他处理所对应的对象为上一次处理所得到的待融合特征图。

5.根据权利要求3所述的方法，其特征在于，所述基于所述第一特征图，进行至少一次降低特征图分辨率和提升特征图维度的处理，包括：

基于所述第一特征图，进行至少一次依次降低特征图维度、降低特征图分辨率、提升特征图维度、基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合的处理。

6.根据权利要求5所述的方法，其特征在于，所述基于提升维度后的特征图得到对应于至少两种感受野的特征图、并将对应于至少两种感受野的特征图的特征进行融合，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于提升维度后的特征图得到对应于至少两种感受野的特征图，包括：

将提升维度后的特征图划分为至少两部分子图；

基于每部分子图得到对应一种感受野的特征图。

8.根据权利要求7所述的方法，其特征在于，所述基于每部分子图得到对应一种感受野的特征图，包括：

9.根据权利要求4所述的方法，其特征在于，所述将所述初始特征图中的特征和所述待融合特征图的特征进行融合，得到所述待处理图像对应的融合特征图，包括：

所述待处理图像对应的融合特征图包括各层级的目标特征图。

10.根据权利要求9所述的方法，其特征在于，所述根据所述融合特征图确定所述待处理图像的目标检测结果，包括：

基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，所述初步检测结果包括各初始检测框的修正信息和置信度；

根据每个层级的目标特征图所对应的目标检测结果，得到所述待处理图像的目标检测结果。

11.根据权利要求10所述的方法，其特征在于，所述基于每个层级的待处理特征图所对应的初始检测框，预测每个层级的待处理特征图所对应的初步检测结果，包括：

12.根据权利要求11所述的方法，其特征在于，所述对每个层级的待处理特征图分别依次进行降低特征图维度、降低特征图分辨率、以及提升特征图维度的处理，得到每个层级的待处理特征图所对应的第三特征图，包括：

13.根据权利要求9所述的方法，其特征在于，所述将每个层级的待处理特征图的特征和相应的高层特征图的特征进行融合，得到每个待处理特征图所对应的目标特征图，包括：

对于每个层级的待处理特征图，基于所述待处理特征图或对应的高层级特征图中的至少一个，得到至少两种感受野的特征图，并根据所得到的至少两种感受野的特征图，得到融合了待处理特征图的特征和高层级特征图的特征的目标特征图。

14.一种目标检测装置，其特征在于，包括：

初始特征提取模块，用于提取待处理图像的初始特征图；

特征处理模块，用于对所述初始特征图的特征图分辨率和特征图维度进行调整，得到待融合特征图；

特征融合模块，用于将所述初始特征图中的特征和所述待融合特征图的特征进行融合，得到所述待处理图像对应的融合特征图；

目标检测模块，用于根据所述融合特征图确定所述待处理图像的目标检测结果。

15.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于通过运行所述计算机程序执行权利要求1至13中任一项中所述的方法。