CN112418244A

CN112418244A - 目标检测方法、装置和电子系统

Info

Publication number: CN112418244A
Application number: CN202011208215.4A
Authority: CN
Inventors: 朱本金
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-26

Abstract

本发明提供了一种目标检测方法、装置和电子系统；其中，该方法包括：提取待检测图像的图像特征；将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。该方式中，基于待检测图像的前景识别结果调整目标分类结果，从而可以强化属于前景区域的特征，弱化属于背景区域的特征，降低将背景误识别为目标的概率，提高了目标检测效果。

Description

目标检测方法、装置和电子系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种目标检测方法、装置和电子系统。

背景技术

目标检测任务主要包括目标分类和目标检测框回归共两个子任务，常见的目标检测任务主要包括人脸检测任务、行人检测任务等；由于这些检测任务的检测目标较为单一，检测效果较佳；而对于通用物体的目标检测，由于目标种类繁多，影响网络的检测性能，容易出现目标漏检或误检的问题，导致检测效果较差。

发明内容

有鉴于此，本发明的目的在于提供一种目标检测方法、装置和电子系统，以提高目标检测效果。

第一方面，本发明实施例提供了一种目标检测方法，方法包括：提取待检测图像的图像特征；将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。

上述目标检测网络包括分类子网络和位置回归子网络；上述将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果的步骤，包括：将图像特征输入至分类子网络，输出待检测图像的目标分类结果；将图像特征输入至位置回归子网络，输出待检测图像的目标定位结果以及前景识别结果。

上述位置回归子网络包括：第一卷积模块，以及与第一卷积模块分别连接的第一卷积层和第二卷积层；其中，第一卷积模块包括多个串联的卷积层；上述将图像特征输入至位置回归子网络，输出待检测图像的目标定位结果以及前景识别结果的步骤，包括：将图像特征输入至第一卷积模块，输出第一中间结果；将第一中间结果输入至第一卷积层，输出待检测图像的目标定位结果；将第一中间结果输入至第二卷积层，输出待检测图像的前景识别结果。

上述分类子网络包括：第二卷积模块，以及与第二卷积模块连接的第三卷积层；其中，第二卷积模块包括多个串联的卷积层；上述将图像特征输入至分类子网络，输出待检测图像的目标分类结果的步骤，包括：将图像特征输入至第二卷积模块，输出第二中间结果；将第二中间结果输入至第三卷积层，输出待检测图像的目标分类结果。

上述前景识别结果包括：待检测图像中每个像素点属于前景的概率的参数值；目标分类结果包括：待检测图像中的每个像素点属于每个预设目标类别的概率的参数值；上述基于前景识别结果调整目标分类结果的步骤，包括：针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的目标分类结果。

上述针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的目标分类结果的步骤之前，上述方法还包括：将前景识别结果和目标分类结果分别输入至预设的激活函数中，以通过激活函数将前景识别结果和目标分类结果中的各个参数值映射至指定的数值范围内，得到映射后的前景识别结果和目标分类结果；其中，数值范围的最大值为一，最小值为零。

上述提取待检测图像的图像特征的步骤，包括：将待检测图像输入至预设的残差神经网络，得到初始结果；将初始结果输入至预设的特征金字塔网络，输出多尺度的特征图；按照多尺度的特征图的尺度大小，将特征图进行拼接处理，得到待检测图像的图像特征。

第二方面，本发明实施例提供了一种目标检测装置，装置包括：特征提取模块，用于提取待检测图像的图像特征；结果输出模块，用于将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；结果调整模块，用于基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。

第三方面，本发明实施例提供了一种电子系统，电子系统包括：处理设备和存储装置；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述目标检测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述目标检测方法的步骤。

本发明实施例带来了以下有益效果：

上述目标检测方法、装置和电子系统，待检测图像的图像特征输入至预设的目标检测网络后，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；然后基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。该方式中，基于待检测图像的前景识别结果调整目标分类结果，从而可以强化属于前景区域的特征，弱化属于背景区域的特征，降低将背景误识别为目标的概率，提高了目标检测效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种目标检测方法的流程图；

图3为本发明实施例提供的一种目标检测网络的结构示意图；

图4为本发明实施例提供的一种目标检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通用物体目标检测(General Object Detection)是一个重要又影响广泛的任务，其可以看作是各种检测任务的更通用更广泛的版本。如果能解决好通用的目标检测任务，将会对各种特定任务，比如人脸检测、行人检测起到帮助作用。对于通用物体的目标检测，由于目标种类繁多，影响网络的检测性能，容易出现目标漏检或误检的问题，导致检测效果较差。目标检测任务主要包含分类(Classification)任务和检测框回归(Bounding BoxRegression)任务共两个任务，因此，为了提高通用物体目标检测的检测效果，可以从提高分类任务的质量，或者提高检测框回归任务的质量入手。

基于此，本发明实施例提供一种目标检测方法、装置和电子系统；该技术可以应用于各类场景下的目标检测任务中，如人脸检测、行人检测或其他目标的检测。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标检测方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108，另外可以包括一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集预览视频帧或图片数据(如待检测图像或目标视频帧)，并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标检测方法、装置和电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端、摄像机等智能终端。

实施例二：

参见图2所示的一种目标检测方法的流程图，该方法包括如下步骤：

步骤S202，提取待检测图像的图像特征；

该待检测图像可以输入至预先训练完成的特征提取网络中，输出图像特征；待检测图像在输入至特征提取网络之前，可能还需要进行预处理操作，例如，将待检测图像放缩至指定的分辨率，作为示例，该分辨率可以为800*1333。在特征提取网络训练过程中，还可以通过特定的操作扩展样本图像的数量，例如，对已有的样本图像以一定的概率进行翻转操作，具体实现时，可以以50％的概率对样本图像进行横向的翻转操作。上述特征提取网络可以通过多种网络实现，本实施例中，可以通过RetinaNet网络、resnet-50+FPN的网络结构等实现。

步骤S204，将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；

其中的目标分类结果可以为多维矩阵的形式，具体地，该目标分类结果中可以包括针对待检测图像中的每个像素点的分类结果；每个像素点的分类结果包括该像素点属于每个预设类别的分数或概率。上述目标定位结果可以包括多个定位框的位置以及大小等信息。

上述目标检测网络除了输出目标分类结果和目标定位结果以外，还输出前景识别结果。前景识别可以理解为二分类问题，将待检测图像的各个像素点划分为前景和背景；每个像素点对应一个数值，该数值用于指示待检测图像中各个位置属于前景的概率。例如，在实际实现时，该像素点对应的数值越大，该像素点属于前景的概率就越大；该像素点对应的数值越小，该像素点属于背景的概率就越大。

步骤S206，基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。

在大多情况下，图像中包含的目标属于前景；基于此，上述前景识别结果可以强化目标分类结果中，属于前景区域的特征，进而弱化背景区域中的特征；例如，对于属于前景区域的特征可以与一个较大的数值相乘，对于属于背景区域的特征可以与一个较小的数值相乘。通过该方式，可以将背景误识为目标的区域进行弱化，从而避免将背景误识别为目标的情况，降低误识别的几率。

上述目标检测方法中，待检测图像的图像特征输入至预设的目标检测网络后，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；然后基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。该方式中，基于待检测图像的前景识别结果调整目标分类结果，从而可以强化属于前景区域的图像特征，弱化属于背景区域的图像特征，降低将背景误识别为目标的概率，提高了目标检测效果。

实施例三：

本实施例重点描述目标检测网络的网络结构，以及基于该网络结果输出结果的过程。

首先，上述目标检测网络包括分类子网络和位置回归子网络；将图像特征输入至分类子网络，输出待检测图像的目标分类结果；将图像特征输入至位置回归子网络，输出待检测图像的目标定位结果以及前景识别结果。与相关技术中的目标检测网络不同之处在于，位置回归子网络需要输出目标定位结果以及前景识别结果；基于该目的，位置回归子网络需要设置两个分支结构；参见图3所示，上述位置回归子网络包括：第一卷积模块，以及与第一卷积模块分别连接的第一卷积层和第二卷积层；其中，第一卷积模块包括多个串联的卷积层；例如，第一卷积模块具体可以包括四个3*3的二维卷积层；上述第一卷积层具体可以为1*1的二维卷积层；上述第二卷积层也可以为1*1的二维卷积层。

基于上述位置回归子网络，可以将图像特征输入至第一卷积模块，输出第一中间结果；将第一中间结果输入至第一卷积层，输出待检测图像的目标定位结果；将第一中间结果输入至第二卷积层，输出待检测图像的前景识别结果。该目标定位结果中可以包括待检测图像中每个像素点属于预设每个目标类别的分数，分数越高，该像素点属于该目标类别的概率也就越大。同理，上述前景识别结果可以包括待检测图像中每个像素点属于前景或背景的分数，可以设置为，分数越高，该像素点属于前景的概率越大；分数越低，该像素点属于背景的概率越大。

继续参考图3，上述分类子网络包括：第二卷积模块，以及与第二卷积模块连接的第三卷积层；其中，第二卷积模块包括多个串联的卷积层；该第二卷积模块具体可以包括四个3*3的二维卷积层；上述第三卷积层具体可以为1*1的二维卷积层。基于该分类子网络，可以将图像特征输入至第二卷积模块，输出第二中间结果；将该第二中间结果输入至第三卷积层，输出待检测图像的目标分类结果。

在实际实现时，上述位置回归子网络输出的前景识别结果，以及分类子网络输出的目标分类结果中的数值，往往不是0-1之间的概率；但这些数值与概率呈线性关系，即数值越大，所代表的概率值就越大。为了便于通过前景识别结果调整目标分类结果，需要预先对前景识别结果和目标分类结果中的数值映射至一个预设的数值范围内。

一种具体的实现方式中，上述前景识别结果包括：待检测图像中每个像素点属于前景的概率的参数值；上述目标分类结果包括：待检测图像中的每个像素点属于每个预设目标类别的概率的参数值。这里的参数值也可以理解为概率的指示值，参数值的数值范围往往很大，例如可以为0-1000，也可以存在负数。这时，可以通过激活函数，如sigmoid函数，可以将参数值线性地映射至0-1范围内。具体地，将前景识别结果和目标分类结果分别输入至预设的激活函数中，以通过激活函数将前景识别结果和目标分类结果中的各个参数值映射至指定的数值范围内，得到映射后的前景识别结果和目标分类结果；其中，数值范围的最大值为一，最小值为零。

以sigmoid函数为例，首先将前景识别结果输入至sigmoid函数中，通过该sigmoid函数对前景识别结果中的各个参数值进行映射处理，输出映射处理后的前景识别结果；然后将目标分类结果输入至sigmoid函数中，通过该sigmoid函数对目标分类结果中的各个参数值进行映射处理，输出映射处理后的目标分类结果。

通过映射处理后的前景识别结果，调整映射处理后的目标分类结果；具体地，针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的目标分类结果。如果预设目标类别一共为80种，则一个像素点对应80个参数值，这80个参数值分别乘以该像素点属于前景的概率的参数值。如果该像素点属于前景的概率的参数值较大，说明该像素点属于前景的概率较高，该像素点属于每个目标类别的概率的参数，乘以该像素点属于前景的概率的参数值后，该像素点属于每个目标类别的概率的参数会被增强。

但如果该像素点属于前景的概率的参数值较小，甚至趋近于零，说明该像素点属于前景的概率较小，该像素点很大程度上属于背景，由于目标大多属于前景，此时该像素点则不应该被识别为目标。将该像素点属于每个目标类别的概率的参数，乘以该像素点属于前景的概率的参数值后，该像素点属于每个目标类别的概率的参数会被减弱，该像素点被识别为目标的概率会降低，从而避免将该像素点误识别为目标。

上述目标检测网络在训练过程中，可以采用与RetinaNet相同的loss计算方式，计算损失值。具体地，采用的损失函数可以称为Focal loss；该Focal loss函数是在交叉熵函数基础上进行的改进，在交叉熵函数之前增加了一个调整项，用于调整不同概率样板对损失的贡献的大小。

在本实施例提供的目标检测网络的网络结构中，在位置回归子网络中新增了一个网络分支，用于输出待检测图像的前景识别结果，该网络分值也可以称为objectness分支。该分支可以从整体上降低误检(false positive)率，提高模型的召回率(recall)，同时降低漏检(miss)率；上述方法可以显著提高目标检测分类的准确度，降低误检和漏检率，进而整体性的提高目标检测效果。

实施例四：

本实施例重点描述图像特征的提取过程。提取图像特征主要通过主干网络实现，本实施例中，可以采用跟RetinaNet网络提取图像特征，也可以采用与RetinaNet网络相似的残差神经网络和特征金字塔网络(Feature Pyramid Networks，简称FPN)，如图3所示中的主干网络可以通过残差神经网络实现，也可以通过其他网络实现。首先，将待检测图像输入至预设的残差神经网络，得到初始结果；然后将该初始结果输入至预设的特征金字塔网络，输出多尺度的特征图；按照多尺度的特征图的尺度大小，将特征图进行拼接处理，得到待检测图像的图像特征。这里的残差神经网络可以为Resnet-50网络，也可以为其他残差神经网络。

上述多尺度的特征图中包括多张特征图，也可以称为feature map；每张特征图的尺度不同；可以按照特征图尺度由大到小的顺序，将多张特征图依次拼接，然后再输入至上述实施例中的目标检测网络。

实施例五：

对应于上述方法实施例，参见图4所示的一种目标检测装置的结构示意图，该装置包括：

特征提取模块40，用于提取待检测图像的图像特征；

结果输出模块42，用于将图像特征输入至预设的目标检测网络，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；

结果调整模块44，用于基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。

上述目标检测装置中，待检测图像的图像特征输入至预设的目标检测网络后，输出待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，前景识别结果包括待检测图像中各个位置属于前景的概率；然后基于前景识别结果调整目标分类结果；基于目标定位结果和调整后的目标分类结果，确定待检测图像的目标检测结果。该方式中，基于待检测图像的前景识别结果调整目标分类结果，从而可以强化属于前景区域的特征，弱化属于背景区域的特征，降低将背景误识别为目标的概率，提高了目标检测效果。

上述目标检测网络包括分类子网络和位置回归子网络；上述结果输出模块还用于：将图像特征输入至分类子网络，输出待检测图像的目标分类结果；将图像特征输入至位置回归子网络，输出待检测图像的目标定位结果以及前景识别结果。

上述位置回归子网络包括：第一卷积模块，以及与第一卷积模块分别连接的第一卷积层和第二卷积层；其中，第一卷积模块包括多个串联的卷积层；上述结果输出模块还用于：将图像特征输入至第一卷积模块，输出第一中间结果；将第一中间结果输入至第一卷积层，输出待检测图像的目标定位结果；将第一中间结果输入至第二卷积层，输出待检测图像的前景识别结果。

上述分类子网络包括：第二卷积模块，以及与第二卷积模块连接的第三卷积层；其中，第二卷积模块包括多个串联的卷积层；上述结果输出模块还用于：将图像特征输入至第二卷积模块，输出第二中间结果；将第二中间结果输入至第三卷积层，输出待检测图像的目标分类结果。

上述前景识别结果包括：待检测图像中每个像素点属于前景的概率的参数值；目标分类结果包括：待检测图像中的每个像素点属于每个预设目标类别的概率的参数值；上述结果调整模块还用于：针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的目标分类结果。

上述装置还包括映射模块，用于：将前景识别结果和目标分类结果分别输入至预设的激活函数中，以通过激活函数将前景识别结果和目标分类结果中的各个参数值映射至指定的数值范围内，得到映射后的前景识别结果和目标分类结果；其中，数值范围的最大值为一，最小值为零。

上述特征提取模块还用于：将待检测图像输入至预设的残差神经网络，得到初始结果；将初始结果输入至预设的特征金字塔网络，输出多尺度的特征图；按照多尺度的特征图的尺度大小，将特征图进行拼接处理，得到待检测图像的图像特征。

本发明实施例提供的图像处理装置，与上述实施例提供的图像处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例六：

本发明实施例提供了一种电子系统，该电子系统包括：处理设备和存储装置；该存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述目标检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述目标检测方法的步骤。

本发明实施例所提供的目标检测方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

提取待检测图像的图像特征；

将所述图像特征输入至预设的目标检测网络，输出所述待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，所述前景识别结果包括所述待检测图像中各个位置属于前景的概率；

基于所述前景识别结果调整所述目标分类结果；基于所述目标定位结果和调整后的所述目标分类结果，确定所述待检测图像的目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述目标检测网络包括分类子网络和位置回归子网络；

所述将所述图像特征输入至预设的目标检测网络，输出所述待检测图像的目标分类结果、目标定位结果以及前景识别结果的步骤，包括：

将所述图像特征输入至所述分类子网络，输出所述待检测图像的目标分类结果；将所述图像特征输入至所述位置回归子网络，输出所述待检测图像的目标定位结果以及前景识别结果。

3.根据权利要求2所述的方法，其特征在于，所述位置回归子网络包括：第一卷积模块，以及与所述第一卷积模块分别连接的第一卷积层和第二卷积层；其中，所述第一卷积模块包括多个串联的卷积层；

所述将所述图像特征输入至所述位置回归子网络，输出所述待检测图像的目标定位结果以及前景识别结果的步骤，包括：

将所述图像特征输入至所述第一卷积模块，输出第一中间结果；

将所述第一中间结果输入至所述第一卷积层，输出所述待检测图像的目标定位结果；将所述第一中间结果输入至所述第二卷积层，输出所述待检测图像的前景识别结果。

4.根据权利要求2所述的方法，其特征在于，所述分类子网络包括：第二卷积模块，以及与所述第二卷积模块连接的第三卷积层；其中，所述第二卷积模块包括多个串联的卷积层；

所述将所述图像特征输入至所述分类子网络，输出所述待检测图像的目标分类结果的步骤，包括：

将所述图像特征输入至所述第二卷积模块，输出第二中间结果；

将所述第二中间结果输入至所述第三卷积层，输出所述待检测图像的目标分类结果。

5.根据权利要求1所述的方法，其特征在于，所述前景识别结果包括：所述待检测图像中每个像素点属于前景的概率的参数值；所述目标分类结果包括：所述待检测图像中的每个像素点属于每个预设目标类别的概率的参数值；

所述基于所述前景识别结果调整所述目标分类结果的步骤，包括：

针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的所述目标分类结果。

6.根据权利要求5所述的方法，其特征在于，针对每个像素点，将该像素点属于每个预设目标类别的概率的参数值乘以该像素点属于前景的概率的参数值，得到调整后的所述目标分类结果的步骤之前，所述方法还包括：

将所述前景识别结果和所述目标分类结果分别输入至预设的激活函数中，以通过所述激活函数将所述前景识别结果和所述目标分类结果中的各个参数值映射至指定的数值范围内，得到映射后的所述前景识别结果和所述目标分类结果；其中，所述数值范围的最大值为一，最小值为零。

7.根据权利要求1所述的方法，其特征在于，提取待检测图像的图像特征的步骤，包括：

将所述待检测图像输入至预设的残差神经网络，得到初始结果；

将所述初始结果输入至预设的特征金字塔网络，输出多尺度的特征图；

按照所述多尺度的特征图的尺度大小，将所述特征图进行拼接处理，得到所述待检测图像的图像特征。

8.一种目标检测装置，其特征在于，所述装置包括：

特征提取模块，用于提取待检测图像的图像特征；

结果输出模块，用于将所述图像特征输入至预设的目标检测网络，输出所述待检测图像的目标分类结果、目标定位结果以及前景识别结果；其中，所述前景识别结果包括所述待检测图像中各个位置属于前景的概率；

结果调整模块，用于基于所述前景识别结果调整所述目标分类结果；基于所述目标定位结果和调整后的所述目标分类结果，确定所述待检测图像的目标检测结果。

9.一种电子系统，其特征在于，所述电子系统包括：处理设备和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至7任一项所述的目标检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至7任一项所述的目标检测方法的步骤。