CN111783878B

CN111783878B - 目标检测方法、装置、电子设备以及可读存储介质

Info

Publication number: CN111783878B
Application number: CN202010611651.XA
Authority: CN
Inventors: 杨叶辉; 王磊; 许言午
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-08-04
Anticipated expiration: 2040-06-29
Also published as: US20210406616A1; CN111783878A; US11436447B2

Abstract

本公开提供一种目标检测方法、装置、电子设备以及可读存储介质，涉及深度学习、计算机视觉、人工智能领域。该方法包括：利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块；提取针对每个候选图像块的相应显著性区域；基于针对每个候选图像块的相应显著性区域，构造针对每个候选图像块的相应目标特征向量；以及利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

Description

目标检测方法、装置、电子设备以及可读存储介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及深度学习、计算机视觉、人工智能领域。

背景技术

在当今网络普及且图像信息爆炸的时代，人类仅通过自身视觉感知系统处理外部图像信息变得越发困难，因而利用计算机进行图像信息处理成为一种有效的方法。研究人员模拟人类能够对图像中感兴趣区域进行迅速关注的视觉感知机制，提出了图像目标检测方法。

目标检测方法在实际工程中起着至关重要的作用，尤其是在军事、医学、交通、安防等领域有着广泛的应用。然而，针对大视场下小目标区域的检测一直是目标检测领域的难题。因为小目标像素少且特征不明显，因此和大目标相比，小目标的检出率和/或准确率一般较低。

发明内容

根据本公开的一个方面，提供一种目标检测方法。该方法包括：利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块；提取针对每个候选图像块的相应显著性区域；基于针对每个候选图像块的相应显著性区域，构造针对每个候选图像块的相应目标特征向量；以及利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

根据本公开的另一个方面，提供一种目标检测装置，包括：第一分类模块，被配置成利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被分类为包含目标的一个或多个候选图像块；提取模块，被配置成提取针对每个候选图像块的相应显著性区域；构造模块，被配置成基于针对每个候选图像块的相应显著性区域，构造针对各候选图像块的相应目标特征向量；以及第二分类模块，被配置利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

根据本公开的另一个方面，提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行本公开中所述的方法。

根据本公开的另一个方面，提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行本公开中所述的方法。

根据本公开的另一个方面，提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现本公开中所述的方法。

本公开提供的目标检测方法、装置、电子设备以及可读存储介质，能够提升目标检出率和/或准确率。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据本公开的一个实施例的目标检测方法的流程图；

图2是示出根据本公开的一个实施例的目标检测方法的示意图；

图3是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图；

图4是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图；

图5是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图；

图6是示出根据本公开的一个实施例的像素邻接关系的示意图；

图7是示出根据本公开的一个实施例的目标检测装置的结构示意图；

图8是示出能够应用于本公开实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

在一些目标检测方法中，为了提升目标尤其是小目标的检出率，往往在浅层特征图进行候选框采样，以便更好地抓住小目标。这是因为在靠近输入浅层特征图的节点，感受野较小，因此能够包含较多的细节信息。

根据一些目标检测方法，还可以通过扩增的方式扩大小目标的样本量，使得算法能通过大量样本学习小目标特征提升检测性能。

然而，利用浅层特征图中的检测候选框虽然一定程度上可以提高小目标的召回率，保证有相对合适的候选框可以包含小目标，但是并没有利用到小目标本身的固有特性，因此是否能从所有候选框中准确找到包含小目标的检测结果，仍然是数据驱动的黑盒判断。

类似地，通过扩增的方式扩大样本量来提升检测性能也是数据驱动的黑盒判断，也没有利用小目标的固有特性。

除此之外，还可以通过插值等方法，增大待检测图像的分辨率。这样，小目标的分辨率也自然变大，使得小目标变得更容易被检测到。

然而，通过插值扩大图像会提高检测框的个数，相应地，在算法运行内存占用和时间代价上都会有所增加，而且也并没有解决小目标占比过小的难题。此外，插值增大分辨率会引入一些人工的细节，进而可能影响算法判断。

为了进一步提升小目标检出率和/或准确率，本申请提出一种目标检测方法，下面结合附图对该目标检测方法的一些示例性实施例和实施方式进行说明。

图1是示出根据本公开的一个实施例的目标检测方法的流程图100。

如图1所示：目标检测方法包括：

步骤101，利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块；

步骤102，提取针对每个候选图像块的相应显著性区域；

步骤103，基于针对每个候选图像块的相应显著性区域，构造针对每个候选图像块的相应目标特征向量；以及

步骤104，利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

基于上述目标检测方法，由于利用了第一分类模型的初步分类结果并且基于显著性区域构造候选图像块的目标特征向量，因此可以利用到小目标本身的固有特性，能够提升小目标的检出率和/或准确率。

以下参照各个附图详细说明根据本公开的实施例的目标检测方法的各个步骤的示例性实施方式。

在步骤101中，利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块。

图2是示出根据本公开的一个实施例的目标检测方法的示意图200。将结合图2说明步骤101中涉及的所述输入图像中包含的多个图像块的示例性获取方法。

根据一些实施方式，所述输入图像中包含的所述多个图像块是利用滑动窗从所述输入图像中获得的。所述多个图像块中的至少一部分图像块之间可以存在重叠。

根据一些实施方式，在利用所述第一分类模型对所述多个图像块进行分类之前，通过所述滑动窗在所述输入图像上滑动而获得全部所述多个图像块。

根据图2的例子，输入图像为一张眼底图像，利用大小为h×h的滑动窗201在输入图像上滑动，获取一系列图像块{X_i}＝{X₁,X₂,X₃,……X_m}，其中，X₁,X₂,X₃,……X_m是获取的图像块，m表示获取的图像块的数量，X_i表示第i个图像块。滑动窗的滑动步长为s,其中s<h，并且s可以为1。滑动方向例如可以为如图2中折线方向所示，先在行方向以步长s滑动，再向下移动步长s，并在向下移动后的行中继续以步长s滑动，如此重复，直至获得一列的图像块。在本公开中，诸如h和s等的长度单位和相应的面积单位可以是像素数或者是任何其他长度单位和面积单位。

可以理解的是，图2中所示的滑动步长以及滑动方向均为示例性描述，本申请不限于此。

在上述描述中，图像块{X_i}是以滑动窗方式获得的，而在其他的实施方式中，图像块{X_i}也可以以anchor方式获得。

示例性地，anchor方式是滑动窗在卷积层的特征图上滑动，滑动窗在特征图上的中心点对应于输入图像中的一个中心点，并且，在以输入图像中的这个中心点为中心从输入图像中获得若干不同面积、不同长宽比例的图像块。

示例性地，虽然在上述描述中，滑动窗被描述为具有h×h的大小，但是特征图上的一个滑动窗也可以对应输入图像中若干个面积不同、长宽比不同的图像块，例如，长宽比分别为1∶1，1∶2，2∶1。

在获得多个图像块{X_i}之后，接下来可以将多个图像块{X_i}中的每一个图像块分别输入到第一分类模型中对每一个图像块进行分类。

根据一些示例性实施方式，该第一分类模型例如可以包括用于分类的深度机器学习网络，例如用于分类的深度神经网络(例如卷积神经网络即CNN网络)。该第一分类网络不限于任何具体结构，例如可以利用ResNet、VGGNet、DenseNet等经典结构，也可以利用其他自建分类网络。

所述目标可以是图像中的任何待检测的目标。例如，所述目标可以是肿瘤病灶、行人、军事目标、存在特殊状况的农业或林业区域、或其他待检测的小目标或微小目标。

根据一些示例性实施方式，步骤101可以包括：由所述第一分类模型输出所述多个图像块中每个图像块包含所述目标的相应概率；以及确定所述多个图像块中的所述概率大于预定阈值的图像块作为所述候选图像块。

根据一些示例性实施方式，在步骤101中，输入图像中包含的多个图像块可被分别输入到第一分类模型，所述第一分类模型可输出每个图像块的相应的置信度，所述置信度是该图像块包含待检测目标的概率。可以预先设定预定阈值(例如根据具体应用来设定适当的阈值)，将置信度大于预定阈值的图像块作为被初步分类为包含目标的候选图像块，而将置信度不大于预定阈值的图像块分类为不包含目标的图像块。

如果预定阈值被设置为较高，则候选图像块中包含待检测目标的概率不容易大于该预定阈值，此时第一分类模型的分类结果准确率较高，但是可能会遗漏目标(例如微小的目标)。如果预定阈值被设为较低，则候选图像块中包含待检测目标的概率较容易大于该预定阈值，此时第一分类模型的分类结果的召回率(检出率)较高，但是也更容易引起误警。

示例性地，为了避免目标(例如小目标或微小目标)被遗漏，可以将预定阈值设为较低的值，例如：0.4或0.5。尽管这样可能会导致第一分类模型引入较多的误警，但是本公开可以进一步通过第二分类模型将第一分类模型中作为误警的候选图像块去除，从而保证目标(例如小目标以及微小目标)的检出率。

根据一些示例性实施方式，所述第一分类模型可以通过利用多个样本图像块而事先进行训练。例如，对于所述多个样本图像块中的每一个，如果通过人工或其他方式确定该样本图像块中包含目标(例如小目标或微小目标)，则将样本图像块的标签(即置信度的设定真实值(ground truth))设为1，而如果通过人工或其他方式确定该样本图像块中不包含目标(例如小目标或微小目标)，则将样本图像块的标签设为0。利用所述多个样本图像块及其标签(置信度的真实值)对该第一分类模型进行训练，以得到经训练的第一分类模型。

根据图2的例子，利用第一分类网络对输入的眼底图像中图像块{X_i}进行分类，获得被初步分类为包含目标的三个候选图像块X₃₆，X₃₈和X₄₇，即认为上述三个图像块中包括目标。

接下来执行步骤102，其中提取针对每个候选图像块的相应显著性区域。

根据一些示例性实施方式，所述第一分类模型可以包括深度神经网络，所述深度神经网络包括输入层、至少一个卷积层和至少一个全连接层。图3是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图，如图3所示，步骤102可以包括：步骤1021，基于所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图，生成针对该候选图像块的类激活图；以及步骤1022，基于针对该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域。

最后一个卷积层输出的特征图通常包含与目标相关的信息，而较少包含与目标以外的其他对象相关的信息。因此，根据这些示例性实施方式，由于基于针对该候选图像块的最后一个卷积层输出的特征图获得所述候选图像块的显著性区域，显著性区域可以较少包含与目标以外的其他对象的信息，从而能够进一步基于目标本身的固有特性来检测目标。

图4是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图。

如图4所示，根据一些示例性实施方式，步骤1021可以包括：步骤102211，对所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图进行全局平均池化，生成针对该候选图像块的类激活图(CAM)。

图5是示出根据本公开的一个实施例的目标检测方法的部分步骤流程图。

如图5所示，根据一些示例性实施方式，步骤1022可以包括：步骤10222，对所述针对该候选图像块的类激活图进行二值化以得到针对该候选图像块的二值化类激活图，所述显著性区域是所述二值化类激活图中的连通区域。

示例性地，如图5所示，步骤1022还可以包括：步骤10221，在进行所述二值化之前，对所述针对该候选图像块的类激活图进行上采样，以使得经上采样的类激活图具有与该候选图像块的尺寸相同的尺寸。根据这种实施方式，步骤10222中的所述二值化是对所述经上采样的类激活图执行的。注意，上采样并非是必须的步骤，也可以不执行此上采样步骤。

示例性地，如图2所示，针对候选图像块X₃₆，X₃₈和X₄₇的从第一分类模型中的最后一个卷积层输出的三个相应特征图，从三个相应特征图中分别提取出对应的显著性区域。针对每一个候选图像块的显著性区域例如可以通过图2中所示的类激活图(“CAM”)或(上采样后的)二值化后的类激活图(“CAM二值化”)来获得。例如，可以将CAM图中像素值高于阈值的连通的图像部分(像素)作为所述显著性区域。例如，也可以将二值化后的CAM图中表示高像素值(例如，像素值为“1”或不为“0”)的连通的图像部分(像素)作为所述显著性区域。

继续执行步骤103，其中基于针对每个候选图像块的相应显著性区域，构造针对每个候选图像块的相应目标特征向量。

在本申请的实施例中，所述多个图像块中的至少一部分图像块之间可以存在重叠，并且其中，步骤S103可以包括：对于每个候选图像块，将针对该候选图像块的目标特征向量构造为包括以下中的至少一个：显著性区域占比特征，表征针对该候选图像块的二值化类激活图中的连通区域的相对大小；显著性区域个数特征，表征针对该候选图像块的二值化类激活图中的连通区域的个数；显著性区域重复覆盖率特征，表征针对该候选图像块的二值化类激活图中的连通区域同时被多少个针对候选图像块的二值化类激活图所包含；以及第一分类模型输出特征，表征该候选图像块包含所述目标的概率。

对于图2的例子，图像块{X_i}之间可以存在着重叠，例如，如图2中所示的，X₁ X₂ X₁₁X₁₂存在着重叠。

示例性地，多个图像块{X_i}中的至少一部分图像块之间存在重叠，能够使得在获取图像块的过程，尽量不遗漏输入图像中处于图像块的边界处的信息，有助于使得待检测目标实际所在的图像块能够被第一分类模型初步分类为包含目标的候选图像块。

示例性地，如图2所示，针对步骤102所生成的显著性区域，构造三个候选图像块X₃₆、X₃₈和X₄₇的相应的目标特征向量203。

本申请的示例性实施例中使用基于视觉显著性的目标特征向量进行进一步分类来进行微小目标检测。根据一些示例性实施方式，由于目标特征向量中可以考虑小目标本身的固有特性，加入微小目标在候选图像块中的先验特征，从而提升小目标的检测性能。

将结合以下详细说明目标特征向量的构成的一些示例性实施方式。

示例性地，步骤103中，构造针对各候选图像块的相应目标特征向量可以具体地包括：对于每个候选图像块，如图2中所示的三个候选图像块X₃₆，X₃₈和X₄₇，将针对三个候选图像块X₃₆，X₃₈和X₄₇的相应目标特征向量203构造为包括以下中的至少一个：显著性区域占比特征；显著性区域个数特征；显著性区域重复覆盖率特征；以及第一分类模型输出特征。

根据一些示例性实施方式，对于第j个候选图像块，前述的显著性区域占比特征例如可以被表示为：

其中，其中，v_kl为针对该候选图像块的二值化类激活图中第k行第l列的像素的像素值，该候选图像块为h×h的图像块，patch area＝h²为该候选图像块的面积。

示例性地，对于候选图像块X₃₆，X₃₈和X₄₇，显著性区域占比特征分别被表示为：

其中，各v_kl分别为候选图像块X₃₆，X₃₈和X₄₇的二值化类激活图中第k行第l列的像素的像素值。

如前文所述的，候选图像块X₃₆，X₃₈和X₄₇的二值化类激活图例如可以为图2中的CAM二值化图。

对于每一个候选图像块的CAM二值图，利用公式计算其中的显著性区域的面积(像素数)salience area，patch area＝h²为该候选图像块的面积(像素数)，因此，在该特征中，/>为显著性区域的面积(像素数)与图像块面积(像素数)的比值。

对于图2所示的例子，任意一个候选图像块的二值化类激活图可以例如包括h×h个像素。例如，可以使得针对候选图像块的二值化类激活图的大小等于输入图像中的该候选图像块的大小，例如通过插值来增大像素数，或者通过平均池化操作来减小像素数。虽然本例子中针对候选图像块的二值化类激活图的面积(像素数)与输入图像中的该候选图像块的面积(像素数)相同，但候选图像块的二值化类激活图的面积(像素数)也可以与输入图像中的该候选图像块的面积(像素数)不同。

示例性地，在对小目标尤其是微小目标进行检测时，该比值的值越小(从而所得到的显著性区域占比特征越大)，表明区域内包含目标的可能性越大。

根据一些示例性实施方式，对于第j个候选图像块，前述的显著性区域个数特征例如可以被表示为：

其中，sailence number为该候选图像块的二值化类激活图中的连通区域(显著性区域)的个数。

示例性地，该个数越大(从而所得到的显著性区域个数特征越大)，表明区域内包含目标的可能性越大，其中，连区域提取可以采用Opencv算法提取。

示例性地，结合图6来说明连通区域的含义，图6是示出根据本公开一个实施例的像素邻接关系的示意图。

如图6所示，在二值化类激活图中，最小的单位是像素，每个像素周围有8个邻接像素，常见的邻接关系有2种：4邻接与8邻接。

如图6中上图所示，4邻接表示中间像素分别跟上、下、左、右4个点邻接。如图6中下图所示，8邻接中还包括了对角线位置的点，分别跟上、下、左、右、左上、左下、右上、右下8个点邻接。

示例性地，如果像素点A与像素B邻接，则A与B连通，并且，如果A与B连通，B与C连通，则A与C连通。

在视觉上看来，彼此连通的点形成了一个区域，而不连通的点形成了不同的区域。这样的一个所有的点彼此连通点构成的集合，则称为一个连通区域。

在本申请的实施例中，既可以采用4邻接法来判断连通区域，也可以采用8邻接法来判断连通区域。对于图2的例子，每个候选图像块X₃₆，X₃₈和X₄₇均各自仅有一个连通区域，因此对于这个例子，每个候选图像块的相应显著性区域个数特征的值均为0。

根据一些示例性实施方式，对于第j个候选图像块，前述的显著性区域重复覆盖率特征被表示为：

其中，hitting times为包含针对该候选图像块的二值化类激活图中的连通区域(显著性区域)的所有针对候选图像块的二值化类激活图的总数。

示例性地，hitting times为该图像块中的显著性区域同时被其他图像块的二值化类激活图检出时，包含此显著性区域的图像块个数。示例性地，显著性区域包含候选图像块的二值化类激活图中的连通区域。

示例性地，由于图像块是利用滑动窗获得，且滑动窗尺寸大于滑动步长，因此部分图像块之间存在重叠。因此，如果一个显著性区域同时被多个图像块的二值化类激活图包含，则说明该显著性区域越有可能包含目标物体击中个数。

示例性地，如果针对一个候选图像块的二值化类激活图中只包含一个连通区域(显著性区域)，且该连通区域不被包含在其他候选图像块中，即该连通区域总共被包含在1个候选图像块中，hitting time为1，因此显著性区域重复覆盖率特征的值为0。如果针对一个候选图像块的二值化类激活图中包含2个连通区域(显著性区域)，其中第一个连通区域还被包含在另一个候选图像块中(即该连通区域总共被包含在2个候选图像块中)，且第二个连通区域还被包含在另2个候选图像块中(即该连通区域总共被包含在3个候选图像块中)，则hitting time为2+3＝5，显著性区域重复覆盖率特征的值为1-1/5＝4/5。

根据一些示例性实施方式，对于第j个候选图像块，所述第一分类模型输出特征被表示为p_j，其中p_j表示所述第一分类模型所确定的、该候选图像块包含所述目标的概率(例如，前文所述的置信度)。

虽然以上描述了用于构建目标特征向量的四种具体的目标特征，但是应该理解，本公开可用的目标特征不限于上述四种具体的目标特征。可以采用任何其他特征来构造目标特征向量。所述目标特征向量中也可以不包含以上四种具体的目标特征中的全部。

对于一个候选图像块，获得各个目标特征之后，例如可将各个目标特征进行拼接以获得目标特征向量。

继续执行步骤104，其中利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

第二分类模型例如可以是经典网络模型，例如，支持向量机、GBDT、贝叶斯分类器等。第二分类模型也可以是深度学习网络，例如深度神经网络。

用于对目标特征向量进行分类的第二分类模型可以是经过训练的第二分类模型。在使用第二分类模型对针对候选图像块的目标特征向量进行分类之前，可以对前述的带有标签(即置信度的真实值(ground truth)，不包含目标则设为0，包含目标则设为1)的样本图像块计算上述的样本特征向量，并且用上述的带有标签的样本图像的样本特征向量对第二分类模型进行训练。可以使用训练后的第二分类模型对针对候选图像块的目标特征向量进行分类。

示例性地，如图2所示，利用第二分类模型202对目标特征向量203进行分类，从而得到三个候选图像块X₃₆，X₃₈和X₄₇是否分别包含目标的分类结果。

对于图2中所述的眼底图片的例子，第二分类网络能够输出三个候选图像块X₃₆，X₃₈和X₄₇是否包含作为目标的微动脉瘤。例如，经过第二分类模型202的分类，分析出候选图像块X₃₆，X₃₈不包含微动脉瘤，而图像块X₄₇包括微动脉瘤。

通过前述的第一分类模型和第二分类模型的两级分类，能够提升目标(例如小目标或微小目标)的检出率。

根据一些示例性实施方式，检测方法还可以包括：对于被所述第二分类模型确定为包含所述目标的候选图像块执行非极大值抑制(non maximum suppression，NMS)，以获得所述输入图像中所包含的全部目标的检测结果。

示例性地，非极大值抑制是指抑制不是极大值的元素，从而搜索局部的极大值。

当从一张图片中找出多个可能是目标的候选图像块，在多个候选图像块中选取出概率最大的候选图像块，从而避免最终输出的分类结果中存在重叠的候选图像块。

与上述几种实施例提供的目标检测方法相对应，本申请的一种实施例还提供一种目标检测装置，由于本申请实施例提供的目标检测装置与上述几种实施例提供的目标检测方法相对应，因此在前述目标检测方法的实施方式也适用于本实施例提供的目标检测装置，在本实施例中不再详细描述。图7是根据本申请一个实施例的目标检测装置的结构示意图。如图7所示，该目标检测装置700可以包括：第一分类模块710、提取模块720、构造模块730和第二分类模块740。具体地，包括：

第一分类模块710，被配置成利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被分类为包含目标的一个或多个候选图像块；

提取模块720，被配置成提取针对每个候选图像块的相应显著性区域；

构造模块730，被配置成基于针对每个候选图像块的相应显著性区域，构造针对各候选图像块的相应目标特征向量；以及

第二分类模块740，被配置利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标。

基于上述目标检测装置，能够提升小目标以及微小目标的检出率。

在本申请的实施例中，其中，所述第一分类模型例如可以包括深度神经网络，所述深度神经网络例如可以包括输入层、至少一个卷积层和至少一个全连接层，并且其中，所述提取针对每个候选图像块的相应显著性区域例如可以包括：基于所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图，生成针对该候选图像块的类激活图；基于该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域。

示例性地，第一分类模型包括深度神经网络，深度神经网络包括输入层、至少一个卷积层和一个全连接层，提取显著性区域的方法可以参考前文目标检测方法中的显著性区域提取方法，在此不再赘述。

在本申请的实施例中，其中，所述多个图像块中的至少一部分图像块之间例如可以存在重叠，并且

其中，所述构造模块例如可以包括：

对于每个候选图像块，将针对该候选图像块的目标特征向量例如可以构造为包括以下中的至少一个的模块：

显著性区域占比特征，表征针对该候选图像块的二值化类激活图中的连通区域的相对大小；

显著性区域个数特征，表征针对该候选图像块的二值化类激活图中的连通区域的个数；

显著性区域重复覆盖率特征，表征针对该候选图像块的二值化类激活图中的连通区域同时被多少个针对候选图像块的二值化类激活图所包含；以及

第一分类模型输出特征，表征该候选图像块包含所述目标的概率。

示例性地，显著性区域占比特征、显著性区域个数特征、显著性区域重复覆盖率特征和第一分类模型输出特征可以参考前文目标检测方法中的目标特征向量的构成，在此不再赘述。

在本申请的实施例中，其中，所述多个图像块例如可以是利用滑动窗从所述输入图像中获得的，并且所述多个图像块中的至少一部分图像块之间存在重叠。

示例性地，多个图像块的生成方法可以参考前文目标检测方法中的图像块的生成方法，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，示出能够应用于本公开实施例的示例性电子设备的结构框图。

电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备800包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的目标检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的目标检测方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的目标检测方法对应的程序指令/模块(例如，附图7所示的第一分类模块710、提取模块720、构造模块730和第二分类模块740)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标检测方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现目标检测方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至用以实现目标检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现目标检测方法的电子设备800还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与用以实现目标检测方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标检测方法，包括：

利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块；

提取针对每个候选图像块的相应显著性区域；

基于针对每个候选图像块的相应显著性区域，构造针对每个候选图像块的相应目标特征向量；以及

利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标，

其中，所述多个图像块中的至少一部分图像块之间存在重叠，并且

其中，所述构造针对各候选图像块的相应目标特征向量包括：

对于每个候选图像块，将针对该候选图像块的目标特征向量构造为包括以下中的至少一个：

2.如权利要求1所述的方法，

其中，所述第一分类模型包括深度神经网络，所述深度神经网络包括输入层、至少一个卷积层和至少一个全连接层，并且

其中，所述提取针对每个候选图像块的相应显著性区域包括：

基于所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图，生成针对该候选图像块的类激活图；

基于针对该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域。

3.如权利要求2所述的方法，

其中，所述基于针对该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域包括：

对所述针对该候选图像块的类激活图进行二值化以得到针对该候选图像块的二值化类激活图，所述显著性区域是所述二值化类激活图中的连通区域。

4.如权利要求3所述的方法，

其中，所述基于针对该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域还包括：

在进行所述二值化之前，对所述针对该候选图像块的类激活图进行上采样，以使得经上采样的类激活图具有与该候选图像块的尺寸相同的尺寸，

其中，所述二值化是对所述经上采样的类激活图执行的。

5.根据权利要求2所述的方法，其中，所述基于所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图，生成针对该候选图像块的类激活图包括：

通过对所述至少一个卷积层中最后一个卷积层输出的针对该候选图像块的特征图进行全局平均池化，生成针对该候选图像块的类激活图。

6.如权利要求1所述的方法，其中，对于第j个候选图像块，所述显著性区域占比特征被表示为：

，

其中，，/>为针对该候选图像块的二值化类激活图中第k行第l列的像素的像素值，该候选图像块为h×h的图像块，/>为该候选图像块的面积。

7.如权利要求1所述的方法，其中，对于第j个候选图像块，所述显著性区域个数特征被表示为：

，

其中，为针对该候选图像块的二值化类激活图中的连通区域的个数。

8.如权利要求1所述的方法，其中，对于第j个候选图像块，所述显著性区域重复覆盖率特征被表示为：

，

其中，为包含针对该候选图像块的二值化类激活图中的连通区域的所有针对候选图像块的二值化类激活图的总数。

9.如权利要求1所述的方法，其中，对于第j个候选图像块，所述第一分类模型输出特征被表示为，其中/>表示针对该候选图像块包含所述目标的概率。

10.根据权利要求1所述的方法，其中，所述利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被初步分类为包含目标的一个或多个候选图像块包括：

由所述第一分类模型输出所述多个图像块中每个图像块包含所述目标的相应概率；以及

确定所述多个图像块中的所述概率大于预定阈值的图像块作为所述候选图像块。

11.根据权利要求1所述的方法，其中，所述多个图像块是利用滑动窗从所述输入图像中获得的，并且所述多个图像块中的至少一部分图像块之间存在重叠。

12.根据权利要求11所述的方法，其中，在利用所述第一分类模型对所述多个图像块进行分类之前，通过所述滑动窗在所述输入图像上滑动而获得全部所述多个图像块。

13.根据权利要求1所述的方法，还包括：

对于被所述第二分类模型确定为包含所述目标的候选图像块进行非极大值抑制，以获得所述输入图像中所包含的全部目标的检测结果。

14.一种目标检测装置，包括：

第一分类模块，被配置成利用第一分类模型对输入图像中包含的多个图像块进行分类，以得到所述多个图像块中被分类为包含目标的一个或多个候选图像块；

提取模块，被配置成提取针对每个候选图像块的相应显著性区域；

构造模块，被配置成基于针对每个候选图像块的相应显著性区域，构造针对各候选图像块的相应目标特征向量；以及

第二分类模块，被配置利用第二分类模型对所述目标特征向量进行分类以确定每个候选图像块是否包含所述目标，

其中，所述构造模块包括：

对于每个候选图像块，将针对该候选图像块的目标特征向量构造为包括以下中的至少一个的模块：

15.根据权利要求14所述的目标检测装置，

基于该候选图像块的类激活图，获得针对该候选图像块的所述显著性区域。

16.一种计算设备，包括：

一个或多个处理器；以及

存储器，其上存储有指令，所述指令当被所述一个或多个处理器执行时，促使所述一个或多个处理器执行权利要求1-13中任一项所述的方法。

17.一种计算机可读存储介质，其上存储有指令，所述指令当被一个或多个处理器执行时，促使所述一个或多个处理器执行权利要求1-13中任一项所述的方法。