CN109815868B

CN109815868B - 一种图像目标检测方法、装置及存储介质

Info

Publication number: CN109815868B
Application number: CN201910034102.8A
Authority: CN
Inventors: 崔志鹏; 王亚彪; 罗栋豪; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2022-02-01
Anticipated expiration: 2039-01-15
Also published as: CN109815868A

Abstract

本发明实施例公开了一种图像目标检测方法、装置及存储介质，本发明实施例可以获取待检测图像，并对所述待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；从每个初始图像块中提取出所述概率大于预设阈值的区域，得到多个候选图像块；将所述多个候选图像块映射至所述待检测图像上，并根据所述多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。该方案对计算资源的需求较低，且检测速度较快，提高了对图像目标检测的效率及目标检测的准确性。

Description

一种图像目标检测方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种图像目标检测方法、装置及存储介质。

背景技术

随着科技的发展，以及深度学习的兴起，对图像中目标进行识别的技术已成为计算机视觉非常重要技术之一，并且使用深度学习在图像目标检测领域中的应用得到巨大的突破，一系列基于深度学习算法的图像目标学习方法被提出来。例如，快速区域卷积神经网络(Faster-RCNN，Faster-Regions with Convolutional Neural Networks features)和YOLO(You Only Look Once)等深度学习算法。通过这些深度学习算法，可以从给定的图像中识别出某个物体所在的区域，如在图像上识别出人、车、或房子等物体。

目前，由于基于Faster-RCNN和YOLO等深度学习的图像目标检测算法的技术重心是放在检测结果的准确率上，因此现有的图像目标检测算法的运行速度并不满足实际场景的落地，且一些相对比较高效的图像目标检测系统的模型非常大，使得现有的图像目标检测系统运行速度较慢，且无法在计算资源配置较小的移动终端上实施，即现有图像目标检测算法普遍存在模型大及速度慢等问题，不仅检测效率低，而且很难满足移动端进行实时检测的需求。

发明内容

本发明实施例提供一种图像目标检测方法、装置及存储介质，旨在提高对图像目标检测的效率及减少计算资源。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种图像目标检测方法，包括：

获取待检测图像，并对所述待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；

分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；

将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；

从每个初始图像块中提取出所述概率大于预设阈值的区域，得到多个候选图像块；

将所述多个候选图像块映射至所述待检测图像上，并根据所述多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

一种图像目标检测装置，包括：

处理单元，用于获取待检测图像，并对所述待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；

第一筛选单元，用于分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；

第一获取单元，用于将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；

提取单元，用于从每个初始图像块中提取出所述概率大于预设阈值的区域，得到多个候选图像块；

映射单元，用于将所述多个候选图像块映射至所述待检测图像上，并根据所述多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

可选地，所述第一获取单元包括：

归一化模块，用于对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块；

第一获取模块，用于将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

可选地，所述第一获取模块具体用于：

将每个归一化后的初始图像块分别划分为多个区域；

调用训练后的第二级检测网络，并通过所述训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息；

根据每个区域对应的类别信息确定每个区域属于目标区域的概率。

可选地，所述提取单元具体用于：

通过所述训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息；

根据所述位置信息确定所述概率大于预设阈值的区域在每个初始图像块中的位置；

根据所述位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块。

可选地，所述图像目标检测装置还包括：

划分单元，用于获取多张包含目标区域的样本图像，并将每张样本图像划分为多个区域；

第二筛选单元，用于调用预设的第一级检测网络，并通过所述第一级检测网络筛选出符合目标区域类型的区域，得到多个目标图像块；

第一计算单元，用于通过第二级检测网络计算每个目标图像块对应的类别信息和位置信息，得到预测类别信息和预测位置信息；

第二获取单元，用于获取每个目标图像块对应的真实类别信息和真实位置信息；

第一训练单元，用于采用第一预设损失函数对所述预测类别信息和所述真实类别信息进行收敛，以及采用第二预设损失函数对所述预测位置信息和所述真实位置信息进行收敛，以对第二级检测网络进行训练，得到训练后的第二级检测网络。

可选地，所述第一筛选单元包括：

第二获取模块，用于获取每张缩放后图像上预设的多个初始框；

判定模块，用于调用训练后的第一级检测网络，并通过所述训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；

第一筛选模块，用于根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块。

可选地，所述第二获取模块具体用于：

在每张缩放后图像上分别设置预设个数的初始框；

当每张缩放后图像上预设个数的初始框未能覆盖所述缩放后图像时，按照预设策略增加初始框，直至多个初始框能覆盖所述缩放后图像，得到多个初始框。

可选地，所述第一筛选模块具体用于：

根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框，得到目标初始框；

通过所述训练后的第一级检测网络对每个目标初始框进行位置识别，得到每个目标初始框对应的位置信息；

根据所述位置信息从每张缩放后图像中，提取出所述目标初始框所在区域，得到多个初始图像块。

可选地，所述图像目标检测装置还包括：

设置单元，用于获取多张包含目标区域的样本图像，并在每张样本图像上分别设置多个检测框；

第二计算单元，用于通过第一级检测网络计算每张样本图像上每个检测框内的区域对应的类别信息和位置信息，得到预测类别信息和预测位置信息；

第三获取单元，用于获取每张样本图像上每个检测框对应的真实类别信息和真实位置信息；

第二训练单元，用于采用第三预设损失函数对所述预测类别信息和所述真实类别信息进行收敛，以及采用第四预设损失函数对所述预测位置信息和所述真实位置信息进行收敛，以对所述第一级检测网络进行训练，得到训练后的第一级检测网络。

可选地，所述映射单元包括：

调整模块，用于将所述多个候选图像块的分辨率分别调整为所述待检测图像的分辨率一致，得到目标候选图像块；

查找模块，用于从所述待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；

第二筛选模块，用于根据所述多个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

可选地，所述第二筛选模块具体用于：

获取每个匹配区域属于目标区域的概率，并从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域；

分别计算多个匹配区域中除了当前区域外的其他区域，与所述当前区域之间的重合度，得到多个重合度；

根据所述多个重合度，从所述其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到目标区域。

一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种图像目标检测方法中的步骤。

本发明实施例可以获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；以及分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；然后可以将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；其次可以从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；此时可以将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。该方案由于可以从缩放后图像中筛选出初始图像块，并基于对初始图像块进一步划分为多个区域来检测得到目标区域，因此整个检测过程对计算资源的需求较低，即对配置资源的需求较低，且对图像目标检测的速度较快，有效解决了现有图像目标检测方法模型大及所需计算资源多而很难满足移动终端进行实时检测的需求，及检测速度慢等技术问题，提高了对图像目标检测的效率，并且可以对多张缩放后图像进行处理及精准筛选候选图像块所在的区域作为目标区域，提高了目标检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像目标检测方法的流程示意图；

图2是本发明实施例提供的图像目标检测方法的另一流程示意图；

图3是本发明实施例提供的图像目标检测的结构示意图；

图4是本发明实施例提供的第一级检测网络的示意图；

图5是本发明实施例提供的第二级检测网络的示意图；

图6是本发明实施例提供的初始框设置的示意图；

图7是本发明实施例提供的初始框致密化的示意图；

图8是本发明实施例提供的人脸检测过程的示意图；

图9是本发明实施例提供的图像目标检测装置的结构示意图；

图10是本发明实施例提供的图像目标检测装置的另一结构示意图；

图11是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的图像目标检测方法以及图像目标检测装置可设置在任何的网络设备中，用于对图片或照片的中人、车或房子等目标物体进行检测操作。该网络设备可以包括终端或服务器等，该终端包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA，Personal DigitalAssistant)、媒体播放器等等)、多处理器系统、消费型终端、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。该终端优选为安装有图像目标检测应用的移动终端，该移动终端可对图像中的目标区域进行快速提取，且对移动终端自身的配置资源的需求较低。

本发明实施例提供一种图像目标检测方法、装置及存储介质，以下分别进行详细说明。

在本实施例中，将从图像目标检测装置的角度进行描述，该图像目标检测装置具体可以集成在服务器或终端等网络设备中。

一种图像目标检测方法，包括：获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

请参阅图1，图1是本发明一实施例提供的图像目标检测方法的流程示意图。该图像目标检测方法可以包括：

在步骤S101中，获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像。

其中，待检测图像中可以包含人脸、车辆、动物或房子等物体，还可以包括其他的物体，该人脸可以是正面的人脸(即正脸)，或者任意角度的人脸(即侧脸)等，该人脸还可以是任意表情的人脸，该车辆、动物和房子的类型可以根据实际需要进行灵活设置，具体内容在此处不作限定。

待检测图像的获取方式可以包括：在拍照的过程中，通过拍照摄像头采集到待检测图像；或者是，从本地存储空间中加载预存的待检测图像；或者是，从服务器上的图像数据库中下载得到待检测图像等，或者是，通过监控设备采集待检测图像；当然，待检测图像也可以是通过其他方式获取到，具体获取方式在此处不作限定。

在得到待检测图像后，为了得到不同尺寸的图像系列，可以对待检测图像按照不同分辨率(或者按照预设比例)分别进行缩小或放大处理，得到多张不同分辨率的缩放后图像，该多张缩放后图像可以包括未进行缩放处理的待检测图像，该多张缩放后图像可以形成图像金字塔结构。其中，不同分辨率可以根据实际需要进行灵活设置。

缩放后图像的张数可以根据实际需要进行灵活设置，例如，缩放后图像可以包括3张或4张等，这样采样较少的张数的缩放后图像，可以提高图像目标检测的速度。此外，在得到多张缩放后图像后，后续可以对多张缩放后图像分别进行检测，从而可以检测出较多的区域范围，以便检出所有尺寸的目标区域。

在步骤S102中，分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块。

在得到多张缩放后图像后，可以从分别从每张缩放后图像中筛选符合目标区域类型的区域，例如，可以检测将每张缩放后图像分别划分为多个区域，然后检测每个区域内的像素点，根据区域内的像素点确定该区域属于目标区域类型的概率，并从多个区域中筛选出概率大于预设概率阈值的区域，该筛选出的区域为符合目标区域类型的区域，从而可以将筛选出的区域作为初始图像块，得到多个初始图像块。

例如，当目标区域类型为人脸时，可以从每张缩放后图像中筛选符合人脸的区域，得到多个初始图像块；当目标区域类型为车辆时，可以从每张缩放后图像中筛选符合车辆的区域，得到多个初始图像块；当目标区域类型为动物时，可以从每张缩放后图像中筛选符合动物的区域，得到多个初始图像块。

在某些实施方式中，分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块可以包括：获取每张缩放后图像上预设的多个初始框；调用训练后的第一级检测网络，并通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块。

为了提高检测的精度，可以利用初始框的形式划分缩放后图像，并对每个初始框内的区域进行检测，其中，可以在每张缩放后图像上预先设置多个初始框，该初始框可以用于将缩放后图像划分为多个区域，该初始框的形状、大小(即尺寸)、个数及位置等可以根据实际需要进行灵活设置，例如，每个初始框的形状、大小及位置等可以不同，或者初始框之间可以存在部分重叠等。当需要进行目标检测时，可以可以获取每张缩放后图像上预设的多个初始框，以便对初始框内的区域进行检测等。

需要说明的是，也可以在待检测图像上预先设置多个初始框，当对待检测图像按照不同分辨率分别进行缩放处理时，该多个初始框也随着待检测图像进行相应的缩放处理，从而得到的多张缩放后图像上也会存在多个初始框，此时可以获取每张缩放后图像上预设的多个初始框。

在某些实施方式中，获取每张缩放后图像上预设的多个初始框可以包括：在每张缩放后图像上分别设置预设个数的初始框；当每张缩放后图像上预设个数的初始框未能覆盖缩放后图像时，按照预设策略增加初始框，直至多个初始框能覆盖缩放后图像，得到多个初始框。

由于多个初始框之间的间隔可能较大，或者尺寸较小的初始框分布较为稀疏等，使得缩放后图像上较多位置没有得到初始框的覆盖，导致检测效果不好等，因此，为了提高检测的准确性及提升检测效果，可以对初始框进行致密化操作。例如，在每张缩放后图像上分别设置预设个数的初始框后，可以判断缩放后图像上的预设个数的初始框是否可以覆盖该缩放后图像，如果可以覆盖，则不需要执行初始框的致密化操作；当缩放后图像上预设个数的初始框未能覆盖该缩放后图像时，可以执行初始框的致密化操作，初始框的致密化过程可以是按照预设策略在已经设置预设个数的初始框的基础上增加初始框，直至多个初始框能覆盖缩放后图像，得到多个初始框。其中，该预设策略可以根据实际需要进行灵活设置，例如，当某个初始框的周围存在未被覆盖的图像区域时，可以直接在该初始框周围在未被覆盖的图像区域增加一个或多个初始框；或者，以该初始框为移动中心，复制该初始框，并按照预设步长(例如预设个像素点)向未被覆盖的图像区域移动复制后的初始框，得到一个新增的初始框，以此类推，复制并移动其他初始框，直至多个初始框能覆盖缩放后图像。

在得到每张缩放后图像上预设的多个初始框后，可以调用训练后的第一级检测网络，该第一级检测网络的类型可以根据实际需要进行灵活设置，例如，第一级检测网络可以包括五层卷积层，每层卷积层的核数可以均为3核，第一卷积层的通道数可以是16，第二卷积层的通道数可以是24，第三卷积层的通道数可以是32，第四卷积层的通道数可以是64，第五卷积层的通道数可以是128等，因此该第一级检测网络的网络模型较小，对配置资源的需求较小，该第一级检测网络还可以包括类别判定和位置识别等功能，该第一级检测网络用于筛选符合目标区域类型的初始图像块。

此时，可以通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，例如，可以将每张缩放后图像分别输入训练后的第一级检测网络，通过训练后的第一级检测网络依次执行五层卷积操作，输出每张缩放后图像对应特征图，然后基于特征图对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息，该类别信息可以包括所属的类别和属于该类别的概率等。例如，当初始框A内的区域所属的类别为人脸时，可以计算出该区域内属于人脸的概率和不属于人脸的概率等，当初始框B内的区域所属的类别为车辆时，可以计算出该区域内属于车辆的概率和不属于车辆的概率等。通过训练后的第一级检测网络进行类别判定，可以快速及准确检测出类别信息。

在得到每个初始框对应的类别信息后，可以根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块。例如，若需要对人脸进行检测，则可以根据每个初始框内区域所属人脸类别和属于人脸类别的概率等类别信息，从每张缩放后图像中筛选属于人脸类别的概率大于预设值(预设值可以根据实际需要进行灵活设置)的初始框，筛选出的该初始框符合人脸区域类型，此时可以将提取筛选出的符合人脸区域类型的初始框所在区域，得到多个初始图像块。又例如，若需要对车辆进行检测，则可以根据每个初始框内区域所属车辆类别和属于车辆类别的概率等类别信息，从每张缩放后图像中筛选属于车辆类别的概率大于预设值(预设值可以根据实际需要进行灵活设置)的初始框，筛选出的该初始框符合车辆区域类型，此时可以将提取筛选出的符合车辆区域类型的初始框所在区域，得到多个初始图像块。

在某些实施方式中，根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块可以包括：根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框，得到目标初始框；通过训练后的第一级检测网络对每个目标初始框进行位置识别，得到每个目标初始框对应的位置信息；根据位置信息从每张缩放后图像中，提取出目标初始框所在区域，得到多个初始图像块。

为了能够精准提取出所需的初始图像块，可以通过训练后的第一级检测网络对初始框进行位置识别来获取位置信息，具体地，可以根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框，得到目标初始框；例如，可以根据每个初始框内区域所属人脸类别和属于人脸类别的概率等类别信息，从每张缩放后图像中筛选属于人脸区域类型的初始框，得到目标初始框。然后，通过训练后的第一级检测网络对每个目标初始框进行位置识别，得到每个目标初始框对应的位置信息，该位置信息可以根据实际需要进行灵活设置，例如，可以获取每个目标初始框的中心点的坐标信息(x，y)，以及目标初始框的宽度和高度，根据该坐标信息、宽度和高度即可确定每个目标初始框对应的位置信息；或者是，可以获取每个目标初始框对角线上两个顶角的坐标信息，根据该坐标信息即可确定每个目标初始框对应的位置信息；等等。此时，可以根据位置信息从每张缩放后图像中，提取出目标初始框所在区域，得到多个初始图像块。

在某些实施方式中，通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息之前，图像目标检测方法还可以包括：获取多张包含目标区域的样本图像，并在每张样本图像上分别设置多个检测框；通过第一级检测网络计算每张样本图像上每个检测框内的区域对应的类别信息和位置信息，得到预测类别信息和预测位置信息；获取每张样本图像上每个检测框对应的真实类别信息和真实位置信息；采用第三预设损失函数对预测类别信息和真实类别信息进行收敛，以及采用第四预设损失函数对预测位置信息和真实位置信息进行收敛，以对第一级检测网络进行训练，得到训练后的第一级检测网络。

为了提高第一级检测网络进行目标检测的准确性及可靠性，在应用第一级检测网络进行目标检测之前，可以先对第一级检测网络进行训练，具体地，首先获取多张包含目标区域的样本图像，例如，可以通过预先设置的摄像头、摄像机或照相机等采集多张样本图像，或者是，可以从终端本地或服务器上获取多张样本图像等。该目标区域可以包括人脸区域、车辆区域、房子区域或动物区域等中的任意一种或多种组合，即当仅需要对人脸进行检测时，样本图像中包含人脸区域；当需要对人脸和车辆进行检测时，样本图像中包含人脸区域和车辆区域，此时可以为人脸区域和车辆区域设置不同的标签，以区分人脸区域和车辆区域。

例如，当目标区域为人脸区域时，可以采集多个用户的人脸图像，为了提高对第一级检测网络训练的精准性，可以获取多个用户且不同表情的人脸图像，以及获取包括正脸或者侧脸的人脸图像等，并将得到的人脸图像作为样本图像，从而可以丰富样本图像，以便更好地对第一级检测网络进行训练。

又例如，当目标区域为车辆区域时，可以采集多种类型的车辆图像，包括不同品牌的汽车、自行车、摩托车及大巴车等，以及包括正面或侧面等不同角度的车辆图像等，并将得到的车辆图像作为样本图像，从而可以丰富样本图像，以便提高第一级检测网络训练的精准性。

又例如，当目标区域为动物区域时，可以采集多种类型的动物图像，包括不同大小的猫、狗、猪、牛、马、鸡、及猴子等，以及包括正面或侧面等不同角度的动物图像等，并将得到的动物图像作为样本图像，从而可以样本图像的多样性，以便提高第一级检测网络训练的精准性。

在得到样本图像后，可以在每张样本图像上分别设置多个检测框，该检测框可以用于将样本图像划分为多个区域，该检测框的形状、大小、个数及位置等可以根据实际需要进行灵活设置，例如，每个初始框的大小及位置等可以不同。然后，通过第一级检测网络分别计算每张样本图像上每个检测框内的区域对应的类别信息，得到预测类别信息，以及通过第一级检测网络分别计算每张样本图像上每个检测框内的区域对应的位置信息，得到预测位置信息。以及，需要获取每张样本图像上每个检测框内区域实际的类别信息，得到真实类别信息，并且，获取每张样本图像上每个检测框内区域实际的位置信息，得到真实位置信息，该真实类别信息和真实位置信息可以是预先得到的准确的信息。

其次，采用第三预设损失函数对预测类别信息和真实类别信息进行收敛，例如，通过调整第一级检测网络的参数或权重等至合适数值，降低预测类别信息和真实类别信息之间的误差，以及采用第四预设损失函数对预测位置信息和真实位置信息进行收敛，例如，通过调整第一级检测网络的参数或权重等至合适数值，降低预测位置信息和真实位置信息之间的误差，从而可以对第一级检测网络进行训练，最后可以得到训练后的第一级检测网络。其中，该第三预设损失函数和第四预设损失函数可以根据实际应用需求进行灵活设置。

由于第一级检测网络可以包括仅五层卷积层，且通道数较少，因此该第一级检测网络的网络模型较小，对配置资源的需求较小，在对第一级检测网络进行训练，得到训练后的第一级检测网络后，可以利用训练后的第一级检测网络进行图像目标检测，不仅可以提高检测效率，而且在移动终端上进行实施检测，还可以保证检测的准确性。

在步骤S103中，将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

在得到多个初始图像块，可以将每个初始图像块分别划分为多个区域，例如，可以在每个初始图像块上设置多个初始框，每个初始框内的区域即为初始图像块所划分的区域，该区域的个数、位置、大小及形状等可以根据实际需要进行灵活设置，例如，可以划分为4个区域，每个区域之间可以存在重叠的部分或不存在重叠的部分等。然后，检测每个区域内的像素点，根据区域内的像素点确定该区域属于目标区域类型的概率，例如，可以从多个区域中筛选出属于目标区域类型的概率大于预设概率阈值的区域，该筛选出的区域为符合目标区域类型的区域，从而可以得到属于目标区域的概率。

例如，当目标区域为人脸区域时，可以将每个初始图像块划分为多个区域，并获取每个区域属于人脸区域的概率；当目标区域为车辆区域时，可以将每个初始图像块划分为多个区域，并获取每个区域属于车辆区域的概率；当目标区域为动物区域时，可以将每个初始图像块划分为多个区域，并获取每个区域属于动物区域的概率。

在某些实施方式中，将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率可以包括：对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块；将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

由于得到的多个初始图像块的尺寸可能不同，因此为了提高对初始图像块的检测效率及准确性，可以对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块。其中，归一化后的初始图像块的尺寸可以根据实际需要进行灵活设置，例如，可以将每个初始图像块归一化为36*36的图像块，36*36可以是指初始图像块的高和宽均为36个像素点。此时，后续仅需要对归一化后的初始图像块进行处理，即将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率，大大提高了对初始图像块的检测效率。

在某些实施方式中，将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率可以包括：将每个归一化后的初始图像块分别划分为多个区域；调用训练后的第二级检测网络，并通过训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息；根据每个区域对应的类别信息确定每个区域属于目标区域的概率。

为了提高检测的精准性，可以利用训练后的第二级检测网络获取类别信息，具体地，首先将每个归一化后的初始图像块分别划分为多个区域，该区域的个数、位置、大小及形状等可以根据实际需要进行灵活设置，然后，调用训练后的第二级检测网络，该训练后的第二级检测网络的类型可以根据实际需要进行灵活设置，例如，第二级检测网络可以包括七层卷积层，每层卷积层的核数可以均为3核，第一卷积层的通道数可以是16，第二卷积层的通道数可以是24，第三卷积层的通道数可以是32，第四卷积层的通道数可以是48，第五卷积层的通道数可以是64，第六卷积层的通道数可以是128，第七卷积层的通道数可以是128等，因此该第二级检测网络的网络模型较小，对配置资源的需求较小，该第二级检测网络还可以包括类别判定和位置识别等功能，该第二级检测网络用于计算初始图像块上每个区域属于目标区域的概率，并筛选出符合条件的候选图像块。

此时，可以通过训练后的第二级检测网络对每个归一化后的初始图像块上划分的每个区域进行类别判定，例如，可以将每个归一化后的初始图像块分别输入训练后的第二级检测网络，通过训练后的第二级检测网络依次执行七层卷积操作，输出每个归一化后的初始图像块对应特征图，然后基于特征图对每个归一化后的初始图像块上划分的每个区域进行类别判定，得到每个区域对应的类别信息，该类别信息可以包括所属的类别和属于该类别的概率等。最后可以根据每个区域对应的类别信息确定每个区域属于目标区域的概率，例如，当区域A所属的类别为人脸时，可以计算出该区域A属于人脸的概率，当区域B所属的类别为车辆时，可以计算出该区域B属于车辆的概率等。通过训练后的第二级检测网络进行类别判定，可以快速及准确检测出各区域属于目标区域的概率。

在步骤S104中，从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块。

在某些实施方式中，从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块可以包括：通过训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息；根据位置信息确定概率大于预设阈值的区域在每个初始图像块中的位置；根据位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块。

在得到每个初始图像块上各个区域属于目标区域的概率后，可以从每个初始图像块中提取出概率大于预设阈值的区域，该预设阈值可以根据实际需要进行灵活设置。为了能够精准提取出所需的候选图像块，可以通过训练后的第二级检测网络对初始图像块上各个区域进行位置识别来获取位置信息，具体地，可以通过训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息，该位置信息可以根据实际需要进行灵活设置，例如，可以获取每个区域的中心点的坐标信息，以及每个区域的宽度和高度，根据该坐标信息、宽度和高度即可确定每个区域对应的位置信息；或者是，可以获取每个区域对角线上两个顶角的坐标信息，根据该坐标信息即可确定每个目标初始框对应的位置信息；等等。此时，可以根据位置信息确定概率大于预设阈值的区域在每个初始图像块中的位置，从而可以根据该位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块，提高了提取满足条件的候选图像块的精准性。

在某些实施方式中，通过训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息之前，图像目标检测方法还可以包括：获取多张包含目标区域的样本图像，并将每张样本图像划分为多个区域；调用预设的第一级检测网络，并通过第一级检测网络筛选出符合目标区域类型的区域，得到多个目标图像块；通过第二级检测网络计算每个目标图像块对应的类别信息和位置信息，得到预测类别信息和预测位置信息；获取每个目标图像块对应的真实类别信息和真实位置信息；采用第一预设损失函数对预测类别信息和真实类别信息进行收敛，以及采用第二预设损失函数对预测位置信息和真实位置信息进行收敛，以对第二级检测网络进行训练，得到训练后的第二级检测网络。

为了提高第二级检测网络进行目标检测的准确性及可靠性，在应用第二级检测网络进行目标检测之前，可以先对第二级检测网络进行训练，具体地，首先获取多张包含目标区域的样本图像，例如，可以通过预先设置的摄像头、摄像机或照相机等采集多张样本图像，或者是，可以从终端本地或服务器上获取多张样本图像等。该目标区域可以包括人脸区域、车辆区域、房子区域或动物区域等中的任意一种或多种组合，即当仅需要对人脸进行检测时，样本图像中包含人脸区域；当需要对人脸和车辆进行检测时，样本图像中包含人脸区域和车辆区域，此时可以为人脸区域和车辆区域设置不同的标签，以区分人脸区域和车辆区域。

例如，当目标区域为人脸区域时，可以采集多个用户的人脸图像，为了提高对第二级检测网络训练的精准性，可以获取多个用户且不同表情的人脸图像，以及获取包括正脸或者侧脸的人脸图像等，并将得到的人脸图像作为样本图像，从而可以丰富样本图像，以便更好地对第二级检测网络进行训练。

又例如，当目标区域为车辆区域时，可以采集多种类型的车辆图像，包括不同品牌的汽车、自行车、摩托车及大巴车等，以及包括正面或侧面等不同角度的车辆图像等，并将得到的车辆图像作为样本图像，从而可以丰富样本图像，以便提高第二级检测网络训练的精准性。

又例如，当目标区域为动物区域时，可以采集多种类型的动物图像，包括不同大小的猫、狗、猪、牛、马、鸡、及猴子等，以及包括正面或侧面等不同角度的动物图像等，并将得到的动物图像作为样本图像，从而可以样本图像的多样性，以便提高第二级检测网络训练的精准性。

在得到样本图像后，可以将每张样本图像划分为多个区域，例如，可以在每张样本图像上分别设置多个检测框，该检测框可以用于将样本图像划分为多个区域，该检测框的形状、大小、个数及位置等可以根据实际需要进行灵活设置。然后，调用预设的第一级检测网络，并通过第一级检测网络筛选出符合目标区域类型的区域，得到多个目标图像块，例如，筛选出符合人脸区域类型的区域，得到多个人脸图像块。其中，第一级检测网络与上述提及的第一级检测网络一致，该第一级检测网络与第二级检测网络进行级联，该第一级检测网络可以是训练后的第一级检测网络，或者是，该第一级检测网络可以是与第二级检测网络一起正在训练。

其次，将每个目标图像块划分为多个区域，该区域的形状、大小、个数及位置等可以根据实际需要进行灵活设置，通过第二级检测网络分别计算每个目标图像块上各个区域对应的类别信息，得到预测类别信息，以及通过第二级检测网络分别计算每个目标图像块上各个区域对应的位置信息，得到预测位置信息。以及，需要获取每个目标图像块上各个区域实际的类别信息，得到真实类别信息，并且，获取每个目标图像块上各个区域实际的位置信息，得到真实位置信息，该真实类别信息和真实位置信息可以是预先得到的准确的信息。

最后，采用第一预设损失函数对预测类别信息和真实类别信息进行收敛，例如，通过调整第二级检测网络的参数或权重等至合适数值，降低预测类别信息和真实类别信息之间的误差，以及采用第二预设损失函数对预测位置信息和真实位置信息进行收敛，例如，通过调整第二级检测网络的参数或权重等至合适数值，降低预测位置信息和真实位置信息之间的误差，从而可以对第二级检测网络进行训练，可以得到训练后的第二级检测网络。其中，该第一预设损失函数和第二预设损失函数可以根据实际应用需求进行灵活设置。

由于第二级检测网络可以包括仅七层卷积层，且通道数较少，因此该第二级检测网络的网络模型较小，对配置资源的需求较小，在对第二级检测网络进行训练，得到训练后的第二级检测网络后，可以利用训练后的第二级检测网络进行图像目标检测，不仅可以提高检测效率，而且在移动终端上进行实施检测，还可以保证检测的准确性。

需要说明的是，第一级检测网络和第二级检测网络，可以根据实际需要更换成其他网络结构，如可分离卷积、轻量化卷积神经网络squeezenet等。

在步骤S105中，将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

在得到多个候选图像块后，可以基于多个候选图像块在待检测图像上确定目标区域。

在某些实施方式中，将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域可以包括：将多个候选图像块的分辨率分别调整为待检测图像的分辨率一致，得到目标候选图像块；从待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；根据多个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

具体地，由于在获取到待检测图像后，已经对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像，并对缩放后图像进行后续的处理得到候选图像块，因此，后续得到的候选图像块是从缩放后图像上提取下来的，此时，为了能够在待检测图像上确定出目标区域，需要将多个候选图像块的分辨率分别调整为待检测图像的分辨率一致，得到目标候选图像块。然后，从待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域，例如，可以将目标候选图像块上的像素值与待检测图像的像素值进行比较，查找与目标候选图像块上所有像素值之间相似度最高的区域，得到匹配区域。其次，在得到每个目标候选图像块对应的匹配区域后，可以计算各个匹配区域之间的重合度，最后可以根据各个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域。其中，预设条件可以根据实际需要进行灵活设置，例如，可以采用非极大值抑制(NMS，Non-Maximum Suppression)算法来筛选出目标区域。

在某些实施方式中，根据多个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域可以包括：获取每个匹配区域属于目标区域的概率，并从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域；分别计算多个匹配区域中除了当前区域外的其他区域，与当前区域之间的重合度，得到多个重合度；根据多个重合度，从其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到目标区域。

例如，由于可以获取到初始图像块上各个区域属于目标区域的概率，且候选图像块为初始图像块上概率大于预设阈值的区域，因此可以将候选图像块属于目标区域的概率，作为与其对应的匹配区域属于目标区域的概率，在得到每个匹配区域属于目标区域的概率后，可以从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域，当概率最高的匹配区域存在多个时，可以随机将其中一个概率最高的匹配区域作为当前区域。然后，获取多个匹配区域中除了当前区域外的其他区域，并分别计算其他区域与当前区域之间的重合度，两个区域之间的重合度计算公式可以如下：

其中，IOU(A，B)表示区域A和区域B之间的重合度，|A∩B|表示区域A和区域B之间的交集面积，该交集面积即为区域A和区域B之间重叠部分的面积，|A∪B|表示区域A和区域B之间的并集面积，该并集面积即为区域A和区域B之间并集的面积。

在得到重合度后，可以判断该重合度是否大于预设值，该预设值可以根据实际需要进行灵活设置，若该重合度大于预设值，则去除该重合度大于预设值对应的其他区域，保留当前区域；若该重合度小于或等于预设值，则保留该重合度大于预设值对应的其他区域，去除当前区域。例如，当区域A为概率最高的匹配区域时，将区域A即为当前区域，此时计算区域A和区域B之间的重合度，若判定该重合度大于预设值，则将区域B去除，保留区域A；若判定该重合度小于或等于预设值，则将区域A去除，保留区域B。在计算各个其他区域与当前区域之间的重合度后，可以得到多个重合度，然后按照上述方式基于得到的多个重合度，从其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到目标区域。通过该方式可以快速确定出目标区域，当然，目标区域的确定方式还可以是其他的方式，具体内容在此处不作限定。

本发明实施例可以获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；以及分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；然后可以将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；其次可以从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；此时可以将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。该方案由于可以从缩放后图像中筛选出初始图像块，并基于对初始图像块进一步划分为多个区域来检测得到目标区域，因此整个检测过程对计算资源的需求较低，且对图像目标检测的速度较快，有效解决了现有图像目标检测方法模型大及所需计算资源多而很难满足移动端进行实时检测的需求，及检测速度慢等技术问题，提高了对图像目标检测的效率，并且可以对多张缩放后图像进行处理及精准筛选候选图像块所在的区域作为目标区域，提高了目标检测的准确性。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以图像目标检测装置具体集成在移动终端为例，并以目标区域为人脸区域为例进行说明。该移动终端可以是监控设备或手机等，该图像目标检测方法可以应用于各种场景和各种移动终端上执行人脸检测任务，实现实时准确且快速的人脸检测，例如，可以用于车站、商场或道路等监控场景的人脸检测，也可以用于美颜相机或人脸核身的人脸检测等。

(一)模型的训练。

移动终端可以利用检测模型对人脸区域进行检测，该检测模型可以包括第一级检测网络和第二级检测网络等，例如，如图3所示，移动终端可以对待检测人脸图像按照不同分辨率分别进行缩放处理，得到由多张缩放后人脸图像生成的图像金字塔，然后将图像金字塔中的每张图像分别依次输入第一级检测网络和第二级检测网络，并由第二级检测网络输出检测结果等。在对人脸区域进行检测之前，需要对检测模型中包括的第一级检测网络和第二级检测网络等进行训练。

其中，第一级检测网络的结构可以如图4所示，该第一级检测网络用于从人脸图像中筛选符合人脸区域的初始人脸图像块，该第一级检测网络的类型可以根据实际需要进行灵活设置，例如，第一级检测网络可以包括五层卷积层，每层卷积层的卷积核大小可以均为3*3，第一卷积层的通道数可以是16，第二卷积层的通道数可以是24，第三卷积层的通道数可以是32，第四卷积层的通道数可以是64，第五卷积层的通道数可以是128等，因此该第一级检测网络的网络模型较小，对配置资源的需求较小。该第一级检测网络还可以包括类别判定和位置识别等功能，将H*W*3的人脸图像输入第一级检测网络后，该第一级检测网络可以输出筛选出的初始人脸图像块的第一类别信息和第一位置信息等。第一类别信息包括人脸类别和属于人脸的概率等信息，该第一位置信息包括初始人脸图像块所在的坐标信息等，该第一类别信息可以H/4*W/4*2*anchors的特征图的形式输出，该第一位置信息可以H/4*W/4*2*anchors和H/4*W/4*4*anchors的特征图的形式输出，这两个特征图分别代表人脸图像上某个区域经过该第一级检测网络后的置信度和回归值，即H/4*W/4*2*anchors表示人脸图像上某个区域为人脸区域的概率，H/4*W/4*4*anchors表示人脸图像上某个区域的位置，其中，anchors代表人脸图像上划分区域的个数，H表示人脸图像的高，W表示人脸图像的宽，3表示人脸图像的RGB三通道。

为了提高第一级检测网络进行人脸检测的准确性及可靠性，在应用第一级检测网络进行人脸检测之前，可以先对第一级检测网络进行训练，具体地，首先获取多张包含人脸区域的样本图像，例如，可以通过预先设置的摄像头、摄像机或照相机等采集多张样本图像，或者是，可以从终端本地或服务器上获取多张样本图像等。

为了提高对第一级检测网络训练的精准性，可以获取多个用户的人脸图像，以及获取多个用户且不同表情的人脸图像，以及获取包括正脸或者侧脸的人脸图像等，并将得到的人脸图像作为样本图像，从而可以提高样本图像的多样性，以便更好地对第一级检测网络进行训练，从而提高第一级检测网络的精准性。

在得到样本图像后，可以在每张样本图像上分别设置多个检测框，该检测框可以用于将样本图像划分为多个区域，该检测框的形状、大小、个数及位置等可以根据实际需要进行灵活设置。然后，通过第一级检测网络分别计算每张样本图像上每个检测框内的区域对应的类别信息，得到预测类别信息，以及通过第一级检测网络分别计算每张样本图像上每个检测框内的人脸区域对应的位置信息，得到预测位置信息。以及，需要获取每张样本图像上每个检测框内人脸区域实际的类别信息，得到真实类别信息，并且，获取每张样本图像上每个检测框内区域实际的位置信息，得到真实位置信息，该真实类别信息和真实位置信息可以为准确的信息。

其次，采用第三预设损失函数(也可以称为分类损失函数FL_conf)对预测类别信息和真实类别信息进行收敛，例如，通过调整第一级检测网络的参数或权重等至合适数值，降低预测类别信息和真实类别信息之间的误差。分类损失函数FL_conf可以如下所示：

FL_conf＝FL(p_t)＝-(1-p_t)^γlog(p_t)

其中，P_t表示类别的概率，γ表示权重，该分类损失函数FL_conf可以用于解决人脸图像上各个人脸区域匹配中正负样本不平衡的问题，其中，正样本为人脸区域，负样本为非人脸区域。

以及，采用第四预设损失函数(也可以称为位置损失函数L_loc)对预测位置信息和真实位置信息进行收敛，例如，通过调整第一级检测网络的参数或权重等至合适数值，降低预测位置信息和真实位置信息之间的误差，从而可以对第一级检测网络进行训练，最后可以得到训练后的第一级检测网络。位置损失函数L_loc可以如下：

其中，N为人脸图像上划分的区域(即设置的初始框)的数量，I_ijk∈{0,1}，当在位置(i，j)的第k个区域与当前区域(概率最高的区域)之间的重合度IOU大于预设阈值(例如0.7)时，I_ijk取值为1，否则I_ijk取值为0，(δx_ijk,δy_ijk,δw_ijk,δh_ijk)均为第一级检测网络输出的预测位置信息，

均为真实位置信息。

第一级检测网络总的优化目标是最小化总的损失函数L1，总的损失函数L1包括分类损失函数FL_conf和位置损失函数L_loc，总的损失函数L1可以如下所示：

通过不断训练使得第一级检测网络学习准确的类别信息和位置信息，由于第一级检测网络可以包括仅五层卷积层，且通道数较少，因此该第一级检测网络的网络模型较小，对配置资源的需求较小，在对第一级检测网络进行训练，得到训练后的第一级检测网络后，可以利用训练后的第一级检测网络进行人脸检测，不仅可以提高人脸检测的效率，而且在移动终端上进行实施检测，还可以保证人脸检测的准确性。

第二级检测网络的结构可以如图5所示，该第二级检测网络用于筛选出符合条件的候选人脸图像块，该训练后的第二级检测网络的类型可以根据实际需要进行灵活设置，例如，第二级检测网络可以包括七层卷积层，每层卷积层的卷积核大小可以均为3*3，第一卷积层的通道数可以是16，第二卷积层的通道数可以是24，第三卷积层的通道数可以是32，第四卷积层的通道数可以是48，第五卷积层的通道数可以是64，第六卷积层的通道数可以是128，第七卷积层的通道数可以是128等，因此该第二级检测网络的网络模型较小，对配置资源的需求较小。该第二级检测网络还可以包括类别判定和位置识别等功能，在第一级检测网络筛选出初始人脸图像块后，可以将初始人脸图像块输入第二级检测网络后，该第二级检测网络可以输出筛选出的候选人脸图像块的第二类别信息和第二位置信息等，该初始人脸图像块可以为36*36*3，其中，36表示初始人脸图像块的高(即高为36个像素点排列组成的高度)，36表示初始人脸图像块的宽，该3表示人脸图像的RGB三通道。

其中，第二级检测网络的作用可以是对第一级检测网络输出的初始人脸图像块进行进一步判定和位置微调，所以输入不是人脸图像，而是人脸图像上筛选出的初始人脸图像块。输入前可以先对初始人脸图像块进行尺寸上的归一化，统一保持输入第二级检测网络的初始人脸图像块为36*36的大小，由于第二级检测网络的输入是固定大小的初始人脸图像块，因此可以输出1*1*2*anchors和1*1*4*anchors大小的特征图，1*1*2*anchors表示初始人脸图像块上某个区域为人脸区域的概率，1*1*4*anchors表示初始人脸图像块上某个区域的位置，其中，anchors代表初始人脸图像块上划分区域的个数(例如3个，大小分别为18、27和36等)，采用36*36固定大小的输入的第二级检测网络，可以有效提升运算速度，且可以有效去掉第一级检测网络输出的负样本(即不是人脸区域)。

为了提高第二级检测网络进行人脸检测的准确性及可靠性，在应用第二级检测网络进行人脸检测之前，可以先对第二级检测网络进行训练，具体地，在第一级检测网络筛选出初始人脸图像块后，将每个初始人脸图像块划分为多个区域，该区域的形状、大小、个数及位置等可以根据实际需要进行灵活设置，将筛选出的初始人脸图像块输入第二级检测网络，通过第二级检测网络分别计算每个初始人脸图像块上各个区域对应的类别信息，得到预测类别信息，以及通过第二级检测网络分别计算每个初始人脸图像块上各个区域对应的位置信息，得到预测位置信息。以及，需要获取每个初始人脸图像块上各个区域实际的类别信息，得到真实类别信息，并且，获取每个初始人脸图像块上各个区域实际的位置信息，得到真实位置信息，该真实类别信息和真实位置信息可以是准确的信息。

最后，采用第一预设损失函数(也可以称为分类损失函数L_conf)对预测类别信息和真实类别信息进行收敛，例如，通过调整第二级检测网络的参数或权重等至合适数值，降低预测类别信息和真实类别信息之间的误差，分类损失函数L_conf可以如下所示：

其中，

C为目标所属类别，如人脸，p_c可以取值为0或1，其他参数与上述类似，在此处不再赘述。

以及，采用第二预设损失函数对预测位置信息和真实位置信息进行收敛，例如，通过调整第二级检测网络的参数或权重等至合适数值，降低预测位置信息和真实位置信息之间的误差，从而可以对第二级检测网络进行训练，可以得到训练后的第二级检测网络。其中，第二预设损失函数可以与第四预设损失函数类似，在此处不再赘述。

第二级检测网络总的优化目标是最小化总的损失函数L，总的损失函数L包括分类损失函数L_conf和位置损失函数L_loc，总的损失函数L可以如下所示：

由于第二级检测网络可以包括仅七层卷积层，且通道数较少，因此该第二级检测网络的网络模型较小，对配置资源的需求较小，在对第二级检测网络进行训练，得到训练后的第二级检测网络后，可以利用训练后的第二级检测网络进行人脸检测，不仅可以提高检测效率，而且在移动终端上进行实施检测，还可以保证检测的准确性。

在对检测模型中的第一级检测网络和第二级检测网络等训练完毕后，可以使用第一级检测网络对人脸图像进行检测，生成负样本后，通过第二级检测网络进行微调，使得第二级检测网络对第一级检测网络输出的负样本具有更强的判别能力。最终检测模型可以输出一个三维张量，对该三维张量进行解析后即可得到人脸在图像中的位置，该检测模型采用级联方式的轻量网络结构，具有模型小、速度快、准确率高且性能稳定等特点。

其中，检测模型的模型小源于：第一级检测网络和第二级检测网络这两级网络的模型大小一共只有956k左右，而现有常用的目标检测模型一般都在60MB以上；并且，使用第一级检测网络和第二级检测网络这两个网络级联的方式进行检测，这两个网络分别只有5层和7层，含有非常少的通道数，此外，第二级检测网络的输入图像块的大小可以归一化为36*36，能够实现快速的人脸检测。

检测模型的检测速度快源于：采用两级网络的结构，其模型小及参数少，使得检测模型的检测速度非常快。而且，采用图像金字塔的检测方式，第一级检测网络采用多初始框anchor的单阶段one-stage检测结构，扩大了可检测人脸的范围，使得可检出人脸范围得到大幅提升，从而减少了图像金字塔的次数(即包含人脸图像的张数较少)，采用较少次数的图像金字塔输入，加快了运算速度，在移动终端CPU上的运算速度可达到100fps，GPU上可达到400fps，速度远快于现有目标检测算法(如SSD、faster-RCNN或MTCNN等)。

检测模型的准确率高源于：采用级联结构来提升人脸检测准确率，通过对人脸图及初始人脸图像块的区域划分以及分区域检测，将one-stage检测结构作为第一级检测网络，并加入了初始框anchor致密化操作，第一级检测网络的检测结果作为第二级检测网络的输入，对初始人脸图像块上的区域进行进一步的判定和微调，保证速度快的同时能够有效提升了检测效果及检测准确性。此外，网络特征提取能力和感受野较小，可检到一定范围内的人脸，通过图像金字塔的方式可以覆盖到所有尺度人脸，进一步提高准确性。

检测模型的性能稳定源于：采用one-stage的检测结构作为第一级检测网络，使得第一级检测网络输出稳定，且第二级检测网络运算速度极快，整体运算速度基本不受目标(如人脸)个数的影响。此外，检测模型主要包括两级单阶段网络(第一级检测网络和第二级检测网络)，其中第一级检测网络包含anchor致密化，进一步提升检测性能，两级中均使用了多anchor的单模型结构，使网络可获取更多的语义信息，获得更准确的回归分类结，也使得性能稳定。

(二)人脸检测。

请参阅图2，图2为本发明实施例提供的图像目标检测方法的另一流程示意图。该方法流程可以包括：

S201、移动终端获取待检测人脸图像。

其中，待检测人脸图像中可以包括人脸以及其他物体，该人脸可以是正脸或者侧脸等，该人脸还可以是哭、笑、生气或开心等任意表情的人脸。移动终端可以通过拍照摄像头采集待检测人脸图像，或者，移动终端可以从本地存储空间中加载预存的待检测人脸图像，或者，移动终端可以从服务器上的图像数据库中下载待检测人脸图像等，该待检测人脸图像的获取方式可以根据实际进行灵活设置。

S202、移动终端对待检测人脸图像按照不同分辨率分别进行缩放处理，得到多张缩放后人脸图像。

为了得到不同尺寸的人脸图像系列，在得到待检测人脸图像后，移动终端可以对待检测人脸图像按照不同分辨率分别进行缩小或放大处理，得到多张不同分辨率的缩放后人脸图像。该多张缩放后人脸图像可以包括待检测人脸图像，该多张缩放后人脸图像可以形成图像金字塔结构，每张缩放后人脸图像可以是大于12*12的任意尺度的图像。其中，不同分辨率可以根据实际需要进行灵活设置，例如，若待检测人脸图像的尺寸为H*W，则对待检测人脸图像按照第一分辨率进行缩小处理后，可以得到缩放后人脸图像的尺寸为H/2*W/2，或者对待检测人脸图像按照第二分辨率进行放大处理后，可以得到缩放后人脸图像的尺寸为H*2*W*2；等等。

缩放后人脸图像的张数可以根据实际需要进行灵活设置，例如，缩放后人脸图像可以包括3张或4张等，这样采样较少的张数的缩放后人脸图像，可以提高人脸检测的速度。此外，在得到多张缩放后人脸图像后，后续移动终端可以对多张缩放后人脸图像分别进行检测，从而可以检测出较多的区域范围，以便检出所有尺寸的人脸区域。

S203、移动终端通过训练后的第一级检测网络分别从每张缩放后人脸图像中筛选符合人脸区域类型的区域，得到多个初始人脸图像块。

在得到多张缩放后人脸图像后，移动终端可以从分别从每张缩放后人脸图像中筛选符合人脸类型的区域，例如，可以检测将每张缩放后人脸图像分别划分为多个区域，然后通过训练后的第一级检测网络检测每个区域内的像素点，根据区域内的像素点确定该区域属于人脸类型的概率，并从多个区域中筛选出概率大于预设概率阈值的区域，该筛选出的区域为符合人脸类型的区域，从而可以将筛选出的区域作为初始人脸图像块，得到多个初始人脸图像块。

为了提高检测的精度，移动终端可以利用在人脸图像上预先设定的一系列的初始框，并对每个初始框内的区域进行检测，其中，该初始框可以用于将缩放后人脸图像划分为多个区域，该初始框的形状、大小、个数及位置等可以根据实际需要进行灵活设置。当对待检测人脸图像按照不同分辨率分别进行缩放处理时，该多个初始框也随着待检测人脸图像进行相应的缩放处理，从而得到的多张缩放后人脸图像上也会存在多个初始框，此时可以获取每张缩放后人脸图像上预设的多个初始框，以便对初始框内的区域进行检测等。

例如，多个初始框的设置可以如图6所示，每个初始框均为四边形，每个初始框的横纵比及大小范围可以根据实际需要进行灵活设置，例如，可以将初始框的横纵比设置为1:1，可以将初始框的大小设置为6*6至12*12范围中的任意大小，各初始框之间可以存在重叠部分和非重叠部分等。

由于多个初始框中，可能存在有些初始框之间的间隔可能较大，或者尺寸较小的初始框分布较为稀疏等，使得缩放后人脸图像上较多位置没有得到初始框的覆盖，导致对于一些较小人脸的检测效果不好等，因此，为了提高检测的准确性及提升检测效果，移动终端可以对初始框进行致密化操作。例如，在每张缩放后人脸图像上分别设置预设个数的初始框后，可以判断缩放后人脸图像上的预设个数的初始框是否可以覆盖该缩放后人脸图像，如果可以覆盖，则不需要执行初始框的致密化操作；当缩放后人脸图像上预设个数的初始框未能覆盖该缩放后人脸图像时，可以执行初始框的致密化操作，初始框的致密化过程可以是按照预设策略在已经设置预设个数的初始框的基础上增加初始框，直至多个初始框能覆盖缩放后人脸图像，得到多个初始框。其中，该预设策略可以根据实际需要进行灵活设置。

例如，如图7所示，虚线部分代表未致密化的初始框，实线部分代表致密化处理后增加的4个初始框，通过对各个初始框进行致密化处理，可以使得多个初始框覆盖缩放后人脸图像，达到对缩放后人脸图像上多个初始框内所有区域进行检测的目的，这样能有效提升网络对人脸的检测效果。

在致密化初始框后，移动终端可以通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，例如，可以将每张缩放后人脸图像分别输入训练后的第一级检测网络，通过训练后的第一级检测网络依次执行五层卷积操作，输出每张缩放后人脸图像对应特征图，然后基于特征图对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息，该类别信息可以包括所属的人脸类别和属于该人脸类别的概率等。例如，当初始框A内的区域所属的类别为人脸时，可以计算出该区域内属于人脸的概率和不属于人脸的概率等。

在得到每个初始框对应的类别信息后，可以根据每个初始框对应的类别信息，从每张缩放后人脸图像中筛选符合目标区域类型的初始框所在区域，得到多个初始人脸图像块。例如，若需要对人脸进行检测，则可以根据每个初始框内区域所属人脸类别和属于人脸类别的概率等类别信息，从每张缩放后人脸图像中筛选属于人脸类别的概率大于预设值(预设值可以根据实际需要进行灵活设置)的初始框，筛选出的该初始框符合人脸类型，此时可以将提取筛选出的符合人脸类型的初始框所在区域，得到多个初始人脸图像块。

为了能够精准提取出所需的初始人脸图像块，可以通过训练后的第一级检测网络对初始框进行位置识别来获取位置信息，具体地，可以根据每个初始框对应的类别信息，从每张缩放后人脸图像中筛选符合人脸类型的初始框，得到目标初始框；例如，可以根据每个初始框内区域所属人脸类别和属于人脸类别的概率等类别信息，从每张缩放后人脸图像中筛选属于人脸区域类型的初始框，得到目标初始框。然后，通过训练后的第一级检测网络对每个目标初始框进行位置识别，得到每个目标初始框对应的位置信息，该位置信息可以根据实际需要进行灵活设置，例如，可以获取每个目标初始框的中心点的坐标信息，以及目标初始框的宽度和高度，根据该坐标信息、宽度和高度即可确定每个目标初始框对应的位置信息；或者是，可以获取每个目标初始框对角线上两个顶角的坐标信息，根据该坐标信息即可确定每个目标初始框对应的位置信息；等等。此时，可以根据位置信息从每张缩放后人脸图像中，提取出目标初始框所在区域，得到多个初始人脸图像块。

S204、移动终端对多个初始人脸图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始人脸图像块。

由于得到的多个初始人脸图像块的尺寸可能不同，因此为了提高对初始人脸图像块的检测效率及准确性，移动终端可以对多个初始人脸图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始人脸图像块。其中，归一化后的初始人脸图像块的尺寸可以根据实际需要进行灵活设置，例如，可以将每个初始人脸图像块归一化为36*36的人脸图像块，36*36可以是指初始人脸图像块的高和宽均为36个像素点。此时，后续仅需要对归一化后的初始人脸图像块进行处理，即将每个归一化后的初始人脸图像块分别划分为多个区域，并获取每个区域属于人脸区域的概率，大大提高了对初始人脸图像块的检测效率。

S205、移动终端将每个归一化后的初始人脸图像块分别划分为多个区域。

移动终端可以将每个归一化后的初始人脸图像块分别划分为多个区域，该区域的个数、位置、大小及形状等可以根据实际需要进行灵活设置。例如，移动终端可以在每个初始人脸图像块上设置多个初始框，每个初始框内的区域即为初始人脸图像块所划分的区域，该区域的个数、位置、大小及形状等可以根据实际需要进行灵活设置，例如，可以划分为4个区域，每个区域之间可以存在重叠的部分或不存在重叠的部分等。

S206、通过训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息。

移动终端可以调用训练后的第二级检测网络，通过训练后的第二级检测网络对每个归一化后的初始人脸图像块上划分的每个区域进行类别判定，例如，可以将每个归一化后的初始人脸图像块分别输入训练后的第二级检测网络，通过训练后的第二级检测网络依次执行七层卷积操作，输出每个归一化后的初始人脸图像块对应特征图，然后基于特征图对每个归一化后的初始人脸图像块上划分的每个区域进行类别判定，得到每个区域对应的类别信息，该类别信息可以包括所属的人脸类别和属于该人脸类别的概率等。

S207、移动终端根据每个区域对应的类别信息确定每个区域属于人脸区域的概率。

此时，移动终端可以根据每个区域对应的类别信息确定每个区域属于人脸区域的概率，例如，可以从区域的类别信息中提取出属于人脸类别的概率，该概率即为该区域属于人脸区域的概率。

S208、移动终端从每个初始人脸图像块中提取出概率大于预设阈值的区域，得到多个候选人脸图像块。

在得到每个初始人脸图像块上各个区域属于人脸区域的概率后，移动终端可以从每个初始人脸图像块中提取出概率大于预设阈值的区域，该预设阈值可以根据实际需要进行灵活设置。为了能够精准提取出所需的候选人脸图像块，移动终端可以通过训练后的第二级检测网络对初始人脸图像块上各个区域进行位置识别来获取位置信息，具体地，移动终端可以通过训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息，该位置信息可以根据实际需要进行灵活设置，例如，可以获取每个区域的中心点的坐标信息，以及每个区域的宽度和高度，根据该坐标信息、宽度和高度即可确定每个区域对应的位置信息；或者是，可以获取每个区域对角线上两个顶角的坐标信息，根据该坐标信息即可确定每个目标初始框对应的位置信息；等等。此时，移动终端可以根据位置信息确定概率大于预设阈值的区域在每个初始人脸图像块中的位置，从而可以根据该位置从每个初始人脸图像块中提取出概率大于预设阈值的区域，得到多个候选人脸图像块，提高了提取满足条件的候选人脸图像块的精准性。

S209、移动终端将多个候选人脸图像块的分辨率分别调整为待检测人脸图像的分辨率一致，得到目标候选人脸图像块。

由于在获取到待检测人脸图像后，已经对待检测人脸图像按照不同分辨率分别进行缩放处理，得到多张缩放后人脸图像，并对缩放后人脸图像进行后续的处理得到候选人脸图像块，因此，后续得到的候选人脸图像块为缩放后人脸图像上的图像块，此时，为了能够在待检测人脸图像上确定出人脸区域，移动终端需要将多个候选人脸图像块的分辨率分别调整为待检测人脸图像的分辨率一致，得到目标候选人脸图像块。

S210、移动终端从待检测图像上查找与每个目标候选人脸图像块匹配的区域，得到多个匹配区域。

例如，移动终端可以将目标候选人脸图像块上的像素值与待检测人脸图像的像素值进行比较，查找与目标候选人脸图像块上所有像素值之间相似度最高的区域，得到匹配区域，由多个目标候选人脸图像块分别进行匹配即可得到多个匹配区域。

S211、移动终端根据多个匹配区域之间的重合度，筛选出符合预设条件的候选人脸图像块所在的区域，得到人脸区域。

在得到每个目标候选人脸图像块对应的匹配区域后，移动终端可以计算各个匹配区域之间的重合度，最后可以根据各个匹配区域之间的重合度，筛选出符合预设条件的候选人脸图像块所在的区域，得到人脸区域，如图8所示。其中，预设条件可以根据实际需要进行灵活设置，例如，可以采用非极大值抑制算法来筛选出人脸区域。

具体地，由于可以获取到初始人脸图像块上各个区域属于人脸区域的概率，且候选人脸图像块为初始人脸图像块上概率大于预设阈值的区域，因此可以将候选人脸图像块属于人脸区域的概率，作为与其对应的匹配区域属于人脸区域的概率。在得到每个匹配区域属于人脸区域的概率后，可以从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域，当概率最高的匹配区域存在多个时，可以随机将其中一个概率最高的匹配区域作为当前区域。然后，获取多个匹配区域中除了当前区域外的其他区域，并分别计算其他区域与当前区域之间的重合度。在得到重合度后，可以判断该重合度是否大于预设值，该预设值可以根据实际需要进行灵活设置，若该重合度大于预设值，则去除该重合度大于预设值对应的其他区域，保留当前区域；若该重合度小于或等于预设值，则保留该重合度大于预设值对应的其他区域，去除当前区域。

例如，当区域A为概率最高的匹配区域时，将区域A即为当前区域，此时计算区域A和区域B之间的重合度，若判定该重合度大于预设值，则将区域B去除，保留区域A；若判定该重合度小于或等于预设值，则将区域A去除，保留区域B。在计算各个其他区域与当前区域之间的重合度后，可以得到多个重合度，然后按照上述方式基于得到的多个重合度，从其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到人脸区域。通过该方式可以快速确定出人脸区域，当然，人脸区域的确定方式还可以是其他的方式，具体内容在此处不作限定。

本发明实施例移动终端可以获取待检测人脸图像，并对待检测人脸图像按照不同分辨率分别进行缩放处理，得到多张缩放后人脸图像；以及通过训练后的第一级检测网络分别从每张缩放后人脸图像中筛选出符合人脸区域类型的区域，得到多个初始人脸图像块；然后可以对多个初始人脸图像进行尺寸归一化，并将每个归一化后的初始人脸图像块分别划分为多个区域，通过训练后的第二级检测网络获取每个区域属于人脸区域的概率；其次可以从每个初始人脸图像块中提取出概率大于预设阈值的区域，得到多个候选人脸图像块；此时可以将多个候选人脸图像块映射至待检测人脸图像上，并根据多个候选人脸图像块之间的重合度筛选出符合预设条件的候选人脸图像块所在的区域，得到人脸区域。该方案由于可以从缩放后人脸图像中筛选出初始人脸图像块，并基于对初始人脸图像块进一步划分为多个区域来检测得到人脸区域，因此整个检测过程对计算资源的需求较低，且对人脸图像目标检测的速度较快，有效解决了现有人脸图像目标检测方法模型大及所需计算资源多而很难满足移动端进行实时检测的需求，及检测速度慢等技术问题，提高了对人脸图像目标检测的效率，并且可以对多张缩放后人脸图像进行处理及精准筛选候选人脸图像块所在的区域作为人脸区域，提高了目标检测的准确性。

为便于更好的实施本发明实施例提供的图像目标检测方法，本发明实施例还提供一种基于上述图像目标检测方法的装置。其中名词的含义与上述图像目标检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图9，图9为本发明实施例提供的图像目标检测装置的结构示意图，其中该图像目标检测装置可以包括处理单元301、第一筛选单元302、第一获取单元303、提取单元304及映射单元305等。

其中，处理单元301，用于获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像。

第一筛选单元302，用于分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块。

第一获取单元303，用于将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

提取单元304，用于从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块。

映射单元305，用于将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

可选地，如图10所示，第一获取单元303可以包括：

归一化模块3031，用于对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块；

第一获取模块3032，用于将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

可选地，第一获取模块具体用于：将每个归一化后的初始图像块分别划分为多个区域；调用训练后的第二级检测网络，并通过训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息；根据每个区域对应的类别信息确定每个区域属于目标区域的概率。

可选地，提取单元具体用于：通过训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息；根据位置信息确定概率大于预设阈值的区域在每个初始图像块中的位置；根据位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块。

可选地，图像目标检测装置还可以包括：

第二筛选单元，用于调用预设的第一级检测网络，并通过第一级检测网络筛选出符合目标区域类型的区域，得到多个目标图像块；

第一训练单元，用于采用第一预设损失函数对预测类别信息和真实类别信息进行收敛，以及采用第二预设损失函数对预测位置信息和真实位置信息进行收敛，以对第二级检测网络进行训练，得到训练后的第二级检测网络。

可选地，第一筛选单元302可以包括：

判定模块，用于调用训练后的第一级检测网络，并通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；

可选地，第二获取模块具体用于：在每张缩放后图像上分别设置预设个数的初始框；当每张缩放后图像上预设个数的初始框未能覆盖缩放后图像时，按照预设策略增加初始框，直至多个初始框能覆盖缩放后图像，得到多个初始框。

可选地，第一筛选模块具体用于：根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框，得到目标初始框；通过训练后的第一级检测网络对每个目标初始框进行位置识别，得到每个目标初始框对应的位置信息；根据位置信息从每张缩放后图像中，提取出目标初始框所在区域，得到多个初始图像块。

可选地，图像目标检测装置还可以包括：

第二训练单元，用于采用第三预设损失函数对预测类别信息和真实类别信息进行收敛，以及采用第四预设损失函数对预测位置信息和真实位置信息进行收敛，以对第一级检测网络进行训练，得到训练后的第一级检测网络。

可选地，映射单元305可以包括：

调整模块，用于将多个候选图像块的分辨率分别调整为待检测图像的分辨率一致，得到目标候选图像块；

查找模块，用于从待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；

第二筛选模块，用于根据多个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

可选地，第二筛选模块具体用于：获取每个匹配区域属于目标区域的概率，并从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域；分别计算多个匹配区域中除了当前区域外的其他区域，与当前区域之间的重合度，得到多个重合度；根据多个重合度，从其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到目标区域。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对图像目标检测方法的详细描述，此处不再赘述。

本发明实施例可以由处理单元301获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；以及由第一筛选单元302分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；然后可以由第一获取单元303将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；其次可以由提取单元304从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；此时可以由映射单元305将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。该方案由于可以从缩放后图像中筛选出初始图像块，并基于对初始图像块进一步划分为多个区域来检测得到目标区域，因此整个检测过程对计算资源的需求较低，即对配置资源的需求较低，且对图像目标检测的速度较快，有效解决了现有图像目标检测方法模型大及所需计算资源多而很难满足移动终端进行实时检测的需求，及检测速度慢等技术问题，提高了对图像目标检测的效率，并且可以对多张缩放后图像进行处理及精准筛选候选图像块所在的区域作为目标区域，提高了目标检测的准确性。

本发明实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备。如图11所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图11中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现本发明实施例提供的图像目标检测方法，如下：

获取待检测图像，并对待检测图像按照不同分辨率分别进行缩放处理，得到多张缩放后图像；分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块；将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率；从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

可选地，将每个初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率可以包括：对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块；将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率。

可选地，将每个归一化后的初始图像块分别划分为多个区域，并获取每个区域属于目标区域的概率可以包括：将每个归一化后的初始图像块分别划分为多个区域；调用训练后的第二级检测网络，并通过训练后的第二级检测网络对每个区域进行类别判定，得到每个区域对应的类别信息；根据每个区域对应的类别信息确定每个区域属于目标区域的概率。

可选地，分别从每张缩放后图像中筛选符合目标区域类型的区域，得到多个初始图像块可以包括：获取每张缩放后图像上预设的多个初始框；调用训练后的第一级检测网络，并通过训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块。

可选地，将多个候选图像块映射至待检测图像上，并根据多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域，得到目标区域可以包括：将多个候选图像块的分辨率分别调整为待检测图像的分辨率一致，得到目标候选图像块；从待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；根据多个匹配区域之间的重合度，筛选出符合预设条件的候选图像块所在的区域，得到目标区域。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种图像目标检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种图像目标检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种图像目标检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种图像目标检测方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像目标检测方法，其特征在于，包括：

在每张缩放后图像上分别设置预设个数的初始框；

当每张缩放后图像上预设个数的初始框未能覆盖所述缩放后图像时，执行初始框的致密化过程，所述初始框的致密化过程包括：按照预设策略增加初始框，直至多个初始框能覆盖所述缩放后图像，得到多个初始框；

调用训练后的第一级检测网络，并通过所述训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；

根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块；

对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块，以提高对初始人脸图像块的检测效率；

将每个归一化后的初始图像块分别划分为多个区域，其中，每个所述区域之间存在重叠的部分或不存在重叠的部分；

将每个归一化后的初始图像块分别输入训练后的第二级检测网络，调用训练后的第二级检测网络，并通过所述训练后的第二级检测网络输出每个归一化后的初始图像块对应特征图，基于特征图对每个归一化后的初始图像块上划分的每个区域进行类别判定，得到每个区域对应的类别信息；

根据每个区域对应的类别信息确定每个区域属于目标区域的概率；

根据所述位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；

将所述多个候选图像块的分辨率分别调整为所述待检测图像的分辨率一致，得到目标候选图像块；

从所述待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；

2.根据权利要求1所述的图像目标检测方法，其特征在于，所述通过所述训练后的第二级检测网络输出每个归一化后的初始图像块对应特征图，基于特征图对每个归一化后的初始图像块上划分的每个区域进行类别判定，得到每个区域对应的类别信息之前，所述方法还包括：

获取多张包含目标区域的样本图像，并将每张样本图像划分为多个区域；

调用预设的第一级检测网络，并通过所述第一级检测网络筛选出符合目标区域类型的区域，得到多个目标图像块；

通过第二级检测网络计算每个目标图像块对应的类别信息和位置信息，得到预测类别信息和预测位置信息；

获取每个目标图像块对应的真实类别信息和真实位置信息；

采用第一预设损失函数对所述预测类别信息和所述真实类别信息进行收敛，以及采用第二预设损失函数对所述预测位置信息和所述真实位置信息进行收敛，以对第二级检测网络进行训练，得到训练后的第二级检测网络。

3.根据权利要求1所述的图像目标检测方法，其特征在于，所述根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块包括：

4.根据权利要求3所述的图像目标检测方法，其特征在于，所述通过所述训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息之前，所述方法还包括：

获取多张包含目标区域的样本图像，并在每张样本图像上分别设置多个检测框；

通过第一级检测网络计算每张样本图像上每个检测框内的区域对应的类别信息和位置信息，得到预测类别信息和预测位置信息；

获取每张样本图像上每个检测框对应的真实类别信息和真实位置信息；

采用第三预设损失函数对所述预测类别信息和所述真实类别信息进行收敛，以及采用第四预设损失函数对所述预测位置信息和所述真实位置信息进行收敛，以对所述第一级检测网络进行训练，得到训练后的第一级检测网络。

5.一种图像目标检测装置，其特征在于，包括：

第一筛选单元，用于在每张缩放后图像上分别设置预设个数的初始框；当每张缩放后图像上预设个数的初始框未能覆盖所述缩放后图像时，执行初始框的致密化过程，所述初始框的致密化过程包括：按照预设策略增加初始框，直至多个初始框能覆盖所述缩放后图像，得到多个初始框；调用训练后的第一级检测网络，并通过所述训练后的第一级检测网络对每个初始框内的区域进行类别判定，得到每个初始框对应的类别信息；根据每个初始框对应的类别信息，从每张缩放后图像中筛选符合目标区域类型的初始框所在区域，得到多个初始图像块；

第一获取单元，用于对多个初始图像块进行尺寸归一化，得到尺寸相同的多个归一化后的初始图像块，以提高对初始人脸图像块的检测效率；将每个归一化后的初始图像块分别划分为多个区域，其中，每个所述区域之间存在重叠的部分或不存在重叠的部分；将每个归一化后的初始图像块分别输入训练后的第二级检测网络，调用训练后的第二级检测网络，并通过所述训练后的第二级检测网络输出每个归一化后的初始图像块对应特征图，基于特征图对每个归一化后的初始图像块上划分的每个区域进行类别判定，得到每个区域对应的类别信息；根据每个区域对应的类别信息确定每个区域属于目标区域的概率；

提取单元，用于通过所述训练后的第二级检测网络对每个区域进行位置识别，得到每个区域对应的位置信息；根据所述位置信息确定所述概率大于预设阈值的区域在每个初始图像块中的位置；根据所述位置从每个初始图像块中提取出概率大于预设阈值的区域，得到多个候选图像块；

映射单元，用于将所述多个候选图像块的分辨率分别调整为所述待检测图像的分辨率一致，得到目标候选图像块；从所述待检测图像上查找与每个目标候选图像块匹配的区域，得到多个匹配区域；获取每个匹配区域属于目标区域的概率，并从多个匹配区域中筛选出概率最高的匹配区域，作为当前区域；分别计算多个匹配区域中除了当前区域外的其他区域，与所述当前区域之间的重合度，得到多个重合度；根据所述多个重合度，从所述其他区域中去除重合度大于预设值的区域，返回执行从多个匹配区域中筛选出概率最高的匹配区域作为当前区域的操作，直至剩下一个匹配区域，得到目标区域；

所述映射单元包括：

6.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至4任一项所述的图像目标检测方法中的步骤。