CN111199230A

CN111199230A - 目标检测的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111199230A
Application number: CN202010006952.XA
Authority: CN
Inventors: 郭梓铿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-26
Anticipated expiration: 2040-01-03
Also published as: CN111199230B

Abstract

本申请实施例提供了一种目标检测的方法、装置、电子设备及计算机可读存储介质，涉及人工智能领域。该方法包括：基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。本申请实施例实现提高目标的检测效率。

Description

目标检测的方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种目标检测的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，人工智能也随之发展，随之目标识别技术应运而生，在目标识别技术中人脸识别技术应用更为广泛，其中人脸识别技术，是基于人的脸部特征信息进行身份识别的一种生物识别技术。

在进行人脸识别时，主要是通过摄像头或者摄像机采集包含人脸的图像或者视频流，并自动在图像或者视频流中检测和跟踪人脸，进而对检测到的人脸进行面部特征识别等相关的技术。目前，在进行人脸识别时，采用基于深度学习的人脸识别方法已经成为一种趋势，但是现有的人脸识别方法检测效率较低。

发明内容

本申请提供了一种目标检测方法、装置、电子设备及计算机可读存储介质，可以上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种目标检测方法，该方法包括：

基于原始图像获取待处理图像；

在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度；

基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，第一预设检测框的尺寸等于第一预设图像尺寸；

基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。

在一种可能的实现方式中，基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果，包括：

基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理，基于最后一次处理的结果，得到目标检测结果，其中，每次处理包括：

根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块；

对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息。

在另一种可能的实现方式中，根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块，包括：

根据上一次目标检测得到的目标检测框的目标位置信息对原始图像进行截取，得到截取后的图像块；

基于当前次处理所对应的第二预设图像尺寸，对截取后的各图像块进行调整，得到当前次处理的输入图像块；

对当前次处理的各输入图像块进行目标检测，包括：

基于当前次处理对应的第二预设检测框对当前次处理的各输入图像块进行目标检测，第二预设检测框的尺寸等于当前次处理所对应的第二预设图像尺寸。

在另一种可能的实现方式中，基于原始图像获取待处理图像，包括：

获取原始图像；

基于原始图像构建图像金字塔，将图像金字塔确定为待处理图像，图像金字塔包含对应于原始图像的至少两种不同尺寸的图像。

在另一种可能的实现方式中，对于各初始图像块或输入图像块进行目标检测，得到对应的目标检测框的目标位置信息，包括：

对各初始图像块或输入图像块进行目标检测，得到置信度大于当前次目标检测所对应的设定值的各目标检测框的初始位置信息和位置校准信息，其中，初始位置信息为相对于图像块的位置信息，位置校准信息为相对于原始图像的位置校准信息；

针对置信度大于设定值的各目标检测框，基于各目标检测框的位置校准信息对各自对应的目标检测框的初始位置信息进行校准，得到各目标检测框的目标位置信息。

在另一种可能的实现方式中，对于每一次目标检测，在得到各目标检测框的目标位置信息之后，还包括：

基于目标检测框的目标位置信息，采用非极大值抑制NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框；

基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理，包括：

基于初始目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，进行至少一次以下处理；

根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块，包括：

根据上一次目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块。

在另一种可能的实现方式中，基于最后一次处理的结果，得到目标检测结果，包括：基于最后一次处理得到的各目标检测框的目标位置信息，对原始图像中相应图像区域进行目标关键点检测，得到各目标检测框各自所对应的各目标关键点的位置信息；

目标检测结果包括最后一次处理得到的各目标检测框的目标位置信息和各目标检测框各自所对应的各关键点位置信息。

在另一种可能的实现方式中，对于最后一次处理，对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息，包括：

对最后一次处理的各输入图像块进行目标检测，得到各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息；

基于最后一次处理的结果，得到目标检测结果，包括：

将最后一次处理得到的各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息作为目标检测结果。

在另一种可能的实现方式中，当前次目标检测所对应的预设图像尺寸不大于下一次目标检测所对应的预设图像尺寸。

第二方面，提供了一种目标检测装置，该装置包括：

获取模块，用于基于原始图像获取待处理图像；

子图提取模块，用于在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度；

目标检测模块，用于基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，第一预设检测框的尺寸等于第一预设图像尺寸，以及用于基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。

在一种可能的实现方式中，目标检测模块在基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果时，具体用于：

在另一种可能的实现方式中，目标检测模块在根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块时，具体用于：

目标检测模块在对当前次处理的各输入图像块进行目标检测时，具体用于：

在另一种可能的实现方式中，获取模块在基于原始图像获取待处理图像时，具体用于：

获取原始图像；

在另一种可能的实现方式中，目标检测模块在对于各初始图像块或输入图像块进行目标检测，得到对应的目标检测框的目标位置信息时，具体用于：

在另一种可能的实现方式中，该装置还包括过滤模块，其中，

过滤模块，用于对于每一次目标检测，在得到各目标检测框的目标位置信息之后，基于目标检测框的目标位置信息，采用NMS(Non Maximum Suppression，非极大值抑制)算法对各目标检测框进行过滤，得到过滤后的目标检测框；

目标检测模块在基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理时，具体用于：

目标检测模块在根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块时，具体用于：根据上一次目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块。

在另一种可能的实现方式中，目标检测模块在基于最后一次处理的结果，得到目标检测结果时，具体用于：

基于最后一次处理得到的各目标检测框的目标位置信息，对原始图像中相应图像区域进行目标关键点检测，得到各目标检测框各自所对应的各目标关键点的位置信息；

其中，目标检测结果包括最后一次处理得到的各目标检测框的目标位置信息和各目标检测框各自所对应的各关键点位置信息。

在另一种可能的实现方式中，对于最后一次处理，目标检测模块在对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息时，具体用于：

目标检测模块在基于最后一次处理的结果，得到目标检测结果时，具体用于：

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，该一个或多个计算机程序配置用于：执行根据第一方面或者第一方面的任一可能的实现方式所示的目标检测方法对应的操作。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面或者第一方面的任一可能的实现方式所示的目标检测方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种目标检测的方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请中基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。即在本申请中对待处理图像进行子图提取，通过每隔预设步长进行第一预设图像尺寸的图像块提取，得到各第一预设图像尺寸的初始图像块，由于预设步长小于第一预设图像尺寸的宽度和高度，通过该提取方式，能够使得相邻的两个图像块之间具有一定的重叠区域，从而使得当目标的部分信息处于该重叠区域时，能够有效降低将该目标分开提取到不同的图形块中的概率，从而提高了提取到包含完整目标的图像块的概率，从而提高了后续目标检测的精度，再者，通过尺寸与第一预设图像尺寸相同的目标检测框进行目标检测，从而每个初始图像块仅需要进行一次目标检测，相较于现有技术通过滑窗进行检测会产生大量检测框的方式相比，可以大大减少数据处理量，进而可以提高目标检测的检测效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种目标检测方法的流程示意图；

图2为本申请实施例提供的一种构建图像金字塔的方式的示意图；

图3为本申请实施例提供的一种目标检测装置的结构示意图；

图4本申请实施例提供的一种目标检测的电子设备的结构示意图；

图5a为本申请示例中提供的一种通过提案网络进行初始目标检测的流程示意图；

图5b为本申请示例中提供的一种基于提案网络的输出通过判别网络1再次进行目标检测的流程示意图；

图5c为本申请示例中提供的一种基于判别网络1的输出再次进行目标检测的流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人脸识别：指能够识别或验证图像或视频中的主体的身份的技术，由于人脸图像在现实世界中的呈现具有高度的可变性，所以人脸识别也是最有挑战性的生物识别方法之一，人脸图像可变的地方包括头部姿势、年龄、遮挡、光照条件和人脸表情；

人脸检测：指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回该给定的图像中包含的所有人脸的位置，人脸检测是人脸识别的第一步；

深度学习：深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

图像金字塔：是图像多尺度表达的一种，是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过梯次向下采样获得；

NMS：是一种去除非极大值的算法，常用于计算机视觉中的边缘检测、物体识别等；

关键点检测：人脸关键点检测是人脸识别领域的基础任务之一，人脸关键点检测目的是自动地估计人脸图片上脸部特征点的坐标，例如脸部轮廓坐标，五官坐标等；

卷积神经网络：卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一卷积可以作为机器学习中的“特征提取器”。

现有的进行人脸检测的方法可以包括：基于非深度学习的方法进行人脸检测和基于深度学习的方法进行人脸检测。

在基于非深度学习的方法进行人脸检测的过程中，利用级联AdaBoost分类器对原始图像进行目标检测，产生大量的候选框，并通过级联AdaBoost分类器以实现对候选框的分类，以得到人脸的位置信息和非人脸的位置信息，但是这种基于非深度学习的方法进行人脸检测在检测精度较低，并且在复杂的场景下人脸检测的性能很难得到保证，因此上述方法仅可以应用在限定的场景中。

在基于深度学习的方法进行人脸检测的过程中，使用滑窗窗口得到候选框，并利用一次卷积网络对候选框中的信息是否为人脸信息进行判断，从而导致计算量较大，实时性较差。

本申请提供的目标检测方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种目标检测方法，如图1所示，该方法可以由电子设备执行，该电子设备可以为终端设备或者服务器，该方法包括：

步骤S101、基于原始图像获取待处理图像。

对于本申请实施例，待处理图像可以为原始图像，也可以为在原始图像进行预设处理后得到的待处理图像，在本申请实施例中不做限定。

其中，待处理图像可以为该原始图像对应的图像金字塔，其中基于原始图像得到图像金字塔的方式具体详见下述实施例，在此不再赘述。

步骤S102、在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块。

其中，预设步长小于第一预设图像尺寸的宽度和高度。

其中，第一预设图像尺寸为预先设置的进行子图提取后的各初始图像块中每个图像块的图像尺寸，例如，第一预设图像尺寸可以为12*12，其中，12为像素的数量，也就是说，第一预设图像尺寸的宽度和高度可以分别为12个像素的宽度和高度。

为了描述方便，在本申请实施例后文的描述所出现的各图像尺寸中，图像尺寸中的数字均可以是指相应数量的像素的宽度或高度。

在实际应用中，按照预设步长在横向或纵向进行滑动时，横向所对应的预设步长与纵向所对应的预设步长可以相同，也可以不同。具体地，在两个方向所对应的预设步长相同时，预设步长小于第一预设图像的宽度，也小于第一预设图像尺寸的高度；在两个方向所对应的预设步长不同时，横向所对应的预设步长小于第一预设图像尺寸的宽度，纵向所对应的预设步长小于第一预设图像尺寸的高度。

步骤S103、基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息。

其中，第一预设检测框的尺寸等于第一预设图像尺寸。

具体地，基于预设检测框对各初始图像块进行初始目标检测，包括；针对每初始图像块，确定各第一预设检测框各自对应的图像区域是否包含目标，以实现对各初始图像块进行初始目标检测。在本申请实施例中对各初始图像块进行初始目标检测得到各目标检测框相对于原始图像的目标位置信息的具体方式详见下述实施例。

需要说明的是，在实际应用中，根据应用需求的不同，目标的具体类型也可以不同，如在人脸检测领域，目标则可以为人脸，在人物跟踪领域，目标则可以为人物，本申请实施例并不限定目标的类型，可以根据实际应用需求进行配置。

例如，第一预设图像尺寸可以为12*12，则预设检测框的尺寸等于12*12。

步骤S104、基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。

具体地，根据步骤S103中得到的各目标检测框相对于原始图像的目标位置信息，得到目标检测结果。在本申请实施例中，目标检测结果可以包括目标在所对应的原始图像中的位置信息，还可以包括目标的关键点位置信息。例如，当该目标检测结果为人脸检测结果，则人脸检测结果除了包括人脸位置信息，还可以包括各目标检测框各自所对应的各关键点的位置信息。

在本申请实施例中，上述步骤S102、步骤S103、步骤S104可以通过训练后的神经网络进行目标检测，得到目标检测结果，当然还可以通过其他的目标检测方式实现，在本申请实施例中不做限定。

进一步地，若通过训练后的神经网络进行目标检测，则在通过训练后的神经网络进行目标检测之前，还需要获取训练样本图像，并基于训练样本图像训练初始神经网络，以得到训练后的神经网络。

在获取训练样本图像，以对初始神经网络进行训练的过程中，为了增大对目标的召回率，可以采用数据增强的技术对获取的初始图像(包含目标的样本图像)进行大量扩充，以得到不同尺寸、和/或不同角度的初始样本图像，进而可以将得到的各个初始样本图像裁剪为各图像块(每个图像块的尺寸可以为第一预设尺寸，例如12*12)，并将裁减后的各图像块作为训练样本图像，进而基于得到的训练样本图像对初始神经网络进行训练，得到训练后的神经网络。

其中，上述采用数据增强的技术对初始图像进行大量扩充，以得到不同尺寸、和/或不同角度的初始样本图像，具体所采用的方式可以包括但不限于随机裁剪或随机旋转中的至少一项，在实际应用中，为了保证样本的多样性，提高训练得到的模型的鲁棒性，可以对初始图像进行随机旋转。在本申请实施例中，一种随机裁剪的方式可以是将初始图像裁剪为多种不同尺寸的图像，例如640*640，320*320；一种随机旋转的方式可以是将初始图像中的目标对象区域按照不同的角度进行旋转，以得到目标对象在图像中角度不同的各种图像。

由上述实施例可知：通过采用随机裁减和随机旋转对原始目标图像进行处理，可以得到大量的、多变化的训练样本图像，当然在通过这些训练样本图像对初始神经网络进行训练时，能够使得训练后的神经网络能够检测出图像中各种样式、各种角度的目标，从而可以提高进行目标检测的准确度。

本申请实施例提供了一种目标检测的方法，与现有技术相比，本申请实施例中基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。即在本申请实施例中对待处理图像进行子图提取，通过每隔预设步长进行第一预设图像尺寸的图像块提取，得到各第一预设图像尺寸的初始图像块，由于预设步长小于第一预设图像尺寸的宽度和高度，通过该提取方式，能够使得相邻的两个图像块之间具有一定的重叠区域，从而使得当目标的部分信息处于该重叠区域时，能够有效降低将该目标分开提取到不同的图形块中的概率，从而提高了提取到包含完整目标的图像块的概率，从而提高了后续目标检测的精度，再者，通过尺寸与第一预设图像尺寸相同的目标检测框进行目标检测，从而每个初始图像块仅需要进行一次目标检测，相较于现有技术通过滑窗进行检测会产生大量检测框的方式相比，可以大大减少数据处理量，进而可以提高目标检测的检测效率。

进一步地，由上述实施例可知：待处理的图像可以为图像金字塔，因此，步骤S101中基于原始图像获取待处理图像，具体可以包括：获取原始图像；基于原始图像构建图像金字塔，将图像金字塔作为待处理图像，图像金字塔包含对应于原始图像的至少两种不同尺寸的图像。

具体地，基于原始图像构建图像金字塔即通过将原始图像按照不同的采样率进行下采样或上采样处理，从而得到来源于同一张图像(原始图像)的至少两种不同分辨率(至少两种不同尺寸)的图像集合，其中，基于原始图像构建图像金字塔的示例如图2所示，图中上方的图像为原始图像，图中下方的三张图像中第一张为原始图像，其他两张是对原始图像按照不同的尺寸进行缩放处理(在实际应用中可以是放大，也可以是缩小)后得到的另外两种尺寸的图像，这三种尺寸的图像即为图像金字塔，由图中可以看出，本示例中的图像金字塔所包含的三张图像的尺寸依次减小。另外，需要说明的是，在实际应用中，图像金字塔中可以包含原始图像，也可以不包含原始图像。

进一步地，对于本申请实施例，待处理图像为图像金字塔，因此，步骤S102具体可以包括：在对应于原始图像的各个不同尺寸的图像中，每隔预设步长按照预设方向(如先横向后纵向，或者先纵向后横向)进行预设图像尺寸的图像的提取，得到各初始图像块。

具体，可以理解的是，在按照横向进行图像块提取时，横向所对应的预设步长小于第一预设图像尺寸的宽度；在按照纵向进行图像块提取，纵向所对应的预设步长小于第一预设图像尺寸的高度。在一个具体实例中，第一预设图像尺寸为12*12，则第一预设图像尺寸对应的宽度和高度均为12个像素的宽度和高度，则若按照横向进行图像块提取，则预设步长小于第一预设图像尺寸对应的宽度，即12个像素的宽度；若按照纵向进行图像块提取，则预设步长小于第一预设图像尺寸对应的高度，即12个像素的高度，又例如，预设步长可以取4。

另外，需要说明的是，在实际应用中，本申请实施例中的各预设图像尺寸中图像的宽度和高度可以相等，也可以不相等，可以根据实际需求配置。

进一步地，在上述实施例中从待处理图像中进行图像块提取的实现方式，可以是在神经网络内部实现，也可以是在神经网络外部实现。具体的，如可以将是上述预设步长设置为4)，第一预设图像尺寸设置为12*12，则可以基于每一待处理图像提取得到多个12*12的图像块，相邻的两个图像块之间具有8个像素的重合。

进一步地，步骤S103中基于预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息的方式可以通过现有技术来实现，当然还可以通过本申请实施例的目标检测方式实现，其中本申请实施例中基于预设检测框对各初始图像块进行初始检测，得到各目标检测框相对于原始图像的目标位置信息的方式具体可以详见下述实施例。

进一步地，在本申请实施例中，可以仅对待处理图像进行目标检测，即得到目标检测结果(目标检测框的目标位置信息和各目标检测框各自所对应的各关键点的位置信息)，为了提高目标检测结果的精确度，可以在初始目标检测得到各目标检测框相对于原始图像的目标位置信息，不直接基于得到的目标位置信息得到目标检测结果，而是基于目标位置信息和原始图像进行至少一次目标检测，以得到更为精确的目标检测结果。

因此，本申请实施例的另一种可能的实现方式，步骤S104具体可以包括：基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理，基于最后一次处理的结果，得到目标检测结果。

其中，每次处理包括：

具体地，在本申请实施例中，在后续进行每一次目标检测时，根据上一次得到的目标位置信息对原始图像进行图像块截取，并基于截取后的各图像块进行目标检测，得到目标检测结果。

例如，针对第二次目标检测，可以基于初始目标检测得到的目标检测框的目标位置信息对原始图像进行截取(即步骤S103中得到的目标位置信息对原始图像进行截取)，得到截取后的各图像块，在进行目标检测，得到目标检测结果。在本申请实施例中，当前次目标检测所对应的预设图像尺寸不大于下一次目标检测所对应的预设图像尺寸。

具体地，根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块，包括：根据上一次目标检测得到的目标检测框的目标位置信息对原始图像进行截取，得到截取后的图像块；基于当前次处理所对应的第二预设图像尺寸，对截取后的各图像块进行调整，得到当前次处理的输入图像块。

由上述实施例可知，在后续进行目标检测前，需要根据上一次的目标检测框的目标位置信息对原始图像进行截取，得到截取后的图像块，进而对截取后的各图像块进行尺寸调整，并将截取后的各图像块调整为当前次处理所对应的第二预设图像尺寸，并将调整图像尺寸后的各图像块作为当前次处理的输入图像块，进一步的调整后的每个图像块的尺寸大于上次进行目标检测所对应的图像块的图像尺寸，例如，第二次进行目标检测所对应的第二预设图像尺寸可以为24*24，大于初始目标检测所对应的第一预设图像尺寸(12*12)。

进一步地，由上述实施例可知：在进行每次处理时，根据上一次的目标检测框的目标位置信息对原始图像进行截取，得到截取后的图像块，以对截取后的各图像块进行目标检测，可以降低进行目标检测(例如人脸检测)的图像块数量，从而可以提高目标检测的速度，又由于当前次图像处理的输入图像块的图像尺寸大于上一次目标检测所对应的图像尺寸，因此可以提高各图像块的分辨率，提升目标检测的精度。

进一步地，在本申请实施例中，每次对截取后的各图像块所进行调整的图像尺寸(第二预设图像尺寸)可以预先设置，在本申请实施例中不做限定。例如，在第二次进行目标检测时，对截取后的各图像块所进行调整的第二预设图像尺寸可以为24*24，在第三次进行目标检测时，对划分后的各图像块所进行调整的预设图像尺寸可以为48*48。

进一步地，在通过上述实施例得到当前次处理的各输入图像块之后，对当前次处理的各输入图像块进行目标检测，具体地，对当前次处理的各输入图像块进行目标检测，包括：基于当前次处理对应的第二预设检测框对当前次处理的各输入图像块进行目标检测。

其中，第二预设检测框的尺寸等于当前次处理所对应的第二预设图像尺寸。

具体地，本申请实施例的另一种可能的实现方式，对于各初始图像块或输入图像块进行目标检测，得到对应的目标检测框的目标位置信息，包括：对各初始图像块或输入图像块进行目标检测，得到置信度大于当前次目标检测所对应的设定值的各目标检测框的初始位置信息和位置校准信息，其中，初始位置信息为相对于图像块的位置信息，位置校准信息为相对于原始图像的位置校准信息；针对置信度大于设定值的各目标检测框，基于各目标检测框的位置校准信息对各自对应的目标检测框的初始位置信息进行校准，得到各目标检测框的目标位置信息。在本申请实施例中，每次目标检测所对应的设定值可以相同，也可以不同，在本申请实施例中不进行限定。

由上述实施例可知：步骤S103、基于预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，具体可以包括：对各初始图像块进行目标检测，得到置信度大于当前次目标检测所对应的预设值的各目标检测框的初始位置信息和位置校准信息，针对置信度大于当前次目标检测所对应的设定值的各目标检测框，基于该各目标检测框所对应的位置校准信息对各自对应的目标检测框的初始位置信息进行校准，得到各初始图像块对应的目标检测框的目标位置信息。

具体地，在本申请实施例中，在对各初始图像块进行目标检测，得到的置信度大于当前次目标检测所对应的预设值的各目标检测框的初始位置信息中可以包括：各目标检测框的左上角顶点坐标和右下角顶点坐标，当然还可以为其他坐标，如目标检测框的中心点坐标和目标检测框的尺寸(高度和宽度)在本申请实施例中，不做限定。其中，当置信度大于预设值的各目标检测框的初始位置信息中包括：各目标检测框的左上角顶点坐标和右下角顶点坐标时，通过在对各初始图像块进行目标检测所得到的各目标检测框所对应的位置校准信息对各自对应的目标检测框的初始位置信息进行校准。但是，对各自对应的目标检测框的初始位置信息进行校准实际上是对初始位置信息所对应的比例信息进行校准。

作为一个示例，假设目标检测框的目标位置信息包括检测框的左上角顶点坐标和右下角顶点坐标的表征信息，例如，某一目标检测框在一图像块中的左上角顶点的坐标为(1,2)，初始图像块的尺寸为12*12，则该左上角顶点坐标的表征信息可以为该顶点的坐标值相对于图像块尺寸的一个比例信息，具体的该比例信息可以为(1/12,2/12)，在在基于位置校准信息对目标检测框的初始位置信息进行校准时，实际上是对该表征信息(1/12,2/12)进行校准，也得到该顶点相对于原始图像的目标位置信息，也就是该顶点相对于原始图像的表征信息，则基于该目标位置信息可以在原始图像中裁剪得到对应的图像块，以用于下一次的目标检测。

具体地，对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息，具体可以包括：对当前次处理的各输入图像块进行目标检测，得到置信度大于当前次目标检测所对应的设定值的各目标检测框的初始位置信息和位置校准信息。

其中，初始位置信息为相对于当前处理的输入图像块的位置信息，位置校准信息为相对于原始图像的位置校准信息；针对置信度大于当前次目标检测所对应的设定值的各目标检测框，基于各目标检测框的位置校准信息对各自对应的目标检测框的初始位置信息进行校准，得到各输入图像块对应的目标检测框的目标位置信息。

对于本申请实施例，基于各目标检测框的位置校准信息对各自对应的目标检测框的初始位置进行校准的方式与上述对目标检测框的初始位置进行校准的方式相似，在此不再赘述。进一步地，在上述实施例中介绍了基于预设检测框对各初始图像块进行初始目标检测，以及基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像，进行每次处理所得到目标检测所对应的目标检测框的目标位置信息时，每次所得到的各目标检测框之间可能存在重叠，因此通过NMS处理以过滤掉同一目标的相邻位置上产生的大量高度重叠的目标检测框。

具体地，本申请实施例的另一种可能的方式，对于每一次目标检测，在得到各目标检测框的目标位置信息之后，还包括：基于目标检测框的目标位置信息，采用NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框。

具体地，在基于目标检测框的目标位置信息，采用NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框的方式具体可以包括：确定置信度最大的目标检测框的目标位置信息，基于置信度最大的目标检测框的目标位置信息和其它各目标检测框的目标位置信息，确定置信度最大的目标检测框和其它各目标检测框之间的重叠度，基于确定出的重叠度过滤出重叠度大于预设阈值的目标检测框，得到过滤后的目标检测框。

进一步地，在每一次目标检测且对各目标检测框进行NMS过滤之后，基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理，包括：基于初始目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，进行至少一次以下处理。

具体地，根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块，包括：根据上一次目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块。

对于本申请实施例，在采用非极大值抑制NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框，可以减小目标检测框的数量，进而在基于上一次目标检测所对应的过滤后的目标框和原始图像得到的当前次处理的各输入图像块的数量也相应降低，从而可以降低后续每次进行处理的图像块的数量，提升目标检测的速度。

进一步地，在上述实施例中可知：所需得到的目标检测结果可以包括：目标位置信息，例如人脸位置信息，和各关键点的位置信息，在除最后一次目标检测处理之外的其他次目标检测处理均也可以得到各关键点的位置信息，也可以不得到各关键点的位置信息，但是在本申请实施例中，在最后一次目标检测处理所得到的目标检测结果中需包含各关键点的位置信息。其中，在最后一次目标检测处理得到各关键点的位置信息的方式详见下述实施例。

本申请实施例的另一种可能的实现方式，基于最后一次处理的结果，得到目标检测结果，包括：基于最后一次处理得到的各目标检测框的目标位置信息，对原始图像中相应图像区域进行目标关键点检测，得到各目标检测框各自所对应的各目标关键点的位置信息。

对于本申请实施例，在基于最后一次处理得到的目标检测框的目标位置信息之后，可以基于得到的目标检测框的目标位置信息在原始图像中确定出目标的图像区域，例如人脸图像区域，基于该区域进行目标关键点检测，以得到各目标关键点的位置信息。当然在基于最后一次处理得到的目标检测框的目标位置信息之后，采用非极大值抑制NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框，进而根据过滤后的各目标检测框的位置信息，得到目标的图像区域，例如人脸图像区域，进而该目标的图像区域进行目标关键点检测，得到对应的各目标关键点位置信息。

除了上述实施例中涉及的在进行最后一次处理得到目标检测框的目标位置信息之后，对原始图像中相应图像区域进行目标关键点检测，得到各目标关键点的位置信息，还可以在最后一次目标的检测过程中，直接输出置信度大于设定值的各目标检测框的初始位置信息、位置校准信息以及对应的各关键点的位置信息。

具体地，本申请实施例的另一种可能的实现方式，对于最后一次处理，对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息，包括：对最后一次处理的各输入图像块进行目标检测，得到各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息；基于最后一次处理的结果，得到目标检测结果，包括：将最后一次处理得到的各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息作为目标检测结果。

具体地，在本申请实施例中，在最后一次处理的各输入图像块进行目标检测时，直接得到各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息，并直接输出。后续可以基于最后一次处理得到的各目标检测框的目标位置信息对各目标检测框进行NMS处理，即输出NMS处理后的各目标检测框的目标位置信息以及各目标检测框各自所对应的各关键点位置信息。

进一步地，在本申请实施例中，还可以包括：针对最后一次目标检测，直接输出过滤后的目标检测框的目标位置信息(该目标位置信息为基于对应的位置校准信息进行校准后的目标位置信息)和对应的关键点位置信息。

进一步地，在上述实施例中每次目标检测得到目标检测框的目标位置信息的方式可以分别通过神经网络来实现，也可以不通过神经网络来实现，在本申请实施例中不做限定。

在上述实施例的基础上，本申请实施例提供了一个具体实例介绍人脸检测的方式，具体地，在对原始图像进行人脸检测时可以通过人脸检测网络来实现，其中，该人脸检测网络中可以包含三个子网络，例如，三个子网络可以依次为提案网络、判别网络1和判别网络2，其中，在提案网络的输入为对原始图像构建的图像金字塔，并在通过提案网络对图像金字塔中的各尺寸的图像按照12*12的预设图像尺寸的检测框且步长为4进行子图提取，得到各初始图像块，由于在提取初始图像块时，预设步长为4，因此，相邻的初始图像块之间能够具有8个像素的重合，如从原始图像的左上角开始进行初始图像块提取，则第一个初始图像块为原始图像的左上角的12*12区域的子图，如果横向滑动4个像素进行第二个初始图像块的提取，则第二个初始图像块和第一个初始图像块的重合区域大小为8*12个像素所对应的区域大小，基于该原理能够提取得到更多的含完整人脸的图像块，然后对各初始图像块进行人脸检测、得到置信度大于设定值的人脸检测框的初始位置信息以及对应的回归向量(位置校准信息)，在对初始位置信息进行校准之后，得到各人脸检测框的目标位置信息，再然后可以对人脸检测框进行NMS处理，得到过滤后的各人脸检测框的目标位置信息，具体如图5a所示。其中，通过提案网络所得到的各人脸检测框中可能存在不包含人脸的目标检测框，因此为了提高召回的人脸检测框的精确度，可以通过判别网络1和判别网络2对前一网络召回的人脸检测框对应的图像区域进行进一步人脸检测。

进一步地，在通过提案网络的得到各人脸检测框的目标位置信息之后，基于各人脸检测框的目标位置信息，对原始图像进行截取，得到截取后的各图像块，然后将截取后的各图像块对应的尺寸调整至24*24后输入至判别网络1，然后在判别网络1中进行人脸检测，得到置信度大于设定值的各人脸检测框的初始位置信息，以及对应的回归向量，进而通过回归向量对各自对应的人脸检测框的初始位置信息进行校准，以得到当前次人脸检测所对应的人脸检测框的目标位置信息，并进一步地对得到的人脸检测框进行NMS处理，得到过滤后的各人脸检测框的目标位置信息，具体如图5b所示，其中，由于判别网络1是在提案网络所输出的很可能包含人脸的检测框的图像块的基础上所进行的进一步的人脸检测，因此通过判别网络1所得到的各人脸检测框的目标位置信息相对于通过提案网络所得到的各人脸检测框的目标位置信息的精确度更高。

当然为了进一步提升人脸检测的精确度，在通过判别网络1得到各人脸检测框的目标位置信息之后，基于各人脸检测框的目标位置信息对原始图像进行截取，得到截取后的各图像块，然后将截取后的各图像块对应的尺寸调整至48*48后输入至判别网络2，然后在判别网络2中进行人脸检测，得到置信度大于设定值的各人脸检测框的初始位置信息，以及对应的回归向量，以及各人脸检测框各自对应的各关键点，进而通过回归向量对各自对应的人脸检测框的初始位置信息进行校准，以得到当前人脸检测所对应的人脸检测框的目标位置信息，并进一步地对得到的人脸检测框进行NMS处理，得到过滤后的各人脸检测框的目标位置信息，因此基于判别网络2输出，可以得到各人脸检测框分别对应的目标位置信息和各人脸检测框各自对应的各关键点的位置信息，具体如图5c所示，其中，基于相同的原理，通过判别网络2所得到的各人脸检测框的目标位置信息相对于通过判别网络1所得到的各人脸检测框的目标位置信息的精确度更高。

进一步地，上述实施例中介绍的提案网络、判别网络1和判别网络2均可以为卷积网络，其中，各卷积网络的具体网络架构本申请实施例不做限定。可选的，如提案网络可以包括依次级联的多个卷积层，如依次级联的卷积层1、卷积层2和卷积层3，其中，卷积层1所对应的卷积核的尺寸可以为3*3，步长为2，卷积层2所对应的卷积核的尺寸可以为3*3，步长为2，卷积层3所对应的卷积核的尺寸可以为1*1，步长为1；判别网络1可以依次级联的多个卷积层，如依次级联的卷积层4、卷积层5和卷积层6，其中，卷积层4所对应的卷积核的尺寸可以为3*3，步长为2，卷积层5所对应的卷积核的尺寸可以为3*3，步长为2，卷积层6所对应的卷积核的尺寸可以为1*1，步长为2；判别网络2中可以包括依次级联的卷积层7、卷积层8、卷积层9及卷积层10，其中，卷积层7所对应的卷积核的尺寸可以为3*3，步长为2，卷积层8所对应的卷积核的尺寸可以为3*3，步长为2，卷积层9所对应的卷积核的尺寸可以为3*3，步长为2，卷积层10所对应的卷积核的尺寸可以为1*1，步长为2。

上述实施例中从方法流程的角度介绍了一种目标检测方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种目标检测装置，具体详见下述实施例。

本申请实施例提供了一种目标检测装置，如图3所示，该目标检测装置30可以包括：获取模块31、子图提取模块32、目标检测模块33，其中，

获取模块31，用于基于原始图像获取待处理图像。

子图提取模块32，用于在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度。

目标检测模块33，用于基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，以及用于基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。

其中，第一预设检测框的尺寸等于第一预设图像尺寸。

本申请实施例的另一种可能的实现方式，目标检测模块32在基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果时，具体用于：

本申请实施例的另一种可能的实现方式，目标检测模块33在根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块时，具体用于：

具体地，目标检测模块33在对当前次处理的各输入图像块进行目标检测时，具体用于基于当前次处理对应的第二预设检测框对当前次处理的各输入图像块进行目标检测，第二预设检测框的尺寸等于当前次处理所对应的第二预设图像尺寸。

本申请实施例的另一种可能的实现方式，获取模块31在基于原始图像获取待处理图像时，具体用于：

获取原始图像；

基于原始图像构建图像金字塔，

将图像金字塔确定为待处理图像，图像金字塔包含对应于原始图像的至少两种不同尺寸的图像。

本申请实施例的另一种可能的实现方式，目标检测模块32在对于各初始图像块或输入图像块进行目标检测，得到对应的目标检测框的目标位置信息时，具体用于：

本申请实施例的另一种可能的实现方式，装置30还包括：过滤模块，其中，

过滤模块，用于对于每一次目标检测，在得到各目标检测框的目标位置信息之后，基于目标检测框的目标位置信息，采用非极大值抑制NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框；

目标检测模块32在基于初始目标检测所得到的各目标检测框的目标位置信息和原始图像进行至少一次以下处理时，具体用于：

目标检测模块32，在根据上一次目标检测得到的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块时，具体用于：根据上一次目标检测所对应的过滤后的目标检测框的目标位置信息和原始图像，得到当前次处理的各输入图像块。

本申请实施例的另一种可能的实现方式，目标检测模块33在基于最后一次处理的结果，得到目标检测结果时，具体用于基于最后一次处理得到的各目标检测框的目标位置信息，对原始图像中相应图像区域进行目标关键点检测，得到各目标检测框各自所对应的各目标关键点的位置信息；

本申请实施例的另一种可能的实现方式，目标检测模块33在对于最后一次处理，对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息时，具体用于：

目标检测模块33在基于最后一次处理的结果，得到目标检测结果时，具体用于将最后一次处理得到的各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息作为目标检测结果。

本申请实施例的另一种可能的实现方式，当前次目标检测所对应的预设图像尺寸不大于下一次目标检测所对应的预设图像尺寸。

本申请实施例提供了一种目标检测的装置，与现有技术相比，本申请实施例中基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。即在本申请实施例中对待处理图像进行子图提取，通过每隔预设步长进行第一预设图像尺寸的图像块提取，得到各第一预设图像尺寸的初始图像块，由于预设步长小于第一预设图像尺寸的宽度和高度，通过该提取方式，能够使得相邻的两个图像块之间具有一定的重叠区域，从而使得当目标的部分信息处于该重叠区域时，能够有效降低将该目标分开提取到不同的图形块中的概率，从而提高了提取到包含完整目标的图像块的概率，从而提高了后续目标检测的精度，再者，通过尺寸与第一预设图像尺寸相同的目标检测框进行目标检测，从而每个初始图像块仅需要进行一次目标检测，相较于现有技术通过滑窗进行检测会产生大量检测框的方式相比，可以大大减少数据处理量，进而可以提高目标检测的检测效率。

本实施例的目标检测装置可执行上述方法实施例所示的目标检测方法，其实现原理相类似，此处不再赘述。

上述实施例从虚拟模块的角度介绍了一种目标检测装置，下述实施例从实体装置的角度介绍了一种电子设备，该电子设备可以为终端设备，也可以为服务器，并可以用于执行上述方法实施例所示的目标检测方法，具体详见下述实施例。

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：本申请实施例中基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。即在本申请实施例中对待处理图像进行子图提取，通过每隔预设步长进行第一预设图像尺寸的图像块提取，得到各第一预设图像尺寸的初始图像块，由于预设步长小于第一预设图像尺寸的宽度和高度，通过该提取方式，能够使得相邻的两个图像块之间具有一定的重叠区域，从而使得当目标的部分信息处于该重叠区域时，能够有效降低将该目标分开提取到不同的图形块中的概率，从而提高了提取到包含完整目标的图像块的概率，从而提高了后续目标检测的精度，再者，通过尺寸与第一预设图像尺寸相同的目标检测框进行目标检测，从而每个初始图像块仅需要进行一次目标检测，相较于现有技术通过滑窗进行检测会产生大量检测框的方式相比，可以大大减少数据处理量，进而可以提高目标检测的检测效率。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例中基于原始图像获取待处理图像，然后在待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，预设步长小于第一预设图像尺寸的宽度和高度，然后基于第一预设检测框对各初始图像块进行初始目标检测，得到各目标检测框相对于原始图像的目标位置信息，其中第一预设检测框的尺寸等于第一预设图像尺寸，然后基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。即在本申请实施例中对待处理图像进行子图提取，通过每隔预设步长进行第一预设图像尺寸的图像块提取，得到各第一预设图像尺寸的初始图像块，由于预设步长小于第一预设图像尺寸的宽度和高度，通过该提取方式，能够使得相邻的两个图像块之间具有一定的重叠区域，从而使得当目标的部分信息处于该重叠区域时，能够有效降低将该目标分开提取到不同的图形块中的概率，从而提高了提取到包含完整目标的图像块的概率，从而提高了后续目标检测的精度，再者，通过尺寸与第一预设图像尺寸相同的目标检测框进行目标检测，从而每个初始图像块仅需要进行一次目标检测，相较于现有技术通过滑窗进行检测会产生大量检测框的方式相比，可以大大减少数据处理量，进而可以提高目标检测的检测效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标检测的方法，其特征在于，包括：

基于原始图像获取待处理图像；

在所述待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，所述预设步长小于所述第一预设图像尺寸的宽度和高度；

基于第一预设检测框对所述各初始图像块进行初始目标检测，得到各目标检测框相对于所述原始图像的目标位置信息，所述第一预设检测框的尺寸等于所述第一预设图像尺寸；

2.根据权利要求1所述的方法，其特征在于，所述基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果，包括：

基于初始目标检测所得到的各目标检测框的目标位置信息和所述原始图像进行至少一次以下处理，基于最后一次处理的结果，得到目标检测结果，其中，每次所述处理包括：

根据上一次目标检测得到的目标检测框的目标位置信息和所述原始图像，得到当前次处理的各输入图像块；

3.根据权利要求2所述的方法，其特征在于，根据上一次目标检测得到的目标检测框的目标位置信息和所述原始图像，得到当前次处理的各输入图像块，包括：

根据所述上一次目标检测得到的目标检测框的目标位置信息对所述原始图像进行截取，得到截取后的图像块；

基于当前次处理所对应的第二预设图像尺寸，对截取后的各图像块进行调整，得到所述当前次处理的输入图像块；

所述对当前次处理的各输入图像块进行目标检测，包括：

基于当前次处理对应的第二预设检测框对所述当前次处理的各输入图像块进行目标检测，所述第二预设检测框的尺寸等于当前次处理所对应的第二预设图像尺寸。

4.根据权利要求1所述的方法，其特征在于，所述基于原始图像获取待处理图像，包括：

获取原始图像；

基于所述原始图像构建图像金字塔，将所述图像金字塔作为所述待处理图像，所述图像金字塔包含对应于所述原始图像的至少两种不同尺寸的图像。

5.根据权利要求2所述的方法，其特征在于，对于所述各初始图像块或输入图像块进行目标检测，得到对应的目标检测框的目标位置信息，包括：

对所述各初始图像块或输入图像块进行目标检测，得到置信度大于当前次目标检测所对应的设定值的各目标检测框的初始位置信息和位置校准信息，其中，所述初始位置信息为相对于所述图像块的位置信息，所述位置校准信息为相对于所述原始图像的位置校准信息；

针对置信度大于当前次目标检测所对应的设定值的各目标检测框，基于各目标检测框的位置校准信息对各自对应的目标检测框的初始位置信息进行校准，得到各目标检测框的目标位置信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，对于每一次目标检测，在得到各目标检测框的目标位置信息之后，还包括：

基于所述目标检测框的目标位置信息，采用非极大值抑制NMS算法对各目标检测框进行过滤，得到过滤后的目标检测框；

所述基于初始目标检测所得到的各目标检测框的目标位置信息和所述原始图像进行至少一次以下处理，包括：

基于初始目标检测所对应的过滤后的目标检测框的目标位置信息和所述原始图像，进行至少一次以下处理；

所述根据上一次目标检测得到的目标检测框的目标位置信息和所述原始图像，得到当前次处理的各输入图像块，包括：

根据上一次目标检测所对应的过滤后的目标检测框的目标位置信息和所述原始图像，得到当前次处理的各输入图像块。

7.根据权利要求2所述的方法，其特征在于，所述基于最后一次处理的结果，得到目标检测结果，包括：

基于最后一次处理得到的各目标检测框的目标位置信息，对所述原始图像中相应图像区域进行目标关键点检测，得到各目标检测框各自所对应的各目标关键点的位置信息；

所述目标检测结果包括最后一次处理得到的各目标检测框的目标位置信息和各目标检测框各自所对应的各关键点位置信息。

8.根据权利要求2所述的方法，其特征在于，对于最后一次处理，对当前次处理的各输入图像块进行目标检测，基于检测结果得到当前次目标检测所对应的目标检测框的目标位置信息，包括：

所述基于最后一次处理的结果，得到目标检测结果，包括：

将最后一次处理得到的各目标检测框的目标位置信息、以及各目标检测框各自所对应的各关键点位置信息作为所述目标检测结果。

9.根据权利要求2所述的方法，其特征在于，当前次目标检测所对应的预设图像尺寸不大于下一次目标检测所对应的预设图像尺寸。

10.一种目标检测的装置，其特征在于，包括：

获取模块，用于基于原始图像获取待处理图像；

子图提取模块，用于在所述待处理图像中，每隔预设步长进行第一预设图像尺寸的图像块的提取，得到各初始图像块，其中，所述预设步长小于所述第一预设图像尺寸的宽度和高度；

目标检测模块，用于基于第一预设检测框对所述各初始图像块进行初始目标检测，得到各目标检测框相对于所述原始图像的目标位置信息，所述第一预设检测框的尺寸等于所述第一预设图像尺寸，以及用于基于初始目标检测所得到的各目标检测框的目标位置信息，得到目标检测结果。

11.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行根据权利要求1～9任一项所述的目标检测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～9任一项所述的目标检测方法。