CN108229495B

CN108229495B - 目标对象检测方法、装置、电子设备和存储介质

Info

Publication number: CN108229495B
Application number: CN201710487247.4A
Authority: CN
Inventors: 刘宇; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2020-07-17
Anticipated expiration: 2037-06-23
Also published as: CN108229495A

Abstract

本发明实施例提供了一种目标对象检测方法、装置、电子设备和存储介质，其中，所述方法包括：对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置。本发明实施例无需对待检测的图像进行多次金字塔形式的缩放，节省了目标对象检测的时间，而且，对于有效范围之外的目标对象的尺度不予处理，提高了目标对象检测的精度。

Description

目标对象检测方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种目标对象检测方法、装置、电子设备和存储介质。

背景技术

目标对象检测是利用计算机自动检测目标对象的技术，是模式检测应用的一个重要领域。在目标对象检测过程中，需要确定目标对象的位置、尺度和特征。

目前，在确定目标对象的位置时将包含目标对象的图像经过多次金字塔形式的缩放，再利用卷积神经网络确定不同尺度的目标对象的位置。

发明内容

本发明实施例提供了目标对象检测技术方案。

根据本发明实施例的第一方面，提供了一种目标对象检测方法，包括：对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置。

可选地，所述根据所述尺度特征图分别对各目标对象进行转换，包括：根据所述尺度特征图分别对各目标对象进行递归转换,所述递归转换用于获得任意尺度大小的尺度特征图。

可选地，所述根据所述尺度特征图分别对各目标对象进行转换，包括：根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图；分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换。

可选地，所述根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图，包括：根据所述尺度特征图确定像素最小的目标对象；根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图。

可选地，所述根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图，包括：将所述像素最小的目标对象的尺度特征图缩放至所述递归转换像素范围；将缩放后的尺度特征图确定为所述各目标对象对应的最大尺度特征图。

可选地，所述根据所述尺度特征图分别对各目标对象进行转换，包括：根据所述尺度特征图分别对各目标对象进行转换，得到与转换之前的尺度特征图具有相同语义信息的有效尺度特征图。

可选地，所述对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，包括：基于任意结构的全卷积网络对所述图像进行N个尺度的目标尺度预测和目标特征识别，得到所述各目标对象的尺度特征图，所述N为预设尺度的数量，所述N为大于零的整数，所述全卷积网络的最后一层为全局池化层，所述全卷积网络的通道数为N。

可选地，所述对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，包括：对所述图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息；根据所述目标对象置信度信息和预设目标对象阈值，确定所述图像中的各目标对象的尺度；根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图。

可选地，所述根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图，包括：根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放；对所述缩放后的图像进行目标特征识别，得到所述各目标对象的尺度特征图。

可选地，所述根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放，包括：针对尺度小于所述各预设尺度的范围的最小值的目标对象，将所述图像进行放大，所述放大后的图像的尺度位于所述各预设尺度的范围内；和/或，针对尺度大于所述各预设尺度的范围的最大值的目标对象，将所述图像进行缩小，所述缩小后的图像的尺度位于所述各预设尺度的范围内。

可选地，所述对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置，包括：对所述有效尺度特征图进行目标位置检测，得到所述各目标对象的位置信息和与所述各目标对象的位置信息对应的位置置信度信息；根据所述位置置信度信息和预设位置阈值，确定所述各目标对象的位置。

根据本发明实施例的第二方面，提供了一种目标对象检测装置，包括：预测识别模块，用于对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；转换模块，用于根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；检测模块，用于对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置。

可选地，所述转换模块，用于根据所述尺度特征图分别对各目标对象进行递归转换,所述递归转换用于获得任意尺度大小的尺度特征图。

可选地，所述转换模块，包括：获取子模块，用于根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图；递归转换子模块，用于分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换。

可选地，所述获取子模块，用于根据所述尺度特征图确定像素最小的目标对象；根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图。

可选地，所述获取子模块，用于将所述像素最小的目标对象的尺度特征图缩放至所述递归转换像素范围；将缩放后的尺度特征图确定为所述各目标对象对应的最大尺度特征图。

可选地，所述转换模块，用于根据所述尺度特征图分别对各目标对象进行转换，得到与转换之前的尺度特征图具有相同语义信息的有效尺度特征图。

可选地，所述预测识别模块，用于基于任意结构的全卷积网络对所述图像进行N个尺度的目标尺度预测和目标特征识别，得到所述各目标对象的尺度特征图，所述N为预设尺度的数量，所述N为大于零的整数，所述全卷积网络的最后一层为全局池化层，所述全卷积网络的通道数为N。

可选地，所述预测识别模块，包括：尺度预测子模块，用于对所述图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息；尺度确定子模块，用于根据所述目标对象置信度信息和预设目标对象阈值，确定所述图像中的各目标对象的尺度；特征识别子模块，用于根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图。

可选地，所述特征识别子模块，用于根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放；对所述缩放后的图像进行目标特征识别，得到所述各目标对象的尺度特征图。

可选地，所述特征识别子模块，用于针对尺度小于所述各预设尺度的范围的最小值的目标对象，将所述图像进行放大，所述放大后的图像的尺度位于所述各预设尺度的范围内；和/或，针对尺度大于所述各预设尺度的范围的最大值的目标对象，将所述图像进行缩小，所述缩小后的图像的尺度位于所述各预设尺度的范围内。

可选地，所述检测模块，包括：位置检测子模块，用于对所述有效尺度特征图进行目标位置检测，得到所述各目标对象的位置信息和与所述各目标对象的位置信息对应的位置置信度信息；位置确定子模块，用于根据所述位置置信度信息和预设位置阈值，确定所述各目标对象的位置。

根据本发明实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的目标对象检测方法对应的操作。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图的可执行指令，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；用于根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图的可执行指令，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；用于对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置的可执行指令。

根据本发明实施例提供的技术方案，首先对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图，各目标对象的尺度特征图用于预测各预设尺度下存在目标对象的置信度；其次根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；然后对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

本发明实施例提供的技术方案通过对待检测的图像进行目标尺度预测，得到各目标对象的尺度特征图，根据尺度特征图分别对各目标对象进行转换，无需对待检测的图像进行多次金字塔形式的缩放，节省了目标对象检测的时间。而且，本发明实施例根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，将待检测的目标对象的尺度限定在有效范围内，对于有效范围之外的目标对象的尺度不予处理，提高了目标对象检测的精度。

附图说明

图1是根据本发明实施例一的目标对象检测方法的步骤流程图

图2是根据本发明实施例二的目标对象检测方法的步骤流程图；

图3是根据本发明实施例三的目标对象检测装置的结构框图；

图4是根据本发明实施例四的目标对象检测装置的结构框图；

图5是根据本发明实施例五的电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的目标对象检测方法的步骤流程图。

本实施例的目标对象检测方法包括以下步骤：

步骤S100、对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图。

本实施例中，待检测的图像可以为来源于图像采集设备的视频图像，由一帧一帧的图像组成，也可以为单独的一帧图像或者一幅图像，还可以来源于其他设备。本实施例对待检测的图像的来源和获得途径等不做限制。而且，待检测的图像可以为上述视频图像、一帧图像或者一幅图像的原图，也可以为原图的任意变种图像，例如，将原图的边长缩小到224个像素之后的图像。

本实施例中，目标尺度预测用于预测图像中可能存在的目标对象的尺度，目标特征识别用于识别图像中可能存在的目标对象的图像特征。

本步骤S100得到的各目标对象的尺度特征图不必限定为图像中全部目标对象的尺度特征图，本步骤S100得到的各目标对象的尺度特征图可以为满足一定条件的目标对象的尺度特征图，例如，尺度特征图可以为包含表示或者代表某目标对象的尺度大小的特征图像，其中的目标对象可以用矩形框选中。关于如何确定图像中的目标对象是否满足一定条件的介绍，将在后续实施例的步骤S200中详细说明。

步骤S102、根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图。

本实施例中，根据尺度特征图分别对各目标对象进行转换，目的是获得不同尺度大小的尺度特征图，在一种可选的实施方式中，可以通过一个全卷积结构进行转换，该全卷积结构可以为任意层数的卷积层或者池化层。例如，该全卷积结构包含四个卷积层，其中，一个卷积层的步长(stride)为2，其他三个卷积层的stride均为1，使得该全卷积结构的总体stride为2。

并且，本实施例中的全卷积结构可以设定为只对预定尺度的特征图进行递归转换，对于预定尺度以外的特征图不进行处理，主要目的是提高目标对象检测的精度。

步骤S104、对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

本实施例可以采用任意适当的技术手段对有效尺度特征图进行目标位置检测，例如，对有效尺度特征图继续进行卷积运算，得到各目标对象的位置预测结果。

根据本实施例提供的技术方案，首先对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图，各目标对象的尺度特征图用于预测各预设尺度下存在目标对象的置信度；其次根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；然后对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

本实施例提供的技术方案通过对待检测的图像进行目标尺度预测，得到各目标对象的尺度特征图，根据尺度特征图分别对各目标对象进行转换，无需对待检测的图像进行多次金字塔形式的缩放，节省了目标对象检测的时间。而且，本实施例根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，将待检测的目标对象的尺度限定在有效范围内，对于有效范围之外的目标对象的尺度不予处理，提高了目标对象检测的精度。

实施例二

参照图2，示出了根据本发明实施例二的目标对象检测方法的步骤流程图。

需要说明的是，本发明各实施例描述的部分均有所侧重，某实施例未详尽描述的部分可参见本发明其他实施例中的介绍和说明，不再赘述。

本实施例的目标对象检测方法包括以下步骤：

步骤S200、对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图。

本实施例中，可以基于任意结构的全卷积网络对图像进行N个尺度的目标尺度预测和目标特征识别，得到各目标对象的尺度特征图，其中，N为预设尺度的数量，N为大于零的整数，全卷积网络的最后一层为全局池化层(global pooling layer)，全卷积网络的通道数即预设尺度的数量。一种可选的实施方式中，任意结构的全卷积网络可以采用尺度预测网络，尺度预测网络的最后一层为全局池化层，尺度预测网络的通道数为预设尺度的数量，如预设尺度的数量为60。通过对尺度预测网络进行训练，使得尺度预测网络只能对一定尺度范围内的目标对象进行目标尺度预测，例如，尺度预测网络可预测的目标对象的尺度范围为2⁵到2¹¹个像素，在该尺度范围内，尺度按照0.1进行指数递增，而且，全局池化层可以将尺度特征图的长宽池化为1×1，使得预测的目标对象的尺度特征图为正方形，还可以通过全局池化层将尺度特征图的长宽池化为其他比例，本实施例对尺度特征图的长宽比例不做具体限制。通过尺度预测网络对图像进行目标尺度预测，可以输出各预设尺度下存在目标对象的目标对象置信度信息。

一种可选的实施方式中，本步骤S200可以包括如下子步骤：

子步骤S2000、对待检测的图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息。

各预设尺度下存在目标对象的目标对象置信度信息用于表示或者代表各预设尺度下存在目标对象的概率。

子步骤S2002、根据目标对象置信度信息和预设目标对象阈值，确定待检测的图像中的各目标对象的尺度。

可以将大于或者等于预设目标对象阈值的目标对象置信度信息对应的预设尺度，确定为待检测的图像中的各目标对象的尺度。例如，上述子步骤S2000得到各预设尺度下存在目标对象的目标对象置信度信息分别为：预设尺度c1下存在目标对象的目标对象置信度信息为z1，预设尺度c2下存在目标对象的目标对象置信度信息为z2，预设尺度c3下存在目标对象的目标对象置信度信息为z3。预设目标对象阈值为m，若目标对象置信度信息z1小于预设目标对象阈值m，目标对象置信度信息z2大于预设目标对象阈值m，目标对象置信度信息z3大于预设目标对象阈值m，则将预设尺度c2和c3确定为待检测的图像中各目标对象的尺度，即待检测的图像中包含尺度为c2的一个目标对象和尺度为c3的另一个目标对象。

子步骤S2004、根据各目标对象的尺度和各预设尺度的范围进行目标特征识别，得到各目标对象的尺度特征图。

本子步骤S2004中，可以根据各目标对象的尺度和各预设尺度的范围对待检测的图像进行缩放，在缩放过程中，可以针对尺度小于各预设尺度的范围的最小值的目标对象，将待检测的图像进行放大，使得放大后的图像的尺度位于各预设尺度的范围内；和/或，可以针对尺度大于各预设尺度的范围的最大值的目标对象，将待检测的图像进行缩小，使得缩小后的图像的尺度位于各预设尺度的范围内，进而通过尺度预测网络对缩放后的图像进行目标特征识别，得到各目标对象的尺度特征图。接上例，尺度预测网络可预测的目标对象的尺度范围为2⁵到2¹¹个像素，若尺度c2小于2⁵个像素，则需要针对尺度为c2的目标对象对待检测的图像进行放大，使得放大后的图像的尺度位于尺度范围内；若尺度c3大于2¹¹个像素，则需要针对尺度为c3的目标对象对待检测的图像进行缩小，使得缩小后的图像的尺度位于尺度范围内。

本实施例中，尺度预测网络不仅可以预测目标对象的尺度，还可以对预测的目标对象进行特征识别，也就是说，尺度预测网络将目标尺度预测功能和目标特征识别功能拟合到一起。而且，目标尺度预测结构的参数可以与目标特征识别结构的参数共享，降低了尺度预测网络的训练难度，节省了尺度预测网络的训练时间。

步骤S202、根据各目标对象的尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图。

由于各目标对象的尺度特征图中可能存在目标对象，也可能不存在目标对象，因此本步骤S202根据各目标对象的尺度特征图分别对各目标对象进行转换，得到存在目标对象的各目标对象的有效尺度特征图，即有效尺度特征图中必然存在目标对象，也可以认为有效尺度特征图是符合预设条件的尺度特征图。一种可选的实施方式中，可以根据各目标对象的尺度特征图对各目标对象进行递归转换，得到各目标对象的有效尺度特征图。具体地，可以根据各目标对象的尺度特征图获取各目标对象对应的最大尺度特征图，并基于递归转换网络分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换，得到各目标对象的有效尺度特征图。例如，将输入至递归转换网络的尺度特征图转换为具有相同语义信息的中等尺度特征图、小尺度特征图等。若递归转换网络的stride＝2，则将输入至递归转换网络的最大尺度特征图转换为具有相同语义信息的，尺度为最大尺度特征图的一半尺度的有效尺度特征图，该有效尺度特征图的尺度大小与递归转换网络的stride相关，例如，stride＝2，则有效尺度特征图为最大尺度特征图的一半尺度，若stride＝n，n为正整数，则有效尺度特征图为最大尺度特征图的1/n尺度。而且，通过对递归转换网络进行训练，使得训练完毕的递归转换网络的输入项和输出项具有相同的语义信息，即保持输入项和输出项的语义信息不变，本实施例对递归转换网络的训练过程所采用的技术手段不做限制。

在获取各目标对象对应的最大尺度特征图的过程中，可以根据各目标对象的尺度特征图确定像素最小的目标对象，进而根据像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取各目标对象对应的最大尺度特征图。例如，全卷积结构的递归转换像素范围为只对64像素～128像素范围内的尺度特征图进行递归转换，得到的各目标对象的尺度特征图分别为20像素尺度特征图、40像素尺度特征图和60像素尺度特征图，一种可选的实施方式中，针对20像素尺度特征图而言，需要将待检测的图像放大4-6倍，20乘以4等于80，20乘以6等于120，80和120均属于64～128范围内，则放大6倍后的特征图为20像素尺度特征图的目标对象对应的最大尺度特征图；针对40像素尺度特征图而言，需要将待检测的图像放大2-3倍，40乘以2等于80，40乘以3等于120，80和120属于64～128范围内，则放大3倍后的特征图为40像素尺度特征图的目标对象对应的最大尺度特征图；针对60像素尺度特征图而言，需要将待检测的图像放大2倍，60乘以2等于120，120属于64～128范围内，则放大2倍后的特征图为60像素尺度特征图的目标对象对应的最大尺度特征图。另一种可选的实施方式中，放大2-3倍、4-6倍中，将放大4-6倍后的特征图作为上述三个目标对象的最大尺度特征图，即将像素最小的目标对象放大后的特征图确定为各目标对象对应的最大尺度特征图。上述已经说明，递归转换网络输出项的尺度缩小为输入项的1/n，因此，尽量选择尺度最大的输入项，才能保证输出项的尺度为任意尺度。本实施例中，递归转换的主要作用是获得任意尺度大小的尺度特征图。

一种可选的实施方式中，若通过递归转换网络对某目标对象的尺度特征图递归转换m次，则得到的有效尺度特征图为F^m。

F^m＝RSA(h^(m-1)|ω)＝h^(m)，h^(m)＝f(L^m)；

其中，RSA()表示将该目标对象的最大尺度特征图输入至递归转换网络，输出的有效尺度特征图的尺度大小为最大尺度特征图的尺度的一半，ω是递归转换网络的权重，f()表示stride＝2的卷积操作，L^m表示某目标对象的尺度特征图或最大尺度特征图。

步骤S204、对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

本实施例中，可以基于全卷积网络对有效尺度特征图进行目标位置检测，确定各目标对象的位置。可以将各目标对象的有效尺度特征图依次输入至全卷积网络，也可以将各目标对象的有效尺度特征图并行输入至全卷积网络，通过全卷积网络对有效尺度特征图进行目标位置检测。本步骤S204中的全卷积网络可以包括若干卷积层和若干池化层，本实施例对进行目标位置检测所采用的全卷积网络的结构和参数不做限制。除采用全卷积网络进行目标位置检测之外，还可以通过其他神经网络或者非神经网络进行目标位置检测，本实施例对目标位置检测所采用的具体技术手段不做限制。一种可选的实施方式中，本步骤S204可以包括如下子步骤：

子步骤S2040、对有效尺度特征图进行目标位置检测，得到各目标对象的位置信息和与各目标对象的位置信息对应的位置置信度信息。

例如，对有效尺度特征图y1进行目标位置检测，得到目标对象b1的位置信息和目标对象b1的位置置信度信息以及目标对象b2的位置信息和目标对象b2的位置置信度信息。

子步骤S2042、根据位置置信度信息和预设位置阈值，确定各目标对象的位置。

例如，将大于或者等于预设位置阈值的位置置信度信息对应的位置信息确定为待检测的图像中的目标对象的位置，接上例，若目标对象b1的位置置信度信息大于预设位置阈值w，目标对象b2的位置置信度信息小于预设位置阈值w，则将目标对象b1的位置信息确定为待检测的图像中的目标对象的位置。

本实施例通过递归转换网络将各目标对象的尺度特征图中的最大尺度特征图进行递归转换，得到各目标对象的多种不同的尺度特征图，例如，将最大尺度特征图输入至递归转换网络，输出尺度为最大尺度特征图的一半尺度的尺度特征图，再将尺度为最大尺度特征图的一半尺度的尺度特征图输入至递归转换网络，输出尺度为最大尺度特征图的四分之一尺度的尺度特征图，以此类推，通过设置递归转换网络的不同stride，可以得到任意尺度的尺度特征图。只需要在递归转换网络中输入一次最大尺度特征图，即可输出任意尺度的尺度特征图，无需对待检测的图像进行多次金字塔形式的缩放，降低了目标检测的运算复杂度。

本实施例中通过递归转换网络将各目标对象的尺度特征图中的最大尺度特征图进行递归转换，得到的多重不同尺度的尺度特征图具有与递归转换之前的尺度特征图相同的语义信息，避免因语义信息出现错乱而造成的目标检测不准确的问题。

本实施例中的技术方案可以应用在一个神经网络总体，该神经网络总体可以包括尺度预测网络、递归转换网络和位置检测网络。通过尺度预测网络对待检测的图像进行目标尺度预测和目标特征识别，得到待检测的图像中各目标对象的尺度特征图，进而根据各目标对象的尺度特征图基于递归转换网络进行递归转换，将各目标对象的尺度特征图在递归转换网络中计算，得到各目标对象的有效尺度特征图，基于位置检测网络对有效尺度特征图进行目标位置检测，避免了将各目标对象的尺度特征图直接输入至位置检测网络，也避免了对待检测的图像进行多次金字塔形式的缩放，减少了该神经网络总体的尺度预测网络和递归转换网络的计算复杂度，在对位置检测网络不做改变的情况下，相应地减少了该神经网络总体的计算复杂度。

本实施例中的技术方案可以应用在视频监控、手机相册、面部解锁等与人脸检测相关的应用场景中，可以预测某一帧图像中人脸、物体的尺度分布情况，通过本实施例中的技术方案可以提升通用物体的检测效果。

实施例三

参照图3，示出了根据本发明实施例三的目标对象检测装置的结构框图。

本实施例提供的目标对象检测装置包括：预测识别模块30，用于对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图，尺度特征图用于预测各预设尺度下存在目标对象的置信度；转换模块32，用于根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；检测模块34，用于对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

本实施例的目标对象检测装置用于实现前述多个实施例中相应的目标对象检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例四

参照图4，示出了根据本发明实施例四的目标对象检测装置的结构框图。

本实施例提供的目标对象检测装置包括：预测识别模块40，用于对待检测的图像进行目标尺度预测和目标特征识别，得到图像中各目标对象的尺度特征图，尺度特征图用于预测各预设尺度下存在目标对象的置信度；转换模块42，用于根据尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；检测模块44，用于对有效尺度特征图进行目标位置检测，确定各目标对象的位置。

可选地，转换模块42，用于根据尺度特征图分别对各目标对象进行递归转换，递归转换用于获得任意尺度大小的尺度特征图。

可选地，转换模块42，包括：获取子模块421，用于根据尺度特征图获取各目标对象对应的最大尺度特征图；递归转换子模块422，用于分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换。

可选地，获取子模块421，用于根据尺度特征图确定像素最小的目标对象；根据像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取各目标对象对应的最大尺度特征图。

可选地，获取子模块421，用于将像素最小的目标对象的尺度特征图缩放至递归转换像素范围；将缩放后的尺度特征图确定为各目标对象对应的最大尺度特征图。

可选地，转换模块42，用于根据尺度特征图分别对各目标对象进行转换，得到与转换之前的尺度特征图具有相同语义信息的有效尺度特征图。

可选地，预测识别模块40，用于基于任意结构的全卷积网络对图像进行N个尺度的目标尺度预测和目标特征识别，得到各目标对象的尺度特征图，N为预设尺度的数量，N为大于零的整数，全卷积网络的最后一层为全局池化层，全卷积网络的通道数为N。

可选地，预测识别模块40，包括：尺度预测子模块401，用于对图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息；尺度确定子模块402，用于根据目标对象置信度信息和预设目标对象阈值，确定图像中的各目标对象的尺度；特征识别子模块403，用于根据各目标对象的尺度和各预设尺度的范围进行目标特征识别，得到各目标对象的尺度特征图。

可选地，特征识别子模块403，用于根据各目标对象的尺度和各预设尺度的范围对图像进行缩放；对缩放后的图像进行目标特征识别，得到各目标对象的尺度特征图。

可选地，特征识别子模块403，用于针对尺度小于各预设尺度的范围的最小值的目标对象，将图像进行放大，放大后的图像的尺度位于各预设尺度的范围内；和/或，针对尺度大于各预设尺度的范围的最大值的目标对象，将图像进行缩小，缩小后的图像的尺度位于各预设尺度的范围内。

可选地，检测模块44，包括：位置检测子模块441，用于对有效尺度特征图进行目标位置检测，得到各目标对象的位置信息和与各目标对象的位置信息对应的位置置信度信息；位置确定子模块442，用于根据位置置信度信息和预设位置阈值，确定各目标对象的位置。

实施例五

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本发明实施例的目标对象检测装置的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件512和/或通信接口509。其中，通信组件512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口509包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口509经由诸如因特网的网络执行通信处理。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过通信总线504与通信组件512相连、并经通信组件512与其他目标设备通信，从而完成本发明实施例提供的任一项目标对象检测方法对应的操作，例如，对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置。

此外，在RAM503中，还可存储有装置操作所需的各种程序和数据。CPU501或GPU513、ROM502以及RAM503通过通信总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至通信总线504。通信组件512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口509。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

实施例六

根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中公开的功能。

可能以许多方式来实现本发明的方法和装置、电子设备和存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、电子设备和存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标对象检测方法，其特征在于，包括：

对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；

根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；

对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置，

其中，所述根据所述尺度特征图分别对各目标对象进行转换，包括：

根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图；

分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换。

2.根据权利要求1所述的方法，其特征在于，所述根据所述尺度特征图分别对各目标对象进行转换，包括：

根据所述尺度特征图分别对各目标对象进行递归转换，所述递归转换用于获得缩小了尺度的尺度特征图。

3.根据权利要求1所述的方法，其特征在于，所述根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图，包括：

根据所述尺度特征图确定像素最小的目标对象；

根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图。

4.根据权利要求3所述的方法，其特征在于，所述根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图，包括：

将所述像素最小的目标对象的尺度特征图缩放至所述递归转换像素范围；

将缩放后的尺度特征图确定为所述各目标对象对应的最大尺度特征图。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述尺度特征图分别对各目标对象进行转换，包括：

根据所述尺度特征图分别对各目标对象进行转换，得到与转换之前的尺度特征图具有相同语义信息的有效尺度特征图。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，包括：

基于任意结构的全卷积网络对所述图像进行N个尺度的目标尺度预测和目标特征识别，得到所述各目标对象的尺度特征图，所述N为预设尺度的数量，所述N为大于零的整数，所述全卷积网络的最后一层为全局池化层，所述全卷积网络的通道数为N。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，包括：

对所述图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息；

根据所述目标对象置信度信息和预设目标对象阈值，确定所述图像中的各目标对象的尺度；

根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图。

8.根据权利要求7所述的方法，其特征在于，所述根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图，包括：

根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放；

对所述缩放后的图像进行目标特征识别，得到所述各目标对象的尺度特征图。

9.根据权利要求8所述的方法，其特征在于，所述根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放，包括：

针对尺度小于所述各预设尺度的范围的最小值的目标对象，将所述图像进行放大，所述放大后的图像的尺度位于所述各预设尺度的范围内；和/或，

针对尺度大于所述各预设尺度的范围的最大值的目标对象，将所述图像进行缩小，所述缩小后的图像的尺度位于所述各预设尺度的范围内。

10.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置，包括：

对所述有效尺度特征图进行目标位置检测，得到所述各目标对象的位置信息和与所述各目标对象的位置信息对应的位置置信度信息；

根据所述位置置信度信息和预设位置阈值，确定所述各目标对象的位置。

11.一种目标对象检测装置，其特征在于，包括：

预测识别模块，用于对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；

转换模块，用于根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；

检测模块，用于对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置

其中，所述转换模块包括：

获取子模块，用于根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图；

递归转换子模块，用于分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换。

12.根据权利要求11所述的装置，其特征在于，所述转换模块，用于根据所述尺度特征图分别对各目标对象进行递归转换，所述递归转换用于获得任意尺度大小的尺度特征图。

13.根据权利要求11所述的装置，其特征在于，所述获取子模块，用于根据所述尺度特征图确定像素最小的目标对象；根据所述像素最小的目标对象和预设的全卷积结构的递归转换像素范围获取所述各目标对象对应的最大尺度特征图。

14.根据权利要求13所述的装置，其特征在于，所述获取子模块，用于将所述像素最小的目标对象的尺度特征图缩放至所述递归转换像素范围；将缩放后的尺度特征图确定为所述各目标对象对应的最大尺度特征图。

15.根据权利要求11-14任一项所述的装置，其特征在于，所述转换模块，用于根据所述尺度特征图分别对各目标对象进行转换，得到与转换之前的尺度特征图具有相同语义信息的有效尺度特征图。

16.根据权利要求11-14任一项所述的装置，其特征在于，所述预测识别模块，用于基于任意结构的全卷积网络对所述图像进行N个尺度的目标尺度预测和目标特征识别，得到所述各目标对象的尺度特征图，所述N为预设尺度的数量，所述N为大于零的整数，所述全卷积网络的最后一层为全局池化层，所述全卷积网络的通道数为N。

17.根据权利要求11-14任一项所述的装置，其特征在于，所述预测识别模块，包括：

尺度预测子模块，用于对所述图像进行目标尺度预测，得到各预设尺度下存在目标对象的目标对象置信度信息；

尺度确定子模块，用于根据所述目标对象置信度信息和预设目标对象阈值，确定所述图像中的各目标对象的尺度；

特征识别子模块，用于根据所述各目标对象的尺度和所述各预设尺度的范围进行目标特征识别，得到所述各目标对象的尺度特征图。

18.根据权利要求17所述的装置，其特征在于，所述特征识别子模块，用于根据所述各目标对象的尺度和所述各预设尺度的范围对所述图像进行缩放；对所述缩放后的图像进行目标特征识别，得到所述各目标对象的尺度特征图。

19.根据权利要求18所述的装置，其特征在于，所述特征识别子模块，用于针对尺度小于所述各预设尺度的范围的最小值的目标对象，将所述图像进行放大，所述放大后的图像的尺度位于所述各预设尺度的范围内；和/或，针对尺度大于所述各预设尺度的范围的最大值的目标对象，将所述图像进行缩小，所述缩小后的图像的尺度位于所述各预设尺度的范围内。

20.根据权利要求11-14任一项所述的装置，其特征在于，所述检测模块，包括：

位置检测子模块，用于对所述有效尺度特征图进行目标位置检测，得到所述各目标对象的位置信息和与所述各目标对象的位置信息对应的位置置信度信息；

位置确定子模块，用于根据所述位置置信度信息和预设位置阈值，确定所述各目标对象的位置。

21.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10任一项所述的目标对象检测方法对应的操作。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有：

用于对待检测的图像进行目标尺度预测和目标特征识别，得到所述图像中各目标对象的尺度特征图的可执行指令，所述尺度特征图用于预测各预设尺度下存在目标对象的置信度；

用于根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图的可执行指令，所述有效尺度特征图为各预设尺度下存在目标对象的置信度符合预设条件的尺度特征图；

用于对所述有效尺度特征图进行目标位置检测，确定所述各目标对象的位置的可执行指令，

其中，用于根据所述尺度特征图分别对各目标对象进行转换，得到各目标对象的有效尺度特征图的可执行指令包括：

用于根据所述尺度特征图获取所述各目标对象对应的最大尺度特征图的可执行指令；

用于分别根据各目标对象对应的最大尺度特征图对各目标对象进行递归转换的可执行指令。