CN110807375A

CN110807375A - 基于深度图像的人头检测方法、装置、设备及存储介质

Info

Publication number: CN110807375A
Application number: CN201910984924.2A
Authority: CN
Inventors: 陈志明
Original assignee: Guangzhou Weaving Point Intelligent Technology Co Ltd
Current assignee: Guangzhou Weaving Point Intelligent Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-02-18

Abstract

本申请实施例公开了一种基于深度图像的人头检测方法、装置、电子设备及存储介质。本申请实施例提供的技术方案，通过获取用于人头检测的待检测图像，将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，并根据对应位置的人头位置正态分布概率图的峰值，与预先设置的概率阈值进行比对，判定对应位置处是否存在人头。采用上述技术方案，通过深度图像的正态分布概率图进行人头检测，可以减少发型、帽子的多样性对人头检测精度的影响，提高人头检测精度，进而优化客流量统计流程，得到较好的店铺运营效果。

Description

基于深度图像的人头检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种基于深度图像的人头检测方法、装置、设备及存储介质。

背景技术

目前，在商店等场所运行过程中，为了店铺运营发展需要，需要对店铺的客流量进行统计，以便于根据客流量统计适应性修改店铺运营方案。而在进行客流量统计过程中，为了减少人工成本，实现数据统计的自动化处理，通常采用基于神经网络的目标检测算法通过目标检测以进行客流统计。其中，基于神经网络的人头检测即为目标检测领域的一个分支，该技术通过使用摄像头对店铺进行客流量信息图像的获取，并对客流量信息图像进行人头检测，得到图像中的人头数量，进而实现客流量的统计。

但是，现有的人头检测模型在进行人头检测，由于发型、帽子的多样性难以拟合，会影响人头检测效果，导致人头检测的结果精度偏低，进而影响客流量统计的结果。

发明内容

本申请实施例提供一种基于深度图像的人头检测方法、装置、设备及存储介质，能够减少发型、帽子的多样性带来的影响，提供较好的人头检测效果。

在第一方面，本申请实施例提供了一种基于深度图像的人头检测方法，包括：

获取用于人头检测的待检测图像，所述待检测图像为深度图像；

将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，所述预先训练的人头检测模型为CenterNet网络模型；

根据对应位置的所述人头位置正态分布概率图的峰值，比对预先设置的概率阈值，若对应位置的所述人头位置正态分布概率图的峰值大于所述概率阈值，则判定对应位置处存在人头。

进一步的，所述人头检测模型的训练过程包括：

对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图；

将带有人头位置正态分布概率图的所述训练样本输入CenterNet网络模型，使用二范数作为损失函数进行模型训练，直至损失达到设定值。

进一步的，所述对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图，包括：

以训练样本图像上进行人头标注的标记点为中心，使用正态分布向四周进行像素扩散，得到训练样本的人头位置正态分布概率图。

进一步的，所述训练样本图像的人头标注包括：

获取包含人头信息的RGB图像及对应的深度图像；

将获取到的RGB图像与对应的深度图像对齐；

获取所述RGB图像的人头标记点信息，将所述人头标记点信息映射到对应的深度图像。

进一步的，所述将获取到的RGB图像与对应的深度图像对齐，包括：

将对应的深度图像上的二维坐标点转换为世界坐标系上的三维坐标点，将转换后的三维坐标点投影到所述RGB图像上，并调整图像尺寸使坐标转换后的深度图像与所述RGB图像大小一致。

进一步的，所述待检测图像通过深度摄像头获取。

在第二方面，本申请实施例提供了一种基于深度图像的人头检测装置，包括：

获取模块，用于获取用于人头检测的待检测图像，所述待检测图像为深度图像；

预测模块，用于将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，所述预先训练的人头检测模型为CenterNet网络模型；

判定模块，用于根据对应位置的所述人头位置正态分布概率图的峰值，比对预先设置的概率阈值，若对应位置的所述人头位置正态分布概率图的峰值大于所述概率阈值，则判定对应位置处存在人头。

具体的，所述预测模块包括：

预处理单元，用于在人头检测模型的训练过程中，对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图；

训练单元，用于在人头检测模型的训练过程中，将带有人头位置正态分布概率图的所述训练样本输入CenterNet网络模型，使用二范数作为损失函数进行模型训练，直至损失达到设定值。

具体的，所述预处理单元包括：

获取子单元，用于在训练样本图像的人头标注时，获取包含人头信息的RGB图像及对应的深度图像；

对齐子单元，用于将获取到的RGB图像与对应的深度图像对齐；

映射子单元，用于获取所述RGB图像的人头标记点信息，将所述人头标记点信息映射到对应的深度图像。

在第三方面，本申请实施例提供了一种电子设备，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的基于深度图像的人头检测方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于深度图像的人头检测方法。

本申请实施例通过获取用于人头检测的待检测图像，将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，并根据对应位置的人头位置正态分布概率图的峰值，与预先设置的概率阈值进行比对，判定对应位置处是否存在人头。采用上述技术方案，通过深度图像的正态分布概率图进行人头检测，可以减少发型、帽子的多样性对人头检测精度的影响，提高人头检测精度，进而优化客流量统计流程，得到较好的店铺运营效果。

附图说明

图1是本申请实施例一提供的一种基于深度图像的人头检测方法的流程图；

图2是本申请实施例一中的人头检测模型的训练流程图；

图3是本申请实施例一中的训练样本图像的人头标注流程图；

图4是本申请实施例二提供的一种基于深度图像的人头检测装置的结构示意图；

图5是本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的基于深度图像的人头检测方法，通过采集用于人头检测的深度图像，基于深度图像进行待检测图像人头位置的预测推理，并结合正态分布的方式，通过人头位置正态分布概率图的输出及比对，确定待检测图像存在人头的对应位置，最终实现对待检测图像的人头检测。进一步地根据检测到待检测图像上的人头位置，通过计数即可获知待检测图像中的人头数目，进而实现待检测图像中的目标检测及统计，为店铺客流统计提供精准的基础。相对于现有的目标检测领域中的主流检测模型，如FasterRCNN，SSD，YOLO等网络模型。对于这些目标检测模型来说，由于在进行人头检测时，人头的发型或者佩戴的帽子存在多样性的特点，会影响目标检测模型的检测运行速度及检测精度。因此，现有的目标检测模型为了提升检测速度，一方面通过提升硬件设备性能，使得部署在该硬件上的算法达到理想的运行速度。这种方式虽然提升了算法运行速度，但同时也增加了硬件成本，且无法保证足够的检测精度。另一方面，则是通过采用轻量级的特征提取网络，例如YOLO-tiny进行特征提取检测。这种方式虽然提升了算法运行速度，但同时会大幅度的降低算法的检测效果，同样无法保证算法的检测精度。基于此，提供本申请实施例的一种基于深度图像的人头检测方法，基于深度图像来进行人头检测，以解决现有目标检测模型算法受人头发型和佩戴帽子的多样性影响而导致目标检测效果不理想的技术问题。

实施例一：

图1给出了本申请实施例一提供的一种基于深度图像的人头检测方法的流程图，本实施例中提供的基于深度图像的人头检测方法可以由基于深度图像的人头检测设备执行，该基于深度图像的人头检测设备可以通过软件和/或硬件的方式实现，该基于深度图像的人头检测设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，该基于深度图像的人头检测设备可以是电脑，主机设备等。

下述以基于深度图像的人头检测设备为执行基于深度图像的人头检测方法的设备为例，进行描述。参照图1，该基于深度图像的人头检测方法具体包括：

S110、获取用于人头检测的待检测图像，所述待检测图像为深度图像。

具体的，本申请的基于深度图像的人头检测方法，通过基于深度图像正态分布特征的检测比对，来实现待检测图像的人头检测。因此，本申请实施例用于人头检测的待检测图像，不直接采用常规摄像头拍摄的彩色图像进行人头检测。深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集摄像头到场景中各点的距离(深度)作为像素值的图像，它直接反映了事物可见表面的几何形状。采用深度摄像头进行检测现场深度图像的采集，并将采集到的深度图像，作为待检测图像以进行图像的人头检测。

示例性的，在店铺运营场景中，为了进行客流量统计，会在店铺现场布置该深度摄像头，通过深度摄像头进行现场深度图像的采集。深度摄像头每隔设定时间段拍摄包含现场客流数量信息的深度图像，将该深度图像上传至基于深度图像的人头检测设备进行人头检测处理，以此来实现该时间段店铺的客流数量统计数据的提取。

S120、将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，所述预先训练的人头检测模型为CenterNet网络模型。

对应上述获取到的待检测图像，以该待检测图像模型输入，通过预先训练的人头检测模型对待检测图像进行人头位置的预测推理。在此之前，需要预先训练一个人头检测模型，通过该人头检测模型实现待检测图像人头位置的预测。参照图2，该人头检测模型的训练流程包括：

S121、对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图。

在进行人头检测模型的构建时，进行训练样本集合构建。训练样本集合主要为各种包含人头信息的深度图像。深度图像需要进行人头位置标注，以为训练样本加入目标标签。而由于深度图像不便于直接进行人头位置标注，因此需要借助对应的RGB图像的配合。因此，通过使用深度摄像头大量采集各个场所带有人头信息的RGB图像和深度图像，对采集到的RGB图像和深度图像进行图像对齐，以便于通过对RGB图像人头位置的人工标注，实现对应的深度图像人头位置的标注。

具体的，训练样本图像的人头标注流程包括：

S1211、获取包含人头信息的RGB图像及对应的深度图像；

S1212、将获取到的RGB图像与对应的深度图像对齐；

S1213、获取所述RGB图像的人头标记点信息，将所述人头标记点信息映射到对应的深度图像。

示例性的，通过设置在各个场所的深度摄像头，进行大量的带有人头信息的RGB图像和对应的深度图像采集。其中，每一张RGB图像均有对应的深度图像。而本申请实际作为训练样本的只是深度图像，但由于深度图像不便于直接进行人头位置标注，难以对训练样本图像加入目标标签，因此需要借助与深度图像对应的RGB图像的帮助。可以理解的是，由于RGB图像与深度图像对应，因此只要在RGB图像人头位置进行标注，则深度图像上的对应位置即为人头位置的标记点。但是，由于RGB图像数据与深度图像数据的空间坐标系是不同的，前者的原点是RGB摄像头，后者的原点是红外摄像头，因此两者会有相应的误差。为了解决这一误差，避免训练样本的目标标注错误，需要将深度图像与对应的RGB图像对齐。通过将对应的深度图像上的二维坐标点转换为世界坐标系上的三维坐标点，将转换后的三维坐标点投影到RGB图像上，并调整图像尺寸使坐标转换后的深度图像与RGB图像大小一致，以此来实现深度图像与对应RGB图像的对齐操作。需要说明的是，由于深度图像在对齐时，其图像的大小会改变，因此需要将深度图像与RGB图像调整成同样大小。

进一步的，根据对齐后的深度图像和对应的RGB图像，采用人工标注的方式进行在RGB图像上进行人头位置的标注。深度图像的人头检测设备通过获取这些RGB图像的人头标记点信息，将这些人头标记点信息映射到对应的深度图像上，即可得到深度图像上对应人头位置的各个标注点信息，以此完成训练样本深度图像的目标标注。

之后，基于经过人头位置标注的深度图像，以这些深度图像作为训练样本，对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图。其中，以训练样本的深度图像上进行人头标注的标记点做为中心，使用正态分布向四周进行像素扩散，得到训练样本的人头位置正态分布概率图。以这些正态分布概率图作为训练标签进行训练。通过提取深度图像上人头位置的像素正态分布特征，便于后续基于人头位置正态分布概率图进行人头位置检测。在目标存在不同发型、佩戴不同帽子的多样性特点下，由于其人头位置的像素正态分布特征相似的特性，可以避免上述多样性特点对人头检测效果的影响，进而提高人头检测精度。

S122、将带有人头位置正态分布概率图的所述训练样本输入CenterNet网络模型，使用二范数作为损失函数进行模型训练，直至损失达到设定值。

具体的，根据上述得到的训练样本及训练标签，将其输入CenterNet网络模型进行学习训练，构建人头检测模型。由于CenterNet网络的输入图像为单通道的深度图像，深度图像没有颜色信息而且有明显的边缘特征信息，这样的样本对特征提取网络的要求不高，以此可以提升算法的运行速度，进而提高人头检测效率。进一步的，CenterNet网络通过以深度摄像头的最低分辨率为输入，即(424，240)；CenterNet网络的中间部分最大通道数设置为128，网络的连接方式采用类似VGG的方式直连，这样一来网络参数大幅度减少至1M左右，在intel i5CPU上配合openvino使用可以达到每秒45帧的推理速度。以此来进一步提升算法的运行速度。

进一步的，在训练过程中，使用二范数作为损失函数，将正态分布概率图与训练样本构建二范数损失函数，用随机梯度下降的方式计算反向传播梯度，用梯度优化网络参数，直到损失趋近于0，完成人头检测模型的训练。使用二范数损失可以加速参数收敛，这样可以快速训练至损失趋近于0。

最终，通过上述训练得到的人头检测模型，将上述待检测图像输入这一预先训练的人头检测模型中，通过三次下采样输出大小为(53，30)的预测图，即为待检测图像对应位置的人头位置正态分布概率图。

S130、根据对应位置的所述人头位置正态分布概率图的峰值，比对预先设置的概率阈值，若对应位置的所述人头位置正态分布概率图的峰值大于所述概率阈值，则判定对应位置处存在人头。

在通过人头检测模型得到待检测图像对应位置的人头位置正态分布概率图后，即可根据这一人头位置正态分布概率图进行人头位置的推理。在推理过程中，对得到的正态分布概率图做一次3*3的最大池化，就可以获取正态分布概率图上面的局部峰值，峰值即为各个人头所可能在的位置，而峰值的大小即可作为判断该位置是否有人头存在的近似概率。通过预先设置一个概率阈值，该概率阈值根据确定为存在人头的正态分布概率图所对应的峰值设置。通过将人头位置正态分布概率图上各个峰值与概率阈值进行比对，若峰值大于该概率阈值，则认为对应位置处存在人头，若峰值小于该概率阈值，则认为对应位置处不存在人头。最终，通过统计整个待检测图像对应的正态分布概率图上峰值大于概率阈值的位置，则为待检测图像上存在人头的位置，以此即可统计待检测图像上检测目标的数目。通过采用使用正态分布概率图峰值比对的方式，与现有建议框的目标检测网络相比，本申请实施例的网络输出的后续处理计算更加简单，更进一步提升了算法推理速度，优化人头检测效率。

上述，通过获取用于人头检测的待检测图像，将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，并根据对应位置的人头位置正态分布概率图的峰值，与预先设置的概率阈值进行比对，判定对应位置处是否存在人头。采用上述技术方案，通过深度图像的正态分布概率图进行人头检测，可以减少发型、帽子的多样性对人头检测精度的影响，提高人头检测精度，进而优化客流量统计流程，得到较好的店铺运营效果。

实施例二

在上述实施例的基础上，图4为本申请实施例二提供的一种基于深度图像的人头检测装置的结构示意图。参考图4，本实施例提供的基于深度图像的人头检测装置具体包括：获取模块21、预测模块22和判定模块23。

获取模块21用于获取用于人头检测的待检测图像，所述待检测图像为深度图像；

预测模块22用于将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，所述预先训练的人头检测模型为CenterNet网络模型；

判定模块23用于根据对应位置的所述人头位置正态分布概率图的峰值，比对预先设置的概率阈值，若对应位置的所述人头位置正态分布概率图的峰值大于所述概率阈值，则判定对应位置处存在人头。

具体的，预测模块22包括：

具体的，预处理单元包括：

本申请实施例二提供的基于深度图像的人头检测装置可以用于执行上述实施例一提供的基于深度图像的人头检测方法，具备相应的功能和有益效果。

实施例三：

本申请实施例三提供了一种电子设备，参照图5，该电子设备包括：处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个，该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器31、存储器32、通信模块33、输入装置34及输出装置35可以通过总线或者其他方式连接。

存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的基于深度图像的人头检测方法对应的程序指令/模块(例如，基于深度图像的人头检测装置中的获取模块、预测模块和判定模块)。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块33用于进行数据传输。

处理器31通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于深度图像的人头检测方法。

输入装置34可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。

上述提供的电子设备可用于执行上述实施例一提供的基于深度图像的人头检测方法，具备相应的功能和有益效果。

实施例四：

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于深度图像的人头检测方法，该基于深度图像的人头检测方法包括：获取用于人头检测的待检测图像，所述待检测图像为深度图像；将所述待检测图像输入预先训练的人头检测模型中，通过预测推理输出所述待检测图像对应位置的人头位置正态分布概率图，所述预先训练的人头检测模型为CenterNet网络模型；根据对应位置的所述人头位置正态分布概率图的峰值，比对预先设置的概率阈值，若对应位置的所述人头位置正态分布概率图的峰值大于所述概率阈值，则判定对应位置处存在人头。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的基于深度图像的人头检测方法，还可以执行本申请任意实施例所提供的基于深度图像的人头检测方法中的相关操作。

上述实施例中提供的基于深度图像的人头检测装置、存储介质及电子设备可执行本申请任意实施例所提供的基于深度图像的人头检测方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的基于深度图像的人头检测方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种基于深度图像的人头检测方法，其特征在于，包括：

2.根据权利要求1所述的基于深度图像的人头检测方法，其特征在于，所述人头检测模型的训练过程包括：

3.根据权利要求2所述的基于深度图像的人头检测方法，其特征在于，所述对经过人头标注的训练样本图像进行预处理，得到训练样本的人头位置正态分布概率图，包括：

4.根据权利要求2所述的基于深度图像的人头检测方法，其特征在于，所述训练样本图像的人头标注包括：

获取包含人头信息的RGB图像及对应的深度图像；

将获取到的RGB图像与对应的深度图像对齐；

5.根据权利要求4所述的基于深度图像的人头检测方法，其特征在于，所述将获取到的RGB图像与对应的深度图像对齐，包括：

6.根据权利要求1所述的基于深度图像的人头检测方法，其特征在于，所述待检测图像通过深度摄像头获取。

7.一种基于深度图像的人头检测装置，其特征在于，包括：

8.根据权利要求7所述的基于深度图像的人头检测装置，其特征在于，所述预测模块包括：

9.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一所述的基于深度图像的人头检测方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一所述的基于深度图像的人头检测方法。