CN115482569A

CN115482569A - 目标客流统计方法、电子设备以及计算机可读存储介质

Info

Publication number: CN115482569A
Application number: CN202211043661.3A
Authority: CN
Inventors: 巩海军; 李中振; 周经纬; 于润润; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-12-16

Abstract

本申请公开了目标客流统计方法、电子设备以及计算机可读存储介质，该方法包括：获取统计区域的视频图像；从视频图像中检测至少一个目标对象的图像序列；基于图像序列对目标对象的人脸或/和身体部位进行检测；响应于未检测到目标对象的人脸，基于同一目标对象的身体部位对应的图像序列提取目标对象的步态特征；利用步态特征统计统计区域的客流量。本申请能够利用步态特征对目标对象进行识别，以通过关联人体信息进行客流统计，从而避免仅靠人脸识别进行统计而导致的统计误差，继而提高统计精度，以满足精准统计客流的需求。

Description

目标客流统计方法、电子设备以及计算机可读存储介质

技术领域

本申请涉及图像处理领域，特别是涉及目标客流统计方法、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，基于计算机视觉技术的客流统计技术逐渐成为研究热点，具有广泛的应用场景。例如，线下店铺经营中，精准的客流统计可以帮助商家更准确地评估运营成效情况。

现有技术中，通常基于人脸进行计数。例如，通过店铺监控抓拍客户人脸，以与存储库中的店员人脸或其余客户人脸进行匹配，从而去除无效客流。

然而，人脸特征容易受到角度、遮挡以及光线等各种因素的影响，一旦监控视频抓拍不到较好的人脸特征，就会导致统计失误，难以满足精准客流统计的需求。

发明内容

本申请主要解决的技术问题是提供目标客流统计方法、电子设备以及计算机可读存储介质，能够解决现有技术中无法较好地统计客流的问题。

为解决上述技术问题，本申请采用的第一技术方案是提供一种目标客流统计方法，包括：获取统计区域的视频图像；从视频图像中检测至少一个目标对象的图像序列；基于图像序列对目标对象的人脸或/和身体部位进行检测；响应于未检测到目标对象的人脸，基于同一目标对象的身体部位对应的图像序列提取目标对象的步态特征；利用步态特征统计统计区域的客流量。

其中，基于图像序列对目标对象的人脸或/和身体部位进行检测的步骤，包括：对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像；基于第一图像对目标对象的人脸或/和身体部位进行检测；响应于未检测到目标对象的人脸，基于同一目标对象的身体部位对应的图像序列提取目标对象的步态特征，包括：响应于在第一图像中未检测到目标对象的人脸，从第一图像中检测目标对象的人形区域，以得到目标对象的人形序列；对人形序列进行步态识别，得到目标对象的步态特征。

其中，响应于在第一图像中未检测到目标对象的人脸，从第一图像中检测目标对象的人形区域，以得到目标对象的人形序列的步骤，包括：对第一图像中的目标对象添加人体检测框；基于人体检测框进行分割，得到包括目标对象的人形区域以及背景区域；利用背景区域和人形区域得到目标对象的人形区域掩码；对人形区域掩码进行二值化处理，得到目标对象的人形序列。

其中，对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像的步骤，包括：对图像序列中的每帧图像添加人体检测框，基于人体检测框对人体图像进行计算，得到每帧图像中人体图像对应的质量分数；对多个质量分数进行排序，将质量分数最大的人体图像对应的图像帧确定为第一图像。

其中，步态特征通过检测模型识别；检测模型包括级联的第一图像识别模型、人体分割模型以及步态特征识别模型；基于图像序列对目标对象的人脸或/和身体部位进行检测的步骤，包括：利用第一图像识别模型对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像；利用人体分割模型对第一图像添加人体检测框，并基于人体检测框对第一图像中的人体图像进行分割及检测；响应于在第一图像中未检测到目标对象的人脸，利用人体分割模型从第一图像中检测目标对象的人形区域，以得到目标对象的人形序列；通过步态特征识别模型对人形序列进行步态识别，得到目标对象的步态特征。

其中，检测模型是通过采集的员工的图像进行训练得到的，训练方法包括：采集至少一个员工的图像，对至少一个员工的图像添加人体检测框；基于人体检测框进行抠图，获取到仅包括人体图像的矩形框，并对矩形框中的人体图像进行轮廓标注；将标注后的矩形框输入到预设的第一深度学习模型进行人体分割训练，得到训练好的人体分割模型；将标注后的矩形框输入到预设的第二深度学习模型中进行质量分数计算训练以及大小比较训练，得到第一图像识别模型；按固定帧率抽取同一个员工的标注后的矩形框，以形成同一个员工的标注图像序列；利用人体分割模型对同一个员工的标注图像序列中的每一帧图像进行分割，以得到同一个员工的人形序列；将获得的每一个员工的人形序列输入到预设的第三深度学习模型进行步态特征识别训练，得到训练好的步态特征识别模型。

其中，利用步态特征统计统计区域的客流量的步骤，包括：利用聚类算法对目标对象的步态特征与存储的员工的步态特征进行聚类，并输出第一聚类结果；响应于第一聚类结果中聚成的簇增加，利用聚类算法对目标对象的步态特征与预设时间段内存储的客户的步态特征进行聚类，并输出第二聚类结果；响应于第二聚类结果中聚成的簇增加，保存目标对象的步态特征，触发进入次数加1并保存触发时间，得到进入统计结果。

其中，利用聚类算法对目标对象的步态特征与存储的员工的步态特征进行聚类，并输出第一聚类结果的步骤后，还包括：响应于第一聚类结果中聚成的簇未增加，确定目标对象为员工，不触发进入次数。

其中，响应于第一聚类结果中聚成的簇增加，利用聚类算法对目标对象的步态特征与预设时间段内存储的客户的步态特征进行聚类，并输出第二聚类结果的步骤后，还包括：响应于第二聚类结果中聚成的簇未增加，确定目标对象为预设时间段内已统计的客户，不触发进入次数。

其中，响应于第二聚类结果中聚成的簇未增加，确定目标对象为预设时间段内已统计的客户，不触发进入次数的步骤，包括：响应于第一图像中人体图像的质量分数大于匹配上的图像帧中人体图像对应的质量分数，利用第一图像替换匹配上的图像帧，并基于第一图像中人体图像的质量分数进行更新。

其中，基于图像序列对目标对象的人脸或/和身体部位进行检测的步骤后，还包括：响应于在第一图像中检测到目标对象的人脸，对第一图像添加人脸检测框，基于人脸检测框提取目标对象的人脸特征；利用聚类算法对目标对象的人脸特征与存储的员工的人脸特征进行聚类，并输出第三聚类结果；响应于第三聚类结果中聚成的簇增加，利用聚类算法对目标对象的人脸特征与预设时间段内存储的客户的人脸特征进行聚类，并输出第四聚类结果；响应于第四聚类结果中聚成的簇增加，保存目标对象的人脸特征，触发进入次数加1以及保存触发时间，得到进入统计结果。

其中，获取统计区域的视频图像的步骤，包括：基于监控视频获取到多帧在非统计区域的监控图像，对多帧在非统计区域的监控图像进行人脸、头肩、人体检测，得到多个目标对象的人脸检测框、头肩检测框以及人体检测框；其中，统计区域与非统计区域通过跘线进行分隔；对多个目标对象对应的人体检测框进行实时跟踪，形成人体轨迹线；其中，人体轨迹线包括每帧图像的人体检测框；将每个目标对象对应的人脸检测框以及头肩检测框与人体轨迹线关联，以为多个目标对象分别建立跟踪ID信息；基于跟踪ID信息确定对应的目标对象的头肩检测框跨过跘线进入统计区域，获取到多个目标对象在统计区域内的视频图像。

其中，从视频图像中检测至少一个目标对象的图像序列的步骤，包括：基于跟踪ID信息确定至少一个目标对象在视频图像中的图像序列。

其中，目标客流统计方法还包括：响应于目标对象为客户，且检测到目标对象从统计区域跨过跘线进入非统计区域，触发离开次数加1并保存触发时间。

为解决上述技术问题，本申请采用的第二技术方案是提供一种电子设备，包括：存储器，用于存储程序数据，程序数据被执行时实现如上述的目标客流统计方法中的步骤；处理器，用于执行存储器存储的程序数据以实现如上述的目标客流统计方法中的步骤。

为解决上述技术问题，本申请采用的第三技术方案是提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的目标客流统计方法中的步骤。

本申请的有益效果是：区别于现有技术，本申请提供目标客流统计方法、电子设备以及计算机可读存储介质，通过获取的图像序列对目标对象的人脸或/和身体部位进行检测，并在未检测到目标对象的人脸时，基于同一个目标对象的身体部位对应的图像序列提取目标对象的步态特征，能够利用步态特征对目标对象进行识别，以通过关联人体信息进行客流统计，从而避免仅靠人脸识别进行统计而导致的统计误差，继而提高统计精度，以满足精准统计客流的需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请目标客流统计方法第一实施方式的流程示意图；

图2是本申请目标客流统计方法第二实施方式的流程示意图；

图3是本申请目标客流统计方法第三实施方式的流程示意图；

图4是本申请目标客流统计方法一应用场景的工作流程图；

图5是本申请目标客流统计装置一实施方式的结构示意图；

图6是本申请电子设备一实施方式的结构示意图；

图7是本发明计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

请参阅图1，图1是本申请目标客流统计方法第一实施方式的流程示意图。在本实施方式中，目标客流统计方法包括：

S11：获取统计区域的视频图像。

本实施方式中，统计区域可以是门店内部靠近门口的部分区域，例如服务台或安检门，也可以是门店外部靠近门口的部分区域，例如迎宾台或接待台，本申请对此不作限定。

本实施方式中，视频图像通过设置在门店进口处的监控摄像头获取。

其中，监控摄像头可以仅设置一个。在其他实施方式中，为了获取更多维的监控信息，可以设置多个监控摄像头，本申请对此不作限定。

S12：从视频图像中检测至少一个目标对象的图像序列。

其中，视频图像中通常包括多个行人，对视频图像进行检测时，通常会检测到多个行人，当检测到至少一个行人并将其作为目标对象时，开始在视频图像后面的连续帧里跟踪该目标对象，以获取到该目标对象在连续跟踪过程中的图像序列。

本实施地方中，利用行人检测算法从视频图像中检测出行人。

在一个具体的实施场景中，行人检测算法可采用基于运动检测的目标跟踪算法，即在摄像机静止不动的情况下利用背景建模算法提取出运动的前景目标，然后利用分类器对运动目标进行分类并判断是否包括行人，例如高斯混合模型算法、帧差分算法或者样本一致性建模算法等。

在另一个具体的实施场景中，可以采用基于机器学习的行人检测算法，即利用人体自身的外观特征(如颜色、边缘、纹理特征等)来训练分类器并区分行人和背景，具体可基于HOG(Histogram of Oriented Gradient，方向梯度直方图)+SVM(支持向量机)的算法、基于HOG+AdaBoost(Adaptive Boosting，自适应增强)的算法、基于DPM(Deformable PartsModel，可变形部件模型)+LatentSVM的算法等。

在又一个具体的实施场景中，可以采用基于深度学习的行人检测算法，即基于深度学习学到人体特征来训练分类器并区分行人和背景，具有很强的鲁棒性，具体如基于Cascade(级联)CNN的算法、基于JointDeep(接缝深度)的算法等，本申请对此不作限定。

S13：基于图像序列对目标对象的人脸或/和身体部位进行检测。

其中，通过对图像序列添加人脸检测框、头肩检测框以及人体检测框，以对目标对象的人脸或/和身体部位进行检测。

S14：响应于未检测到目标对象的人脸，基于同一目标对象的身体部位对应的图像序列提取目标对象的步态特征。

本实施方式中，未检测到目标对象的人脸包括未检测到清晰的人脸图像，例如，人脸被遮挡或受光线影响等。

本实施方式中，步态特征包括静态特征和动态特征，静态特征指的是基于人体检测框得到的目标对象的身高体型、腿骨、关节以及肌肉等生理特征，动态特征指的是目标对象的手臂摆幅、头部晃动、身体晃动以及步频等活动特征，反映的目标对象的落脚、起脚和支撑摆动阶段的行走习惯。

可以理解地，由于不同行人的生理特征以及行走习惯均有差别，因此通过对步态特征进行提取以及识别，同样能够获取到目标对象的身份特征。

S15：利用步态特征统计统计区域的客流量。

本实施方式中，基于不同目标对象对应的步态特征，可以对不同目标对象的身份进行标识，从而完成客流量统计。

区别于现有技术，本实施方式通过获取的图像序列对目标对象的人脸或/和身体部位进行检测，并在未检测到目标对象的人脸时，基于同一个目标对象的身体部位对应的图像序列提取目标对象的步态特征，能够利用步态特征对目标对象进行识别，以通过关联人体信息进行客流统计，从而避免仅靠人脸识别进行统计而导致的统计误差，继而提高统计精度，以满足精准统计客流的需求。

请参阅图2，图2是本申请目标客流统计方法第二实施方式的流程示意图。在本实施方式中，步态特征通过检测模型识别，检测模型包括级联的第一图像识别模型、人体分割模型以及步态特征识别模型。

具体地，目标客流统计方法包括：

S21：获取统计区域的视频图像。

本实施方式中，统计区域与非统计区域通过跘线进行分隔，统计区域可以是门店内部靠近门口的部分区域，也可以是门店外部靠近门口的部分区域，非统计区域是跘线外远离统计区域但处于监控范围的区域。

本实施方式中，首先基于监控视频获取到多帧在非统计区域的监控图像，对多帧在非统计区域的监控图像进行人脸、头肩、人体检测，得到多个目标对象的人脸检测框、头肩检测框以及人体检测框。

在一个具体的实施场景中，可以通过人脸头肩人体检测模型对多帧在非统计区域的监控图像进行人脸、头肩、人体检测。其中，人脸头肩人体检测模型可以是利用标注的员工图像对DarKnet、PyTorch或其他目标检测框架进行训练得到的。具体地，通过采集门店内至少一个员工的照片或视频，以获取到员工图像作为训练图片。接着对训练图片中头肩和人体的矩形框进行标注，再把标注好的训练图片输入到上述目标检测框架中进行训练，得到训练好的人脸头肩人体检测模型。

本实施方式中，对多个目标对象对应的人体检测框进行实时跟踪，形成人体轨迹线。其中，人体轨迹线包括每帧图像的人体检测框。继而将每个目标对象对应的人脸检测框以及头肩检测框与人体轨迹线关联，以为多个目标对象分别建立跟踪ID信息，最后基于跟踪ID信息确定对应的目标对象的头肩检测框跨过跘线进入统计区域，获取到多个目标对象在统计区域内的视频图像。

在一个具体的实施场景中，可以基于目标优选模型对多个目标对象对应的人体检测框进行实时跟踪，形成人体轨迹线。具体地，通过采集员工连续行走的视频图像，并对每一帧图像中的人体检测框进行抠图，获取到包括人体轮廓的矩形框图，对每一帧矩形框图进行人体轮廓标注，并将标注后的矩形框图输入到深度学习模型中进行目标优选训练，以得到训练好的目标优选模型。

可以理解地，本实施方式通过对每帧视频图像进行人脸、头肩、人体检测，可以对人脸、头肩和人体进行关联跟踪。其中，增加人脸、头肩检可以增强同一个目标的跟踪的稳定性，避免人体遮挡时对跟踪造成影响。例如，当没有检测到完整的人体，但检测到了人脸或头肩信息时，由于人脸识别准确率高，利用人脸信息就可以确定是同一个目标对象，该目标对象的跟踪ID信息不会发生跳变。

可以理解地，由于头肩检测更不容易受身体遮挡的影响，直接用头肩检测框的跟踪轨迹作为进店的判断，能够提高客流统计的准确性。

本实施方式中，在跟踪过程中保存每一个目标对象的人体检测框与人脸检测框，以用于后续的识别。

S22：从视频图像中检测至少一个目标对象的图像序列。

本实施方式中，基于跟踪ID信息确定至少一个目标对象在视频图像中的图像序列。

具体地，视频图像中存在多个目标对象时，基于不同的跟踪ID信息在连续帧里跟踪对应的目标对象，以获取到每一个目标对象在连续跟踪过程中的图像序列。

S23：对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像。

本实施方式中，利用检测模型中级联的第一图像识别模型对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像

具体地，利用第一图像识别模型对图像序列中的每帧图像添加人体检测框，基于人体检测框对人体图像进行计算，得到每帧图像中人体图像对应的质量分数。对多个质量分数进行排序，将质量分数最大的人体图像对应的图像帧确定为第一图像。

可以理解地，质量分数最大的人体图像中包括相对最完整的人体特征信息，通过对人体检测框进行优选，能够避免人体检测框质量分数不佳时导致的识别误差。

S24：基于第一图像对目标对象的人脸或/和身体部位进行检测。

本实施方式中，利用检测模型中级联的人体分割模型对第一图像添加人体检测框，并基于人体检测框对第一图像中的人体图像进行分割及检测。

S25：响应于在第一图像中未检测到目标对象的人脸，从第一图像中检测目标对象的人形区域，以得到目标对象的人形序列。

本实施方式中，响应于第一图像的人体检测框中未检测到人脸检测框或人脸检测框被部分遮挡，表明未检测到可用作识别的正面人脸图像。

本实施方式中，响应于在第一图像中未检测到目标对象的人脸，利用人体分割模型从第一图像中检测目标对象的人形区域，以得到目标对象的人形序列。

具体地，利用人体分割模型对第一图像中的目标对象添加人体检测框，并基于人体检测框进行分割，得到包括目标对象的人形区域以及背景区域，继而利用背景区域和人形区域得到目标对象的人形区域掩码，以对人形区域掩码进行二值化处理，得到目标对象的人形序列。

其中，人体检测框对应的抠图包括较大的背景区域，背景区域会对人形区域的检测造成影响，因而需要使用掩码剥离人形区域与背景区域，以得到有效的人形区域掩码。

其中，二值化处理指的是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。对图像进行二值化处理能够使图像变得简单，且数据量减小，可以凸显出感兴趣的目标的轮廓。本实施方式中，对对人形区域掩码进行二值化处理，能够得到更清晰的人体轮廓。

S26：对人形序列进行步态识别，得到目标对象的步态特征。

本实施方式中，通过检测模型中级联的步态特征识别模型对人形序列进行步态识别，得到目标对象的步态特征。

S27：利用聚类算法对目标对象的步态特征与存储的员工的步态特征进行聚类，并输出第一聚类结果。

其中，店员的步态特征可以征得店员同意后采集并保存进特征库中。

其中，聚类(Cluster)算法又称聚类分析或群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

具体地，同一个聚类中的其中一个模式与其余模式之间的相似度大于相似度矩阵的均值，即表明该模式与其余模式为同一簇。

可以理解地，优先利用聚类算法对目标对象的步态特征与存储的员工的步态特征进行聚类，能够首先对目标对象进行店内员工去重。

S28：响应于第一聚类结果中聚成的簇增加，利用聚类算法对目标对象的步态特征与预设时间段内存储的客户的步态特征进行聚类，并输出第二聚类结果。

在一个具体的场景中，响应于第一聚类结果中聚成的簇增加，表明目标对象的步态特征与存储的员工的步态特征之间的相似度小于相似度矩阵的均值，即目标对象的步态特征与存储的任一员工的步态特征的匹配度均较低，也即目标对象不是员工，因此需要继续对目标对象进行相同客户去重。

其中，预设时间段可以设定为一天、一周或者一个月，本申请对此不作限定。

在另一个具体的场景中，响应于第一聚类结果中聚成的簇未增加，确定目标对象为员工，不触发进入次数。可以理解地，聚成的簇未增加，表明目标对象的步态特征与存储的员工的步态特征之间的相似度大于相似度矩阵的均值，即目标对象的步态特征与存储的某一员工的步态特征的匹配度较高，也即目标对象是其中一个员工，此时不需要统计目标对象进出情况。

S29：响应于第二聚类结果中聚成的簇增加，保存目标对象的步态特征，触发进入次数加1并保存触发时间，得到进入统计结果。

在一个具体的场景中，响应于第二聚类结果中聚成的簇增加，表明目标对象的步态特征与预设时间段内存储的客户的步态特征之间的相似度小于相似度矩阵的均值，即目标对象的步态特征与存储的任一客户的步态特征的匹配度均较低，也即目标对象不是预设时间段内来过的任一客户，因此需要对该目标对象的进入次数进行统计，并保存该目标对象的进入时间。

其中，同时将对应的第一图像以及基于第一图像计算得到的目标对象的质量分数进行保存。

在另一个具体的场景中，响应于第二聚类结果中聚成的簇未增加，确定目标对象为预设时间段内已统计的客户，不触发进入次数，以免对相同客户进行重复计数。

在又一个具体的场景中，响应于第二聚类结果中聚成的簇未增加，且响应于第一图像中人体图像的质量分数大于匹配上的图像帧中人体图像对应的质量分数，利用第一图像替换匹配上的图像帧，并基于第一图像中人体图像的质量分数进行更新。可以理解地，更新了保存的图像后，其包括的人体检测框对应的质量分数也会相应更新，对应的人体特征也会进行更新，从而获得目标对象更多的步态特征。

可以理解地，通过对视频图像中的目标对象进行同一目标的去重处理，能够提高客流统计的精确度，从而知晓门店的实际客流量。

进一步地，本实施方式中，响应于目标对象为客户，且检测到目标对象从统计区域跨过跘线进入非统计区域，触发离开次数加1并保存触发时间。

可以理解地，对于离店的目标对象，通过将其进店和离店分别对应的触发时间相减，可以得到该目标对象在店内的滞留时间，以确定该目标对象对门店的兴趣程度，从而有利于店内经营分析。

可以理解地，由于步态特征可较长时间保持不变，不似人脸特征需要在较短时间内更新去重，因而步态特征可以用作长时间去重，且在人体正面特征(人脸特征)与背面特征不一致，在人脸特征未有效检测到时，采用步态特征进行背面聚类去重，能够提高客流统计的准确率。进一步地，通过步态特征可以分析较长时间内同一个目标对象的来店频次，更有利于店内经营分析。

区别于现有技术，本实施方式通过获取的图像序列对目标对象的人脸或/和身体部位进行检测，并在未检测到目标对象的人脸或未检测到质量较佳的人脸图像时，基于同一个目标对象的身体部位对应的图像序列提取目标对象的步态特征，能够利用步态特征对目标对象进行识别，以通过关联人体信息进行客流统计，从而实现准确去重。通过上述方式，本申请能够避免仅靠人脸识别进行统计而导致的统计误差，从而提高统计精度，以满足精准统计客流的需求。

请参阅图3，图3是本申请目标客流统计方法第三实施方式的流程示意图。在本实施方式中，目标客流统计方法包括：

S31：获取统计区域的视频图像。

具体过程请参见S11与S21中的描述，此处不再赘述。

S32：从视频图像中检测至少一个目标对象的图像序列。

具体过程请参见S12与S22中的描述，此处不再赘述。

S33：对图像序列进行计算，并基于计算结果获取包括目标对象的最佳人体质量的第一图像。

具体过程请参见S23中的描述，此处不再赘述。

S34：基于第一图像对目标对象的人脸或/和身体部位进行检测。

具体过程请参见S24中的描述，此处不再赘述。

S35：响应于在第一图像中检测到目标对象的人脸，对第一图像添加人脸检测框，基于人脸检测框提取目标对象的人脸特征。

本实施方式中，响应于第一图像的人体检测框中检测到完整的人脸检测框，表明在第一图像中检测到目标对象的人脸，也即检测到可用作识别的正面人脸图像，继而基于正面人脸图像提取目标对象的人脸特征。

S36：利用聚类算法对目标对象的人脸特征与存储的员工的人脸特征进行聚类，并输出第三聚类结果。

其中，店员的人脸特征可以征得店员同意后采集并保存进特征库中。

可以理解地，优先利用聚类算法对目标对象的人脸特征与存储的员工的人脸特征进行聚类，能够首先对目标对象进行店内员工去重。

S37：响应于第三聚类结果中聚成的簇增加，利用聚类算法对目标对象的人脸特征与预设时间段内存储的客户的人脸特征进行聚类，并输出第四聚类结果。

在一个具体的场景中，响应于第三聚类结果中聚成的簇增加，表明目标对象的人脸特征与存储的员工的人脸特征之间的相似度小于相似度矩阵的均值，即目标对象的人脸特征与存储的任一员工的人脸特征的匹配度均较低，也即目标对象不是员工，因此需要继续对目标对象进行相同客户去重。

在另一个具体的场景中，响应于第三聚类结果中聚成的簇未增加，确定目标对象为员工，不触发进入次数。可以理解地，聚成的簇未增加，表明目标对象的人脸特征与存储的员工的人脸特征之间的相似度大于相似度矩阵的均值，即目标对象的人脸特征与存储的某一员工的人脸特征的匹配度较高，也即目标对象是其中一个员工，此时不需要统计目标对象进出情况。

S38：响应于第四聚类结果中聚成的簇增加，保存目标对象的人脸特征，触发进入次数加1以及保存触发时间，得到进入统计结果。

在一个具体的场景中，响应于第四聚类结果中聚成的簇增加，表明目标对象的人脸特征与预设时间段内存储的客户的人脸特征之间的相似度小于相似度矩阵的均值，即目标对象的人脸特征与存储的任一客户的人脸特征的匹配度均较低，也即目标对象不是预设时间段内来过的任一客户，因此需要对该目标对象的进入次数进行统计，并保存该目标对象的进入时间。

在另一个具体的场景中，响应于第四聚类结果中聚成的簇未增加，确定目标对象为预设时间段内已统计的客户，不触发进入次数，以免对相同客户进行重复计数。

在又一个具体的场景中，响应于第四聚类结果中聚成的簇未增加，且响应于第一图像中人体图像的质量分数大于匹配上的图像帧中人体图像对应的质量分数，利用第一图像替换匹配上的图像帧，并基于第一图像中人体图像的质量分数进行更新。可以理解地，更新了保存的图像后，其包括的人体检测框对应的质量分数也会相应更新，对应的人体特征也会进行更新，从而获得目标对象更多的人脸特征。

请参阅图4，图4是本申请目标客流统计方法一应用场景的工作流程图。本实施方式中，获取到监控视频后，首先基于人脸头肩人体检测模型对多帧在非统计区域的监控图像进行人脸、头肩、人体检测，得到多个目标对象的人脸检测框、头肩检测框以及人体检测框。接着对多个目标对象对应的人体检测框进行实时跟踪，形成人体轨迹线。其中，人体轨迹线包括每帧图像的人体检测框。继而将每个目标对象对应的人脸检测框以及头肩检测框与人体轨迹线关联，以为多个目标对象分别建立跟踪ID信息，基于跟踪ID信息确定对应的目标对象的头肩检测框后，对头肩检测框的跟踪轨迹进行分析。响应于头肩检测框跨过跘线进入统计区域，获取到多个目标对象在统计区域内的视频图像。对图像序列中的每帧图像添加人体检测框，基于人体检测框对人体图像进行计算，得到每帧图像中人体图像对应的质量分数，对多个质量分数进行排序，将质量分数最大的人体图像对应的图像帧确定为第一图像。对第一图像添加人体检测框，并基于人体检测框对第一图像中的人体图像进行分割及检测。响应于第一图像的人体检测框中未检测到人脸信息，利用聚类算法对目标对象的步态特征先后与存储的员工的步态特征以及存储的客户的步态特征进行聚类，响应于聚类结果中聚成的簇均增加，保存目标对象的步态特征，触发进入次数加1并保存触发时间，得到进入统计结果。响应于第一图像的人体检测框中检测到人脸信息，利用聚类算法对目标对象的人脸特征先后与存储的员工的人脸特征以及存储的客户的人脸特征进行聚类，响应于聚类结果中聚成的簇均增加，保存目标对象的人脸特征，触发进入次数加1并保存触发时间，得到进入统计结果。进一步地，响应于目标对象为客户，且检测到目标对象从统计区域跨过跘线进入非统计区域，触发离开次数加1并保存触发时间。

对应地，本申请提供一种目标客流统计装置。

请参阅图5，图5是本申请目标客流统计装置一实施方式的结构示意图。如图5所示，目标客流统计装置50包括视频图像获取模块51、图像序列检测模块52、特征检测模块53、步态特征提取模块54、统计模块55。

视频图像获取模块51，用于获取统计区域的视频图像。

图像序列检测模块52，用于从视频图像中检测至少一个目标对象的图像序列。

特征检测模块53，用于基于图像序列对目标对象的人脸或/和身体部位进行检测。

步态特征提取模块54，用于响应于未检测到目标对象的人脸，基于同一目标对象的身体部位对应的图像序列提取目标对象的步态特征。

统计模块55，用于利用步态特征统计统计区域的客流量。

其中，具体过程请参阅S11～S15、S21～S29以及S31～S38中的相关文字描述，在此不再赘述。

区别于现有技术，本实施方式通过视频图像获取模块51获取统计区域的视频图像，能够利用图像序列检测模块52从视频图像中检测至少一个目标对象的图像序列，继而利用特征检测模块53基于图像序列对目标对象的人脸或/和身体部位进行检测，并在未检测到目标对象的人脸时，利用步态特征提取模块54对目标对象的步态特征进行提取与识别，继而通过统计模块55基于步态特征统计统计区域的客流量。本实施方式通过关联人体信息进行客流统计，能够避免仅靠人脸识别进行统计而导致的统计误差，继而提高统计精度，以满足精准统计客流的需求。

对应地，本申请提供一种电子设备。

请参阅图6，图6是本申请电子设备一实施方式的结构示意图。如图6所示，电子设备60包括存储器61以及处理器62。

本实施方式中，存存储器61用于存储程序数据，程序数据被执行时实现如上述的目标客流统计方法中的步骤；处理器62用于执行存存储器61存储的程序指令以实现如上述的目标客流统计方法中的步骤。

具体而言，处理器62用于控制其自身以及存存储器61以实现如上述的目标客流统计方法中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由多个集成电路芯片共同实现。

区别于现有技术，本实施方式通过处理器62对获取的图像序列中的目标对象的人脸或/和身体部位进行检测，并在未检测到目标对象的人脸时，基于同一个目标对象的身体部位对应的图像序列提取目标对象的步态特征，能够利用步态特征对目标对象进行识别，以通过关联人体信息进行客流统计，从而避免仅靠人脸识别进行统计而导致的统计误差，继而提高统计精度，以满足精准统计客流的需求。

对应地，本申请提供一种计算机可读存储介质。

请参阅图7，图7是本发明计算机可读存储介质一实施方式的结构示意图。

计算机可读存储介质70包括计算机可读存储介质70上存储的计算机程序701，所述计算机程序701被上述处理器执行时实现如上述的目标客流统计方法中的步骤。具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质70中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质70中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质70包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种目标客流统计方法，其特征在于，包括：

获取统计区域的视频图像；

从所述视频图像中检测至少一个目标对象的图像序列；

基于所述图像序列对所述目标对象的人脸或/和身体部位进行检测；

响应于未检测到所述目标对象的人脸，基于同一所述目标对象的身体部位对应的图像序列提取所述目标对象的步态特征；

利用所述步态特征统计所述统计区域的客流量。

2.根据权利要求1所述的目标客流统计方法，其特征在于，所述基于所述图像序列对所述目标对象的人脸或/和身体部位进行检测的步骤，包括：

对所述图像序列进行计算，并基于计算结果获取包括所述目标对象的最佳人体质量的第一图像；

基于所述第一图像对所述目标对象的人脸或/和身体部位进行检测；

所述响应于未检测到所述目标对象的人脸，基于同一所述目标对象的身体部位对应的图像序列提取所述目标对象的步态特征，包括：

响应于在所述第一图像中未检测到所述目标对象的人脸，从所述第一图像中检测所述目标对象的人形区域，以得到所述目标对象的人形序列；

对所述人形序列进行步态识别，得到所述目标对象的步态特征。

3.根据权利要求2所述的目标客流统计方法，其特征在于，所述响应于在所述第一图像中未检测到所述目标对象的人脸，从所述第一图像中检测所述目标对象的人形区域，以得到所述目标对象的人形序列的步骤，包括：

对所述第一图像中的目标对象添加人体检测框；

基于所述人体检测框进行分割，得到包括所述目标对象的所述人形区域以及背景区域；

利用所述背景区域和所述人形区域得到所述目标对象的人形区域掩码；

对所述人形区域掩码进行二值化处理，得到所述目标对象的人形序列。

4.根据权利要求3所述的目标客流统计方法，其特征在于，所述对所述图像序列进行计算，并基于计算结果获取包括所述目标对象的最佳人体质量的第一图像的步骤，包括：

对所述图像序列中的每帧图像添加人体检测框，基于所述人体检测框对人体图像进行计算，得到每帧图像中所述人体图像对应的质量分数；

对多个所述质量分数进行排序，将质量分数最大的人体图像对应的图像帧确定为所述第一图像。

5.根据权利要求4所述的目标客流统计方法，其特征在于，所述步态特征通过检测模型识别；所述检测模型包括级联的第一图像识别模型、人体分割模型以及步态特征识别模型；

所述基于所述图像序列对所述目标对象的人脸或/和身体部位进行检测的步骤，包括：

利用所述第一图像识别模型对所述图像序列进行计算，并基于计算结果获取包括所述目标对象的最佳人体质量的第一图像；

利用所述人体分割模型对所述第一图像添加所述人体检测框，并基于所述人体检测框对所述第一图像中的所述人体图像进行分割及检测；

响应于在所述第一图像中未检测到所述目标对象的人脸，利用所述人体分割模型从所述第一图像中检测所述目标对象的人形区域，以得到所述目标对象的人形序列；

通过所述步态特征识别模型对所述人形序列进行步态识别，得到所述目标对象的步态特征。

6.根据权利要求5所述的目标客流统计方法，其特征在于，所述检测模型是通过采集的员工的图像进行训练得到的，训练方法包括：

采集至少一个员工的图像，对所述至少一个员工的图像添加所述人体检测框；

基于所述人体检测框进行抠图，获取到仅包括人体图像的矩形框，并对所述矩形框中的所述人体图像进行轮廓标注；

将标注后的矩形框输入到预设的第一深度学习模型进行人体分割训练，得到训练好的所述人体分割模型；

将所述标注后的矩形框输入到预设的第二深度学习模型中进行质量分数计算训练以及大小比较训练，得到所述第一图像识别模型；

按固定帧率抽取同一个员工的标注后的矩形框，以形成同一个员工的标注图像序列；

利用所述人体分割模型对所述同一个员工的标注图像序列中的每一帧图像进行分割，以得到所述同一个员工的人形序列；

将获得的每一个员工的人形序列输入到预设的第三深度学习模型进行步态特征识别训练，得到训练好的所述步态特征识别模型。

7.根据权利要求1～6任一项所述的目标客流统计方法，其特征在于，所述利用所述步态特征统计所述统计区域的客流量的步骤，包括：

利用聚类算法对所述目标对象的步态特征与存储的员工的步态特征进行聚类，并输出第一聚类结果；

响应于所述第一聚类结果中聚成的簇增加，利用所述聚类算法对所述目标对象的步态特征与预设时间段内存储的客户的步态特征进行聚类，并输出第二聚类结果；

响应于所述第二聚类结果中聚成的簇增加，保存所述目标对象的步态特征，触发进入次数加1并保存触发时间，得到进入统计结果。

8.根据权利要求7所述的目标客流统计方法，其特征在于，所述利用聚类算法对所述目标对象的步态特征与存储的员工的步态特征进行聚类，并输出第一聚类结果的步骤后，还包括：

响应于所述第一聚类结果中聚成的簇未增加，确定所述目标对象为员工，不触发进入次数。

9.根据权利要求7所述的目标客流统计方法，其特征在于，所述响应于所述第一聚类结果中聚成的簇增加，利用所述聚类算法对所述目标对象的步态特征与预设时间段内存储的客户的步态特征进行聚类，并输出第二聚类结果的步骤后，还包括：

响应于所述第二聚类结果中聚成的簇未增加，确定所述目标对象为预设时间段内已统计的客户，不触发进入次数。

10.根据权利要求9所述的目标客流统计方法，其特征在于，所述响应于所述第二聚类结果中聚成的簇未增加，确定所述目标对象为预设时间段内已统计的客户，不触发进入次数的步骤，包括：

响应于所述第一图像中所述人体图像的质量分数大于匹配上的图像帧中人体图像对应的质量分数，利用所述第一图像替换所述匹配上的图像帧，并基于所述第一图像中所述人体图像的质量分数进行更新。

11.根据权利要求2所述的目标客流统计方法，其特征在于，所述基于所述图像序列对所述目标对象的人脸或/和身体部位进行检测的步骤后，还包括：

响应于在所述第一图像中检测到所述目标对象的人脸，对所述第一图像添加人脸检测框，基于所述人脸检测框提取所述目标对象的人脸特征；

利用聚类算法对所述目标对象的人脸特征与存储的员工的人脸特征进行聚类，并输出第三聚类结果；

响应于所述第三聚类结果中聚成的簇增加，利用所述聚类算法对所述目标对象的人脸特征与预设时间段内存储的客户的人脸特征进行聚类，并输出第四聚类结果；

响应于所述第四聚类结果中聚成的簇增加，保存所述目标对象的人脸特征，触发进入次数加1以及保存触发时间，得到进入统计结果。

12.根据权利要求10或11所述的目标客流统计方法，其特征在于，所述获取统计区域的视频图像的步骤，包括：

基于监控视频获取到多帧在非统计区域的监控图像，对所述多帧在非统计区域的监控图像进行人脸、头肩、人体检测，得到多个所述目标对象的人脸检测框、头肩检测框以及人体检测框；其中，所述统计区域与所述非统计区域通过跘线进行分隔；

对多个所述目标对象对应的人体检测框进行实时跟踪，形成人体轨迹线；其中，所述人体轨迹线包括每帧图像的所述人体检测框；

将每个所述目标对象对应的所述人脸检测框以及所述头肩检测框与所述人体轨迹线关联，以为多个所述目标对象分别建立跟踪ID信息；

基于所述跟踪ID信息确定对应的目标对象的所述头肩检测框跨过所述跘线进入所述统计区域，获取到多个所述目标对象在所述统计区域内的所述视频图像。

13.根据权利要求12所述的目标客流统计方法，其特征在于，所述从所述视频图像中检测至少一个目标对象的图像序列的步骤，包括：

基于所述跟踪ID信息确定至少一个所述目标对象在所述视频图像中的所述图像序列。

14.根据权利要求12所述的目标客流统计方法，其特征在于，所述目标客流统计方法还包括：

响应于所述目标对象为客户，且检测到所述目标对象从所述统计区域跨过所述跘线进入所述非统计区域，触发离开次数加1并保存触发时间。

15.一种电子设备，其特征在于，包括：

存储器，用于存储程序数据，所述程序数据被执行时实现如权利要求1～14任一项所述的目标客流统计方法中的步骤；

处理器，用于执行所述存储器存储的所述程序数据以实现如权利要求1～14任一项所述的目标客流统计方法中的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～14任一项所述的目标客流统计方法中的步骤。