CN112257615B

CN112257615B - 一种基于聚类的顾客数量统计方法

Info

Publication number: CN112257615B
Application number: CN202011155165.8A
Authority: CN
Inventors: 杨惠雯; 林宇; 赵宇迪
Original assignee: Shanghai Shuchuan Data Technology Co ltd
Current assignee: Shanghai Shuchuan Data Technology Co ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2023-01-03
Anticipated expiration: 2040-10-26
Also published as: CN112257615A

Abstract

本发明公开了一种基于聚类的顾客数量统计方法，包括如下步骤：S101：使用SSDMobileNetV2模型对多个摄像头的视频帧进行行人检测，得到检测框坐标，并过滤掉不满足尺寸大小和比例的检测框；S102：使用行人重识别模型Osnet进行行人特征提取，对于每个行人检测框，可计算得到1*512维的特征。本发明采用深度卷积网络进行顾客判断，避免了非顾客人员进店计数，统计出更真实、准确的顾客数量，综合全店多个摄像头视野区域进行顾客分析和统计，减轻了特定狭窄区域人群密集时目标遮挡或快速移动导致的客流量统计准确性低的问题，与已有的视频统计方法相比，无需额外的统计感兴趣区域配置。

Description

一种基于聚类的顾客数量统计方法

技术领域

本发明涉及客流量统计技术领域，具体为一种基于聚类的顾客数量统计方法。

背景技术

客流量是店铺运营的核心指标，有效、科学的进行客流量统计分析，能够帮助客户快速及时对市场做出经营决策，挖掘销售潜力，实现长效盈利，目前，针对客流量统计主要有五种方法：第一，人工手持方法，该方法是一种比较早的客流统计方式，通过计数器点按计数，第二，闸门、踏板，即在店的入口处设置进出闸门，第三，红外探头，在店入口处设置红外发射器，通过人进出店时阻挡红外线的次数进行计数，第四，WiFi信号统计，通过在店内布置WiFi信号采集设备，利用手机发出ping信号的特点，收集信号进行统计，第五，视频统计，该方法主要通过头肩或行人检测、跟踪等多方法结合实现，计数时利用分割线对图像进行区域划分，之后通过对目标经过分割区域过程实现人数统计。

相比人工手持、闸门或踏板、红外探头，WiFi信号统计和视频统计方法可自动避免人员进店的重复计数，但WiFi信号统计只能对打开了WiFi的手机进行计数，并且可能会把附近不在门店的手机也进行了统计，准确度不如视频统计方法高，视频统计方法除可借助人脸或行人重识别技术自动避免人员进店的重复计数外，还可以分析出顾客在特定区域内的停留数量，形成热力图，在新零售店铺场景中应用越来越广泛。

目前，视频统计方法主要存在两个问题：首先，视频统计的方法虽然可以避免重复计数，但无法避免非顾客计数，在实际进店人员中除了顾客，还包含非顾客人员，如店员、保洁、快递员等，真实的客流量应只统计顾客进店，其次，视频统计方法工作区域集中于门口或单摄像头下设定的感兴趣区域，区域较为狭小，当人群密集时目标相互遮挡或目标快速移动会导致客流量统计存在较大误差。

基于此，本发明提出一种基于聚类的视频客流统计方法，解决已有方法中受非顾客人员、特殊情况下狭窄区域客流量统计准确性低的问题，以统计出更真实、准确的顾客数量，以门店某时间段内多个摄像头视频作为输入，使用SSD-MobileNetV2模型对视频中的行人进行检测，然后基于OSNet模型对检测到的行人提取特征，按照特征间的相似度进行聚类，每一个类中包含行人特征、时间和空间位置等信息，最后，将每个聚类作为深度卷积神经分类网络(如LSTM)的输入，基于聚类的多种信息判断聚类是否为顾客，满足阈值条件的聚类个数即为顾客数量。

发明内容

本发明的目的在于提供一种基于聚类的顾客数量统计方法，具备准确度高的优点，解决了背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于聚类的顾客数量统计方法，包括如下步骤：

S101：使用SSDMobileNetV2模型对多个摄像头的视频帧进行行人检测，得到检测框坐标，并过滤掉不满足尺寸大小和比例的检测框；

S102：使用行人重识别模型Osnet进行行人特征提取，对于每个行人检测框，可计算得到1*512维的特征；

S103：计算特征间余弦距离相似度；

S104：特征聚类，按照余弦距离相似度从小到大的顺序，合并满足阈值条件的类别；

S105：判断合并前、后类别数量是否变化；如合并数量发生变化，则执行S106，如合并前后类别数量不再发生变化，则执行S107；

S106：更新特征，对于合并到同一类别的特征，计算其平均特征，重复S103～S105过程；

S107：使用深度卷积神经网络对聚类进行顾客判断，如满足设定的阈值，则进行计数，否则不进行计数。

优选的，所述S104：包括如下子步骤：

S1041：判断待合并类别是否是同摄像头下同时刻特征，如是不进行合并，如不是执行S1042；

S1042：判断待合并类别是否满足最小类内距离小于0.4和最大类内距离小于0.6的条件，假设A、B、C三个类别待合并，假设A和B余弦距离小于0.4，则将其合并为[A,B]，如果C和B间余弦距离小于0.4，但和A间的余弦距离大于0.6，则不能将C合并到[A,B]中，如果和A间的余弦距离小于0.6，则将C合并到[A,B]中。

优选的，所述深度卷积神经网络顾客判断模型建立包括如下步骤：

S201：基于S106得到的聚类结果，包含检测框坐标、特征、时间、空间坐标和姿态信息，将其按照时间顺序排列；

S202：将检测框坐标由二维图像坐标转到三维相机坐标，以获取顾客在某时刻的实际空间位置，转换所用到的相机参数由实际标定和测量得到；

S203：人工标注聚类类别，判断每个聚类是否为顾客并进行标记，得到一定数量的训练集；

S204：将行人特征、时间和检测框坐标、空间坐标和姿态信息以及是否为顾客标签信息作为深度卷积神经网络输入并进行训练，输出为顾客的概率值，得到深度卷积神经网络顾客判断模型。

优选的，所述S101行人检测的视频均来自于摄像头，摄像头数量为一个或多个。

与现有技术相比，本发明的有益效果如下：

1、采用深度卷积网络进行顾客判断，避免了非顾客人员进店计数，统计出更真实、准确的顾客数量。

2、综合全店多个摄像头视野区域进行顾客分析和统计，减轻了特定狭窄区域人群密集时目标遮挡或快速移动导致的客流量统计准确性低的问题。

3、与已有的视频统计方法相比，无需额外的统计感兴趣区域配置。

附图说明

图1为本发明实施流程图；

图2为本发明深度卷积神经网络顾客判断模型实施方式流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：如图1所示，本发明实施例一种基于聚类的顾客数量统计方法，包括如下步骤：

S101：使用SSDMobileNetV2模型对多个摄像头的视频帧进行行人检测，得到检测框坐标，并过滤掉不满足尺寸大小和比例的检测框。

S102：使用行人重识别模型Osnet进行行人特征提取，对于每个行人检测框，可计算得到1*512维的特征。

SSDMObilenetV2行人检测模型和Osnet行人特征提取模型为已知公开的深度学习模型，不是本发明专利的重点，故不做详细介绍。

S103：计算特征间余弦距离相似度。

S104：特征聚类，按照余弦距离相似度从小到大的顺序，合并满足阈值条件的类别，包括如下子步骤：

S1041：判断待合并类别是否是同摄像头下同时刻特征，如是不进行合并，如不是执行S1042。

S1042：判断待合并类别是否满足最小类内距离小于0.4和最大类内距离小于0.6的条件。假设A、B、C三个类别待合并，假设A和B余弦距离小于0.4，则将其合并为[A，B]，如果C和B间余弦距离小于0.4，但和A间的余弦距离大于0.6，则不能将C合并到[A，B]中，如果和A间的余弦距离小于0.6，则将C合并到[A，B]中。

S105：判断合并前、后类别数量是否变化，如合并数量发生变化，则执行S106，如合并前后类别数量不再发生变化，则执行S107。

S106：更新特征，对于合并到同一类别的特征，计算其平均特征，重复S103～S105过程。

如图2所示深度卷积神经网络顾客判断模型具体实施方式如下：

非顾客和顾客在外观特征、在店时间跨度、出现的空间位置以及行为表现上有所不同，如非顾客会身穿制服，可能会出现在店铺柜台收银位置，可能在店时长会跨越多个小时等，基于这些区别性信息，将其作为深度卷积神经网络(如LSTM)的输入，学习顾客和非顾客之间的区别性特征。

S201：基于S106得到的聚类结果，包括检测框坐标、特征和时间等信息，将其按照时间顺序排列。

S202：将检测框坐标由二维图像坐标转到三维相机坐标，以获取顾客在某时刻的实际空间位置，转换所用到的相机参数由实际标定和测量得到。

S203：人工标注聚类类别，判断每个聚类是否为顾客并进行标记，得到一定数量的训练集。

综上所述：该基于聚类的顾客数量统计方法，通过采用深度卷积网络进行顾客判断，避免了非顾客人员进店计数，统计出更真实、准确的顾客数量；综合全店多个摄像头视野区域进行顾客分析和统计，减轻了特定狭窄区域人群密集时目标遮挡或快速移动导致的客流量统计准确性低的问题；与已有的视频统计方法相比，无需额外的统计感兴趣区域配置，解决已有方法中受非顾客人员、特殊情况下狭窄区域客流量统计准确性低的问题，以统计出更真实、准确的顾客数量，以门店某时间段内多个摄像头视频作为输入，使用SSD-MobileNetV2模型对视频中的行人进行检测，然后基于OSNet模型对检测到的行人提取特征，按照特征间的相似度进行聚类，每一个类中包含行人特征、时间和空间位置等信息，最后，将每个聚类作为深度卷积神经分类网络(如LSTM)的输入，基于聚类的多种信息判断聚类是否为顾客，满足阈值条件的聚类个数即为顾客数量。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于聚类的顾客数量统计方法，其特征在于：包括如下步骤：

S103：计算特征间余弦距离相似度；

2.根据权利要求1所述的一种基于聚类的顾客数量统计方法，其特征在于：所述S104：包括如下子步骤：

S1042：判断待合并类别是否满足最小类内距离小于0.4和最大类内距离小于0.6的条件，假设A、B、C三个类别待合并，假设A和B余弦距离小于0.4，则将其合并为[A，B]，如果C和B间余弦距离小于0.4，但和A间的余弦距离大于0.6，则不能将C合并到[A，B]中，如果和A间的余弦距离小于0.6，则将C合并到[A，B]中。

3.根据权利要求1所述的一种基于聚类的顾客数量统计方法，其特征在于：所述深度卷积神经网络顾客判断模型建立包括如下步骤：

4.根据权利要求1所述的一种基于聚类的顾客数量统计方法，其特征在于：所述S101行人检测的视频均来自于摄像头，摄像头数量为一个或多个。