CN112232316B

CN112232316B - 人群聚集检测方法、装置、电子设备及存储介质

Info

Publication number: CN112232316B
Application number: CN202011442029.7A
Authority: CN
Inventors: 鲁盈悦; 李小兵; 支洪平
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-26
Anticipated expiration: 2040-12-11
Also published as: CN112232316A

Abstract

本发明实施例提供一种人群聚集检测方法、装置、电子设备及存储介质，通过人群密度图进行人群聚集检测，可以节省开销、快速分析，适用于对实时性要求较高的场合；通过获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，可以确定出发生人群聚集行为的区域；通过每两个相邻采样视频帧对应的聚集圈面积重叠信息，可以更准确地确定出待检测视频对应的各个聚集圈的聚集时长；最后根据各个聚集圈的聚集时长，可以实现对待检测视频对应的目标区域内的人群聚集事件进行检测。本发明实施例中提供的人群聚集检测方法，不需要计算聚类中心，可以排除人群短暂聚集的情况，保证检测结果的准确性，提升检测结果的可靠性，便于方法的广泛应用。

Description

人群聚集检测方法、装置、电子设备及存储介质

技术领域

本发明涉及视频监控技术领域，尤其涉及一种人群聚集检测方法、装置、电子设备及存储介质。

背景技术

现代城市人口密集，地铁站、商场、各种节日、体育赛事、演唱会现场等场景极易形成大量人群聚集，而大量的人群聚集极易引发踩踏骚乱等事故。因此，人群聚集检测至关重要。

目前，常见的人群聚集检测方法，通常是对视频帧的密度图进行二值化、中值滤波以及计算加权一阶中心矩等一系列操作，确定出连通域内的聚集中心，然后通过判断连通域百分比占比和设定阈值的关系、聚集中心偏移量和设定阈值的关系以及人数分布数量和设定阈值的关系来确定是否产生人群聚集事件。

现有技术中提供的人群聚集检测方法，通过判断连通域百分比占比、连通域内的聚集中心偏移量以及人数分布数量来说明是否存在聚集事件具有一定的片面性，因为如果在连通域内的聚集中心变化较大但连通域总体面积没有明显移动的情况下，通过现有技术中提供的方法会被认为是产生了人群聚集事件，而这种情况实际上可能是并没有产生人群聚集事件的场景，例如人群通过电梯或通过走廊。这将会导致检测结果缺乏可靠性，不利于方法的广泛应用。

发明内容

本发明实施例提供一种人群聚集检测方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明实施例提供一种人群聚集检测方法，包括：

获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；

基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；

基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

根据本发明一个实施例的人群聚集检测方法，所述基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长，具体包括：

若任意两个相邻采样视频帧对应的两个聚集圈之间的聚集圈面积重叠信息大于等于聚集面积变化阈值，则设置所述两个聚集圈的标识为同一标识；

基于各个标识对应的聚集圈在各个采样视频帧的人群密度图中连续出现的次数，确定各个标识对应的聚集圈的聚集时长。

根据本发明一个实施例的人群聚集检测方法，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，之前还包括：

将所述待检测视频中多个采样视频帧分别输入至密度估计模型，得到所述密度估计模型输出的每一采样视频帧的人群密度图；

所述密度估计模型基于样本视频帧和所述样本视频帧对应的样本人群密度图训练得到，或基于所述样本视频帧、所述样本视频帧对应的样本人群密度图，以及所述样本视频帧中包含的样本人员数量训练得到。

根据本发明一个实施例的人群聚集检测方法，所述将所述待检测视频中多个采样视频帧分别输入至密度估计模型，得到所述密度估计模型输出的每一采样视频帧的人群密度图，具体包括：

将任一采样视频帧输入至所述密度估计模型的特征提取层，得到由所述特征提取层输出的像素值特征；

将所述像素值特征输入至所述密度估计模型的膨胀卷积层，得到由所述膨胀卷积层输出的像素值适配特征；

将所述像素值适配特征输入至所述密度估计模型的输出层，得到由所述输出层输出的所述任一采样视频帧的人群密度图。

根据本发明一个实施例的人群聚集检测方法，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，具体包括：

获取任一采样视频帧的人群密度图中包含的若干凸包；

基于每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈。

根据本发明一个实施例的人群聚集检测方法，所述获取任一采样视频帧的人群密度图中包含的若干凸包，具体包括：

基于无监督聚类方法，确定任一采样视频帧的人群密度图中像素点的若干聚类簇；

若任一聚类簇中包含的所有像素点的像素值之和大于等于密度聚类阈值，则确定所述任一聚类簇为所述任一采样视频帧的人群密度图中的凸包。

根据本发明一个实施例的人群聚集检测方法，所述基于每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈，具体包括：

基于每个凸包的像素面积以及每个凸包包含的人员数量，确定每个凸包的聚集密度；

若任一凸包的聚集密度以及所述任一凸包包含的人员数量满足预设条件，则确定所述任一凸包为所述人群密度图中的聚集圈。

本发明实施例还提供一种人群聚集检测装置，包括：聚集圈确定模块、聚集时长确定模块以及人群聚集检测模块。其中，

聚集圈确定模块用于获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；

聚集时长确定模块用于基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；

人群聚集检测模块用于基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人群聚集检测方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人群聚集检测方法的步骤。

本发明实施例提供的人群聚集检测方法，通过人群密度图进行人群聚集检测，可以节省开销、快速分析，适用于对实时性要求较高的场合；通过获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，可以确定出发生人群聚集行为的区域；通过每两个相邻采样视频帧对应的聚集圈面积重叠信息，可以更准确地确定出待检测视频对应的各个聚集圈的聚集时长；最后根据各个聚集圈的聚集时长，可以实现对待检测视频对应的目标区域内的人群聚集事件进行检测。本发明实施例中提供的人群聚集检测方法，不需要计算聚类中心，而是引入聚集圈，通过考虑聚集圈面积重叠信息确定聚集圈的聚集时长，进而实现对人群聚类事件的检测，可以排除人群短暂聚集的情况，保证检测结果的准确性，提升检测结果的可靠性，便于方法的广泛应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人群聚集检测方法的流程示意图；

图2是本发明实施例提供的一种人群聚集检测装置的结构示意图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着高性能计算和人工智能技术的快速发展，针对人群聚集检测等视觉任务的智能分析算法源源不断地涌现出来。卷积神经网络结构学习到的大量特征具备更强的表征能力，可以替代手工提取的特征，因而是具备很强泛化能力的特征表达，这是传统方法（光流法、前景建模等）在前景提取阶段所不具备的。

现有技术中常见的人群聚集检测方法，通常是对视频帧的密度图进行二值化、中值滤波以及计算加权一阶中心矩，确定出连通域内的聚集中心，然后通过判断连通域百分比占比和设定阈值的关系、聚集中心偏移量和设定阈值的关系以及人数分布数量和设定阈值的关系来确定是否产生人群聚集事件。

现有技术中提供的人群聚集检测方法，从生成密度图到形成聚集中心的过程稍显复杂，且没有给出一个可视化的聚集圈的概念。而且，通过聚集中心和连通域人数变化来说明是否存在聚集事件有一定的片面性：有可能存在这样的情况，连通域内聚集中心变化较大但连通域总体面积没有明显移动。通过现有技术中提供的方法会被认为是产生了人群聚集事件，而这种情况实际上可能是并没有产生人群聚集事件的场景，例如人群通过电梯或通过走廊。这将会导致检测结果缺乏可靠性，不利于方法的广泛应用。为此，本发明实施例中提供了一种人群聚集检测方法，以解决现有技术中存在的技术问题。

图1为本发明实施例中提供的一种人群聚集检测方法的流程示意图，如图1所示，该方法包括：

S1，获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；

S2，基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；

S3，基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

具体地，本发明实施例中提供的人群聚集检测方法，其目的是判断在目标区域内是否产生人群聚集事件以及产生人群聚集事件的位置。人群聚集事件是指较严重的人群聚集行为，也就是可能产生危险的人群聚集行为。如果判断的结果是在目标区域内产生人群聚集事件，则需要根据产生人群聚集事件的位置，进行报警，以保证后续安保人员可以及时疏散人群，降低人群聚集事件导致危险发生的可能性。

首先执行步骤S1。其中，待检测视频对应于目标区域，是指目标区域内拍摄得到的视频，以用于进行人群聚集检测。待检测视频中的多个采样视频帧可以通过对待检测视频进行采样得到，采样时可以根据指定采样频率进行，指定采样频率可以根据需要进行设定，本发明实施例中对此不作具体限定。

每一采样视频帧均对应有一人群密度图，人群密度图用于表征对应的采样视频帧中的人员密度，进而用于表征人群聚集的态势。人群密度图中每一像素点的像素值用于表征该像素点处存在人员的概率，像素值为落在区间[0,1)之间的小数，采样视频帧中人员密度越大的区域对应的密度图上的像素值之和越大。本发明实施例中的人群密度图可以通过神经网络模型确定，将任一采样视频帧输入至训练好的神经网络模型，由训练好的神经网络模型输出该采样视频帧对应的人群密度图。

由于每一采样视频帧的人群密度图，可以对当前时刻人群分布有个直观的了解，但并不能获取前后帧之间的关联，即无法掌握历史密度分布和当前密度分布之间的异同，因此无法判断是否有人群聚集事件发生，需要获取人群密度图中的聚集圈。每一人群密度图中可以包含有若干聚集圈，聚集圈可以用于表征采样视频帧中的人群聚集状态，每一聚集圈可以对应于人群密度图上像素值之和大于一定值的区域。

然后执行步骤S2。其中，聚集圈面积重叠信息是指两个相邻采样视频帧中前一采样视频帧的人群密度图中的任一聚集圈与后一采样视频帧的人群密度图中的任一聚集圈之间的面积重叠信息，聚集圈面积重叠信息的大小可以用于表征两个聚集圈是否具有关联关系，有关联关系则说明两个相邻采样视频帧的时间间隔内发生人群聚集行为，无关联关系则说明两个相邻采样视频帧的时间间隔内未发生人群聚集行为。人群聚集行为可以包括人群聚集事件以及非人群聚集事件，人群聚集事件是指达到一定的聚集时长，进而可能会引起事故的人群聚集行为，非人群聚集事件是指短暂且不会引起事故的人群聚集行为，例如搭乘电梯、通过走廊等。

对于待检测视频中任意两个相邻采样视频帧A0和A1，二者对应时刻分别记为T0和T1，且有T0<T1。采样视频帧A0的人群密度图为D0，采样视频帧A1的人群密度图为D1。人群密度图D0中包含有x+1（x≥0）个聚集圈，可以为每个聚集圈设置标识，例如标识可以分别为聚集圈Q00，Q01，…，Q0x，人群密度图D1中包含有y+1（y≥0）个聚集圈，可以为每个聚集圈设置标识，例如标识可以分别为聚集圈Q10，Q11，…，Q1y。对于人群密度图D1中的任一聚集圈Q1z（0≤z≤y），可以计算聚集圈Q1z与人群密度图D0中的每个聚集圈之间的面积重叠信息，进而得到采样视频帧A0和A1对应的聚集圈面积重叠信息。面积重叠信息具体可以是两个聚集圈之间的面积重叠比例，例如可以通过面积交并比表示。面积交并比可以表示为两个聚集圈的面积交集与面积并集的比值。

通过两个相邻采样视频帧对应的聚集圈面积重叠信息的大小，可以确定出待检测视频对应的各个聚集圈的聚集时长，即确定待检测视频对应的具有关联关系的聚集圈连续出现的总时长。此处，具有关联关系的聚集圈连续出现的总时长可以通过具有关联关系的聚集圈在连续的采样视频帧的人群密度图中出现的次数以及每两个相邻采样视频帧之间的时间间隔确定。

最后执行步骤S3。根据待检测视频对应的各个聚集圈的聚集时长，对待检测视频对应的目标区域内的人群聚集事件进行检测。检测的过程具体可以是判断每个聚集圈的聚集时长是否大于等于聚集时长阈值，如果任一聚集圈的聚集时长大于等于聚集时长阈值，则说明该聚集圈对应的区域为发生人群聚集事件的区域。通过对待检测视频对应的所有聚集圈的聚集时长进行判断，可以确定出待检测视频对应的目标区域内发生人群聚集事件的所有区域。其中，聚集时长阈值可以根据需要进行设定，本发明实施例中对此不作具体限定，例如聚集时长阈值可以设置为30s。

本发明实施例中提供的人群聚集检测方法，通过人群密度图进行人群聚集检测，可以节省开销、快速分析，适用于对实时性要求较高的场合；通过获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，可以确定出发生人群聚集行为的区域；通过每两个相邻采样视频帧对应的聚集圈面积重叠信息，可以更准确地确定出待检测视频对应的各个聚集圈的聚集时长；最后根据各个聚集圈的聚集时长，可以实现对待检测视频对应的目标区域内的人群聚集事件进行检测。本发明实施例中提供的人群聚集检测方法，不需要计算聚类中心，而是引入聚集圈，通过考虑聚集圈面积重叠信息确定聚集圈的聚集时长，进而实现对人群聚类事件的检测，可以排除人群短暂聚集的情况，保证检测结果的准确性，提升检测结果的可靠性，便于方法的广泛应用。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长，具体包括：

具体地，在确定待检测视频对应的各个聚集圈的聚集时长时，可以先判断任意两个相邻采样视频帧对应的两个聚集圈之间的聚集圈面积重叠信息与聚集面积变化阈值的大小关系，以判断两个聚集圈是否具有关联关系，进而确定任意两个相邻采样视频帧之间的时间间隔内是否发生人群聚集行为。两个相邻采样视频帧对应的两个聚集圈包括两个相邻采样视频帧中前一采样视频帧的人群密度图中的一个聚集圈以及后一采样视频帧的人群密度图中的一个聚集圈。如果这两个聚集圈之间的聚集圈面积重叠信息大于等于聚集面积变化阈值，则说明这两个聚集圈具有对应关系，在这两个聚集圈对应的区域发生人群聚集行为，则可以将这两个聚集圈的标识设置为同一标识。其中，聚集面积变化阈值可以根据需要进行设定，本发明实施例中对此不作具体限定，例如聚集面积变化阈值可以设置为0.8。

为缩短判断的时间，可以先确定出后一采样视频帧的人群密度图中的每一聚集圈对应的聚集圈面积重叠信息的最大值，然后判断该最大值与聚集面积变化阈值的大小关系。如果该最大值大于等于聚集面积变化阈值，则说明该最大值对应的两个聚集圈具有对应关系，在这两个聚集圈对应的区域发生人群聚集行为，则可以将这两个聚集圈的标识设置为同一标识。例如，人群密度图D1中的任一聚集圈Q1z对应的聚集圈面积重叠信息的最大值IOU1z可以通过如下公式确定：

IOU1z=max{聚集圈Q1z和聚集圈Q00的面积交集/聚集圈Q1z和聚集圈Q00的面积并集，…，聚集圈Q1z和聚集圈Q0x的面积交集/聚集圈Q1z和聚集圈Q0x的面积并集}。

如果IOU1z=聚集圈Q1z和聚集圈Q0k的面积交集/聚集圈Q1z和聚集圈Q0k的面积并集，且有IOU1z大于等于聚集面积变化阈值，则说明人群密度图D1中的聚集圈Q1z和人群密度图D0中的聚集圈Q0k具有对应关系，且在聚集圈Q1z和聚集圈Q0k对应的区域发生人群聚集行为，此时可以将Q1z与Q0k设置成相同标识，例如Q1z。聚集圈Q1z的聚集时长T_Q1可以根据相邻采样视频帧A0和A1之间的时间间隔确定，例如可以通过如下公式确定：

T_Q1=T_C+（T1-T0）。

其中，T_C为聚集圈Q1z在T0之前的聚集时长。当采样视频帧A0为待检测视频中的第一帧，则T_C=0。

如果IOU1z小于聚集面积变化阈值，则说明人群密度图D0中没有与聚集圈Q1z具有对应关系的聚集圈，则说明在聚集圈Q1z对应的区域未发生人群聚集行为，则确定聚集圈Q1z的聚集时长为0。

本发明实施例中，可以将T1作为T0时刻，T2则作为新的T1时刻，构建聚集圈池，将每一采样视频帧的人群密度图、人群密度图中的各个聚集圈存入聚集圈池，并不断维护更新聚集圈池内各个聚集圈的聚集时长。最后，还可以将聚集圈池实时显示在界面上，进而直观地提供密度变化以及聚集信息。

本发明实施例中提供的人群聚集检测方法，在任意两个相邻采样视频帧对应的两个聚集圈之间的聚集圈面积重叠信息大于等于聚集面积变化阈值时设置两个聚集圈的标识为同一标识，如此可以更清晰的确定出整个待检测视频中具有关联关系的所有聚集圈。在此基础上，根据各个标识对应的聚集圈在各个采样视频帧的人群密度图中连续出现的次数，可以更快速地确定出各个标识对应的聚集圈的聚集时长，进而人群聚集检测的时间，提高检测效率。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，之前还包括：

具体地，本发明实施例中在确定每一采样视频帧的人群密度图时，具体可以通过密度估计模型实现，该密度估计模型可以基于端到端的卷积神经网络结构构建，并通过样本视频帧和样本视频帧对应的样本人群密度图训练得到，或通过样本视频帧、样本视频帧对应的样本人群密度图，以及样本视频帧中包含的样本人员数量训练得到。

当密度估计模型是样本视频帧和样本视频帧对应的样本人群密度图训练得到时，采用的损失函数可以是以人群密度图为目标的回归能量函数。训练得到的密度估计模型的输入为每一采样视频帧，输入为该采样视频帧的人群密度图。当密度估计模型是样本视频帧、样本视频帧对应的样本人群密度图，以及样本视频帧中包含的样本人员数量训练得到时，采用的损失函数可以是以人员数量为第一目标、以人群密度图为第二目标的回归能量函数。训练得到的密度估计模型的输入为每一采样视频帧，输入为该采样视频帧的人群密度图以及采样视频帧中包含的样本人员数量。

本发明实施例中，通过密度估计模型实现对采样视频帧的人群密度图的确定，可以使得到的人群密度图更加准确，且人群密度图的确定速度更快。而且，在对密度估计模型进行训练时，可以采用以人员数量为第一目标、以人群密度图为第二目标的回归能量函数作为损失函数，更有利于密度估计模型在训练过程中的收敛，提高模型训练速度。另外，回归能量函数中以人员数量为目标，可以使得训练得到的密度估计模型可以适用于人数较少的场景。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，样本人员数量和/或样本人群密度图，可以基于如下方法确定：

基于所述样本视频帧中的人员信息，更新所述样本视频帧中每一像素点的像素值，并得到标注视频帧；

基于高斯核函数，对所述标注视频帧进行处理，并将处理后的标注视频帧的尺寸转换为预设尺寸，将所述预设尺寸的标注视频帧作为所述样本人群密度图；

基于所述样本人群密度图中每一像素点的像素值，确定所述样本视频帧中包含的样本人员数量。

具体地，样本视频帧可以通过对各种场景下采集的样本视频进行采样得到，其中涉及的场景可以包括人员密集、人员稀疏、无人、室内以及室外等场景。人员信息包括人员有无信息和人员位置信息，因此在对样本视频帧进行人员信息标注时，可以先根据样本视频帧中每一像素点处的人员有无信息将该像素点的像素值更新为1或0，若任一像素点处存在人员，则将该像素点的像素值更新为1，否则将该像素点的像素值更新为0。然后，将像素值为1的像素点的坐标作为人员位置信息标注在该像素点附近，由此构成标注视频帧。也即，标注视频帧中每一像素点的像素值为1或0，用于表示该像素点处的人员有无，而且该标注视频帧中像素值为1的像素点还携带有其坐标值。

然后，根据高斯核函数，对标注视频帧进行处理。本发明实施例中对高斯核函数的具体形式不作具体限定。通过高斯核函数处理，可以使标注视频帧中像素值为1的分散至周围的若干个像素点上，处理后的标注视频帧中不存在像素值为1的像素点。如此可以更突出标注视频帧中的人员。由于标注视频帧与样本视频帧的尺寸相同，为避免由于样本视频帧的尺寸过大导致处理速度下降，此处可以将处理后的标注视频帧的尺寸转换为预设尺寸，预设尺寸小于样本视频帧的尺寸。例如预设尺寸可以为样本视频帧的尺寸的1/8。将预设尺寸的标注视频帧作为样本人群密度图。需要说明的是，预设尺寸的标注视频帧相比于样本视频帧，其像素点的数量减少，但并不影响样本人群密度图的后续应用以及检测结果，而且可以提高检测效率。

最后，可以根据样本人群密度图中每一像素点的像素值，确定出样本视频帧中包含的样本人员数量，具体可以将样本人群密度图中所有像素值不为0的像素点的像素值进行求和得到的数即为该人群密度图对应的样本视频帧中包含的样本人员数量。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述将所述待检测视频中多个采样视频帧分别输入至密度估计模型，得到所述密度估计模型输出的每一采样视频帧的人群密度图，具体包括：

具体地，本发明实施例中采用的密度估计模型的模型结构具体可以是VGG16，可以包括特征提取层、膨胀卷积层以及输出层。

特征提取层可以是三组卷积池化层，用于进行像素值特征提取。每组卷积池化层中可以包括两个3*3的卷积层以及一个池化层。

密度估计模型中可以包括3个3*3的膨胀卷积层，通过膨胀卷积层可以进行像素值视频特征的提取，使得密度估计模型可以具备多个感受野，以适配不同焦距和分辨率下的场景。

输出层可以通过Relu激活函数，使得输出的人群密度图的像素值为正，以保证人群密度图的像素值没有小于0的非正常值，可以更好更快地使密度估计模型收敛并保持稳定。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，具体包括：

获取任一采样视频帧的人群密度图中包含的若干凸包；

具体地，本发明实施例中在确定每一人群密度图中的聚集圈时，首先可以确定出该人群密度图中包含的若干凸包，每个凸包可以包含有人群密度图中像素值之和大于一定值的若干相邻的像素点，每个凸包用于表征对应区域内有较大的可能存在人群聚集状态。

然后根据每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈。每个凸包的像素面积可以通过对该凸包内包含的所有像素点进行积分得到，每个凸包包含的人员数量可以通过对该凸包内包含的所有像素点的像素值进行求和得到。根据每个凸包的像素面积以及每个凸包包含的人员数量，可以选择满足指定条件的凸包作为人群密度图中的聚集圈。该指定条件可以根据需要进行设置，但需要确保满足指定条件的凸包对应的区域内一定存在人群聚集状态。也即确定的人群密度图中的聚集圈对应的区域内一定存在人群聚集状态。

本发明实施例中，通过确定人群密度图中包含的凸包，进而确定人群密度图中的聚集圈，可以使得聚集圈的确定结果更加准确。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述获取任一采样视频帧的人群密度图中包含的若干凸包，具体包括：

具体地，本发明实施例中在获取人群密度图中包含的若干凸包时，可以先基于无监督聚类方法，确定出人群密度图中像素点的若干聚类簇。无监督聚类方法具体可以是meanshift聚类方法，也可以是其他聚类算法，本发明实施例中对此不作具体限定。通过无监督聚类方法得到的每个聚类簇可以是人群密度图中若干个像素点的集合，集合中的像素点的像素值接近。

然后，判断聚类得到的每个聚类簇中包含的所有像素点的像素值之和与密度聚类阈值的大小，如果任一聚类簇中包含的所有像素点的像素值之和大于等于密度聚类阈值，则确定该聚类簇为对应的采样视频帧的人群密度图中的凸包。否则确定该聚类簇不是凸包。其中，密度聚类阈值具体可以根据需要进行设置，本发明实施例中对此不作具体限定。例如，可以将密度聚类阈值设置为0.1。

本发明实施例中采用无监督聚类方法，可以不用限定聚类数量，更便于确定出人群密度图中包含的凸包，使确定的凸包数量更符合实际情况。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测方法，所述基于每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈，具体包括：

具体地，本发明实施例中在确定人群密度图中的聚集圈时，先根据任一凸包包含的人员数量与该凸包的像素面积的比值，确定出该凸包的聚集密度。然后判断该凸包的聚集密度以及该凸包包含的人员数量是否满足预设条件，如果满足则确定该凸包为人群密度图中的聚集圈，否则确定该凸包不是人群密度图中的聚集圈。其中，预设条件具体可以为聚集密度大于等于聚集密度阈值，且人员数量大于等于聚集圈人数阈值。聚集密度阈值与聚集圈人数阈值可以根据需要进行设定，本发明实施例中对此不作具体限定。例如，聚集密度阈值可以设置为0.1，聚集圈人数阈值可以设置为10。

综上所述，本发明实施例中提供的人群聚集检测方法，利用密度估计模型确定每一采样视频帧的人群密度图，密度估计模型中采用了全卷积神经网络结构，并利用了双目标的损失函数和包含有激活函数的输出层，解决了其他方法泛化性不强的问题，简单且鲁棒性高，模型稳定易收敛，可操作性强，有很好的多种场景泛化能力。而且，可以直接利用人群密度图做人群聚集检测，可以节省开销、快速分析，适用于对实时性要求较高的场合。在人群密度图的基础上，结合聚合密度得到聚集圈池，再通过维护聚集圈池得到聚集时长，进而判断是否存在人群聚集事件并可以得到人群聚集事件发生的时间，方法方便易操作，具备实用价值。从一段时间具有关联关系的聚集圈的面积变化而非仅聚集中心的变化来判断是否发生聚集事件，相比于现有技术，避免了判断的片面性，逻辑更严谨，结果更准确。

如图2所示，在上述实施例的基础上，本发明实施例中提供了一种人群聚集检测装置，包括：聚集圈确定模块21、聚集时长确定模块22和人群聚集检测模块23。

聚集圈确定模块21用于获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；

聚集时长确定模块22用于基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；

人群聚集检测模块23用于基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

具体地，本发明实施例中提供的人群聚集检测装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，所述聚集时长确定模块，具体包括：

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，还包括：人群密度图确定模块，用于：

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，所述人群密度图确定模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，所述聚集圈确定模块，具体包括：

凸包获取模块，用于获取任一采样视频帧的人群密度图中包含的若干凸包；

聚集圈确定子模块，用于基于每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈。

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，所述凸包获取模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的人群聚集检测装置，所述聚集圈确定子模块，具体用于：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行人群聚集检测方法，该方法包括：获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的人群聚集检测方法，该方法包括：获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的人群聚集检测方法，该方法包括：获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人群聚集检测方法，其特征在于，包括：

基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测；

所述基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长，具体包括：

2.根据权利要求1所述的人群聚集检测方法，其特征在于，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，之前还包括：

3.根据权利要求2所述的人群聚集检测方法，其特征在于，所述将所述待检测视频中多个采样视频帧分别输入至密度估计模型，得到所述密度估计模型输出的每一采样视频帧的人群密度图，具体包括：

4.根据权利要求1-3中任一项所述的人群聚集检测方法，其特征在于，所述获取待检测视频中多个采样视频帧的人群密度图中的聚集圈，具体包括：

获取任一采样视频帧的人群密度图中包含的若干凸包；

5.根据权利要求4所述的人群聚集检测方法，其特征在于，所述获取任一采样视频帧的人群密度图中包含的若干凸包，具体包括：

6.根据权利要求4所述的人群聚集检测方法，其特征在于，所述基于每个凸包的像素面积以及每个凸包包含的人员数量，确定所述人群密度图中的聚集圈，具体包括：

7.一种人群聚集检测装置，其特征在于，包括：

聚集圈确定模块，用于获取待检测视频中多个采样视频帧的人群密度图中的聚集圈；

聚集时长确定模块，用于基于每两个相邻采样视频帧对应的聚集圈面积重叠信息，确定所述待检测视频对应的各个聚集圈的聚集时长；

人群聚集检测模块，用于基于各个聚集圈的聚集时长，对所述待检测视频对应的目标区域内的人群聚集事件进行检测；

所述聚集时长确定模块，具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述人群聚集检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述人群聚集检测方法的步骤。