CN116311084A

CN116311084A - 一种人群聚集的检测方法及视频监控设备

Info

Publication number: CN116311084A
Application number: CN202310572581.5A
Authority: CN
Inventors: 尹刚; 孙永良; 孙卓毅
Original assignee: Qingdao Academy Of Transportation Sciences; Hisense TransTech Co Ltd
Current assignee: Qingdao Academy Of Transportation Sciences; Hisense TransTech Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-06-23
Anticipated expiration: 2043-05-22
Also published as: CN116311084B

Abstract

本申请涉及图像处理技术领域，特别涉及一种人群聚集的检测方法及视频监控设备，用以提高人群聚集事件的检测准确率。本申请实施例从获取到的视频图像中截取一帧图像作为目标图像，所述目标图像中包含预定义的检测区域；将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度；基于所述目标图像与前一帧图像，确定所述检测区域中行人的平均位移速度；于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，在所述概率大于或等于预设概率阈值时，确定所述检测区域内发生人群聚集。

Description

一种人群聚集的检测方法及视频监控设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种人群聚集的检测方法及视频监控设备。

背景技术

近年来，随着安防技术和计算机视觉技术的不断发展，视频监控系统已经逐步应用于众多领域，如智能交通、平安城市等，随之而来，视频分析技术也越来越多运用到视频监控系统中。

在城市中，特别是在大型商场、体育场、火车站、飞机场等场所，人群的大量聚集往往伴随着异常事件。在人群密集的区域中，如果出现疾病传播、突发灾害或者人员踩踏等恶行事件，则后果不堪设想。现有技术可以通过摄像头采集现场的视频数据，然后通过上位机等应用软件对是否发生人群聚集进行分析，并进行风险预警。

但是，现有技术在采用视频分析技术在公共区域进行人群聚集事件检测时，往往因聚集事件特征难以刻画以及干扰事件影响等，导致人群聚集事件检测的准确率低，例如，在机场等公共区域存在大量旅客排队或大面积人群进出站事件，上述人群聚集事件为正常事件，无需进行风险预警，但是现有的视频分析技术难以区分上述干扰事件，通常将上述人群聚集事件作为人群聚集进行上报，由此导致，现有人群聚集事件的检测准确率较低。

发明内容

本申请的目的是提供一种人群聚集的检测方法及视频监控设备，用以提高人群聚集事件的检测准确率。

第一方面，本申请提供一种人群聚集的检测方法，包括：

从获取到的视频图像中截取一帧图像作为目标图像，所述目标图像中包含预定义的检测区域；

将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度；

基于所述目标图像与前一帧图像，确定所述检测区域中行人的平均位移速度；

基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，在所述概率大于或等于预设概率阈值时，确定所述检测区域内发生人群聚集。

上述技术方案中，在进行人群聚集检测时，不单单以检测区域内人的数量来判断是否发生人群聚集，而是基于检测区域内的人群密度、人头数量和平均位移速度，来计算检测区域内发生人群聚集的概率，其中，人头数量可以直观反映检测区域内人的数量，人群密度有助于区分人群局部聚集和人群大面积聚集，能够避免人群正常局部聚集的干扰情况，而平均位移速度能够反映检测区域内的人群是否存在运动状态，如果人群存在运动，则可能是正常的聚集情况，例如，车站客流排队出入站的情况，如此，结合平均位移速度进行人群聚集检测，能够排除客流排队出入站场景下的伪人群聚集事件，因此，本申请在进行人群聚集检测时，在人头数量的基础上，结合人群密度和平均位移速度，以结合更多人群聚集的特征，排除一些伪人群聚集事件的干扰，提高人群聚集检测的准确率。

在一种可能的实现方式中，所述将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，所述方法还包括：

将所述检测区域划分为多个检测子区域；

基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度；

所述基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，在所述概率大于或等于预设概率阈值时，确定所述检测区域内发生人群聚集，包括：

基于每个检测子区域中的人群密度、人头数量和所述平均位移速度，确定每个检测子区域内是否发生人群聚集；

在确定检测子区域中发生人群聚集时，确定所述检测区域内发生人群聚集。

上述技术方案中，通过将检测区域划分为多个检测子区域，针对各个检测子区域进行人群聚集检测，能够实现对检测区域中局部人群聚集的检测，以避免出现检测区域内局部聚集、整个区域内人群分散而导致的人群聚集漏检问题。

在一种可能的实现方式中，所述将所述检测区域划分为多个检测子区域，包括：

在所述检测区域为非矩形区域时，确定所述检测区域的最小外接矩形区域；

对所述最小外接矩形区域进行N等分，得到N个检测子区域，其中，N为大于1的自然数；

以所述最小外接矩形区域的中心点为中心，确定面积与每个检测子区域面积大小相等的第N+1个检测子区域，得到多个检测子区域。

上述技术方案中，在将检测区域的最小外接矩形区域等分为N个检测子区域之后，考虑到中心区域被划分到N个检测子区域中，中心区域的人群聚集难以检测，因此，以最小外接矩形区域的中心点为中心，确定面积与每个检测子区域面积大小相等的第N+1个检测子区域，在第N+1个检测子区域中同样进行人群聚集检测，以避免因中心区域被划分到N个检测子区域中导致中心区域人群聚集漏检的问题。

在一种可能的实现方式中，所述基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度，包括：

基于所述检测区域内的人头数量，统计每个检测子区域中的人头数量；

利用预设的修正因子，对每个检测子区域中的人头数量进行修正，得到每个检测子区域中修正后的人头数量；

以每个检测子区域中修正后的人头数量除以每个检测子区域的面积，得到每个检测子区域的人群密度。

上述技术方案中，通过对检测子区域中的人头数量进行修正，能够更加准确的计算检测子区域中的人群密度，从而使得检测子区域内的人群聚集检测更加准确。

在一种可能的实现方式中，所述基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，包括：

对所述人群密度、所述人头数量和所述平均位移速度进行归一化处理；

利用预先配置的权重参数，对归一化处理后的人群密度、人头数量和平均位移速度进行加权求和，得到所述检测区域中发生人群聚集的概率。

上述技术方案中，在对人群密度、人头数量和平均位移速度进行归一化处理之后，利用预先配置的权重参数，对归一化处理后的人群密度、人头数量和平均位移速度进行加权求和，针对不同的特征分配不同的权重参数，能够更加准确的计算检测区域中发生人群聚集的概率，从而使得检测区域内的人群聚集检测更加准确。

第二方面，本申请提供一种视频监控设备，包括：

摄像头，用于获取视频图像；

处理器，用于从获取到的视频图像中截取一帧图像作为目标图像，所述目标图像中包含预定义的检测区域，将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度，基于所述目标图像与前一帧图像，确定所述检测区域中行人的平均位移速度，并基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，在所述概率大于或等于预设概率阈值时，确定所述检测区域内发生人群聚集。

在一种可能的实现方式中，所述处理器还用于：

在将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，将所述检测区域划分为多个检测子区域，基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度，基于每个检测子区域中的人群密度、人头数量和所述平均位移速度，确定每个检测子区域内是否发生人群聚集，并在确定检测子区域中发生人群聚集时，确定所述检测区域内发生人群聚集。

在一种可能的实现方式中，所述处理器，具体用于：

在一种可能的实现方式中，所述处理器具体用于：

第三方面，本申请实施例提供一种人群聚集的检测装置，包括：

图像采集模块，用于从获取到的视频图像中截取一帧图像作为目标图像，所述目标图像中包含预定义的检测区域；

图像识别模块，用于将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度；

计算模块，用于基于所述目标图像与前一帧图像，确定所述检测区域中行人的平均位移速度；

检测模块，用于基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，在所述概率大于或等于预设概率阈值时，确定所述检测区域内发生人群聚集。

在一种可能的实现方式中，所述装置还包括：

区域划分模块，用于在将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，将所述检测区域划分为多个检测子区域；

所述计算模块，还用于：基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度；

所述检测模块，还用于：

在一种可能的实现方式中，所述区域划分模块，具体用于：

在一种可能的实现方式中，所述计算模块，具体用于：

在一种可能的实现方式中，所述检测模块具体用于：

第四方面，本申请实施例提供一种视频监控设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现本申请实施例第一方面提供的人群聚集的检测方法。

第五方面，本申请实施例提供一种存储介质，当存储介质中的计算机程序由视频监控设备的处理器执行时，视频监控设备能够执行本申请实施例第一方面提供的人群聚集的检测方法。

另外，第二方面至第五方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一种可选的人群聚集的检测方法的应用场景；

图2为本申请实施例一种可选的人群聚集的检测方法的应用场景；

图3为本申请实施例一种人群聚集的检测方法的流程图；

图4为本申请实施例一种目标图像中检测区域的示意图；

图5为本申请实施例一种用于提取图像中人体头部特征的神经网络模型的结构示意图；

图6为本申请实施例一种检测区域的最小外接矩形区域的示意图；

图7为本申请实施例提供的一种检测区域划分为多个检测子区域的示意图；

图8为本申请实施例提供的另一检测区域划分为多个检测子区域的示意图；

图9为本申请实施例提供的一种人群聚集的检测方法的具体流程的示意流程图；

图10为本申请实施例提供的另一人群聚集的检测方法的具体流程的示意流程图；

图11为本申请实施例提供的一种人群聚集的检测装置的结构示意图；

图12为本申请实施例提供的一种视频监控设备的结构示意图。

10—视频监控设备，101—显示屏，11—服务器，20—终端设备。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面对文中出现的一些词语进行解释：

（1）本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

（2）最小外接矩形，是指以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形，如本申请中，以检测区域各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。

近年来，随着安防技术的不断发展，视频监控系统已经逐步应用于众多领域，如智能交通、平安城市等，而随着计算机视觉技术的发展，视频分析技术也越来越多运用到视频监控系统中。

有鉴于此，本申请提供了一种人群聚集的检测方法及视频监控设备，用以提供人群聚集事件的检测准确率。

本申请的发明构思可概括为：针对采集到的视频图像，从视频图像中截取一帧图像作为目标图像，当然，目标图像中包含预定义的检测区域，然后将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度，进而利用帧差法，基于目标图像与前一帧图像中行人的位移，确定检测区域中行人的平均位移速度，最后，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率，在概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集。

在介绍完本申请实施例的主要发明思想之后，下面结合附图对本申请实施例提供的人群聚集的检测方法的应用场景进行介绍。

如图1所示，为本申请实施例提供的一种人群聚集的检测方法的应用场景图。图中包括：视频监控设备10、服务器11；

其中，视频监控设备10中包括显示屏101和摄像头，摄像头用于采集视频图像，图1中未示出；

视频监控设备10，通过摄像头采集视频图像，其采集的视频图像不仅可以在视频监控设备10的显示屏101上显示，还可以通过网络传输到服务器11中进行存储。

服务器11，接收到视频监控设备10采集的视频图像后，可以从视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域，当然，此检测区域也可以显示在视频监控设备10的显示屏101上，然后将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度，进而利用帧差法，基于目标图像与前一帧图像中行人的位移，确定检测区域中行人的平均位移速度，最后，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率，在概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集，并通知视频监控设备10进行人群聚集预警。

需要说明的是，如图2所示，本申请实施例提供的人群聚集的检测方法的应用场景中，还可以包括：终端设备，具体地，图中包括：终端设备20、视频监控设备10、以及服务器11；

其中，视频监控设备10中包括显示屏101和摄像头，摄像头用于采集视频图像，图2中未示出；

视频监控设备10，通过摄像头采集视频图像，其采集的视频图像不仅可以在视频监控设备10的显示屏101上显示，还可以通过网络传输到服务器11中进行存储以及通过网络传输到终端设备20中显示。

服务器11，接收到视频监控设备10采集的视频图像后，可以从视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域，当然，此检测区域也可以显示在视频监控设备10的显示屏101上和终端设备20的显示屏上，然后将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度，进而利用帧差法，基于目标图像与前一帧图像中行人的位移，确定检测区域中行人的平均位移速度，最后，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率，在概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集，并通知终端设备20和视频监控设备10进行人群聚集预警。

当然，在本发明其它应用场景中，服务器11也可以仅存储视频监控设备10采集的视频图像，人群聚集的检测过程由终端设备20执行，本发明实施例对此不做限定。

本申请中的描述中仅就单个服务器加以详述，但是本领域技术人员应当理解的是，示出的监控设备和服务器旨在表示本申请的技术方案涉及监控设备和服务器的操作。对单个服务器加以详述至少为了说明方便，而非暗示对服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

本申请实施例提供的一种人群聚集的检测方法，如图3所示，包括：

步骤301，从获取到的视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域。

具体实施时，预定义的检测区域可以通过人工标注的方式生成，也即由人工对视频图像中的人群聚集事件的检测区域进行手动标注，然后记录标注框的位置信息，作为检测区域。

需要说明的是，检测区域是可能发生人群聚集的区域，检测区域可以是任意形状，例如，可以是规则的多边形区域，如，正方形区域、矩形区域等，也可以是不规则的多边形区域，甚至圆形区域等，本申请实施例对此不做限定。

在一个示例中，如图4所示，在图4示出的车站客流出站场景的监控图像中，可以将区域40作为预定义的检测区域，该检测区域为不规则的多边形区域。

另外，由于人群聚集事件往往是突发事件，需要及时预警进行处理，因此，本申请实施例中的视频图像可以为监控设备实时采集的视频图像，当然，本申请实施例也可以对历史采集的视频图像中的人群聚集事件进行检测，本申请实施例对此不做限定。

具体实施时，在从视频图像中截取一帧图像作为目标图像时，可以任意的截取，本申请实施例对此不做定。

步骤302，将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度。

需要说明的是，预先训练的用于提取图像中人体头部特征的神经网络模型可以采用多列卷积神经网络（Multi-Column Convolutional Neural Network，MCNN）。MCNN网络是多列卷积神经网络结构，其可以将图像映射到对应的人群密度图，也即在MCNN网络中输入图像，通过卷积神经网络提取人的头部特征，生成人群密度图，并通过密度图积分得出图像中的人头数量，同时还可以计算人群密度空间分布和相邻帧行人的位移。

实际应用中，考虑到在统计检测区域内的人数时，使用人群密度图比直接获取总人数更有优势，人群密度图反映了人群在图像中的空间分布，人群的空间分布信息对人群行为分析有一定助益，因为人群密度越大的区域，人群越有可能发生异常行为。例如，在检测人群聚集异常时，就可以将人群密度大的区域作为潜在人群聚集区域。

因此，本申请实施例使用MCNN网络对目标图像中的人体的头部特征进行识别，在人群密度较大的场景中，行人头部不易被遮挡，且容易被检测到，如果对行人的身体进行检测，由于行人的身体容易被遮挡，会导致识别效果极差，因此，针对可能发生人群聚集的密集场景中的人群计数采用MCNN网络对人体的头部进行识别。

具体实施时，如图5所示，本申请实施例使用的MCNN网络的网络结构，可以是3列卷积神经网络，每一列并行子网络深度相同，每列滤波器的大小不同。针对行人监控场景3列卷积核尺寸大小分为L列大尺度卷积核为11*11，9*9，7*7，7*7，7*7；M列中等尺度卷积核为9*9，7*7，5*5，5*5，5*5；S列小尺度卷积核为7*7，5*5，3*3，3*3，3*3，3列卷积核分别用于学习摄像头与人头距离较大、适中、较小的图像的特征，这使得每一列子网络具有不同大小的感受野，能让网络更好地识别不同尺寸的行人头部特征，较好地处理监控视频中存在的透视问题。

具体实施时，假设原始图像50为目标图像，在L列大尺度卷积处理中，先使用11*11*32的卷积核对目标图像进行卷积处理，再使用2*2的池化对卷积结果进行池化处理，再以9*9*64的卷积核对池化结果进行二次卷积处理，并以2*2的池化对二次卷积处理结果进行二次池化处理，最后分别以7*7*32、7*7*16、7*7*8的卷积核对二次池化处理结果进行卷积处理，得到L列卷积处理的特征图；在M列中等尺度卷处理中，先使用9*9*40的卷积核对目标图像进行卷积处理，再使用2*2的池化对卷积结果进行池化处理，再以7*7*80的卷积核对池化结果进行二次卷积处理，并以2*2的池化对二次卷积处理结果进行二次池化处理，最后分别以5*5*40、5*5*20、5*5*10的卷积核对二次池化处理结果进行卷积处理，得到L列卷积处理的特征图；在S列小尺度卷处理中，先使用7*7*48的卷积核对目标图像进行卷积处理，再使用2*2的池化对卷积结果进行池化处理，再以5*5*96的卷积核对池化结果进行二次卷积处理，并以2*2的池化对二次卷积处理结果进行二次池化处理，最后分别以3*3*48、3*3*24、3*3*12的卷积核对二次池化处理结果进行卷积处理，得到L列卷积处理的特征图，经3列卷积核处理得到的特征图使用1*1卷积核做线性加权进行特征融合，最终得到人群密度图51。

步骤303，基于目标图像与前一帧图像，确定检测区域中行人的平均位移速度。

具体实施时，可以采用帧差法，基于目标图像与前一帧图像之间行人的位移，确定检测区域中行人的平均位移速度，具体来说，针对视频图像中相邻两帧视频帧图像（即目标图像与前一帧图像）的差图像来获取视频图像的变化区域，对于常规的视频图像而言，帧率一般为25-30帧/秒，两帧之间的时间间隔为0.03-0.04秒，这个时间间隔足够短，视频图像中的背景部分在这瞬间几乎是不变的，只有行人会发生位移，因此，在差图像中，背景部分的像素值作差结果基本为0，而行人发生位移的区域灰度值在这个时间间隔有着比较明显的变化，其灰度值作差结果大于0，从而可以利用背景部分和行人位移部分作差结果的显著不同，检测到行人的位移，并基于目标图像和前一帧图像中坐标位置变化计算像素位移距离，结合前后帧时间间隔，计算检测区域中行人的平均位移速度。

具体基于目标图像和前一帧图像中坐标位置变化计算像素位移距离时，可以以目标图像和前一帧图像的任一顶点（例如，左下角顶点）为坐标原点（0，0）建立坐标系，此时，目标图像和前一帧图像均位于坐标系的第一象限内，然后根据步骤302的识别结果中标注出的人头位置检测框，对每个人头位置对应的标注框的中心点进行定位，得到每个人头位置的坐标，另外，还可以针对每个人头位置或者人头位置对应的标注框，设置追踪标记，如此，即可基于追踪标记，获取目标图像和前一帧图像中，同一追踪标记对应的人头位置的坐标变化，计算发生位移的行人的像素位移距离，进而结合前后帧时间间隔，计算检测区域中行人的平均位移速度。

实际应用中，针对人群密度较大的应用场景，不可避免的会出现多个行人重叠或者遮挡的情况，此种情况下，只需图像中存在部分未被遮挡的行人，本申请实施例即可基于此部分未被遮挡的行人的位移，计算出检测区域中行人的平均位移速度。

步骤304，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率，在概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集。

具体实施时，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率时，由于人群密度、人头数量和平均位移速度有着不同的度量单位，因此，对人群密度、人头数量和平均位移速度进行归一化处理，将人群密度、人头数量和平均位移速度均归一化到区间[0，1]中，获得目标图像所在场景下的特征向量V = [MT MN TN]，其中，MT表示人群密度的归一化结果，MN表示人头数量的归一化结果，ST表示平均位移速度的归一化结果。

为了计算检测区域内发生人群聚集的概率，预先配置权重参数，具体地，针对人群密度、人头数量和平均位移速度分别配置权重参数W1、W2和W3，得到权重向量W = [W1 W2W3]。需要说明的是，人群密度、人头数量和平均位移速度的权重值分配需要根据实际场景进行设定，例如，人群密度较为重要的场景下，可以将人群密度的权重参数W1设置的大于权重参数W2和权重参数W3。

在得到目标图像所在场景的特征向量V和权重向量W之后，将两个向量相乘，即可得到检测区域内发生人群聚集的概率，进而在该概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集。其中，预设概率阈值可以根据经验值设定，例如，预设概率阈值为0.6，本申请实施例对此不做限定。

当然，需要说明的是，若计算得到的检测区域内发生人群聚集的概率小于预设概率阈值，则从视频图像中获取下一帧图像作为目标图像继续判断检测区域内是否发生人群聚集。

具体实施时，为了进一步提高人群聚集事件的检测准确性，避免出现检测区域内人群局部聚集、整个区域内人群分散而导致的整个检测区域内人群密度较小、人群聚集漏检问题，本申请实施例在将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度之后，还可以将检测区域划分为多个检测子区域，并基于检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度，进而基于每个检测子区域中的人群密度、人头数量和平均位移速度，确定每个检测子区域内是否发生人群聚集，在确定检测子区域中发生人群聚集时，确定检测区域内发生人群聚集。

具体实施时，将检测区域划分为多个检测子区域之后，在多个检测子区域中检测是否发生人群聚集，在确定一个或多个检测子区域中发生人群聚集时，即确定检测区域内发生人群聚集。

具体实施时，将检测区域划分为多个检测子区域时，如果检测区域为矩形区域，则可以直接对检测区域进行N等分，将检测区域划分为N个检测子区域，在检测区域为非矩形区域时，可以先确定检测区域的最小外接矩形区域，然后将最小外接矩形区域进行N等分，得到N个检测子区域。

当然，本发明其它实施例中，也可以使用其它多边形区域作为标准的检测区域进行检测子区域的划分，本申请实施例中所提到的矩形区域并不用于具体限定。

在一个示例中，如图6所示，仍以图4示出的检测区域为例，图4中示出的检测区域40为非矩形区域，则在将检测区域划分为多个检测子区域时，就需要先确定检测区域的最小外接矩形区域，图6中示出的区域60即为检测区域40的最小外接矩形区域。

如图7所示，在对矩形检测区域进行N等分时，可以对矩形检测区域进行四等分，也即N取值为4，将图6中示出的最小外接矩形区域60划分为4个检测子区域，即第1个检测子区域71、第2个检测子区域72、第3个检测子区域73和第4个检测子区域74。

实际应用中，在将检测区域的最小外接矩形区域等分为N个检测子区域之后，考虑到中心区域被划分到N个检测子区域中，中心区域的人群聚集难以检测，因此，以最小外接矩形区域的中心点为中心，确定面积与每个检测子区域面积大小相等的第N+1个检测子区域，在第N+1个检测子区域中同样进行人群聚集检测，以避免因中心区域被划分到N个检测子区域中导致中心区域人群聚集漏检的问题。

在一个示例中，如图8所示，以图7示出的划分方案为例，在将图6示出的最小外接矩形区域60划分为4个检测子区域之后，以最小外接矩形区域60的中心点80为中心，确定面积与每个检测子区域面积大小相等的第5个检测子区域81。

具体实施时，针对各个检测子区域进行人群检测时，仍需计算每个检测子区域的人头数量和人群密度，当然，平均位移速度也可以针对每个检测子区域进行重新计算，当然，也可以采用整个检测区域的平均位移速度作为各个检测子区域的平均位移速度，本申请实施例对此不做限定。

具体地，各个检测子区域的人头数量，可以基于检测区域内的人头数量进行统计得到，具体实施时，仍以目标图像的任一顶点（例如，左下角顶点）为坐标原点（0，0）建立坐标系，此时，目标图像位于坐标系的第一象限内，然后根据步骤302的识别结果中标注出的人头位置检测框，对每个人头位置对应的标注框的中心点进行定位，得到每个人头位置的坐标，在划分检测子区域之后，根据每个人头位置的坐标，统计坐标位于每个检测子区域中的人头数量，即可得到每个检测子区域的人头数量。

然后利用预设的修正因子，对每个检测子区域中的人头数量进行修正，得到每个检测子区域中修正后的人头数量，并以每个检测子区域中修正后的人头数量除以每个检测子区域的面积，得到每个检测子区域的人群密度。

本申请实施例中提到的修正因子，是结合实际应用场景的人群聚集的场景特点进行设定的。例如，针对机场应用场景，采集检测区域内一定数量（如，100个）的机场人群聚集事件的视频图像，通过人工识别的方式确定每一次人群聚集事件中的实际人头数量，然后利用神经网络模型对每一次人群聚集事件中的人头数量进行识别，得到识别出的人头数量，通过函数拟合，设定修正因子，使得识别出的人头数量，经过修正因子的修正后，接近或者等于实际人头数量，通过此方式，计算得到最符合机场应用场景人群聚集特点的修正因子。其他应用场景均可以采用同样的方式计算修正因子，当然，具体实施时，不同应用场景修正因子的取值可以不同，不同的应用场景也可以采用同一修正因子，本申请实施例对此不做限定。

具体实施时，各个检测子区域的人群密度可以通过如下公式计算：

其中，

为目标图像中各检测子区域的人群密度，/>

为修正因子，其取值可以为0.4，/>

是检测子区域中的人头数量，/>

是检测子区域的面积，本申请实施例中默认面积为1。

下面结合图9，以检测区域不划分检测子区域的情况为例，对本申请实施例提供的人群聚集的检测方法的具体流程进行说明，如图9所示，具体流程包括：

步骤901，实时获取视频监控设备采集的视频图像；

步骤902，从视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域；

步骤903，将目标图像输入预先训练的神经网络模型，确定检测区域内的人头数量和人群密度；

步骤904，利用帧差法，基于目标图像和前一帧图像中行人的位移，确定目标图像中行人的平均位移速度；

步骤905，基于检测区域中的人头数量、人群密度、以及平均位移速度计算检测区域内发生人群聚集的概率；

步骤906，判断检测区域内发生人群聚集的概率是否大于或等于预设概率阈值，若是，则执行步骤907，否则执行步骤908；

步骤907，在检测区域内发生人群聚集的概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集；

步骤908，在检测区域内发生人群聚集的概率小于预设概率阈值时，确定检测区域内未发生人群聚集，则截取下一帧图像作为目标图像，并执行步骤903。

下面结合图10，以检测区域划分检测子区域的情况为例，对本申请实施例提供的人群聚集的检测方法的具体流程进行说明，如图10所示，具体流程包括：

步骤1001，实时获取视频监控设备采集的视频图像；

步骤1002，从视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域；

步骤1003，将目标图像输入预先训练的神经网络模型，确定检测区域内的人头数量和人群密度；

步骤1004，利用帧差法，基于目标图像和前一帧图像中行人的位移，确定目标图像中行人的平均位移速度；

步骤1005，将检测区域划分为多个检测子区域；

步骤1006，计算各个检测子区域的人头数量和人群密度；

步骤1007，基于各个检测子区域的人头数量、各个检测子区域的人群密度、以及检测区域内行人的平均位移速度计算各个检测子区域发生人群聚集的概率；

步骤1008，判断各个检测子区域内发生人群聚集的概率中是否存在任一概率大于或等于预设概率阈值，若是，则执行步骤1009，否则执行步骤1010；

步骤1009，在各个检测子区域内发生人群聚集的概率中存在任一概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集；

步骤1010，在各个检测子区域内发生人群聚集的概率均小于预设概率阈值时，确定检测区域内未发生人群聚集，则截取下一帧图像作为目标图像，并执行步骤1003。

基于相同的构思，本申请实施例还提供了一种人群聚集的检测装置，如图11所示，包括：

图像采集模块1101，用于从获取到的视频图像中截取一帧图像作为目标图像，目标图像中包含预定义的检测区域；

图像识别模块1102，用于将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度；

计算模块1103，用于基于目标图像与前一帧图像，确定检测区域中行人的平均位移速度；

检测模块1104，基于人群密度、人头数量和平均位移速度，计算检测区域内发生人群聚集的概率，在概率大于或等于预设概率阈值时，确定检测区域内发生人群聚集。

在一种可能的实现方式中，设备还包括：

区域划分模块1105，用于在将目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到目标图像中检测区域内的人头数量和人群密度之后，将检测区域划分为多个检测子区域；

计算模块1103，还用于：基于检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度；

检测模块1104，还用于：

基于每个检测子区域中的人群密度、人头数量和平均位移速度，确定每个检测子区域内是否发生人群聚集；

在确定检测子区域中发生人群聚集时，确定检测区域内发生人群聚集。

在一种可能的实现方式中，区域划分模块1105，具体用于：

在检测区域为非矩形区域时，确定检测区域的最小外接矩形区域；

对最小外接矩形区域进行N等分，得到N个检测子区域，其中，N为大于1的自然数；

以最小外接矩形区域的中心点为中心，确定面积与每个检测子区域面积大小相等的第N+1个检测子区域，得到多个检测子区域。

在一种可能的实现方式中，计算模块1103，具体用于：

基于检测区域内的人头数量，统计每个检测子区域中的人头数量；

在一种可能的实现方式中，检测模块1104具体用于：

对人群密度、人头数量和平均位移速度进行归一化处理；

利用预先配置的权重参数，对归一化处理后的人群密度、人头数量和平均位移速度进行加权求和，得到检测区域中发生人群聚集的概率。

下面参照图12来描述根据本申请的这种实施方式的视频监控设备。图12的视频监控设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示，视频监控设备可以包括但不限于：摄像头1201和处理器1202。其中，摄像头1201，用于获取视频图像；

处理器1202具体用于执行下列过程：

在一种可能的实现方式中，所述处理器还用于，在将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，将所述检测区域划分为多个检测子区域，基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度，基于每个检测子区域中的人群密度、人头数量和所述平均位移速度，确定每个检测子区域内是否发生人群聚集，并在确定检测子区域中发生人群聚集时，确定所述检测区域内发生人群聚集。

在一种可能的实现方式中，所述处理器1202，具体用于：

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述人群聚集的检测方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请提供的人群聚集的检测方法的任一方法。

在示例性实施例中，本申请提供的一种人群聚集的检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的人群聚集的检测方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于视频监控设备的控制方法的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“如“语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）连接到用户电子设备，或者，可以连接到外部电子设备（例如利用因特网服务提供商来通过因特网连接）。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

Claims

1.一种人群聚集的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，所述方法还包括：

将所述检测区域划分为多个检测子区域；

3.根据权利要求2所述的方法，其特征在于，所述将所述检测区域划分为多个检测子区域，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于所述人群密度、所述人头数量和所述平均位移速度，计算所述检测区域内发生人群聚集的概率，包括：

6.一种视频监控设备，其特征在于，所述设备包括：

摄像头，用于获取视频图像；

7.根据权利要求6所述的设备，其特征在于，所述处理器还用于：

在将所述目标图像输入预先训练的用于提取图像中人体头部特征的神经网络模型中，得到所述目标图像中检测区域内的人头数量和人群密度之后，将所述检测区域划分为多个检测子区域，基于所述检测区域内的人头数量，计算每个检测子区域中的人头数量和人群密度；基于每个检测子区域中的人群密度、人头数量和所述平均位移速度，确定每个检测子区域内是否发生人群聚集，并在确定检测子区域中发生人群聚集时，确定所述检测区域内发生人群聚集。

8.根据权利要求7所述的设备，其特征在于，所述处理器，具体用于：

9.根据权利要求7所述的设备，其特征在于，所述处理器，具体用于：

10.根据权利要求6-9中任一项所述的设备，其特征在于，所述处理器具体用于：