CN112232124A

CN112232124A - 人群态势分析方法、视频处理装置及具有存储功能的装置

Info

Publication number: CN112232124A
Application number: CN202010955473.2A
Authority: CN
Inventors: 彭闯; 彭志蓉; 潘华东; 殷俊; 刘明; 巩海军
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-15

Abstract

本申请公开了一种人群态势分析方法、视频处理装置及具有存储功能的装置，其中该人群态势分析方法包括：获取待分析视频；确定待分析视频的人群轨迹矢量图；由预先训练好的分类卷积神经网络对人群轨迹矢量图进行人群态势分类，以确定待分析视频的人群态势类别。本申请所提供的人群态势分析方法能够准确、快速地对视频中的人群态势进行分类。

Description

人群态势分析方法、视频处理装置及具有存储功能的装置

技术领域

本申请涉及视频处理技术领域，特别是涉及一种人群态势分析方法、视频处理装置及具有存储功能的装置。

背景技术

随着人们对公共安全越来越关注以及城市化进程的加快，公共安全越来越受到政府和相关部门的重视，而对于监控视频中人群态势的分析，可以有效预防危害公共安全事件的发生，利于有关部门的管理，对预警危害公共安全事件具有重要意义，是维护公共场所人员安全的重要手段。

发明内容

本申请主要解决的技术问题是提供一种人群态势分析方法、视频处理装置及具有存储功能的装置，能够准确、快速地对视频中的人群态势进行分类。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种人群态势分析方法，所述方法包括：获取待分析视频；确定所述待分析视频的人群轨迹矢量图；由预先训练好的分类卷积神经网络对所述人群轨迹矢量图进行人群态势分类，以确定所述待分析视频的人群态势类别。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种视频处理装置，所述视频处理装置包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种具有存储功能的装置，所述具有存储功能的装置存储有程序数据，所述程序数据能够被处理器执行以实现上述方法中的步骤。

本申请的有益效果是：本申请利用预先训练好的分类卷积神经网络对待分析视频的人群轨迹矢量图进行识别，从而得到待分析视频的人群态势类别，相比现有技术，无需依靠个人经验以及数据分析，能够提高识别的准确率以及识别速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请人群态势分析方法一实施方式的流程示意图；

图2是二值矢量图在一应用场景中的结构示意图；

图3是二值矢量图在另一应用场景中的结构示意图；

图4是二值矢量图在又一应用场景中的结构示意图；

图5是二值矢量图在再一应用场景中的结构示意图；

图6是本申请人群态势分析方法另一实施方式的流程示意图；

图7是本申请视频处理装置一实施方式的结构示意图；

图8是本申请视频处理装置另一实施方式的结构示意图；

图9是本申请具有存储功能的装置一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图1，图1是本申请人群态势分析方法一实施方式的流程示意图，该方法包括：

S110：获取待分析视频。

待分析视频可以是任意途径获得的视频，在一应用场景中，利用摄像装置对人群进行俯视拍摄而得到待分析视频。

S120：确定待分析视频的人群轨迹矢量图。

人群轨迹矢量图表征待分析视频中的人群运动信息，例如待分析视频中人体的个数、人体的运动路径、运动方向等。

S130：由预先训练好的分类卷积神经网络对人群轨迹矢量图进行人群态势分类，以确定待分析视频的人群态势类别。

分类卷积神经网络预先训练好，已达到收敛，其能够对输入的、各种不同的人群轨迹矢量图进行识别，最后输出人群轨迹矢量图对应的人群态势类别。

其中，人群态势类别包括但不限于人群聚集、人群移动、人群四散、人群奔跑以及人群骚乱等等。

从上述内容可以看出，本申请在确定待分析视频的人群态势类别时，直接通过预先训练好的分类卷积神经网络进行识别，不需要依靠个人经验及数据分析，相比现有技术，能够提高准确率及识别速度。

在一应用场景中，步骤S120在确定待分析视频的人群轨迹矢量图时，首先确定待分析视频中各人体的运动轨迹，然后将该运动轨迹绘制成二值矢量图。

具体地，最终绘制的二值矢量图即为人群轨迹矢量图，该二值矢量图带有方向，其只有黑色和白色两种像素，且其上的图案包括待分析视频中人体的个数、各人体的运动路径以及运动方向等信息。

在一应用场景中，结合图2至图4(其中，图2对应的人群态势类别为人群聚集，图3对应的人群态势类别为人群四散，图4对应的人群态势类别为人群奔跑)，为了降低后续分类卷积神经网络的识别难度，提高识别速度，在将运动轨迹绘制成二值矢量图时，先在各人体的运动轨迹的起点和终点处分别绘制易于识别的第一标识(图2至图4中第一标识均为圆形标识)、第二标识(图2至图4中第二标识均为三角形标识)，而后连接各人体对应的第一标识和第二标识。

可以理解的是，第一标识不同于第二标识，且需要说明的是，在其他应用场景中，第一标识和第二标识可以只存在一个，如图5所示(图5中只存在第二标识，其在绘制二值矢量图时，在各人体的运动轨迹的终点处绘制第二标识，然后连接各人体对应的运动轨迹的起点和第二标识，其中图5对应的人群态势类别为人群聚集)。

在一应用场景中，继续参阅图2至图5，为了减少部分行人徘徊、曲线运动等复杂运动带来的干扰，用直线连接各人体对应的第一标识和第二标识，当然在其他应用场景中，也可以选择用曲线连接第一标识和第二标识。

在一具体实例中，如图2至图4所示，第一标识为圆形图案，第二标识为三角形图案。

而在其他实例中，第一标识可以为三角形图案，第二标识可以为圆形图案，或者，第一标识、第二标识还可以为其他图案，例如，第一标识为圆形图案，第二标识为正方形图案，总而言之，只要第一标识和第二标识不同即可，本申请对第一标识和第二标识不做限制。

参阅图6，图6是本申请人群态势分析方法另一实施方式的流程图，该方法包括：

S210：获取待分析视频。

步骤S210与上述步骤S110对应相同，在此不再赘述。

S220：截取待分析视频中预设长度的小段视频。

S230：对小段视频进行抽帧处理而得到多帧图像。

本申请的目的在于对待分析视频中的人群态势类别进行识别，而人群的运动，例如聚集、移动、奔跑等通常在短时间(例如3S)内完成，而整个待分析视频除了包括人群的运动外，还会包括车辆等其他多余的信息，因此如果对整个待分析视频进行分析，容易造成信息处理的浪费，而本实施方式基于待分析视频中的小段视频进行分析，相比其他实施方式中对整个待分析视频进行分析，能够加快处理速度，提高处理效率。

同时由于小段视频中包括图像的帧数较多，为了进一步提高处理速度及处理效率，本实施方式还会对截取的小段视频进行抽帧处理，后续基于抽帧处理得到的多帧图像进行分析。

当然在其他实施方式中，可以不对小段视频进行抽帧处理，而是直接对小段视频中的所有图像帧进行处理。

其中预设长度可以由设计人员进行设定，在一具体实例中，将预设长度设定为3S。

在一具体实例中，在对小段视频进行抽帧处理时，可以每隔10或者20帧抽取一帧。

S240：利用人体检测器对多帧图像进行检测而得到多帧图像中的人体框。

具体地，人体检测器可以检测出每帧图像中的人像，并对应每一个人像输出一个人体框。

其中，人体检测器可以是YOLOv4，也可以是CenterNet，在此不做限制。

S250：判断待分析视频中是否存在高密度人群。

若判定待分析视频中存在高密度人群，则进入步骤S260，否则返回步骤S220。

考虑到危害公共安全的事件在人群密度较高时发生的概率较大，因此为了提高处理速度，减少信息处理的浪费，本实施方式只有在待分析视频中存在高密度人群时才会对人群态势类别进行识别。

当然在其他实施方式中，也可以不判断待分析视频中是否存在高密度人群，即直接在执行完步骤S240后，进入步骤S260。

在一应用场景中，步骤S250具体包括：根据多帧图像中预设图像的人体框而得到人群密度图，然后根据人群密度图判断待分析视频中是否存在高密度人群。

其中，预设图像可以是多帧图像中的第一帧图像，也可以是多帧图像中的其他图像，在此不做限制。

S260：利用多目标跟踪算法跟踪多帧图像中的人体框。

S270：根据多目标跟踪算法的跟踪结果绘制人体框的运动轨迹。

可以理解的是，人体框的运动轨迹就是人体的运动轨迹。

多目标跟踪算法Deep Sort的基本思想是tracking-by-detection，其利用运动模型和外观信息进行数据关联，主要用于人体检测，具体地，其使用卡尔曼滤波器来预测轨迹，然后通过带权值的匈牙利算法对预测到的运动轨迹和当前帧中的检测结果进行匹配(匹配包括级联匹配和IOU匹配)，从而形成人体的运动轨迹。

其中，卡尔曼滤波器根据通过目标检测算法得到的前一帧目标位置、大小等信息，卡尔曼滤波器对其进行跟踪预测，从而得到对应目标在后一帧的跟踪位置、大小等信息。

匈牙利算法对两部分信息进行数据关联匹配，通过一定的度量规则将两部分之间的关联性转为某一种数据表示形式，从而构建出数据关联矩阵。匈牙利算法的目的是寻找前后两帧的若干目标的匹配最优解，得出最终的检测跟踪结果。

在一具体实例中，在绘制人体框的运动轨迹时，绘制人体框的中心点的运动轨迹。

当然在其他实例中，在绘制人体框的运动轨迹时，也可以绘制人体框的其他点(例如左上点或者右下点)的运动轨迹，在此不做限制。

在其他实施方式中，也可以使用帧间差法或者光流法确定多帧图像中人体的运动轨迹，但是帧间差法具有不稳定性和不精确性，光流法受图像分辨率影响较大，耗时较多，而本实施方式利用多目标跟踪算法确定人体的运动轨迹均可以避开上述缺点。

S280：将运动轨迹绘制成二值矢量图。

S290：由预先训练好的分类卷积神经网络对二值矢量图进行人群势态分析，以确定待分析视频的人群态势类别。

步骤S280和步骤S290可参见上述对应内容，在此不再赘述。

在本实施方式中，一方面与上述实施方式类似，通过预先训练好的分类卷积神经网络进行识别，不需要依靠个人经验及数据分析，能够提高识别准确率以及识别速度，另一方面与上述实施方式不同的是，利用多目标跟踪算法提取人群的运动轨迹，能够优化提取效果、速度以及稳定性。

在上述任一项实施方式中，在获取待分析视频之前，还会对分类卷积神经网络进行训练，具体地，先获取样本视频，然后对样本视频进行抽帧处理而得到多帧样本图像，接着分别对多帧样本图像进行缩放处理至预设大小，然后分别对进行缩放处理后的样本图像进行采样处理，以使每张样本图像对应至少两张采样图像，最后以多帧样本图像对应的采样图像作为输入对分类卷积神经网络进行训练。

具体地，上述过程使每张样本图像对应至少两张采样图像，而后利用采样图像对分类卷积神经网络进行训练，相比直接利用样本图像对分类卷积神经网络进行训练，可以提高训练样本的数量，保证训练出的分类卷积神经网络的精度。

其中，样本视频的获取与上述待分析视频的获取方法相同，同时在得到样本图像的过程中，可以是直接对样本视频进行抽帧处理，也可以与上述视频抽帧处理的过程类似：先截取样本视频中预设长度的小段视频，然后对该小段视频进行抽帧处理而得到多帧样本图像。

在一具体实例中，在对多帧样本图像进行缩放处理时，对每张样本图像保持原始比例缩放至图像短边为某一像素，然后对进行缩放处理后的样本图像进行填充，以使填充后的样本图像为正方形图像，然后在该正方形图像上均匀采样，例如，对每张样本图像保持原始比例(例如长短边的比例为4:9)缩放至图像短边为224像素，此时缩放后的样本图像的长边为504像素，然后对缩放处理后的样本图像进行填充处理以使填充后的样本图像的尺寸为504*504，接着在该504*504的图像上均匀采样3张204*204的图像，其中在对缩放处理后的样本图像进行填充处理时，可以用纯黑色图像对缩放处理后的样本图像进行填充。

同时在得到采样图像后，按照上述相关步骤得到二值矢量图(具体过程为：利用人体检测器对采样图像进行检测而得到采样图像中的人体框，而后利用多目标跟踪算法跟踪人体框的运动轨迹而得到人群的运动轨迹，最后绘制二值矢量图，其中绘制二值矢量图的具体过程与上述相同，可参见上述，在此不再赘述)，接着人工设置二值矢量图的标注信息，该标注信息包括二值矢量图对应的人群态势类别，最后以二值矢量图作为输入以及以二值矢量图对应的标注信息为真值标签对分类卷积神经网络进行训练。

在一具体实例中，最后训练出的分类卷积神经网络包括13个卷积层，3个全连接层，5个池化层，均采用3*3卷积核。

需要说明的是，本申请对分类卷积神经网络的结构不做限制。

参阅图7，图7是本申请视频处理装置一实施方式的结构示意图。该视频处理装置200包括处理器210、存储器220以及通信电路230，处理器210分别耦接存储器220、通信电路230，存储器220中存储有程序数据，处理器210通过执行存储器220内的程序数据以实现上述任一项实施方式人群态势分析方法中的步骤，其中详细的步骤可参见上述实施方式，在此不再赘述。

其中，视频处理装置200可以是电脑、手机等任一项具有视频处理能力的装置，在此不做限制。

本实施方式中的视频处理装置200利用预先训练好的分类卷积神经网络对待分析视频的人群轨迹矢量图进行识别，从而得到待分析视频的人群态势类别，相比现有技术中的装置，其识别速度以及识别准确率均能够得到提高。

参阅图8，图8是本申请视频处理装置另一实施方式的结构示意图。该视频处理装置300包括视频获取模块310、轨迹确定模块320以及态势分类模块330。

视频获取模块310用于获取待分析视频。

轨迹确定模块320与视频获取模块310连接，用于确定待分析视频的人群轨迹矢量图。

态势分类模块330与轨迹确定模块320连接，用于由预先训练好的分类卷积神经网络对人群轨迹矢量图进行人群态势分类，以确定待分析视频的人群态势类别。

在一具体实施方式中，轨迹确定模块320包括轨迹确定单元以及矢量图单元，其中轨迹确定单元用于确定待分析视频中各人体的运动轨迹，矢量图单元用于将运动轨迹绘制成二值矢量图。

在一具体实施方式中，轨迹确定单元具体用于对待分析视频进行视频抽帧而得到多帧图像；然后利用人体检测器对多帧图像进行检测而得到多帧图像中的人体框；接着利用多目标跟踪算法跟踪多帧图像中的人体框；最后根据多目标跟踪算法的跟踪结果绘制人体框的运动轨迹。

在一具体实施方式中，轨迹确定单元在利用多目标跟踪算法跟踪多帧图像中的人体框之前，还会判断待分析视频中是否存在高密度人群，若存在，则轨迹确定单元利用多目标跟踪算法跟踪多帧图像中的人体框，若不存在，则轨迹确定单元返回执行对待分析视频进行视频抽帧而得到多帧图像的步骤。

在一具体实施方式中，轨迹确定单元具体用于：截取待分析视频中预设长度的小段视频；对小段视频进行抽帧处理而得到多帧图像。

在一具体实施方式中，矢量图单元具体用于：在各人体的运动轨迹的起点和终点处分别绘制第一标识和第二标识；然后连接各人体对应的第一标识和第二标识。

在一具体实施方式中，矢量图单元具体用于：用直线连接各人体对应的第一标识和第二标识。

在一具体实施方式中，视频处理装置300还包括训练模块，训练模块用于：获取样本视频；对样本视频进行抽帧处理而得到多帧样本图像；分别对多帧样本图像进行缩放处理至预设大小；分别对进行缩放处理后的样本图像进行采样处理，以使每张样本图像对应至少两张采样图像；利用多帧样本图像对应的采样图像对分类卷积神经网络进行训练。

其中，本实施方式中的视频处理装置300可以是电脑、手机等任一项具有视频处理功能的装置，在此不做限制。

本实施方式中的视频处理装置300利用预先训练好的分类卷积神经网络对待分析视频的人群轨迹矢量图进行识别，从而得到待分析视频的人群态势类别，相比现有技术中的装置，其识别速度以及识别准确率均能够得到提高。

参阅图9，图9是本申请具有存储功能的装置一实施方式的结构示意图。该具有存储功能的装置400存储有程序数据410，程序数据410能够被处理器执行以实现上述任一项实施方式人群态势分析方法中的步骤，其中详细的步骤可参见上述实施方式，在此不再赘述。

其中，具有存储功能的装置400具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序数据410的装置，或者也可以为存储有该程序数据410的服务器，该服务器可将存储的程序数据410发送给其他设备运行，或者也可以自运行该存储的程序数据410。

总而言之，本申请利用预先训练好的分类卷积神经网络对待分析视频的人群轨迹矢量图进行识别，从而得到待分析视频的人群态势类别，相比现有技术，无需依靠个人经验以及数据分析，能够提高识别的准确率以及识别速度。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人群态势分析方法，其特征在于，所述人群态势分析方法包括：

获取待分析视频；

确定所述待分析视频的人群轨迹矢量图；

由预先训练好的分类卷积神经网络对所述人群轨迹矢量图进行人群态势分类，以确定所述待分析视频的人群态势类别。

2.根据权利要求1所述的人群态势分析方法，其特征在于，所述确定所述待分析视频的人群轨迹矢量图的步骤，包括：

确定所述待分析视频中各人体的运动轨迹；

将所述运动轨迹绘制成二值矢量图。

3.根据权利要求2所述的人群态势分析方法，其特征在于，所述确定所述待分析视频中各人体的运动轨迹的步骤，包括：

对所述待分析视频进行视频抽帧而得到多帧图像；

利用人体检测器对所述多帧图像进行检测而得到所述多帧图像中的人体框；

利用多目标跟踪算法跟踪所述多帧图像中的人体框；

根据所述多目标跟踪算法的跟踪结果绘制所述人体框的运动轨迹。

4.根据权利要求3所述的人群态势分析方法，其特征在于，在所述利用多目标跟踪算法跟踪所述多帧图像中的人体框之前，还包括：

判断所述待分析视频中是否存在高密度人群；

若存在，则执行后续步骤，若不存在，则返回执行所述对所述待分析视频进行视频抽帧而得到多帧图像的步骤。

5.根据权利要求3所述的人群态势分析方法，其特征在于，所述对所述待分析视频进行视频抽帧而得到多帧图像的步骤，包括：

截取所述待分析视频中预设长度的小段视频；

对所述小段视频进行抽帧处理而得到所述多帧图像。

6.根据权利要求2所述的人群态势分析方法，其特征在于，所述将所述运动轨迹绘制成二值矢量图的步骤，包括：

在所述各人体的运动轨迹的起点和终点处分别绘制第一标识和第二标识；

连接各人体对应的所述第一标识和所述第二标识。

7.根据权利要求6所述的人群态势分析方法，其特征在于，所述连接各人体对应的所述第一标识和所述第二标识的步骤，包括：

用直线连接各人体对应的所述第一标识和所述第二标识。

8.根据权利要求1所述的人群态势分析方法，其特征在于，在所述获取待分析视频之前，进一步包括：

获取样本视频；

对所述样本视频进行抽帧处理而得到多帧样本图像；

分别对多帧所述样本图像进行缩放处理至预设大小；

分别对进行缩放处理后的所述样本图像进行采样处理，以使每张所述样本图像对应至少两张采样图像；

利用所述多帧样本图像对应的所述采样图像对所述分类卷积神经网络进行训练。

9.一种视频处理装置，其特征在于，所述视频处理装置包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-8任一项所述方法中的步骤。

10.一种具有存储功能的装置，其特征在于，所述具有存储功能的装置存储有程序数据，所述程序数据能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。