CN113269104A

CN113269104A - 群体异常行为识别方法、系统、存储介质及设备

Info

Publication number: CN113269104A
Application number: CN202110592161.4A
Authority: CN
Inventors: 常发亮; 王文倩; 刘春生
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-17

Abstract

本发明涉及群体异常行为识别方法和系统，包括以下步骤：利用图像数据的视频帧序列作为输入，训练基于预测的深度卷积网络，获得预测视频帧图像；利用图像数据的跳帧视频序列与预测视频帧图像作为输入，训练基于重构的深度卷积网络，对预测视频帧图像重构，获得重构视频帧图像；基于训练完成的深度卷积网络，利用重构视频帧图像和真实图像的峰值信噪比，判断真实图像中是否包含异常帧，从而识别群体异常行为。针对视频中群体异常行为出现时与正常事件发生时图像的差异性特点针对运动信息和表观信息进行设计，从而得到更高的检测准确率。

Description

群体异常行为识别方法、系统、存储介质及设备

技术领域

本发明图像处理领域，具体为群体异常行为识别方法、系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，随着智能监控系统以及图像处理技术的快速发展，智能监控设备数量逐年增加，在公共安全领域被广泛应用。公共场所下对于突发异常事件的即时监控有着重要的研究意义，视频异常监测与预警技术能够协助监控人员有效发现并处理危险事件，降低漏检与误检概率，帮助监控人员提高工作效率，使监控系统智能化、高效化了，提升检测的准确性，节约人力成本。

异常行为检测问题中，由于场景中部分行人行为的不确定性、场景的复杂性、视频的分辨率不统一等因素增大了异常事件检测的研究难度。现有的方法大多需要大量高质量的训练样本进行训练，然而异常行为样本往往较少出现，获取高质量样本成本较大，因此现有的群体异常事件检测方法大都采用视频帧的表观信息及运动信息进行特征提取建模，而后通过计算异常值得分判断异常事件是否发生。常用的建模方式有基于视频帧重构和基于视频未来帧预测的建模方式。基于重构的方法由于重构网络的重构能力较强，容易造成对异常样本也能较好重构的问题，导致漏检。基于预测的方法由于是对未来帧的预测，利用过去的视频帧所得未来帧构建效果往往无法达到真实场景的水平，因此容易导致误检。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供群体异常行为识别方法、系统、存储介质及设备，基于重构方法容易造成漏检问题与基于预测方法容易造成误检问题，针对视频中群体异常行为出现时与正常事件发生时图像的差异性特点针对运动信息和表观信息进行设计，从而得到更高的检测准确率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供群体异常行为识别方法，包括以下步骤：

利用图像数据的视频帧序列作为输入，训练基于预测的深度卷积网络，获得预测视频帧图像；

利用图像数据的跳帧视频序列与预测视频帧图像作为输入，训练基于重构的深度卷积网络，对预测视频帧图像重构，获得重构视频帧图像；

基于训练完成的深度卷积网络，利用重构视频帧图像和真实图像的峰值信噪比，判断真实图像中是否包含异常帧，从而识别群体异常行为。

本发明的第二个方面提供实现上述识别方法的系统，包括：

基于预测的深度卷积网络模块，利用图像数据的视频帧序列作为输入，训练基于预测的深度卷积网络，获得预测视频帧图像；

基于重构的深度卷积网络模块，利用图像数据的跳帧视频序列与预测视频帧图像作为输入，训练基于重构的深度卷积网络，对预测视频帧图像重构，获得重构视频帧图像；

异常行为检测模块，基于训练完成的深度卷积网络，利用重构视频帧图像和真实图像的峰值信噪比，判断真实图像中是否包含异常帧，从而识别群体异常行为。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的群体异常行为识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的群体异常行为识别方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、针对异常行为检测时基于预测的方法容易造成误检问题及基于重构的方法容易造成漏检问题设计了一种群体异常行为识别方法，能够较好平衡群体异常行为检测时的误检与漏检问题，实现较好的检测效果。

2、借助深度卷积神经网络自动学习提取特征的特征，避免进行人工提取特征的复杂设计工作。

3、在深度卷积神经网络训练过程中增强对于表观信息和运动信息的约束，利用对抗生成网络结构实现对于运动和表观信息的增强约束。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供识别方法流程示意图；

图2是本发明一个或多个实施例提供的网络架构示意图；

图3是本发明一个或多个实施例提供的识别系统结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

鉴于深度卷积神经网络的不断发展，以下实施例采用了基于混合预测重构网络的深度卷积神经网络进行群体异常行为识别与检测，采用基于自编码器和对抗生成网络的网络架构，通过深度学习的网络，经过逐层训练，可以得到能够对于输入数据有良好的表征的潜在向量，再通过解码得到对于视频未来帧的预测。利用对抗生成网络，采用光流判别器与图像生成判别器分别提高网络对于运动和表观信息约束的增强。

实施例一：

如图1-3所示，群体异常行为识别方法，包括以下步骤：

具体过程如下：

步骤1：获取只有正常样本的视频帧序列并构建基于预测的深度卷积网络模型，对未来视频帧进行构建，得到对于未来视频的预测帧；

步骤2：利用步骤1中所得的未来帧视频，结合预测时利用的视频帧序列，构建基于重构的深度卷积网络对步骤1中所得的视频未来帧进行重构，另外在这里，为了强化在不同时间尺度下深度学习网络对于空间信息的表征能力，结合预测时采用的视频序列为不同时间尺度下视频帧序列；

步骤3：利用训练完成的深度卷积网络进行异常行为检测，检测网络根据得到的图像进行评定得到异常值得分，根据异常值得分判断该视频帧是否为异常帧，完成对于视频帧的异常检测。

将获取的原始视频序列得到固定长度的视频帧序列之前，还包括对于原始图像进行缩放处理。这样使得对于不同数据集或不同场景都可以统一到同样的图像维度，通过对于输入视频帧图像的归一化统一网络的输入大小。

步骤1中，采用自编码器结构构建基于预测的深度卷积网络，实现利用给定视频帧序列对后一帧视频帧的预测；

步骤2中，在深度卷积网络训练过程中，为了强化在不同时间尺度下深度学习网络对于空间信息的表征能力，结合预测时采用的视频序列为不同时间尺度下进行采样的视频帧序列。所述采样机制为：用不同的采样率对同一视频片段进行采样得到不同的时间尺度下的视频序列，获取前述视频帧序列的跳帧视频帧序列，得到不同时间尺度下的视频帧序列；

步骤2中，采用自编码器结构构建基于重构的深度卷积网络，此时只对视频帧序列中最后一帧进行重构；

步骤1及2中，均加入多种信息约束。表观信息约束用于提高预测图片本身的生成质量，运动信息约束用于增强对于运动物体的表现能力。在这里提取生成帧与前一阵的光流信息，利用对抗生成网络结构实现对于运动和表观信息约束的增强。

步骤3中，加入异常值得分评定机制，通过对于生成的视频预测帧与真实帧做比较得到异常值得分，当生成的预测帧质量较低时得分较低，此时检测网络认为由于出现异常事件使视频预测不能很好的进行，于是判定出现了异常。通过这种方式，实现了对于异常事件的检测。

首先，用正常跳帧视频序列与预测视频帧图像作为输入训练基于重构的深度卷积网络，由此进行输入序列的最后一帧视频的重构，得到重构视频帧图像；

然后利用训练完成的深度卷积网络结构，判断异常行为是否发生，根据得到的预测图像进行评定得到异常值得分，根据得分判断该视频帧是否为异常帧，完成对于视频帧的异常检测；

另外，在深度卷积网络训练过程中，为了强化在不同时间尺度下深度学习网络对于空间信息的表征能力，结合预测时采用的视频序列为不同时间尺度下进行采样的视频帧序列。采样机制为：用不同的采样率对同一视频片段进行采样得到不同的时间尺度下的视频序列，获取前述视频帧序列的跳帧视频帧序列，得到不同时间尺度下的视频帧序列。同时，在深度卷积神经网络训练过程中，加入多种信息约束。表观信息约束用于提高预测图片本身的生成质量，运动信息约束用于增强对于运动物体的表现能力。在这里提取生成帧与前一阵的光流信息，利用对抗生成网络结构实现对于运动和表观信息约束的增强。

在异常检测阶段，利用训练完成的基于混合预测重构的深度卷积网络进行异常行为检测，检测网络根据得到的图像进行评定得到异常值得分，根据得分判断该视频帧是否为异常帧，完成对于视频帧的异常检测。

异常行为检测流程：

前述基于自编码器的预测网络能够得到对于输入视频帧序列的混合预测重构的图像，检测网络根据得到的图像计算峰值信噪比(PSNR,PeakSignal-to-NoiseRatio)进行评定得到异常值得分，根据得分判断该视频帧是否为异常帧，完成对于视频帧的异常检测。

1基于预测的深度卷积网络模块

利用获取的正常视频帧序列作为输入训练基于预测的深度卷积网络，由此进行对于未来视频帧的预测，得到预测视频帧图像。具体来说，视频预测通过输入一系列连续视频帧序列I₁,I₂,...,I_t通过一系列卷积等操作得到希望的对于连续视频帧序列的未来预测帧

视频预测需要构建一个可以对视频序列内容和动态变化进行表征的模型，本实施例采用基于自编码器的预测网络，进行对于输入视频序列的预测。深度网络采用了3DCNN结构，编码器首先将正常事件的视频帧序列输入采用3D卷积进行编码操作，得到编码后的特征向量表示，而后进行解码，得到对于视频帧序列的未来预测帧。

为了得到更好的生成结果，本实施例在训练过程中添加了各种约束，使用平均绝对误差约束对生成的预测帧图像像素生成进行直接约束，

表示生成的预测帧图像，I表示真实图像：

2基于重构的深度卷积网络模块

利用正常跳帧视频序列与前述预测视频帧图像作为输入训练基于重构的深度卷积网络，由此进行输入序列的最后一帧视频的重构，得到重构视频帧图像。同时，在深度卷积网络训练过程中，为了强化在不同时间尺度下深度学习网络对于空间信息的表征能力，结合预测时采用的视频序列为不同时间尺度下进行采样的视频帧序列。所述采样机制为：用不同的采样率对同一视频片段进行采样得到不同时间尺度下的视频序列，获取前述视频帧序列的跳帧视频帧序列，得到不同时间尺度下的视频帧序列。具体来说，通过将跳帧视频序列I₁,I₃,...,I_t-1与前述视频帧序列的未来预测帧

结合，送入重构网络进行对于最后一帧的重构操作，得到重构图像

在这里需要构建一个可以对视频序列内容和动态变化进行表征的模型，仍然采用基于自编码器的网络，采用自编码器利用半监督建模的方式进行异常检测。这里仍然采用3DCNN的网络结构，编码器首先将正常事件的跳帧视频序列与前述预测视频帧图像输入采用3D卷积进行编码操作，得到编码后的特征向量表示，而后进行解码，得到对于前述视频帧序列未来预测帧的重构图像。

为了得到更好的生成结果，本实施例在训练过程中添加了各种表观约束与运动约束，使用平均绝对误差约束对生成的图像像素生成进行直接约束，

表示生成的重构图像，I表示真实图像：

采用梯度约束对生成的图像进行边缘锐化得到更高质量的生成图像：

使用相互约束进行对于重构生成图像与预测生成图像进行约束：

使用掩膜约束利用光流信息对运动信息进行强化，F代表前后两帧的光流图：

3异常行为检测

在异常检测阶段，本实施例分别计算生成图像和真实图像的峰值信噪比(PSNR,PeakSignal-to-NoiseRatio)来进行异常判断。由于在深度卷积预测网络训练后，面对输入视频帧序列，正常事件能够被很好的表示而异常事件不能够被很好的表示。这里利用峰值信噪比作为生成质量的衡量标准：

较高的峰值信噪比意味着生成的对于视频序列的预测效果更好，即这段序列更可能为正常的视频序列而非存在异常事件的视频序列。在这里通过计算一个对于全部帧的得分并且将其归一到(0,1)之间：

4具体实施过程

综合该方法所提出的基于混合预测重构网络结构，整体方法包括如下步骤：

步骤1：构建基于预测的深度卷积网络模块与基于重构的深度卷积网络模块，形成基于混合预测重构网络的深度卷积模型，具体为：

根据视频截取视频帧并对于得到原始图像进行缩放处理，将图像大小全部归一化到256×128；

获取同一时间尺度下的长度为10的视频帧序列；

通过长度为10的视频帧序列送入自编码器网络得到第11帧预测图像；

对已有视频帧序列进行采样，得到长度为5的跳帧视频帧序列；

将前述预测图像与跳帧视频序列结合送入自编码器网络得到第11帧预测图像的重构图像；

步骤2：通过迭代训练得到经过训练的基于自编码器的预测网络模型，网络细节部分说明如下：

网络训练的学习率首先被设定为2e-4，而后被衰减为2e-6；

对于前述提到的表观约束与运动约束进行综合，得到网络的总体约束表达式：

L＝λ₁·L₁'+λ₂·L₁+λ₃·L_gd+λ₄·L_mul+λ₅·L_mask (8)

这里的λ₁,λ₂,λ₃,λ₄,λ₅分别为设计为1,1,1,0.01,0.05；

步骤3：在异常检测阶段，输入视频序列经过前述训练得到的基于混合预测重构网络的深度模型得到对于输入视频序列的预测帧的重构图像，进而得到生成图像的峰值信噪比，进一步的得到异常值进行判断是否发生异常。

5实验结果

分别在UCSDPed1和CUHKAvenue数据集上进行实验。

5.1UcsdPed1数据集：

该数据集包含34个训练视频片段和36个测试视频片段，每个视频片段包含200帧，视频帧图像大小为238×158。正常事件被定义为行人的正常行走，异常事件包含开车、自行车、滑滑板等。

实验采用AUC指标作为评价标准，AUC的值越高，则方法准确性越高，测试结果如表1所示。

表1：使用1UcsdPed1数据集的识别结果

方法	AUC
		单一预测网络	81.7％
单一重构网络	64.8％
		混合预测重构网络的预测模块	84.0％
混合预测重构网络的重构模块	84.2％

5.2CUHKAvenue数据集

该数据集包含16个训练视频片段和21个测试视频片段，共计有47个异常事件。异常事件包含扔东西、奔跑等。实验采用AUC指标作为评价标准，测试结果如表2所示。

表2：使用1UcsdPed1数据集的识别结果

方法	AUC
		混合预测重构网络的预测模块	88.2％
混合预测重构网络的重构模块	87.3％

上述方法能够较好平衡群体异常行为检测时的误检与漏检问题，实现较好的检测效果。借助深度卷积神经网络自动学习提取特征的特征，避免进行人工提取特征的复杂设计工作。在深度卷积神经网络训练过程中增强对于表观信息和运动信息的约束，利用对抗生成网络结构实现对于运动和表观信息的增强约束。

实施例二：

本实施给出了实现实施例一识别方法的系统，包括：

基于预测的深度卷积网络模块，其用于利用获取的正常视频帧序列作为输入训练基于预测的深度卷积网络，由此进行对于未来视频帧的预测，得到预测视频帧图像；

基于重构的深度卷积网络模块，其用于利用正常跳帧视频序列与预测视频帧图像作为输入训练基于重构的深度卷积网络，由此进行输入序列的最后一帧视频的重构，得到重构视频帧图像；

异常行为检测模块，其用于判断异常行为是否发生，该模块根据得到的图像进行评定得到异常值得分，根据得分判断该视频帧是否为异常帧，完成对于视频帧的异常检测。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一中提出的群体异常行为识别方法中的步骤。

本实施例执行的群体异常行为识别方法中，能够较好平衡群体异常行为检测时的误检与漏检问题，实现较好的检测效果。借助深度卷积神经网络自动学习提取特征的特征，避免进行人工提取特征的复杂设计工作。在深度卷积神经网络训练过程中增强对于表观信息和运动信息的约束，利用对抗生成网络结构实现对于运动和表观信息的增强约束。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上述实施例一提出的群体异常行为识别方法中的步骤。

本实施例处理器执行的群体异常行为识别方法中，能够较好平衡群体异常行为检测时的误检与漏检问题，实现较好的检测效果。借助深度卷积神经网络自动学习提取特征的特征，避免进行人工提取特征的复杂设计工作。在深度卷积神经网络训练过程中增强对于表观信息和运动信息的约束，利用对抗生成网络结构实现对于运动和表观信息的增强约束。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.群体异常行为识别方法，其特征在于：包括以下步骤：

2.如权利要求1所述的群体异常行为识别方法，其特征在于：利用图像数据的视频帧序列作为输入，训练基于预测的深度卷积网络，获得预测视频帧图像的具体步骤为：

图像数据的连续视频帧I₁,I₂,...,I_t通过基于预测的深度卷积网络获得对于连续视频帧序列的未来预测帧

3.如权利要求2所述的群体异常行为识别方法，其特征在于：利用平均绝对误差约束对生成的预测帧图像进行约束。

4.如权利要求1所述的群体异常行为识别方法，其特征在于：利用图像数据的跳帧视频序列与预测视频帧图像作为输入，训练基于重构的深度卷积网络，对预测视频帧图像重构，获得重构视频帧图像的具体步骤为：

图像数据的跳帧视频序列I₁,I₃,...,I_t-1与未来预测帧

结合，通过基于重构的深度卷积网络进行对于未来预测帧

的重构，得到重构图像

5.如权利要求4所述的群体异常行为识别方法，其特征在于：利用平均绝对误差约束、梯度约束、相互约束和掩膜约束对生成的预测帧图像进行约束。

6.如权利要求1所述的群体异常行为识别方法，其特征在于：采用自编码器构建基于预测的深度卷积网络。

7.如权利要求1所述的群体异常行为识别方法，其特征在于：采用自编码器构建基于重构的深度卷积网络。

8.群体异常行为识别系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的群体异常行为识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的群体异常行为识别方法中的步骤。