CN112115769A

CN112115769A - 一种基于视频的无监督稀疏人群异常行为检测算法

Info

Publication number: CN112115769A
Application number: CN202010779864.3A
Authority: CN
Inventors: 吴晓军; 赵午瑶; 原盛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-22

Abstract

本发明提供的是一种基于视频的无监督稀疏人群异常行为检测算法，该算法能够从连续视频帧中生成多通道信息、时空信息和运动特征等，然后在每个通道中分别执行卷积和非线性激活函数操作，利用批归一化和渐进训练方式构建更深层次的网络，刻画出时间域和空间域有鉴别性的特征，描绘出时间和空间的关联性。最后，把所有通道信息和时空特征相结合，就可以得到最终的稀疏人群异常行为检测模型。本发明具体地提出了结合自编码器和卷积神经网络的时空模型，通过无监督学习利用大量无标签视频数据进行训练，能够提高小样本模型上的检测效果。

Description

一种基于视频的无监督稀疏人群异常行为检测算法

技术领域

本发明属于人群异常行为事件检测领域，具体涉及基于视频的无监督稀疏人群异常行为检测算法。

背景技术

对基于视频的稀疏人群异常行为事件检测算法进行研究，通过分析稀疏人群间异常事件和稀疏人群宏观事件的异常行为，对人群中出现突然四散的整体状态、人群中个别行人高抛乱扔东西、单个行人奔跑等群体状态异常事件进行检测。在对行人聚散这样的人群异常行为进行检测时会使用光流法来对人群的移动方位进行检测，但是光流法对光的遮挡问题存在缺陷，所以有一部分学者在前期使用光流法，后续使用深度网络来训练提取出一些高级特征，从而进行行人聚集的更好检测。

2011年，Xinyi Cui等人在社会力模型行人分析的基础上，提出了一种利用交互势能进行异常行为事件的检测技术，该方法不依赖于单人行为的检测及跟踪，通过对有鉴别性时空特征点进行跟踪，对交互势能代表人的运动进行计算，最后特征分类使用SVM进行判断，在具有交互行为的聚集逃离场景中性能较好。

2013年，赵龙等人同样针对人群异常行为进行研究，提出了一种异常行为分析方法是基于隐含主题模型，在刻画检测场景的颜色信息和纹理特点时，信息聚类利用K-means，组成视觉单词并分成若干语义主题区域时利用PLSA模型，人群异常通过生成场景描述进行分析。

2015年，Ying Zhang等人提出集成运动和外观线索共同作用来检测异常行为。对于运动异常检测，利用统计直方图来模拟运动的正常分布，区分异常运动使用“cut-bin”的概念；对于外观异常检测是基于向量数据的方法来描述，获取正常目标周围的球形边界，排除异常目标。这两个互补的线索相结合，最终实现更全面的检测结果。

2016年，TianlongBao等人提出了拥挤场景中基于PCANet的异常事件检测和定位。首先设计图像的光流法获取低层特征，将图像切分成多个不堆叠的单元块，人群运动信息是使用PACNet将低层特征变成高层特征，最后的分类识别使用支持向量机进行判断。

2017年，Yong Shean Chong等人使用基于视频的时空编码器，提出了一种时空架构，用于识别在拥挤的场所中的异常行为事件。其中的体系结构包括两个主要组件，一个用于空间特征表示，一个用于学习空间特征的时间演变。

同年，MahdyarRavanbakhsh等人提出使用生成对抗网络检测拥挤场景的异常，该网络使用正常框架和相应的光流图像进行训练，以便了解场景正常时的内部表示形式。

2019年，Tian Wang等人提出了一种由PCAnet和内核主成分分析(kPCA)组成的自监督框架，异常事件使用检测网络AED-Net。把不同场景的监视视频序列作为原始数据，对PCAnet进行训练，以提取人群情况的高级语义，之后训练一类分类器kPCA以确定场景的异常情况。

在公共场所下，人群的检测不仅包括对整体行为的检测，还包括对人群中每一个行人的检测。人群行为检测面临许多的挑战和问题，在实时检测的过程中，由于使用不同方位和视角的摄像头，在视频中可能无法提取到完整的人员行为，对于正在走入或走出视频区域的行人，就无法获取其完整的人员特征。即使视频可以捕捉到行人全部的信息，但由于存在多个行人就会出现人员相互遮挡问题，这也是行为识别面临的几大问题之一。这些问题即使能够缓解，但进行行人行为分析时，还是会消耗巨大的计算量和工作量。在对人群群体进行行为分析的时候，人与人的交互往往是决定着群体行为的关键。所以，不仅需要对每一个行人进行建模，还需要对人群的整体行为进行建模。使用数学模型对群体异常行为事件进行分析时，往往不具备良好的分类能力。因此，在建模的过程中需要训练一个复杂的分类器用于群体异常事件的检测，分类效果取决于模型的学习能力。

发明内容

本发明的目的在于提供一种基于视频的无监督稀疏人群异常行为检测算法，提高了在小样本模型上的检测效果，较之传统模型可显著缩短训练与检测时间、收敛速度并可解决误差损失的缺陷。

为了达到上述目的，本发明采用的技术方案是：

本发明提供的一种基于视频的无监督稀疏人群异常行为检测算法，包括以下步骤：

步骤1，从公共视频中的稀疏人群视频段获取数据集；

步骤2，利用自编码器、3D卷积和ConvLSTM构建时空域网络模型，将数据集输入至时空域网络模型进行训练；

步骤3，计算步骤2中每轮训练完成后得到的检测结果的精确率、召回率、F1-score和损失函数，用于对每轮训练完成后的时空域网络模型进行迭代优化，得到最终的最优时空域网络模型；

步骤4，利用步骤3中得到的最优时空域网络模型，对基于视频的无监督稀疏人群进行实时人群异常行为检测。

优选地，步骤1中，将公共视频中的稀疏人群视频段每隔5秒提取1帧图像，构成数据集。

优选地，步骤2中，利用自编码器、3D卷积和ConvLSTM相结合的网络构建时空域网络模型，具体方法是：

所述时空域网络模型包括编码器，所述编码器的输出连接ConvLSTM网络层；所述ConvLSTM网络层的输出层连接解码器；

所述编码器是由3个连续不同通道数的3D卷积网络结构构成的卷积编码器；

ConvLSTM网络层为四层卷积长短期记忆模型；

解码器是由3个连续不同通道数的3D反卷积网络结构构成的反卷积解码器。

优选地，编码器中三个3D卷积层中的第一层3D卷积层为输入层、第二层3D卷积层为隐含层、第三层3D卷积层为输出层；第一层3D卷积层为128维的3×3卷积核，其步幅为1；第二层3D卷积层为64维的3×3卷积核，其步幅为1；第三层3D卷积层为32维的3×3卷积核，其步幅为1。

优选地，解码器包括三个3D反卷积层，三个3D反卷积层中的第一层3D反卷积层为输入层、第二层3D反卷积层为隐含层、第三层3D反卷积层为输出层；第一层3D反卷积层为128维的3×3卷积核，其步幅为1；第二层3D反卷积层为64维的3×3卷积核，其步幅为1；第三层3D反卷积层为1维的3×3卷积核，其步幅为1。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于视频的无监督稀疏人群异常行为检测算法，该体系结构能够从连续视频帧中生成多通道信息、时空信息和运动特征等，然后在每个通道中分别执行卷积和非线性激活函数操作，利用批归一化和渐进训练方式构建更深层次的网络，刻画出时间域和空间域有鉴别性的特征，描绘出时间和空间的关联性。最后，把所有通道信息和时空特征相结合，就可以得到最终的稀疏人群异常行为检测模型；本发明具体地提出了结合自编码器和卷积神经网络的时空模型，通过无监督学习利用大量无标签视频数据进行训练，能够提高小样本模型上的检测效果；

同时，本发明将用自编码器和卷积结合的模型进行改进和优化，使损失率降低，精确率、召回率和F1-score综合效果最好，时间复杂度大大减少，并可以用于实时检测人群的异常行为。

附图说明

图1是本发明涉及的整体网络架构；

图2是本发明涉及的自编码器结构图；

图3是本发明涉及的3D卷积自编码器结构；

图4是本发明涉及的ConvLSTM网络结构；

图5是本发明涉及的人群检测活动图；

图6是本发明涉及的各种自编码器在UMN数据集上训练集损失函数的对比结果；

图7是本发明涉及的各种自编码器在UMN数据集上验证集损失函数的对比结果。

具体实施方式

下面结合附图，对本发明进一步详细说明。

本发明在基于视频数据的无监督稀疏人群异常行为检测算法的架构中，使用了3D自编码器和卷积神经网络相结合的模型进行时空域网络模型的构建，用于提取数据集中的时间域和空间域特征。

在无监督学习中，每个编码器的参数只受当前层输入的影响，因此可以训练当前层编码器，将参数传递到当前层，并将主导参数传播到下一层网络，然后开始训练。为单层的所有迭代和更新形成一种新的训练方法。这样，下一层网络效率很高，因为它吸收了前一层网络完全训练的专用高级功能。

异常检测的基本目标是判别检测数据是否拟合了正常行为的数据分布，那些与正常行为的数据分布都不相同的行为分布即被视为异常行为。在构建人群异常检测模型时，首先将视频数据进行数据预处理，把视频数据进行分割，分离出正常状态的视频作为训练的数据集。因为视频数据是基于无监督训练的，只要训练出正常模式时的模型，那么偏离正常模式模型的视频行为就可被视为异常行为模式。之后在预处理后的数据上训练出时空模型，本发明使用的时空模型是自编码器和卷积网络相结合的结构。在训练模型时，首先提取空间特征进行时空编码器的训练，然后使用ConvLSTM网络进行时间序列特征和空间特征的提取，接着使用3D反卷积解码器进行时空特征的解码，最后输出训练的模型。整个网络架构如图1所示。

构建得到的时空域网络模型具体由3D卷积网络和ConvLSTM网络构建得到。

使用ConvLSTM网络的理由是：ConvLSTM网络不仅可以提取时序特征，还可以刻画卷积空间特征以及时间特征和空间特征间的关联性。

在ConvLSTM中进行时空特征的提取后，还用了卷积-反卷积的自编码器结构进行时空特征的提取。卷积网络和自编码器的结合是基于自编码器方法的创新和发展，自编码器经过编码和解码两个主要过程学习数据特征，通过编码抽象输入数据，将刻画的特征图送入到隐层空间，然后解码器对隐层特征进行解码，解码重建的过程就是得到输入的重建数据。自编码通常利用卷积神经网络进行数据编码和解码操作，卷积神经网络结合自编码器的网络可以利用卷积网络在图像特征刻画和表示方面的巨大优势来取代自编码器网络结构，自编码器中编码器和解码器的构建过程如图2所示。

为了考虑连续帧之间的时间运动特征，有效地综合时间域和空间域信息，本发明使用一种3D卷积神经网络模型。在网络层中进行3D卷积操作，可以有效提取时间和空间维度上的特征。通过多个连续帧的堆叠，使用多维的3D卷积核刻画形成立方体。在网络模型中，每一层中的多个连续帧的卷积操作和特征图与上一层的多个相邻帧相连，进而提取所需的动态信息。3D卷积中的一个立方体只能提取一种类型的特征，因为卷积核的权重在整个立方体中是相同的，即相同的卷积核都是共享权重的。相应地，各种卷积核可以用来提取各种不同层次的特征，对于多层深度卷积网络，随着在输出层附近的网络层的增加，其所表示的特征种类也会随之增加，使更多类型的特征可以从低级别组合成更多高级别的特征。3D卷积通过将时间维度的多个连续帧添加到神经网络的输入中，就赋予了神经网络行为识别的功能，即3D卷积神经网络是在二维卷积神经网络的基础上进行了改变和创新。由于卷积神经网络的二维信息不能捕获良好的时序特征，因此使用3D卷积神经网络的三维信息，就可以对视频中时间信息和空间信息进行很好的特征刻画。在使用2D卷积神经网络对视频进行操作的方式中，通常使用卷积神经网络来识别视频的每一帧图像。这种方法没有考虑时间维度的帧间运动信息，但使用3D神经卷积网络可以更好地捕获视频的时空特征信息。该体系结构可以从连续视频帧中生成多通道信息、时空信息和运动特征等，然后在每个通道中分别执行卷积和非线性激活函数操作，利用批归一化和渐进训练方式构建更深层次的网络，刻画出时间域和空间域有鉴别性的特征，描绘出时间和空间的关联性。最后，把所有通道信息和时空特征相结合，就可以得到最终的稀疏人群异常行为检测模型。

具体地：如图5所示，本发明提供的一种基于视频的无监督稀疏人群异常行为检测算法，包括以下步骤：

步骤1，采集数据集：从公共视频中获取稀疏人群视频数据集，接着在稀疏人群视频数据集中每隔5秒提取1帧图像，形成数据集；

在行人群体异常检测事件中，稀疏人群的异常行为事件是对变化的人群行为进行分析，对整体状态信息和个别行人行为信息进行识别和检测。同时利用变化的运动群体信息检测出人群运动过程中发生的异常事件。在稀疏人群的行为识别中具有多种多样的异常行为，本发明主要检测以下两大类人群行为事件：

1)群体宏观行为事件

群体宏观行为事件主要是指，在一段时间内群体的整体运动形态发生了变化，其整体宏观变化可以分为两类，即为四散和正常，其中：

四散：聚集的行人从某一中心点突然开始向四面八方散开，整体人群的分散即视为群体宏观异常事件的发生。

正常：群体正常行为的运动，其形态无特殊变化，没有人群整体形态突发事件的发生。

2)群体内行为事件

群体内行为事件主要是指，在一段时间内，对群体中的单个行人或个别行人行为进行检测。

异常：群体中只要出现单个行人或者个别行人出现异常行为即视为群体内发生异常行为。

正常：在公共场所中，群体运动过程中没有任何一个行人发生异常行为事件，对人群中的每一个人都进行行为检测。

在不同的场所，对于稀疏人群的异常行为事件具体的定义也大不相同。群体行为状态的检测结果可以通过群体事件的状态变化对其进行判断。对于不同特定场景，判断行为的状态种类也大不相同。在识别群体行为事件的过程中，漏报和误报异常行为可能会发生不可预期的后果，所以需要通过提高精确率、召回率和F1-score等评价指标来尽可能地减少误报和漏报的概率。

本发明中人群宏观行为事件使用的是UMN数据库，它是包含正常状态和异常状态的视频集合，每个视频中既有正常行为片段又有异常行为片段。其中，选取人群行走、人群常见活动等人群正常行为视频作为模型训练数据。UMN数据集视频中的人群是基于稀疏行人的，每一场景中的每一时刻活动的行人数量不超过30个人。该视频集都是人为安排的群体正常事件，适合于基于人群宏观异常事件的识别。在实验阶段使用了UMN数据集，都是关于人群正常活动行为的视频数据，并把视频分割为5秒一个视频，只使用正常人群的数据进行无监督的训练，使用异常的视频数据进行测试。人群内行为事件的数据集本发明使用的是Avenue数据集。Avenue数据集包含16个训练视频和21个测试视频片段。数据集视频中的人群是基于稀疏行人的，每一场景中的每一时刻活动的行人数量不超过30个人。这些视频是在中大校园大道上拍摄的，总共有30652(15328训练，15324测试)帧，训练集视频记录了正常行为，测试集视频记录了正常行为事件和异常行为事件两大类。三种异常行为分别为：奇怪的动作，方向错误和异常物体等。

步骤2，利用自编码器、3D卷积和ConvLSTM相结合的网络构建时空域网络模型，将数据集输入至时空域网络模型进行训练；其中，使用自编码器和3D卷积相结合的无监督网络模型提取视频数据中低级的空间特征和时间特征，ConvLSTM网络提取高级的时间特征和空间域特征，具体方法是：

自编码器的整体网络结构如图3所示，自编码器包括编码器和解码器。其中，编码器是由3个连续不同通道数的3D卷积网络结构构成的卷积编码器，所述编码器用以提取视频中低级的时间特征和空间特征，并将提取到的低级的时间特征和空间特征输入至ConvLSTM网络层和解码器，从而提取高级的特征信息。

编码器中三个3D卷积层中的第一层3D卷积层为输入层、第二层3D卷积层为隐含层、第三层3D卷积层为输出层。

第一层3D卷积层为128维的3×3卷积核，其步幅为1。

第二层3D卷积层为64维的3×3卷积核，其步幅为1。

第三层3D卷积层为32维的3×3卷积核，其步幅为1。

ConvLSTM网络层用于对接收到的低级的时间特征和空间特征进行训练，刻画得到高级的时间特征和空间特征，同时使用dropout操作防止过拟合，之后将刻画得到的高级时间特征和空间特征输入至解码器。

ConvLSTM网络层为四层卷积长短期记忆模型，该ConvLSTM结构不但延续了FC-LSTM的优势，并且由于添加了卷积网络结构，可以使用多维数据进行训练，ConvLSTM网络结构如图4所示。

解码器是由3个连续不同通道数的3D反卷积网络结构构成的反卷积解码器，用于对提取到的所有时间特征和空间特征进行解码，二分法输出检测结果，即稀疏人群的行为是否异常。

解码器包括三个3D反卷积层，三个3D反卷积层中的第一层3D反卷积层为输入层、第二层3D反卷积层为隐含层、第三层3D反卷积层为输出层，最后通过二分法输出检测结果。

第一层3D反卷积层为128维的3×3卷积核，其步幅为1。

第二层3D反卷积层为64维的3×3卷积核，其步幅为1。

第三层3D反卷积层为1维的3×3卷积核，其步幅为1。

步骤3，计算步骤2中得到的检测结果的精确率、召回率、F1-score和损失函数，用于对训练完成后的时空域网络模型进行迭代优化，得到最终的最优时空域网络模型；

1)精确率(Precision)

精确率Precision是在检测出来的类别中，被模型预测为正确的正样本所占的比率。其含义是找到为正样本的所有样例中，存在多少是真正的正例样本。精确率公式如式4-1所示。

其中，True Positive(真正阳性，TP)被分类器正确预测为正的正例样本数，FalsePositive(假阳性，FP)被分类器错误预测为正的负例样本数。

2)召回率(Recall)

Recall是指所有样本样例中，有多少正样本被正确识别的比例，即预测是正确的样本中找回了多少正确的样本所占的比率。召回率公式如式4-2所示。

其中，True Positive(真正阳性，TP)被分类器正确预测为正的正例样本数，FalseNegative(假阳性，FN)被分类器错误预测为负的正例样本数。

如果分类器的性能良好，它的行为应该是这样的：当Recall值增加时，分类器的Precision值保持在较高的水平。性能较差的分类器可能会失去大量的精度值，以换取召回值的提高。精确率和召回率是一对相反的量度，在一般情况下，当精确度高，往往召回率低。

3)F1-score

为了综合考虑Precision和Recall两者的关系，就需要使用F-Measure指标。F-Measure的计算公式如式4-3所示。

其中，R表示召回率Recall，P代表精确率Precision。

训练过程中精确率越高越好，召回率也越高越好，但是又不想片面地只用精确率来进行算法性能评估，采用F1-score的折中性指标是必不可少的。它是一个全面考虑Precision和Recall的综合指标，只有在召回率和精确率都高的情况下F1-score才会很高，当F1-score较高时则能说明实验模型比较有效。本指标在深度学习应用中也更为常用。在F-Measure公式4-3基础上，当参数α＝1时，就是最常见的F1-score如式4-4所示。

其中，R表示召回率Recall，P代表精确率Precision。

4)损失(Loss)

在机器学习中，损失函数一般作为模型性能评价指标之一。损失函数表示的是模型预测值和真实值之间的差异程度，可以指导模型的学习能力。模型的数据拟合程度越好，损失函数误差值越小。通过最小化损失函数、加快模型的收敛速度，可减小模型特征分类的差异值。由于使用不同的损失函数，对模型的影响也大不相同。因此，本章使用的损失函数为均方误差即L2正则化，它以误差的平方和作为距离，尽可能最小化真实值与预测值的差值的平方和。

本发明使用无监督的自编码器和卷积网络提取视频中的时间域和空间域特征，能够将这两大类的异常行为事件综合到一个通用的框架当中，具有较好的通用性和泛化性。

本发明提取时间域和空间域的特征使用无监督的方法来确定群体的宏观运动状态，训练了一个端到端的时空模型，该模型由3D卷积、ConvLSTM特征提取器和时间编码器、解码器组成，一起学习多个输入帧的时间模式。使用仅由正常场景组成的视频数据训练模型，目的是最大程度地减少输入视频量和由学习模型重建的输出视频量之间的重建误差。正确训练模型后，正常视频量的重构误差较小，而包含异常场景的视频量的重构误差较高。通过对每个测试输入量产生的误差进行阈值处理，将能够检测到何时发生异常事件。

现有的基于视频数据的人群聚集异常检测算法大多都是基于无监督的深度学习方法，这主要由于人群异常数据种类较少，且每一类的行为视频数量较少以及人群异常视频数据稀缺。即使有许多公开的人群异常数据集，但是进行某一特定异常检测时，使用有监督数据进行模型训练的代价仍然是非常昂贵的。这种代价一方面来自于数据获取和保存都比较困难，另一方面来自于某些异常的发生虽然比较少见，但是其产生的影响后果较大，比如人群踩踏、人群恐怖事件的发生等。除了上述种种现象及原因，人群异常行为检测算法的非标准化、异常事件发生之间的差异、数据本身蕴含的商业价值等，都使得人群聚集数据的获取难上加难。在深度学习领域，最近有人将自动编码器应用到多变量视频序列数据中进行异常检测，在损失率上远远低于传统的机器学习方法。本发明将对自编码器和卷积结合的模型进行改进和优化，使损失率降低，精确率、召回率和F1-score综合效果最好，时间复杂度大大减少，并可以用于实时检测人群的异常行为。

在稀疏人群中，随着待检测人员的增多，检测时间和计算复杂度也会随之增加，实时性也会随之下降。人群异常行为检测中要对多个人进行检测和区分，不像单个行人检测只需要将人物和背景进行区分并进行特征提取即可，人群检测不仅需要将人物与背景分开，还需要对人群中的每个人都要进行检测，分析其是否有异常行为。人群宏观行为事件和人群内行为事件虽然都是对人群的异常进行检测，但是检测的重点是不一样的，提取特征的重点也不一致，但是两者的视频数据集较少且主要都是对人群进行检测，所以需要使用无监督的方式进行人群行为的特征提取。由于使用的数据集是基于视频的，存在大量的冗余信息，所以提取特征时就需要有效地提取其时间域和空间域的高级特征。本发明使用了无监督的自编码器和卷积网络相结合的方式，对人群宏观行为事件和人群内行为事件进行训练，从而提取到有鉴别性的特征。

稀疏人群宏观行为事件和稀疏人群内行为事件的训练过程活动图如图5所示。首先将预处理后的数据进行训练输入到网络中，在训练时进行数据初始化，之后开始训练模型，通过每一次迭代训练更新模型损失率和F1-score等性能指标，不断调整模型的参数进行训练直到达到性能最好，在每一轮的训练中都会监测指标是否不再提高，如果此时效果最优训练就结束，保存好构建的最终模型。如果评价指标仍然发生变化提高且没有到达训练的最大轮次，就会调整模型的参数进行下一轮训练直到达到最大训练轮次或性能指标达到最高不再发生变化，此时保存模型结束训练。最后，可以使用导出的时空模型实时检测和测试人群的异常行为事件并进行预测。

实验与分析：

本发明的实验是使用深度学习Keras框架完成的，使用1070Ti计算机进行稀疏人群异常行为检测算法研究。实验分别在UMN数据集和Avenue数据集上进行，之后再对比结合两个数据集上的全部数据进行实验并分析，多组实验结果都表明人群异常检测效果及性能都比较好。

其中探讨了3D卷积、反卷积自编码器中的卷积核大小和个数，卷积核的多种变化形式及ConvLSTM个数如表1所示。为了证实模型实验结果的准确性，对每一种自编码器和卷积网络相结合的模型分别进行训练集结果和验证集结果的多次实验。

表1 3D卷积自编码器卷积核和ConvLSTM网络结构

在Avenue数据集上，训练时使用的优化器是Adam，损失函数使用MSE。在训练过程中分别使用tanh、relu和leakyrelu激活函数，实验结果证明使用relu和leakyrelu激活函数的模型收敛大致相同，速度快于tanh。由于leakyrelu的计算量更大，所以最终使用relu激活函数。在Avenue数据集上，多种3D卷积和ConvLSTM结合后的整个网络在训练集上的精确率、召回率、F1-score和loss的结果如表2所示。

表2 Avenue数据集在多种网络模型中训练集对比结果

在Avenue数据集上，多种3D卷积和ConvLSTM结合后的整个网络在验证集上的精确率、召回率、F1-score和loss的结果如表3所示。

表3 Avenue数据集在多种网络模型中验证集对比结果

如训练集和验证集的指标结果所示，3D卷积自编码器中3个都是{3x3}的卷积核的所有综合指标结果较好，所以构建的自编码器的3D卷积自编码器和ConvLSTM网络都选卷积核为{3x3}作为本发明的网络模型，这样也大大减少了训练参数。对比相同自编码器结构，使用relu激活函数的模型各项指标结果更好，relu使部分神经元的输出为0实现两分类，多个0神经元的分布就形成了稀疏网络，减少了参数的相互依存关系，在一定程度上加快了模型的收敛速度。

在Avenue数据集上，本方法与其他方法在训练集中对比结果如表4所示。

表4 Avenue数据集在训练集中方法对比指标结果

在Avenue数据集上，本方法与其他方法在验证集中对比结果如表5所示。

表5 Avenue数据集在验证集中方法对比指标结果

在UMN数据集上，训练时使用的优化器是Adam，损失函数使用MSE，在训练过程中的损失函数直方图变化如图6所示。

各种自编码器在UMN数据集上验证集损失函数的对比结果如图7所示。

在UMN数据集和Avenue数据集两者结合时，训练使用的优化器是Adam，损失函数使用MSE，使用relu激活函数，在训练过程中的多项指标结果如表6所示。

表6 UMN数据集和Avenue数据集在多种网络模型中训练集对比结果

在UMN数据集和Avenue数据集两者结合时，验证过程中的多项指标结果如表7所示。

表7 UMN数据集和Avenue数据集在多种网络模型中验证集对比结果

在UMN数据集和Avenue数据集两者结合时，本方法与其他方法在训练集上的指标对比结果如表8所示。

表8 UMN数据集和Avenue数据集在训练集中方法对比指标结果

在UMN数据集和Avenue数据集两者结合时，本方法与其他方法在验证集上的指标对比结果如表9所示。

表9 UMN数据集和Avenue数据集在验证集中方法对比指标结果

3D卷积自编码器和ConvLSTM结合的模型比只有3D卷积自编码器模型的综合指标效果要好，可以实时检测到人群宏观异常行为事件和人群内异常行为事件。

Claims

1.一种基于视频的无监督稀疏人群异常行为检测算法，其特征在于，包括以下步骤：

步骤1，从公共视频中的稀疏人群视频段获取数据集；

2.根据权利要求1所述的一种基于视频的无监督稀疏人群异常行为检测算法，其特征在于，步骤1中，将公共视频中的稀疏人群视频段每隔5秒提取1帧图像，构成数据集。

3.根据权利要求1所述的一种基于视频的无监督稀疏人群异常行为检测算法，其特征在于，步骤2中，利用自编码器、3D卷积和ConvLSTM相结合的网络构建时空域网络模型，具体方法是：

ConvLSTM网络层为四层卷积长短期记忆模型；

4.根据权利要求3所述的一种基于视频的无监督稀疏人群异常行为检测算法，其特征在于，编码器中三个3D卷积层中的第一层3D卷积层为输入层、第二层3D卷积层为隐含层、第三层3D卷积层为输出层；第一层3D卷积层为128维的3×3卷积核，其步幅为1；第二层3D卷积层为64维的3×3卷积核，其步幅为1；第三层3D卷积层为32维的3×3卷积核，其步幅为1。

5.根据权利要求3所述的一种基于视频的无监督稀疏人群异常行为检测算法，其特征在于，解码器包括三个3D反卷积层，三个3D反卷积层中的第一层3D反卷积层为输入层、第二层3D反卷积层为隐含层、第三层3D反卷积层为输出层；第一层3D反卷积层为128维的3×3卷积核，其步幅为1；第二层3D反卷积层为64维的3×3卷积核，其步幅为1；第三层3D反卷积层为1维的3×3卷积核，其步幅为1。