CN109919032B

CN109919032B - 一种基于动作预测的视频异常行为检测方法

Info

Publication number: CN109919032B
Application number: CN201910098962.8A
Authority: CN
Inventors: 黎敏婷; 余翔宇; 范子娟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-03-30
Anticipated expiration: 2039-01-31
Also published as: CN109919032A

Abstract

本发明公开了一种基于动作预测的视频异常行为检测方法，具体步骤包括：设计对抗生成网络模型，所设计的对抗生成网络模型包括生成器和判别器；搭建生成器的编码部分；搭建生成器的解码部分；搭建判别器；训练对抗生成网络模型的生成器和判别器；根据得到的最佳生成器网络，对视频中发生的异常事件进行检测。本发明通过利用一部分正常行为的视频统计其生成误差，根据不同场景以及时间变化动态生成异常检出阈值，能够应用于更多不同的场景，增加鲁棒性。

Description

一种基于动作预测的视频异常行为检测方法

技术领域

本发明涉及图像与视频处理领域，尤其涉及一种基于动作预测的视频异常行为检测方法。

背景技术

视频检测是计算机视觉领域的重要应用之一，而其中的视频异常行为检测作为智能视频监控中不可或缺的重要组成部分，目的是为了及时发现监控视频中的异常行为，能够有效地帮助监控人员处理异常行为。

异常行为检测方法的关键问题之一是从原始视频中提取相关特征，以便对不同类型的异常进行良好的分类。在传统的特征提取方法中，最常用的是使用空间和时间特征来对行为模式进行建模。空间和时间特征都是基于计算机视觉而提出的，比如方向梯度直方图、光流直方图、社会力模型、密集轨迹和动态纹理。但人工设计的特征需要一定的先验知识，所述先验知识主要依赖于监视目标，并且很难在不同的应用中定义。

与传统的人工设计的特征不同，通过深度神经网络能够自动提取得到良好的特征。随着技术发展，深度神经网络在图像分类，图像目标识别等领域取得了巨大的成功，得到了比传统方法更高的准确率。而深度学习在视频异常识别方面也取得了不错的成绩。由于异常行为检测与一般的动作识别和动作检测相比具有异常种类多、异常行为样本少等特点，从而难以通过人工设计行为模式或利用训练数据通过一般的深度学习方法来得到准确度较高的分类器。与正常行为相比，异常行为通常具有不可预知性、突发性大等特点。根据异常行为的不可预知性即异常行为的结果通常与预测不一致的特点，现有技术中利用长短时循环神经网络预测行人轨迹并通过统计预测结果与真实结果的误差来检测视频中的异常行为，所述方法取得了不错的结果。但该方法更实用于人流密集的场景，对于一些异常发生时运动轨迹没有发生改变的场景适用性较低，对于有跑步、跳跃等行为引发的异常事件在检测时，存在鲁棒性较低的缺陷。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于动作预测的视频异常行为检测方法。本发明能够更好地提升卷积神经网络在视频一场行为检测任务中的性能和泛化能力。

本发明的目的能够通过以下技术方案实现：

一种基于动作预测的视频异常行为检测方法，具体步骤包括：

设计对抗生成网络模型，所设计的对抗生成网络模型包括生成器和判别器；

搭建生成器的编码部分；

搭建生成器的解码部分；

搭建判别器；

训练对抗生成网络模型的生成器和判别器；

根据得到的最佳生成器网络，对视频中发生的异常事件进行检测。

具体地，所述搭建生成器的编码部分步骤中包括动作特征提取模块和图形特征提取模块。

在动作特征提取模块中，利用三维卷积的方法提取观测视频的动作特征，形成动作特征图；

在图形特征提取模块中，利用二维卷积的方法提取观测视频最后一帧的图形特征，形成图形特征图；

将动作特征图与图形特征图结合，作为对视频的编码。

更进一步地，所述动作特征提取模块的设置为：第一层由卷积核大小为4×3×3、步长为4×1×1的卷积核形成的卷积层、非线性激活层以及一个大小为1×2×2、步长为1×2×2的最大值池化层组成，之后两层均由卷积核大小为1×3×3、步长为1×1×1的卷积层、非线性激活函数以及大小为1×2×2、步长为1×2×2的最大值池化层串联而成。

更进一步地，所述图形特征提取模块由三层组成，具体设置为：每层均由卷积核大小为3×3、步长为1×1的卷积层、非线性激活层、大小为2×2、步长为2×2的最大值池化层串联形成的小模块堆叠而成。输出的图形特征图与动作特征图在长和宽的维度上的大小保持一致。

具体地，所述搭建生成器的解码部分步骤中，将输入的动作特征图按时间维度拆分为数个维度为长、宽和通道数的特征图，并按时间维度的先后顺序依次输入到卷积长短期记忆递归神经网络。拆分后的特征图数量与输入的动作特征图中时间维度的长度有关。

在所述卷积长短期记忆递归神经网络中，将根据当前输入来更新网络的状态特征图并输出一个动作预测特征图，因而当最后一个时间维度的特征图输入到卷积长短期记忆递归神经网络后，网络会根据之前所有时间维度的输入而更新的状态特征图以及最后一个时间维度的输入而输出一个与所有输入的时间维度相关的动作预测图。由于每个时间维度的特征图输入均能得到一个动作预测特征图，该动作预测特征图与该时间维度以及之前的时间维度相关，因此选择最后一个时间维度作为最终输入的动作预测特征图作为卷积长短期记忆递归神经网络的最终输出。

输出一个最终的动作预测特征图后，按通道数的维度拼接动作预测特征图和图形特征图，并输入到两层均由卷积核大小为1×3×3、步长为1×2×2的三维反卷积层和非线性激活层串联形成的网络模块中，最后通过一层卷积核大小为4×3×3、步长为4×2×2的三维反卷积层，然后输入到一个非线性激活层，输出结果为图像大小与原视频相匹配的预测视频的其中四帧，该输出的四帧将作为输入并按搭建生成器编码部分和解码部分中的处理方式进行处理，再次输出新的四帧预测视频片段，直至所有生成预测视频片段的时间长度之和满足要求后按时间先后拼接所有生成的片段，得到完整的预测视频。

具体地，所述搭建判别器步骤中的对抗生成网络的判别器包括五层三维卷积模块和三层全连接层；所述三维卷积模块均由三维卷积层、非线性激活层和最大值池化层串联而成；以真实视频以及预测视频作为输出，输出一维的结果对应的分值。

具体地，所述训练对抗生成网络模型的生成器和判别器步骤中训练方法为：由生成样本与真实样本分值之差的最小化作为训练判别器的训练方向；对于生成器，由最小化判别器对生成样本的分值以及最小化生成视频与真实视频的生成误差作为训练方向；判别器和生成器交替训练直至生成器网络至最佳。

具体地，所述训练对抗生成网络模型的生成器和判别器步骤中生成误差包括真实视频与预测视频进行逐帧像素之差的平方和、真实视频帧间差与预测视频帧间差进行逐帧间差逐像素之差的平方和，分别代表生成预测视频与真实视频图形上的相似程度以及动作上的相似程度。

具体地，所述根据得到的最佳生成器网络，对视频中发生的异常事件进行检测步骤中的检测方法为：移除判别器，将视频输入到生成器中得到生成的预测视频，通过记录每个时间段预测视频与真实视频生成的误差动态生成异常检出的阈值，对预测视频的误差超过阈值的判断为视频中发生的异常事件。

本发明相较于现有技术，具有以下的有益效果：

1、本发明通过三维卷积结合卷积长短时记忆递归网络，使得训练前不需要预先对视频提取动作特征如光流图等，能够减少数据预处理时间，加快对视频的处理速度。

2、本发明通过在训练过程中完成对动作和图形的建模，使得模型适用于描述运动轨迹和运动细节，同时也适用于描述场景中图形的外观，能够检测异常动作或异常物体的出现。

3、本发明通过利用一部分正常行为的视频统计其生成误差，根据不同场景以及时间变化动态生成异常检出阈值，能够应用于更多不同的场景，增加鲁棒性。

附图说明

图1为本发明实施例中一种基于动作预测的视频异常行为检测算法的流程图。

图2为本发明实施例基于动作预测的视频异常行为检测方法训练阶段网络模型。

图3为生成器的编码器部分的动作特征提取模块的流程图。

图4为生成器编码部分的图形特征提取模块的流程图。

图5为生成器的解码部分流程图。

图6为模型判别器流程图。

图7为本发明实施例基于动作预测的视频异常行为检测方法测试阶段网络模型。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

在本实施例中，如图1所示为一种基于动作预测的视频异常行为检测方法的流程图，具体步骤包括：

(1)设计对抗生成网络模型，所设计的对抗生成网络模型包括生成器和判别器。

如图2所示，本实施例采用对抗生成网络模型来生成预测视频，所述模型包括生成器和判别器两部分，其中生成器又包括编码器和解码器两部分。生成器中的编码器用于提取观测视频的动作特征以及图形特征，而解码器则用于根据编码器输出的动作特征以及图形特征生成预测视频。判别器则用于为生成的预测视频或真实视频评分。而异常检出的方法则采用拉依达准则法，统计预测视频的生成误差，对生成误差超过均值三倍标准差的视频片段判为异常。

(2)搭建生成器的编码部分。

先对观测视频以及其最后一帧均进行零均值化的预处理，在本实施例中，对所有像素值统一采用的预处理方法如下：

在本实施例中，所有未预处理的视频或视频帧的像素值范围为[0，255]，对应的中值avg为127.5，进行预处理之后，所有像素值的数值范围为[-1，1]。

在本实施例中，动作特征提取模块总共由三层组成，如图3所示，第一层由卷积核大小为4×3×3、步长为4×1×1的卷积层、非线性激活层以及一个大小为1×2×2、步长为1×2×2的最大值池化层组成，之后的两层均由卷积核大小为1×3×3、步长均为1×1×1的卷积层、非线性激活层以及大小为1×2×2、步长为1×2×2的最大值池化层串联形成。这三层中的卷积层使用的卷积核个数分别为64，128和256。其中使用的非线性激活函数为LeakyReLU，LeakyReLU的计算公式如下：

在本实施例中，所有的α均设置为0.2。

在本实施例中，如图4所示，图形特征提取模块一共有三层，每层具体由卷积核大小为3×3、步长为1×1的卷积层、非线性激活层、大小为2×2、步长为2×2的最大值池化层串联形成，各卷积层使用的卷积核个数分别为64，128和256。其中使用的非线性激活函数为LeakyReLU。模块输出的图形特征图与动作特征图在长、宽和通道数的维度上保持大小一致。

(3)搭建生成器的解码部分。

如图5所示，动作特征图将按时间维度拆分为数个维度为长、宽和通道数的特征图，之后按时间维度的先后将拆分后的特征图全部依次输入到卷积长短期记忆递归神经网络得到一个维度为长、宽和通道数的动作预测特征图。之后按通道数维度拼接动作预测特征图和步骤(2)的图形特征图，将拼接后的特征图输入到两层卷积核大小均为1×3×3、步长均为1×2×2的三维反卷积层，最后通过一层卷积核大小为4×3×3、步长为4×2×2的三维反卷积层和一个非线性激活层后，输出为图像大小与原视频相匹配的预测视频的其中四帧。该生成的四帧将重新作为输入的观测视频按步骤(2)和步骤(3)所述方式处理后再次输出新的四帧预测视频片段，直至所有生成预测视频片段的时间长度之和满足要求后按时间先后拼接所有生成的片段得到完整的预测视频。

在本实施例中，步骤(3)使用的非线性激活函数为双曲正切函数tanh，该激活函数将最终输出的预测视频的像素值限制到(-1，1)的范围内，tanh的计算公式如下：

其中完整的预测视频与送入判别器的真实视频在帧数、长、宽和颜色通道数上均保持一致，而数值范围则分别为(-1，1)和[-1，1]。

(4)搭建判别器。

在本实施例中，如图6所示，第一、二层三维卷积模块的具体设置如下：卷积核大小为3×3×3、步长为1×1×1的卷积层、非线性激活层、大小为1×2×2、步长为1×2×2的最大值池化层串联的结构，在第一、二层时并没有减少时间维度的大小。之后三至五层的三维卷积模块中设置的运算顺序均为经过两次卷积串联非线性激活后再进行池化，具体设置如下：卷积核大小为3×3×3、步长均为1×1×1的三维卷积层，之后是非线性激活层和大小为2×2×2、步长为2×2×2的最大值池化层。在三至五层模块中进行池化操作时，均降低时间维度的大小。

因此，在本实施例中，判别器共使用了8组卷积核，一、二层模块各一组，卷积核的数量分别为64和128，三至五层模块各两组，分别是第三层模块的两组卷积核均使用了256个，第四、五层模块的各组卷积核均使用了512个。在本实施例中，步骤(4)使用的非线性激活函数为LeakyReLU。

而三层全连接层的输入为上述五层三维卷积模块的输出，每层全连接层的神经元个数分别为4096、4096和1。全连接层的最后输出不需加入通过非线性激活函数将输出值范围进行限制，因此判别器的输出范围为(-∞，+∞)。

(5)训练对抗生成网络模型的生成器和判别器。

判别器的优化目标为尽量能够使得输入判别器的生成视频和真实视频的分值之差尽量地大，而生成器的优化目标则为生成的预测视频能与真实视频尽量接近，即使得生成视频在判别器中的分值与真实视频的分值尽量相近以及生成视频与真实视频的生成误差尽量地小。训练过程中，判别器和生成器交替训练直至生成器网络至最佳。

在本实施例中，生成器和判别器的训练次数比例为1∶5，即训练5次判别器再训练1次生成器，如此循环交替。

其中，判别器的优化目标可以最小化判别器损失来表示，假设根据起帧为t、持续帧数为T的观测视频为X_t～t+T，则其通过生成器后生成起始帧为t+T+1、持续帧数同样为T预测视频

预测视频在判别器D上得到的评分则为

而起始帧为t+T+1、持续帧数为T的真实视频X_{t+T+1～t+2T+1}在D上得到的评分为D(X_{t+T+1～t+2T+1})，于是判别器损失函数可以用以下公式表达：

而生成器的优化目标可以用最小化生成器损失来表示，假设起帧为t、持续帧数为T的输入观测视频为X_t～t+T通过生成器G得到预测的生成视频

而与生成视频的帧位置对应的真实视频则为X_{t+T+1～t+2T+1}，生成器损失由两部分表达，其中一部分是由该生成视频在判别器中的得分的负来表示，表示为：

另一部分生成器损失则由生成误差表示，而生成误差又由两部分组成：图像的误差和动作的误差。假设生成视频的帧数为T，帧宽为M，帧高为N，图像的误差由生成视频的像素

与真实视频的像素p的逐帧逐像素的像素之差的平方和，表示为：

其中，

和p_ijk分别表示生成视频和真实视频的第k帧第i行第j列的对应像素值。

而动作误差则为真实视频帧间差与预测视频帧间差进行逐帧间差逐像素之差的平方和，对于长度为T的视频X_t～t+T，帧间差的计算方法为：

Diff(X_t～t+T)＝X_t+1～t+T-X_t～t+T-1

于是对于帧数为T，帧宽为M，帧高为N的视频求其帧间差，所得帧间差的帧数应为T-1，帧宽为M，帧高为N。按上述方式对预测视频以及真实视频求得对应的帧间差后，对预测视频帧间差的每个像素

和真实视频帧间差的每个像素d求差的平方和，具体的动作误差损失函数为：

其中，

和d_ijk分别表示由生成视频产生的帧差矩阵和由真实视频产生的帧差矩阵中第k个帧差第i行第j列的值。

生成器误差函数则表示为：

L_G(X_t～t+T)＝L_DC+βL_con+γL_mov

其中，β和γ是控制生成误差在生成器损失中所占的比例，在本实施例中，β和γ均为50。

(6)根据步骤(5)得到的最佳生成器网络，对视频中发生的异常事件进行检测。

如图7所示为基于动作预测的视频异常行为检测方法测试阶段网络模型，假设同一场景下正常视频的生成误差的数据相似，将视频输入到生成器中得到生成的预测视频，根据同一场景下正常历史视频的生成误差L_con和L_mov分别求得均值μ_con和μ_mov以及标准差σ_mov和σ_mov，根据对应的均值和标准差更新对应的阈值。对新输入的视频求得其生成误差，若图像误差及动作误差均不超过阈值，则判断为正常视频并更新均值以及标准差；若图像误差或动作误差超过阈值，则判断为异常。在本实施例中，阈值设定为均值加三倍的标准差。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于动作预测的视频异常行为检测方法，其特征在于，具体步骤包括：

设计对抗生成网络模型，所设计的对抗生成网络模型包括生成器和一个判别器；

搭建生成器的编码部分；

搭建生成器的解码部分；

搭建判别器；所述判别器包括五层三维卷积模块和三层全连接层；第一、二层三维卷积模块不减少时间维度的大小；第三、第四、第五层三维卷积模块中进行池化操作时，均降低时间维度的大小；全连接层的最后输出不加入通过非线性激活函数将输出值范围进行限制，所述判别器的输出范围为(-∞,+∞)；

训练对抗生成网络模型的生成器和判别器；在训练过程中完成对动作和图形的建模，所述对抗生成网络模型用于描述运动轨迹和运动细节，同时也用于描述场景中图形的外观；

2.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述搭建生成器的编码部分步骤中生成器编码部分包括动作特征提取模块和图形特征提取模块；

将动作特征图与图形特征图结合，作为对视频的编码。

3.根据权利要求2所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述动作特征提取模块的设置为：第一层由卷积核大小为4×3×3、步长为4×1×1的卷积核形成的卷积层、非线性激活层以及一个大小为1×2×2、步长为1×2×2的最大值池化层组成，之后两层均由卷积层1×3×3、步长为1×1×1的卷积层、非线性激活函数以及大小为1×2×2、步长为1×2×2的最大值池化层串联而成。

4.根据权利要求2所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述图形特征提取模块由三层组成，具体设置为：每层均由卷积核大小为3×3、步长为1×1的卷积层、非线性激活层、大小为2×2、步长为2×2的最大值池化层串联形成的小模块堆叠而成；输出的图形特征图与动作特征图在长和宽的维度上的大小保持一致。

5.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述搭建生成器的解码部分步骤中，将输入的动作特征图按时间维度拆分为数个维度为长、宽和通道数的特征图，并按时间维度的先后顺序依次输入到卷积长短期记忆递归神经网络，从而得到一个维度为长、宽和通道数的动作预测特征图；之后按通道数的维度拼接动作预测特征图和图形特征图，再输入到两层由卷积核大小均为1×3×3、步长均为1×2×2的三维反卷积层和非线性激活层串联形成的网络模块中，最后通过一层卷积核大小为4×3×3、步长为4×2×2的三维反卷积层，然后输入到一个非线性激活层，输出为图像大小与原视频相匹配的预测视频的其中四帧，该生成的四帧将作为输入按搭建生成器的编码部分和解码部分步骤中的处理方式进行处理，输出新的四帧预测视频片段，直至所有生成预测视频片段的时间长度之和满足要求后按时间先后拼接所有生成的片段，得到完整的预测视频。

6.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述搭建判别器步骤中的对抗生成网络的判别器三维卷积模块均由三维卷积层、非线性激活层和最大值池化层串联而成；以真实视频以及预测视频作为输入，输出一维的结果对应的分值。

7.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述训练对抗生成网络模型的生成器和判别器步骤中训练方法为：由生成样本与真实样本分值之差的最小化作为训练判别器的训练方向；对于生成器，由最小化判别器对生成样本的分值以及最小化生成视频与真实视频的生成误差作为训练方向；判别器和生成器交替训练直至生成器网络至最佳；

所述生成误差包括真实视频与预测视频进行逐帧像素之差的平方和、真实视频帧间差与预测视频帧间差进行逐帧间差逐像素之差的平方和。

8.根据权利要求1所述的一种基于动作预测的视频异常行为检测方法，其特征在于，所述根据得到的最佳生成器网络，对视频中发生的异常事件进行检测步骤中的检测方法为：移除判别器，将视频输入到生成器中得到生成的预测视频，通过记录每个时间段预测视频与真实视频生成的误差动态生成异常检出的阈值，对预测视频的误差超过阈值的判断为视频中发生的异常事件。