CN114926767A

CN114926767A - 融合隐空间自回归的预测重构视频异常检测方法

Info

Publication number: CN114926767A
Application number: CN202210587622.3A
Authority: CN
Inventors: 黄少年; 全琪; 陈荣元; 刘耀; 周红静
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-19

Abstract

本发明公开了融合隐空间自回归的预测重构视频异常检测方法，属于监控视频处理领域，解决传统方法中由于视频信息多样性、异常事件稀少性而造成的视频异常误检、漏检问题；包括先对输入视频序列采用随机裁剪、随机水平旋转、标准化操作对输入视频序列进行数据预处理；定义预测网络约束，生成满足约束的预测帧；再结合UNet网络和隐空间自回归层构造重构网络，生成满足约束的重构帧；然后采用多个卷积层堆叠构造判别器，判别输入帧的异常值；最后采用生成对抗算法，训练预测生成网络、重构网络和判别器，优化网络参数。本发明获取的识别准确率比较高，识别速度比较快，能够满足大规模监控场景下视频异常检测的实时性要求。

Description

融合隐空间自回归的预测重构视频异常检测方法

技术领域

本发明属于监控视频处理领域，涉及隐空间自回归技术，具体是融合隐空间自回归的预测重构视频异常检测方法。

背景技术

随着视频监控系统的普及，视频监控在公共安全、交通路况、城市管理等各个领域扮演着不可或缺的重要角色。但快速增长的视频监控设备产生了的海量视频数据，使得对于视频数据智能化处理成为迫切需要解决的现实需求。因此，如何高效、快速地对视频数据进行分析、识别、检测等问题已备受关注。

监控视频异常事件检测是视频智能化分析在安防领域应用的一个重要分支。监控视频异常事件检测旨在利用各类机器学习和深度学习的方法自动地检测和定位监控视频中各类违反常规的事件或行为，如人行道上闯入车辆，高速公路上行走的行人等异常事件。

相较于计算机视觉领域其他检测任务，视频异常事件检测任务面临以下挑战：

1)异常事件定义具有场景依赖性。即同一种事件在某个场景下为异常事件，但在另外一个场景下却被视为正常的事件。如行人在人行道上行走是正常事件，但行人在高速公路上行走却是异常事件。

2)异常事件的稀少性。现实生活中，异常事件毕竟是少数的事件，异常样本往往是稀少且难以获得的，这就造成了异常事件检测任务中正异常样本极度不均衡的情况。

3)视频信息的多样性。视频不同于图像以及文本数据，它不仅仅具备空间信息同时也具备极强的时序信息。

伴随着深度学习的发展，针对视频异常检测任务所面临的挑战，利用深度学习方法可以在一定程度上弱化异常检测任务对场景地依赖性，增加模型的泛化能力。同时，无监督的方法也能一定程度上解决样本不均衡引发的问题。基于无监督的视频异常检测方法是目前研究的热点，此类研究文献也较多，主要分为三类具体的方法：基于聚类的，基于重构的和基于预测的方法。以上方法在算法精度、算法鲁棒性及实时性上有待进一步提高，而隐含特征空间在语义特征表示上的作用有利于提高检测效率。

为此，本发明提出融合隐空间自回归的预测重构视频异常检测方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出融合隐空间自回归的预测重构视频异常检测方法，该融合隐空间自回归的预测重构视频异常检测方法主要用来满足大规模应用场景下监控视频异常检测的实时性要求。本发明采用生成对抗网络框架，采用视频帧先预测再重构的方法，结合隐空间自回归模型估计隐含特征向量的概率分布，通过最小化隐含特征向量的交叉熵、预测损失及重构损失优化生成器，生成高质量正常样本。训练阶段，采用生成对抗损失优化网络参数；测试阶段，将测试视频作为网络输入，输出的异常分数值，从而实现视频异常检测。本发明获取的识别准确率比较高，并且识别速度比较快，能够满足大规模监控场景下视频异常检测的实时性要求。

为实现上述目的，根据本发明的第一方面的实施例提出融合隐空间自回归的预测重构视频异常检测方法。该融合隐空间自回归的预测重构视频异常检测方法包括以下步骤：

步骤一：采用随机裁剪、随机水平旋转、标准化Normalize对输入视频序列进行数据预处理；

步骤二：采用结合UNet网络和隐空间自回归层构造预测网络，定义预测网络约束，生成满足约束的预测帧；

步骤三：对于生成的预测帧，结合UNet网络和隐空间自回归层构造重构网络，定义重构约束，生成满足约束的重构帧；

步骤四：采用多个卷积层堆叠构造判别器，定义判别器约束，判别输入帧的异常值；

步骤五：采用生成对抗训练算法，训练预测生成网络、重构网络和判别器，优化网络参数；测试阶段，利用训练好的模型对测试视频序列进行判别，输出异常分值，实现异常检测。

进一步地，其中步骤一的具体执行过程如下：

在一个具体的应用场景下设定监控装置，并设定监控装置实时获取监控视频，同时将实时获取的监控视频按照获取时间顺序存储在视频序列中。

采用RandomResizedCrop和RandomHorizontalFlip变换对输入的视频帧序列进行随机裁剪和随机水平翻转，增强训练数据的多样性；

采用Normalize对训练数据进行标准化操作，规范化训练数据的统计分布；

进一步地，其中步骤二的具体执行过程如下：

采用预测编码器、隐空间自回归层、预测解码器三部分构造预测生成网络；其中预测编码器与预测解码器均采用UNet编码器和UNet解码器；在预测编码器和预测解码器之间，构建隐空间自回归层用于最大化隐含预测特征的概率分布；

将多个掩蔽全连接层堆叠构成隐空间自回归层，对于给定的输入

,经过全连接映射后，输入元素

与输出

的关系定义为：

上述定义确保每个条件概率仅根据其之前的输入进行计算。根据自回归模型，将每个条件概率建模成多项式，则隐空间自回归层的输出

的输出为条件概率估计，其中

为多项式的阶；

进一步地，在生成网络中，UNet预测编码器将输入样本

映射为隐含特征向量

,自回归密度估计网络

估计

的概率分布,UNet预测解码器则对隐含特征向量进行解码

。隐含特征

的先验分布可分解为

,因此，先验分布

的估计问题转化为多个条件概率密度估计问题。自回归密度估计网络

则采用自回归估计输出多个条件概率

，通过隐空间自回归层的设计，确保每个

仅就根据

进行计算；

在实际计算中，隐空间的自回归密度网络将每个条件概率建模成多项式，隐空间的自回归密度估计表示为每个条件概率密度与其对应的分类分布的交叉熵损失，具体表示如下：

结合预测生成网络结构，预测生成器的约束定义如下：

将预测生成器的约束表示为：

其中,

为预测图像，

和

为预测生成器中编码器和解码器参数，

为预测生成器隐含特征向量。

进一步地，其中步骤三的具体执行过程如下：

采用重构编码器、隐空间自回归层、重构解码器三部分构成重构生成网络，重构生成网络的结构与步骤二的预测生成网络结构一致。重构生成器中隐空间自回归层的条件密度的计算方法与步骤二中类似。

将预测网络生成的预测图像

作为重构网络的输入，再将重构网络的约束定义如下：

其中,

为预测图像,

为重构图像，

和

为重构网络中编码器和解码器参数。

进一步地，其中步骤四的具体执行过程如下：

定义判别器网络由多个卷积层堆叠，每层卷积核大小为5*5，卷积层后采用ReLU层作为激活函数。判别器的目标函数定义为：

进一步地，其中步骤五的具体执行过程如下：

采用生成对抗网络训练网络，使生成器生成高质量图像。结合以上预测网络和重构网络的约束表示，生成器目标函数定义为：

其中，

为帧判别器的输出；

采用Adam随机梯度下降算法，训练预测网络、重构网络和判别器网络，优化网络参数；

训练阶段，预测网络、重构网络用于生成高质量视频帧，判别器网络用于判断当前输入帧是否为真实帧；

测试阶段，对于输入的测试视频序列，判别器直接输出异常分数，判别测试帧是否异常，分数低于给定阈值的帧被标记为异常帧，从而实现异常检测。

与现有技术相比，本发明的有益效果是：

本发明通过对输入视频序列采用随机裁剪、随机水平旋转、标准化操作对输入视频序列进行数据增强；结合UNet网络和隐空间自回归层构造预测网络，定义预测网络约束，生成满足约束的预测帧；对于生成的预测帧，再结合UNet网络和隐空间自回归层构造重构网络，定义重构约束，生成满足约束的重构帧；然后采用多个卷积层堆叠构造判别器，定义判别器约束，判别输入帧的异常值；最后采用生成对抗算法，训练预测生成网络、重构网络和判别器，优化网络参数。测试阶段，利用训练好的模型对测试视频序列进行判别，输出异常分值，实现异常检测；本发明获取的识别准确率较高，识别速度较快，能够满足大规模监控场景下视频异常检测的实时性要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明中的判别器的网络结构图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1至图2所示，本发明提出了融合隐空间自回归的预测重构视频异常检测方法，包括以下步骤：

具体过程为：

在本申请中，采用RandomResizedCrop和RandomHorizontalFlip变换对输入的视频帧序列进行随机裁剪和随机水平翻转，增强训练数据的多样性；

步骤二：采用结合UNet网络和隐空间自回归层构造预测网络，定义预测网络约束，生成满足约束的预测帧；具体过程为：

采用预测编码器、隐空间自回归层、预测解码器三部分构造预测生成网络。

其中预测编码器与预测解码器均采用UNet编码器和UNet解码器。在预测编码器和预测解码器之间，构建隐空间自回归层用于最大化隐含预测特征的概率分布；

,经过全连接映射后，输入元素

与输出

的关系定义为：

的输出为条件概率估计，其中

为多项式的阶；

在生成网络中，UNet预测编码器将输入样本

映射为隐含特征向量

,自回归密度估计网络

估计

的概率分布,UNet预测解码器则对隐含特征向量进行解码

；

隐含特征

的先验分布可分解为

,因此，先验分布

的估计问题转化为多个条件概率密度估计问题；

自回归密度估计网络

则采用自回归估计输出多个条件概率

，通过隐空间自回归层的设计，确保每个

仅就根据

进行计算；

结合预测生成网络结构，预测生成器的约束定义如下：

将预测生成器的约束表示为：

其中,

为预测图像，

和

为预测生成器中编码器和解码器参数，

为预测生成器隐含特征向量。

步骤三：对于生成的预测帧，结合UNet网络和隐空间自回归层构造重构网络，定义重构约束，生成满足约束的重构帧；具体过程为：

将预测网络生成的预测图像

作为重构网络的输入，再将重构网络的约束定义如下：

其中,

为预测图像,

为重构图像，

和

为重构网络中编码器和解码器参数。

步骤四：采用多个卷积层堆叠构造判别器，定义判别器约束，判别输入帧的异常值；具体过程为：

在一个实施例中，判别器的网络结构如图2所示。

步骤五：采用生成对抗训练算法，训练预测生成网络、重构网络和判别器，优化网络参数。测试阶段，利用训练好的模型对测试视频序列进行判别，输出异常分值，实现异常检测。具体过程为：

采用生成对抗网络训练网络，使生成器生成高质量图像。结合预测网络和重构网络的约束表示，生成器目标函数定义为：

其中，

为帧判别器的输出；

采用Adam随机梯度下降算法，训练预测网络、重构网络和判别器网络，优化网络参数；训练阶段，预测网络、重构网络用于生成高质量视频帧，判别器网络用于判断当前输入帧是否为真实帧；测试阶段，对于输入的测试视频序列，判别器直接输出异常分数，判别测试帧是否异常，分数低于给定阈值的帧被标记为异常帧，从而实现异常检测。

需要进行说明的是，采用预测生成网络和重构生成网络，结合隐空间自回归模型提取视频序列的隐含特征表示，生成满足预测约束和重构约束的视频帧；再基于判别器对生成帧的判别结果优化网络参数的过程为训练阶段；

基于训练阶段的预测重构生成网络生成视频帧，再基于判别器输出异常判别值，实现异视频常检测为测试阶段。

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。