CN107358195B

CN107358195B - 基于重建误差的非特定异常事件检测及定位方法、计算机

Info

Publication number: CN107358195B
Application number: CN201710561003.6A
Authority: CN
Inventors: 邵杰; 武慧敏; 宋井宽; 高联丽; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2020-10-09
Anticipated expiration: 2037-07-11
Also published as: CN107358195A

Abstract

本发明属于计算机视觉和人工智能技术领域，公开了一种基于重建误差的非特定异常事件检测定位方法、计算机，VAE/GAN嵌入two‑streamarchitecture中；视频原始数据输入到一个VAE/GAN中实现空间数据生成，对应的光流场输入到另一个VAE/GAN中实现时间数据生成。本发明视频原始数据输入到一个VAE/GAN中训练一个空间数据生成模型，对应的光流场输入到另一个VAE/GAN中训练一个时间数据生成模型，经过离线训练后，2stream‑VAE/GAN学会了如何生成当前视频场景下的正常数据；在现流行的数据集UCSD Ped1和UCSD Ped2上，达到了0.71和0.89的AUC值。

Description

基于重建误差的非特定异常事件检测及定位方法、计算机

技术领域

本发明属于计算机视觉和人工智能技术领域，尤其涉及一种基于重建误差的非特定异常事件检测定位方法、计算机。

背景技术

当今社会，威胁社会治安的犯罪活动乃至恐怖袭击事件时有发生。传统的监控系统严重依赖人力资源，视频只能作为事后取证的依据，而不能在异常事件发生之处及时发出警报。除此之外，收集异常事件也有助于相关决策部门有针对性地做出政策的调整。因此，实时异常检测定位以及线下异常检测定位对于公共治安有着重要意义，而这些需求，是目前的依靠人力的监控系统无法满足的。监控视频中的研究非特定异常事件检测以及定位吸引了很多学者的关注，一系列解决方案被提出。

在非特定异常事件检测以及定位任务的训练集中只有正常视频，测试数据集中的视频包含了正常事件以及偏离正常事件的异常事件。为了能在合适的粒度下定位异常事件，通常将视频分成互相不重合的大小为的三维子块，其中，和分别代表三维子块的宽度、长度以及帧数。

实现这个任务的难点在于：首先，我们需要从外观特征和动态特征两方面来分析视频是正常还是异常，对视频特征提取提出了挑战；其次，训练集中只有正常事件，没有异常事件的任何信息，这就为定义“正常”以及离群值检测规则提出了挑战。对于第一个挑战，现流行方法倾向于设计传统的手工特征。由于手工特征只能提取简单的、低级的特征，在本发明中，采用了深度模型来提取高级的、包含更多语义信息的特征。对于第二个挑战，现流行方法可分为两类，一种是基于概率的方法，也就是说检测测试集中不符合由训练集数据的概率分布模型的数据，如“Weixin Li,Vijay Mahadevan,andNunoVasconcelos.2014.Anomaly Detection and Localization in CrowdedScenes.IEEE Trans.Pattern Anal.Mach.Intell.36,1(2014),18–32.”和“VenkateshSaligrama and Zhu Chen.2012.Video anomaly detection based on localstatistical aggregates.In 2012IEEE Conference on Computer Vision and PatternRecognition,Providence,RI,USA,June16-21,2012.2112–2119.”。基于概率的方法将偏离正常模式的数据视为异常数据，这跟异常的定义是一致的，但是直接描述高维数据分布，现有数据是不足的，导致直接描述的数据分布并不准确；另一种是基于模板的方法，即选出训练集数据中的代表性数据，根据测试集数据从这些模板恢复出来的重建误差来判断是否为异常，如“Kai-Wen Cheng,Yie-Tarng Chen,and Wen-Hsien Fang.2015.Video anomalydetection and localization using hierarchical feature representation andGaussian process regression.In IEEE Conference on Computer Vision and PatternRecognition,CVPR 2015,Boston,MA,USA,June 7-12,2015.2909–2917.”，“Yang Cong,Junsong Yuan,and Ji Liu.2011.Sparse reconstruction cost for abnormal eventdetection.In The 24th IEEE Conference on Computer Vision and PatternRecognition,CVPR 2011,Colorado Springs,CO,USA,20-25June 2011.3449–3456.”，“Cewu Lu,Jianping Shi,and JiayaJia.2013.Abnormal Event Detection at 150FPS inMATLAB.In IEEE International Conference on Computer Vision,ICCV 2013,Sydney,Australia,December 1-8,2013.2720–2727.”以及“MehrsanJavanRoshtkhari and MartinD.Levine.2013.Online Dominant andAnomalous Behavior Detection in Videos.In2013IEEE Conference on ComputerVision and Pattern Recognition,Portland,OR,USA,June 23-28,2013.2611–2618.”。这类方法通常通过追求稀疏性来压缩样本集合的大小，以达到降低时间、空间复杂度的目的，这样一个由有限集合的数据张成的空间的表述能力是有限的，也是相对来说刻板的。

综上所述，非特定异常事件检测及定位的难点在于：首先，需要从外观特征和动态特征两方面来分析视频是正常还是异常，对视频特征提取提出了挑战；其次，训练集中只有正常事件，没有异常事件的任何信息，这就为定义“正常”以及离群值检测规则提出了挑战。

在应对这两个挑战的时候，现有技术第一没有足够好的特征表达能力，第二没有足够好的描述正常数据的能力。

发明内容

针对现有技术存在的问题，本发明提供了一种基于重建误差的非特定异常事件检测定位方法、计算机。

本发明是这样实现的，一种基于重建误差的非特定异常事件检测及定位方法，所述基于重建误差的非特定异常事件检测及定位方法将VAE/GAN嵌入two-streamarchitecture中；将视频原始数据输入到一个VAE/GAN中实现空间数据生成，将对应的光流场输入到另一个VAE/GAN中实现时间数据生成，模型能够描述外观特征的正常模式和动态特征的正常模式。

进一步，所述基于重建误差的非特定异常事件检测及定位方法包括：离线训练过程和离群值检测过程；经过离线训练之后，获得空间数据生成模型和时间数据生成模型。

进一步，所述基于重建误差的非特定异常事件检测及定位方法的离线训练过程包括：

步骤一，将正常视频划分成互相不重合的大小为的三维子块，其中，和分别代表所述三维子块的宽度、长度以及帧数；述三维子块的大小代表了异常事件能够被检测出来的最小粒度；

步骤二，将正常的视频中三维子块拼成大小为的平面小块，并以小块为输入，训练一个VAE/GAN模型，另外以小块的密集光流场为输入，训练另一个VAE/GAN模型，两个VAE/GAN模型构成2stream-VAE/GAN模型。

进一步，所述基于重建误差的非特定异常事件检测及定位方法的离群值检测过程包括：

步骤一，将需要检测视频以与离线训练过程同样的方式划分成互相不重合的大小为的三维子块，并以与离线训练过程中同样的方式组成平面小块。

步骤二，将平面小块以及平面小块的密集光流场输入到2stream-VAE/GAN的模型中，计算2stream-VAE/GAN的重建误差，并以重建误差为指导判断所述平面小块是否为异常。

本发明另一目的在于提供一种应用上述基于重建误差的非特定异常事件检测及定位方法的计算机。

本发明的优点及积极效果为：将分为离线训练过程和离群值检测过程，视频原始数据输入到一个VAE/GAN中训练一个空间数据生成模型，将对应的光流场输入到另一个VAE/GAN中训练一个时间数据生成模型，经过离线训练后，2stream-VAE/GAN学会了如何生成当前视频场景下的正常数据。在现流行的数据集UCSD Ped1和UCSD Ped2上，本发明分别达到了0.71和0.89的Area Under Curve(AUC)值。

附图说明

图1是本发明实施例提供的基于重建误差的非特定异常事件检测及定位方法流程图。

图2是本发明实施例提供的2stream-VAE/GAN示意图。

图3是本发明实施例提供的背景技术VAE/GAN示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

结合VAE/GAN和two-stream architecture,本发明提出一种综合解决这两个挑战的方案，出发点在于：(1)可以利用VAE/GAN生成高维数据—图片的能力，描述正常数据；(2)可以利用two-stream architecture来表述外观特征和动态特征，从而发现外形异常以及动态异常。VAE/GAN(变分自动编码器/生成式对抗网络)首先被提出是在“AndersBoesenLindbo Larsen,

Hugo Larochelle,and OleWinther.2016.Autoencoding beyond pixels using a learned similarity metric.InProceedings ofthe 33nd International Conference on Machine Learning,ICML2016,New York City,NY,USA,June 19-24,2016.1558–1566.”。该方法由一个VAE和一个GAN组成，其中，VAE首先提出于“Diederik P.Kingma and Max Welling.2013.Auto-Encoding Variational Bayes.CoRR abs/1312.6114(2013).http://arxiv.org/abs/1312.6114.”，GAN提出于“Ian J.Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,BingXu,David Warde-Farley,SherjilOzair,Aaron C.Courville,andYoshuaBengio.2014.Generative Adversarial Nets.In Advances in NeuralInformation Processing Systems 27:Annual Conference on Neural InformationProcessing Systems 2014,December 8-132014,Montreal,Quebec,Canada.2672–2680.”。一个VAE由一个encoder(编码器)和一个decoder(解码器)构成，encoder把一个输入样本映射到隐空间(该隐空间有一个先验概率空间)，decoder把该隐空间的表达映射回去原始数据空间。一个GAN有一个generator(生成器)和一个discriminator(分辨器)构成。Generator从一个先验概率空间生成一个原始数据空间的样本，discriminator区分该样本和原始样本，generator学到了“伪造”数据的能力，discriminator学到了分辨真实数据和伪造数据的能力，从而使得GAN成为以一种很好的图像生成的技术。VAE/GAN将VAE中的decoder和GAN中的generator合二为一，并让discriminator区分三种数据，即，原始数据，从隐空间生成的数据，从先验概率空间生成的数据。Two-stream architectures首次被提出是在“Karen Simonyan and Andrew Zisserman.2014.Two-StreamConvolutionalNetworks for Action Recognition in Videos.In Advances in NeuralInformationProcessing Systems 27:Annual Conference on Neural InformationProcessingSystems 2014,December 8-132014,Montreal,Quebec,Canada.568–576.”。通过将原始视频数据及其光流场分别输入到两个深度模型中，two-stream结合了视频的空间信息和时间信息，从而到达很好的动作识别效果。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于重建误差的非特定异常事件检测及定位方法包括以下步骤：

S101：视频原始数据输入到一个VAE/GAN中训练一个空间数据生成模型，将对应的光流场输入到另一个VAE/GAN中训练一个时间数据生成模型；

S102：经过离线训练后，2stream-VAE/GAN学会了如何生成当前视频场景下的正常数据。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明提出了2stream-VAE/GAN模型，在详细介绍该模型之前，首先介绍两个背景技术，即VAE/GAN和two-stream architecture。

如图3所示，VAE/GAN模型中，原始数据空间的x被映射为隐空间表达z～q(z|x),该隐空间有一个先验分布空间z～p(z)总体的损失函数定义为：

其中：

其中D_KL(q(z|x)||p(z))代表Kullback-Leibler散度，且

代表了discriminator的第l层。

Two-stream architecture通过将原始视频数据输入一个深度模型中，将其相关的光流场输入到另一个模型，训练得到两个模型分别处理空间信息和时间信息。

如图2所示，首先将数据集中的视频分割成的三维子块并将其拼成的图片，作为空间生成模型的输入，将对应的光流场作为时间生成模型的输入，如图2中“原始数据”和“光流场”所显示的。

本发明在特征提取方面，摒弃了传统方法提取手工特征的方法，采取了深度模型。在离群值检测规则方面，比起基于概率的方法，模型不要求定义一个明确的描述正常视频的概率分布模型，避免过拟合并带来了一定灵活性；比起基于模板的方法，模型的正常事件的范围更灵活而不是由几个模板张成的线性空间。

基于VAE/GAN和two-stream architecture本发明提出一个叫做2stream-VAE/GAN的异常检测以及定位的算法，并设计了异常检测及定位的规则。本发明将VAE/GAN嵌入了two-streamarchitecture当中提出了2stream-VAE/GAN，将视频原始数据输入到一个VAE/GAN中实现空间数据生成，将对应的光流场输入到另一个VAE/GAN中实现时间数据生成。

本发明将分为两个流程：离线训练过程和离群值检测过程。经过离线训练之后，我们获得了两个模型，一个空间数据生成模型和一个时间数据生成模型；因为2stream-VAE/GAN学习到了如何生成正常的数据(空间上和时间上)，离群值将被视为那些不能被很好地生成的数据，也就是重建误差大的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于重建误差的非特定异常事件检测及定位方法，其特征在于，所述基于重建误差的非特定异常事件检测及定位方法将VAE/GAN嵌入two-stream- architecture中；将视频原始数据输入到一个VAE/GAN中实现空间数据生成，将对应的光流场输入到另一个VAE/GAN中实现时间数据生成。

2.如权利要求1所述的基于重建误差的非特定异常事件检测及定位方法，其特征在于，所述基于重建误差的非特定异常事件检测及定位方法包括：离线训练过程和离群值检测过程；经过离线训练之后，获得空间数据生成模型和时间数据生成模型。

3.如权利要求2所述的基于重建误差的非特定异常事件检测及定位方法，其特征在于，所述基于重建误差的非特定异常事件检测及定位方法的离线训练过程包括：

步骤一，将正常视频划分成互相不重合的大小为w*h*t的三维子块，其中w，h和t分别代表所述三维子块的宽度、长度以及帧数；上述三维子块的大小代表了异常事件能够被检测出来的最小粒度；

步骤二，将正常的视频中三维子块拼成大小为的W*H*t平面小块，其中平面小块的宽度W是三维小块宽度w的整数倍，同样，平面小块的高度H是三维小块高度h的整数倍，以小块为输入，训练two-stream-VAE/GAN模型，two-stream-VAE/GAN模型的定义是这样一种模型：第一个stream以平面小块为输入，采用VAE/GAN方法，经训练输出与输入大小相同内容相像的图片；第二个stream以平面小块对应的密集光流场为输入，同样采用VAE/GAN方法，经训练输出与输入大小相同内容相像的图片，计算输入图片和输出图片每个平面小块之间的距离，即重建误差，判断那些两个stream的重建误差之和超过一定阈值的平面小块为异常。

4.如权利要求2所述的基于重建误差的非特定异常事件检测及定位方法，其特征在于，所述基于重建误差的非特定异常事件检测及定位方法的离群值检测过程包括：

步骤一，将需要检测视频以与离线训练过程同样的方式划分成互相不重合的大小为w*h*t的三维子块，并以与离线训练过程中同样的方式组成平面小块；

步骤二，将平面小块以及平面小块的密集光流场输入到two-stream-VAE/GAN的模型中，计算two-stream-VAE/GAN的重建误差，并以重建误差为指导判断所述平面小块是否为异常。

5.一种应用权利要求1～4任意一项所述基于重建误差的非特定异常事件检测及定位方法的计算机。