CN110097028A

CN110097028A - 基于三维金字塔图像生成网络的人群异常事件检测方法

Info

Publication number: CN110097028A
Application number: CN201910398306.XA
Authority: CN
Inventors: 郭迎春; 师硕; 郝小可; 朱叶; 刘依; 于洋; 阎刚; 王柏林
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-06
Anticipated expiration: 2039-05-14
Also published as: CN110097028B

Abstract

本发明基于三维金字塔图像生成网络的人群异常事件检测方法，涉及用于识别图形的方法，使用三维金字塔图像生成网络生成图像，通过对比由三维金字塔图像生成网络生成的生成图像和待检测图像之间的差异进行人群异常事件的检测，克服了现有技术基于生成图像进行异常检测方法中忽略图像序列间的运动信息、不同尺度的局部特征以及正常图像与异常图像间重构误差较小难以判定人群异常行为的缺陷。

Description

基于三维金字塔图像生成网络的人群异常事件检测方法

技术领域

本发明的技术方案涉及用于识别图形的方法，具体地说是基于三维金字塔图像生成网络的人群异常事件检测方法。

背景技术

随着公共安全问题的日益突出和视频监控设备的普及，基于视频监控的人群异常事件检测能够及时发现人群中的异常，避免不必要的损失，因而在公共安全领域中具有重要研究意义。

人群异常事件检测方式主要有两种：传统方式和基于深度学习方式。传统方式主要从光流、梯度方面进行特征提取，然后利用SVM进行分类。用传统方式进行人群异常事件检测，由于自身算法的特性，只能获得一些简单和基本的特征，无法对图像进行深层次的表达。而用基于深度学习方式进行人群异常事件检测方法，展现出强大和近乎完美的能力，逐渐在人群异常事件检测中得到应用，并取得了较好的结果。

2016年M Ravanbakhsh和M Nabi在IEEE Computer Society会议上发表的论文“Plug-and-Play CNN for Crowd Motion Analysis:An Application in Abnormal EventDetection”里使用深度学习中的卷积神经网络(Convolutional Neural Network，简称CNN)对拥挤人群进行行为分析，提出结合CNN提取的高层语义特征和光流特征建模，但因异常事件种类的不确定性以及异常事件表示困难，导致有监督学习的CNN明显发挥不出其自身的优势及特点，并且引入光流法提取人群的运动特征易受光照影响等问题依旧存在。2017年SC Yong和HT Yong在Springer发表的论文“Abnormal Event Detection In VideosUsing Spationtemporal Auto-Encoder”中使用自编码(Auto-Encoder)和长短期记忆网络(Long Short-Term Memory,LSTM)结合空间和时间信息进行人群异常事件检测，但无监督学习的自编码网络生成的图像还原度低，易丢失图像中的关键信息，影响模型准确性。

针对上述方法的缺陷，现有技术的改进方法有：使用无监督深度学习网络生成更接近原始图像的生成图像，通过对比原始图和生成图之间的差异进行人群异常事件的检测。文献“Variational Auto-Encoder Based Anomaly Detection Using ReconstructionProbability”中提出使用Auto-Encoder的改进算法Variational Auto-Encoder，通过重构误差实现人群异常事件检测。文献“Abnormal Event Detection In Videos UsingGenerative Adversarial Nets”提出利用生成对抗网络(Generative AdversarialNetworks,GAN)分别生成原始图像的生成图像和光流图像的生成图像,再分别计算原始图像及其生成图像之间的欧式距离，光流图像和其生成图像之间的欧式距离，两者距离加权进行人群异常事件的检测，同时通过真实图像和生成图像之间的像素差实现异常事件的定位。CN108280408A公开了一种基于混合跟踪和广义线性模型的人群异常事件检测方法，该方法存在通过跟踪行人运动轨迹并提取跟踪路径的特征点进行行人异常行为识别的通用性不强的缺陷。CN107729799A公开了一种基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统，其存在算法中采用了光流法提取的像素级别的局部特征，像素误差会对特征描述子造成直接影响，而且光流法计算量大，易受光照的影响，并且只是对每个视频帧提取的特征向量，在一定程度上忽略了视频帧与帧之间特征的关联关系的缺陷。CN103258193B公开了一种基于KOD能量特征的群体异常行为识别方法，该方法存在对加入的群体动能和方向势能的阈值自适应进行选择，导致算法在不同场景下的适应性不高的缺陷。CN106778595A公开了一种基于高斯混合模型的人群中异常行为的检测方法，该方法存在当背景中长期静止的对象突然运动时，进行前景检测容易产生误检和漏检的现象，同时混合高斯模型对运动物体的阴影抑制效果并不好，模型建模运算量大，步骤繁多算法时间开销大，不能保证视频监控中报警信息的实时性的诸多缺陷。

尽管现有技术提出了各种通过生成更接近原始图像的生成图像进行人群异常事件检测的改进方法，但依旧存在生成图像质量不高，图像序列中时空信息和不同尺度局部信息丢失，正常图像与异常图像的重构误差小，训练时间较长，网络训练不稳定，不利于区分正常图像和异常图像的诸多缺陷

发明内容

本发明所要解决的技术问题是：提供基于三维金字塔图像生成网络的人群异常事件检测方法，使用三维金字塔图像生成网络生成图像，通过对比由三维金字塔图像生成网络生成的生成图像和待检测图像之间的差异进行人群异常事件的检测，克服了现有技术基于生成图像进行异常检测方法中忽略图像序列间的运动信息、不同尺度的局部特征以及正常图像与异常图像间重构误差较小难以判定人群异常行为的缺陷。

本发明解决该技术问题所采用的技术方案是：基于三维金字塔图像生成网络的人群异常事件检测方法，使用三维金字塔图像生成网络生成图像，通过对比由三维金字塔图像生成网络生成的生成图像和待检测图像之间的差异进行人群异常事件的检测，具体步骤如下：

第一步，将人群活动的视频转换成图像序列：

获取人群活动的一组视频序列，使用OpenCV从任一人群视频i中提取N帧图像f_i1,f_i2,...,f_iN组成视频i的图像序列，表示为F_i{f_i1,f_i2,...,f_id,...,f_iN}，其中f_id代表视频i提取得到的图像序列的第d帧图像，N为200，对所得到的图像序列F_i中图像进行标准化操作，将图像大小标准化为M×M个像素，M为256；所有视频序列提取得到的图像序列集合为T{F₁,F₂,...,F_i,...,F_q}，其中q代表视频序列的个数，F_i代表第i个视频的图像序列，表示为F_i{f_i1,f_i2,...,f_id,...,f_iN}，由此将人群活动的视频转换成为图像序列；

第二步，获取训练集中的视频训练数据：

对数据库中的训练集里的没有任何标签的视频帧，按照所示第一步的操作将人群活动的视频序列转换成图像序列，每个人群活动的视频对应一个图像序列，第i个视频对应的图像序列为F_i{f_i1,f_i2,...,f_id,...,f_iN}，N为200，从F_i选取从第j帧开始长度为L的连续图像子序列F_ij{f_ij,f_ij+1,...,f_ij+L-1}，1≤j≤N-L，L为5，j为连续图像子序列的起始帧编号，j+L-1为连续图像子序列的结束帧编号，f_ij代表第i个视频中的第j帧图像，f_ij+L-1代表第i个视频对应的第j+L-1帧图像，视频i生成的训练数据为Tr_i{F_i1,F_i2,...,F_ij,...,F_iN-L}，其中F_ij代表第i个视频中以第j帧图像为起始帧的图像子序列，最终生成的训练集数据为Tr{Tr₁,Tr₂,...,Tr_i,...,Tr_q}，其中Tr_i代表第i个视频训练数据，q是视频序列的个数，由此获取了训练集中的视频训练数据；

第三步，构建三维金字塔图像生成网络：

三维金字塔图像生成网络的构建由三部分操作组成，依次为五层3DCNN操作、四个通道的空间金字塔池化模块操作和上采样模块操作；

第(3.1)步，五层3DCNN卷积操作：

往三维金字塔图像生成网络中输入上述第二步得到的视频训练数据，视频中图像的大小为H×H,H为256，经过3DCNN后，特征图像大小变为输入图像大小的1/8，经过第一层，卷积后的特征图像大小为256×256像素，通道数为64；经过第二层，池化后的特征图像大小为128×128像素，通道数为128；经过第三层，卷积后的特征图像大小为128×128像素，通道数为256；经过第四层，池化后的特征图像大小为64×64像素，通道数为1024；经过第五层，卷积后的特征图像大小为32×32像素，通道数为2048；其中卷积操作的公式如下，

F_out＝(F_in+2p-k)/s+1 (1)，

公式(1)中，F_out是经过卷积层后的结果，F_in表示卷积层的输入，k表示卷积核大小，s表示卷积核在扫描图像时每一次移动的步长,p表示是图像矩阵周围补零；

第(3.2)步，四个通道的空间金字塔池化模块操作；

将上述第(3.1)步中得到的特征图像输入到具有四个通道的空间金字塔池化模块中，金字塔池化模块操作公式如下，

C_out＝(C_in-k)/s+1 (2)，

公式(2)中，C_out是经过池化层后的结果，C_in表示池化层的输入，k表示卷积核大小，s表示卷积核在扫描图像时每一次移动的步长，金字塔池化模块的四个通道分别将输入的特征图像变为1×1、2×2、3×3和6×6大小的特征图像,并且在每一个通道进行了1×1的卷积，实现维数降低；

第(3.3)步，上采样模块操作；

接着将上述第(3.2)步得到的四个通道的空间金字塔池化模块操作的结果进行上采样模块操作，上采样模块操作的公式如下，

公式(3)中，f(x,y)表示上采样的结果，Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)及Q₂₂＝(x₂,y₂)表示四个插值基础点，分别经过x方向，y方向进行线性插值完成上采样操作，上采样模块操作结果得到和原始图像大小一致的图像；

接着将进行上采样模块操作得到和原始图像大小一致的图像和上述第(3.1)步的五层3DCNN卷积操作输出的特征图像进行级联，得到融合时空特征和不同尺度局部特征的结果；

由此完成构建三维金字塔图像生成网络；

第四步，基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型的构建与训练：

在上述第三步构建成三维金字塔图像生成网络的基础上构建与训练三维金字塔人群异常事件检测模型，具体操作如下：

第(4.1)步，计算生成图像与真实图像的间欧式距离S_ed：

用以下公式(4)计算生成图像与真实图像间欧式距离S_ed，

公式(4)中，I表示真实图像，表示生成图像，W表示图像的尺寸，(i,j)表示图像的像素坐标，I(i,j)表示图像中像素点的值；

第(4.2)步，提取图像梯度S_grd：

用以下公式(5)提取图像梯度S_grd，

公式(5)中，I表示真实图像，表示生成图像，W表示图像的尺寸，(i,j)表示图像的像素坐标，I(i,j)表示图像中像素点的值。i-1表示图像水平方向i左边的像素坐标，j-1表示图像垂直方向j上方的像素坐标，||·||₁表示一范数；

第(4.3)步，获取图像VGG16深度特征距离S_vgg：

用以下公式(6)获取图像VGG16深度特征距离S_vgg，

公式(6)中Vgg表示预训练模型，VggI(i,j)表示真实图像对应的VGG16深度特征，表示生成图像对应的VGG16深度特征，R,C表示VGG16深度特征图的尺寸大小；

具体操作过程是，首先获取VGG16预训练模型，VGG16模型输入的图像大小为224×224像素，需要将第一步中得到的256×256像素大小的图像转化为大小为224×224像素的图像，然后通过VGG16网络的第一层，卷积后的图像大小为224×224像素，通道数为64；通过VGG16网络的第二层，池化后的图像大小为112×112像素，通道数为64；通过VGG16网络的第三层，卷积后的图像大小为112×112像素，通道数为128；通过VGG16网络的第四层，池化后的图像大小为56×56像素，通道数为128；通过VGG16网络的第五层，卷积后的图像大小为56×56像素，通道数为256；VGG16网络的第六层，池化后的图像大小为28×28像素，通道数为256；通过VGG16网络的第七层，卷积后的图像大小为28×28像素，通道数为512；通过VGG16网络的第八层，池化后的图像大小为14×14像素，通道数为512；通过VGG16网络的第九层，卷积后的图像大小为14×14像素，通道数为512；通过VGG16网络的第十层，池化后的图像大小为7×7像素，通道数为512，将图像当前的池化特征作为图像的VGG16提取的特征；

由上述第(4.1)步、第(4.2)步和第(4.3)步中得到的生成图像与真实图像间的欧式距离S_ed、图像梯度S_grd和图像VGG16深度特征距离S_vgg三部分，最后组成三维金字塔人群异常事件检测模型的损失函数Loss_g，Loss_g的组成部分如公式(7)所示，

Loss_g＝μ_ed×S_ed+μ_grd×S_grd+μ_vgg×S_vgg (7)，

公式(7)中μ_ed、μ_grd、μ_vgg为S_ed、S_grd、S_vgg对应的系数，通过不断缩小Loss_g的大小进行网络的训练，至此基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型构建完成；

对基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型进行训练操作方法如下：

对上述第二步生成的训练数据Tr{Tr₁,Tr₂,...,Tr_i,...,Tr_q}，根据每一个视频i的训练数据Tr_i{F_i1,F_i2,...,F_ij,...,F_iN-L}，选取从第j帧开始，长度为L的连续图像子序列F_ij{f_ij,f_ij+1,...,f_ij+L-1}，1≤j≤N-L，N＝200，L＝5，该图像子序列F_ij的第L帧图像f_ij+L-1记为I，将该子序列的前L-1帧图像输入到上述基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型中，三维金字塔图像生成网络根据前L-1帧图像序列生成其下一帧即第L帧图像，记为再通过损失函数Loss_g进行模型的优化，缩小正常真实图像与生成图像之间的差距进行训练，其中损失函数Loss_g的反向传播算法为Adam，对损失函数Loss_g的梯度进行一阶矩估计记为m_t，二阶矩估计记为v_t，计算公式分别如下，

m_t＝β₁m_t-1+(1-β₁)gt (8)，

v_t＝β₂v_t-1+(1-β₂)gt² (9)，

公式(8)、公式(9)中β₁、β₂表示默认参数，gt表示损失函数Loss_g的当前梯度，再分别对m_t、v_t进行校正，这样可以近似为对期望的无偏估计，校正公式为如下，

公式(10)和公式(11)中，表示校正后的结果，β₁、β₂表示默认参数，最后网络参数的优化为公式(12)如下，

公式(12)中，θ_t为当前的参数权重，θ_t+1为梯度方向下降后的参数权重，α，ε为超参数，以此进行完成上述基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型的训练操作；

第五步，获得检测视频序列的生成图像

将检测视频序列按照上述第二步训练集中的视频训练数据的制作步骤，得到待检测视频序列Te{K₁,K₂,...,K_u,...,K_s}，其中s表示测试视频的数量，根据每一个待检测视频u的测试数据K_u，从第u个视频中选取从第ν帧开始，长度为L的连续图像子序列K_uv{k_uv,k_uv+1,...,k_uv+L-1}，1≤ν≤N-L，N＝200，L＝5，该子序列K_uv的第L帧图像f_uv+L-1为待检测图像，被记作I_tc，将该子序列的前L-1帧图像输入到上述第四步中训练好的基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型中，首先经过5层3DCNN得到大小为输入图像的1/8的特征图像，再经过三维金字塔图像网络的池化得到四个不同尺度的特征图像，并将池化后的特征图像上采样模块操作到大小为输入1/8大小的特征图像与3DCNN得到的特征图像进行级联，最后将级联特征图像上采样模块操作到原始大小的图像，获得生成图像如下公式(13)所示，

公式(13)中，TDPNet表示基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型参数，K_uv{k_uv,k_uv+1,...,k_uv+L-2}表示输入的前L-1帧图像，表示生成图像；

第六步，基于三维金字塔图像生成网络的人群异常事件检测：

对上述第五步得到的生成图像计算和待检测图像I_tc之间的峰值信噪比PSNR，如公式(14)所示，

公式(14)中，p为图像的像素个数,I_tc表示待检测图像，表示生成图像，表示生成图像中图像像素点颜色的最大数值，PSNR越大，表示待检测图像I_tc没有发生异常情况的可能性越大，再将PSNR归一化，表示为Score(t)如下，

公式(15)中，t表示图像序列中第t帧图像，I_t表示当前测试视频对应图像序列中真实的第t帧图像，表示与I_t对应的生成图像，表示当前检测视频对应的图像序列中真实的第t帧图像I_t和其对应的生成图像之间的PSNR值，表示当前检测视频对应的图像序列中真实的第t帧图像I_t和其对应的生成图像之间PSNR值的最小值，表示当前检测视频对应的图像序列中真实的第t帧图像I_t与其对应的生成图像之间PSNR值的最大值，以此进行归一化操作，对上述得到的Score(t)，计算ROC，AUC曲线，根据计算出来的阈值Threshold对比Score(t)大小，Score(t)>Threshold则为人群正常图像，反之则为发生人群异常事件情况的图像；

至此完成基于三维金字塔图像生成网络的人群异常事件检测。

上述基于三维金字塔图像生成网络的人群异常事件检测方法，所述3DCNN、空间金字塔池化、上采样、VGG16和反向传播算法Adam均为本领域公知的深度学习技术。

本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著进步如下：

(1)本发明提出的基于三维金字塔图像生成网络的人群异常事件检测方法，其中的三维金字塔图像生成网络由五层3DCNN操作、四个通道的空间金字塔池化模块操作和上采样模块操作组成，融合了图像的时空特征和不同尺度的局部特征。使用三维金字塔图像生成网络对正常图像进行无监督训练得到只能生成正常图像的模型，为了使得生成图像更接近真实图像，在基于三维金字塔图像生成网络的基础上引入了VGG16提取的深度特征，结合生成图像和真实图像之间的欧式距离、梯度距离以及VGG16提取的深度距离共同组成损失函数，优化基于三维金字塔的异常检测网络。在检测过程中异常检测模型根据生成图像和真实图像之间的峰值信噪比(Peak Signal to Noise Ratio,PSNR)的大小判定异常是否发生，从而更有利于区分正常图像和异常图像而实现人群异常事件的检测。本发明方法引入VGG16深度特征使模型更能区分正常情况与异常情况的差异，从而实现人群异常事件的检测，提高了检测的识别率。

(2)CN108280408A公开了一种基于混合跟踪和广义线性模型的人群异常事件检测方法，通过跟踪行人运动轨迹并提取跟踪路径的特征点，采用混合跟踪模型和遗传算法相结合的神经网络进行建模，并由建立的特征模型来直观的表达场景中的群体事件信息，但在跟踪过程中如果不考虑镜头畸变等问题，跟踪效果存在一定误差，而且行人运动轨迹的特征点需进行有效提取，通常存在特征点适用性不高的问题，以此，通过跟踪行人运动轨迹并提取跟踪路径的特征点进行行人异常行为识别通用性不强。本发明与CN108280408A相比，本发明采用无监督的神经网络进行异常检测，不需要其他的非神经网络算法的支撑，并且适用性高，识别率高。

(3)CN107729799A公开了一种基于深度卷积神经网络的人群异常行为视觉检测及分析预警系统，在系统中通过深度卷积神经网络技术提取出目标设施内的各种人体对象，然后用光流法计算识别判断人体的运动状态，接着对各人体对象的不同状态进行聚类和人群建模，进一步对人群对象进行密度计算和危险指数计算，最后根据人群密度、运动向量值、持续时间量化指标数据的不同组合来识别和判定各种人群行为异常，根据人群行为异常的情况启动相应人群聚集管控策略。但算法采用了光流法提取的像素级别的局部特征，像素误差会对特征描述子造成直接影响，而且光流法计算量大，易受光照的影响，并且只是对每个视频帧提取的特征向量，在一定程度上忽略了视频中帧与帧之间特征的关联关系。本发明方法与CN107729799A相比，本发明使用基于三维金字塔图像生成网络的方法，根据生成图像和待检测图像之间的差异进行异常检测，计算量小，并且使用的网络中引入3DCNN，提取了图像序列中帧之间的关系，除了图像的空间特征外，充分使用了图像间的时间特征，保证了算法在不同场景下的适用性。

(4)CN103258193B公开了一种基于KOD能量特征的群体异常行为识别方法，该方法首先对运动目标进行检测，获得运动目标区域，然后提取群体行为KOD能量特征，并进行归一化，最后通过训练隐马尔可夫模型实现群体异常行为识别，但算法中并未对加入的群体动能和方向势能的阈值自适应进行选择，导致算法在不同场景下的适应性不高。本发明与CN103258193B相比，直接使用神经网络进行特征提取以及人群异常事件的检测，在不用场景下能保证较高的检测识别率。

(5)CN106778595A公开了一种基于高斯混合模型的人群中异常行为的检测方法，首先在预处理阶段使用高斯混合模型对输入视频进行背景建模来提取ROI，并利用形态学方法消除背景的影响，然后将人群看作整体来提取ROI光流运动特征和SIFT运动特征，再对输入视频序列中的图像进行分块，按图像子块分配运动特征，对不同子块建立高斯混合模型，利用最大期望EM算法训练高斯混合模型，检测人群中异常行为的图像。但该算法步骤中采用混合高斯进行背景建模，其对背景中长期静止的对象突然运动时，进行前景检测容易产生误检和漏检的现象，同时混合高斯模型对运动物体的阴影抑制效果并不好，而且混合高斯模型是对于视频帧中每个像素建模，导致模型建模运算量大，同时此算法完成采用传统算法进行人群异常行为检测，步骤繁多算法时间开销大，对视频监控系统的实时性要求产生影响，不能保证视频监控中报警信息的实时性。本发明与CN106778595A相比，本发明方法异常检测计算量小，实时性高，并且使用神经网络提取的深度特征鲁棒性强，检测准确率高。

(6)本发明方法利用无监督学习的思想，由于人群异常情况发生的多样性以及不确定性，通过对正常情况进行建模，并不需要进行人为的打标签，利用训练得到的模型对图像序列进行检测。

(7)本发明方法运用三维金字塔图像生成网络进行图像生成，相对于图像的重构能更好的判定异常情况是否发生，由于图像重构误差小难以区分正常图像与异常图像，三维金字塔图像生成网络引入3DCNN提取的时空特征和VGG16提取到的深度特征，能缩小正常事件生成图像和真实图像之间的距离，增大生成图像和真实图像之间的重构误差，更有效地对人群异常情况进行检测。

(8)本发明方法采用深度学习思想，相比传统检测方法对图像只是提取低层次的特征，深度学习能提取高层语义特征，能够对图像进行更好的表达。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明操作过程简易示意图，其中：

图(1-1)是本发明训练阶段操作过程的简易示意图；

图(1-2)是本发明检测阶段操作过程的简易示意图。

图2是本发明实施例的构建成三维金字塔图像生成网络组成的示意图，其中：

图2-1是三维金字塔图像生成网络组成框架的示意图；

图2-2是三维金字塔图像生成网络中3DCNN的网络结构的示意图；

图2-3是3DCNN中三维卷积核提取图像时空特征的过程的示意图；

图2-4是四个通道的空间金字塔池化模块的结构示意图。

图3是本发明实施例的三维金字塔图像生成网络中的VGG16网络结构的示意图。

图4是本发明实施例的三维金字塔图像生成网络和其它生成网络所生成的正常图像的对照示意图，其中：

图4-1为原始正常图像的示意图；

图4-2为生成对抗网络生成的正常图像的示意图；

图4-3为自编码网络生成的正常图像的示意图；

图4-4为场景解析网络生成的正常图像的示意图；

图4-5为本发明实施例的三维金字塔图像生成网络生成的正常图像的示意图。

图5是本发明实施例的三维金字塔图像生成网络和其它生成网络所生成的异常图像的对照示意图，其中：

图5-1为原始异常图像的示意图；

图5-2为生成对抗网络生成的异常图像的示意图；

图5-3为自编码网络生成的异常图像的示意图；

图5-4为场景解析网络生成的异常图像的示意图；

图5-5为本发明实施例的三维金字塔图像生成网络生成的异常图像的示意图。

具体实施方式

图1所示实施例表明，本发明操作过程简易示意如下，其中：

图1-1表明的是本发明方法的训练阶段操作过程是：输入图像序列F₁,F₂,...,F_t→经过三维金字塔图像生成网络→生成图像根据图像序列F₁,F₂,...,F_t的下一帧真实图像F_t+1和生成图像之间的欧式距离L2、梯度距离L3以及VGG16提取的深度特征距离L1进行网络的优化，使得生成图像尽可能接近真实的正常图像，以此进行本发明方法的训练。

图1-2表明的是本发明方法检测阶段操作过程是：将待检测图像序列F₁,F₂,...,F_t输入→到训练好的三维金字塔图像生成网络→根据网络生成的图像和待检测图像F_t+1之间PSNR值进行异常的判定。

实施例

本实施例的基于三维金字塔图像生成网络的人群异常事件检测方法，具体步骤如下：

第一步，将人群活动的视频转换成图像序列：

第二步，获取训练集中的视频训练数据：

第三步，构建三维金字塔图像生成网络：

第(3.1)步，五层3DCNN卷积操作：

F_out＝(F_in+2p-k)/s+1 (1)，

第(3.2)步，四个通道的空间金字塔池化模块操作；

C_out＝(C_in-k)/s+1 (2)，

第(3.3)步，上采样模块操作；

由此完成构建三维金字塔图像生成网络；

第(4.1)步，计算生成图像与真实图像的间欧式距离S_ed：

用以下公式(4)计算生成图像与真实图像间欧式距离S_ed，

第(4.2)步，提取图像梯度S_grd：

用以下公式(5)提取图像梯度S_grd，

第(4.3)步，获取图像VGG16深度特征距离S_vgg：

用以下公式(6)获取图像VGG16深度特征距离S_vgg，

Loss_g＝μed×S_ed+μ_grd×S_grd+μv_gg×S_vgg (7)，

m_t＝β₁m_t-1+(1-β₁)gt (8)，

v_t＝β₂v_t-1+(1-β₂)gt² (9)，

第五步，获得检测视频序列的生成图像

将本实施例的实验结果(表1中简称:Ours)和自编码网络(表1中简称:AE)、生成对抗网络(表1中简称:GAN)以及场景解析网络(表1中简称：PSPNET)等方法在UCSD ped1、ped2以及Avenue数据库上进行了比较，如表1所示：

表1.基于不同图像生成方法的人群异常事件检测结果比较(％)

从表1看出，本实施例提出的基于三维金字塔图像生成网络的人群异常事件检测方法的人群异常事件检测效果优于所有对比方法。

本实施例针对不同损失函数的组合在UCSD ped1数据库上进行了相应的比较，如表2所示：

表2.不同损失函数组合的异常事件检测人群异常事件检测结果(％)

从表2看出使用欧式距离、梯度以及VGG16三部分组成损失函数能使得三维金字塔图像生成模型的识别效果达到最优。

图2显示本实施例所构建成的三维金字塔图像生成网络的组成，其中：

图2-1显示三维金字塔图像生成网络框架，将待检测图像序列F₁,F₂,...,F_t输入→到3DCNN进行时空特征的提取→金字塔池化模块进行不同尺度局部特征的提取并与3DCNN提取的时空特征级联→经过卷积进行上采样，得到生成图像

图2-2显示三维金字塔图像生成网络中3DCNN的网络结构，3DCNN依次由卷积→池化→卷积→池化→卷积这几部分组成。

图2-3显示了3DCNN中三维卷积核提取图像时空特征的过程，图中使用5×5×3方格代表RGB三通道图像，使用一个3×3×3立方体代表三维卷积核，三维卷积核在RGB三通道图像上按照从左到右，从上到下的顺序扫描图像，得到4×4的特征。

图2-4显示了空间金字塔池化模块的结构，金字塔池化模块由四个池化通道组成，每一个池化通道分别进行池化→卷积→上采样过程，最后将四个池化通道的结果和金字塔池化模块输入的特征图进行级联，得到级联特征图。

图3显示本实施例的VGG16网络结构图，使用VGG16第五个池化层进行图像深度特征提取，VGG16网络由卷积和池化层、全连接层组成，VGG16网络的第一层，卷积后的图像大小为224×224像素，通道数为64；VGG16网络的第二层，池化后的图像大小为112×112像素，通道数为64；VGG16网络的第三层，卷积后的图像大小为112×112像素，通道数为128；VGG16网络的第四层，池化后的图像大小为56×56像素，通道数为128；VGG16网络的第五层，卷积后的图像大小为56×56像素，通道数为256；VGG16网络的第六层，池化后的图像大小为28×28像素，通道数为256；VGG16网络的第七层，卷积后的图像大小为28×28像素，通道数为512；VGG16网络的第八层，池化后的图像大小为14×14像素，通道数为512；VGG16网络的第九层，卷积后的图像大小为14×14像素，通道数为512；VGG16网络的第十层，池化后的图像大小为7×7像素，通道数为512；后面连接了全连接层，分别为1×1×4096,1×1×1000。

图4表示本实施例的不同生成网络生成对正常事件生成的图像，其中：

图4-1为原始正常图像，

图4-2为生成对抗网络生成的正常图像，该图像明显发现道路反向了，这也是生成对抗网络存在的主要问题，即存在训练不稳定的现象。

图4-3为自编码网络生成的正常图像，但是该图像中人群数量锐减。

图4-4为场景解析网络生成的正常图像，

图4-5为本实施例生成的正常图像，

图4-5比较图4-4能更好地表现图像的主体区域，可见本实施例生成的正常图像相对比生成对抗网络生成的正常图像、自编码生成的正常图像和场景解析网络生成的正常图像的效果都好。

图5是本实施例的三维金字塔图像生成网络和其它生成网络所生成的异常图像的对照示意图，其中：

图5-1为原始异常图像的示意图；

图5-2为生成对抗网络生成的异常图像的示意图；

图5-3为自编码网络生成的异常图像的示意图；

图5-4为场景解析网络生成的异常图像的示意图；

图5-5为本实施例的三维金字塔图像生成网络生成的异常图像的示意图。

从图5-1～图5-5中看出，本实施例的三维金字塔图像生成网络是基于正常数据进行训练的，因此生成的图像只会包含训练中出现的正常情况，不会生成训练中没有出现过的情况。由于训练数据中是没有包含自行车的图像，因此图5-2、图5-3、图5-4和图5-5方框中应该不会出现自行车，图5-3表示自编码生成网络使用人代替自行车进行生成，黑框中以人代替骑自行车的现象也是有可能的。

上述实施例中，所述3DCNN、空间金字塔池化模块操作、上采样、VGG16和反向传播算法为Adam均为本领域公知的深度学习技术。

Claims

1.基于三维金字塔图像生成网络的人群异常事件检测方法，其特征在于：使用三维金字塔图像生成网络生成图像，通过对比由三维金字塔图像生成网络生成的生成图像和待检测图像之间的差异进行人群异常事件的检测，具体步骤如下：

第一步，将人群活动的视频转换成图像序列：

第二步，获取训练集中的视频训练数据：

第三步，构建三维金字塔图像生成网络：

第(3.1)步，五层3DCNN卷积操作：

F_out＝(F_in+2p-k)/s+1 (1)，

第(3.2)步，四个通道的空间金字塔池化模块操作；

C_out＝(C_in-k)/s+1 (2)，

第(3.3)步，上采样模块操作；

由此完成构建三维金字塔图像生成网络；

第(4.1)步，计算生成图像与真实图像的间欧式距离S_ed：

用以下公式(4)计算生成图像与真实图像间欧式距离S_ed，

第(4.2)步，提取图像梯度S_grd：

用以下公式(5)提取图像梯度S_grd，

第(4.3)步，获取图像VGG16深度特征距离S_vgg：

用以下公式(6)获取图像VGG16深度特征距离S_vgg，

公式(6)中Vgg表示预训练模型，Vgg_I(i,j)表示真实图像对应的VGG16深度特征，表示生成图像对应的VGG16深度特征，R,C表示VGG16深度特征图的尺寸大小；

Loss_g＝μ_ed×S_ed+μ_grd×S_grd+μ_vgg×S_vgg (7)，

m_t＝β₁m_t-1+(1-β₁)gt (8)，

v_t＝β₂v_t-1+(1-β₂)gt² (9)，

公式(10)和公式(11)中，表示校正后的结果，β₁、β₂表示默认参数，α，ε为超参数，最后网络参数的优化为公式(12)如下，

公式(12)中，θ_t为当前的参数权重，θ_t+1为梯度方向下降后的参数权重，以此进行完成上述基于三维金字塔图像生成网络的三维金字塔人群异常事件检测模型的训练操作；

第五步，获得检测视频序列的生成图像