CN116229347A

CN116229347A - 一种人群安全异常事件识别方法

Info

Publication number: CN116229347A
Application number: CN202211696571.4A
Authority: CN
Inventors: 周磊; 周晓; 王磊; 孙岩
Original assignee: Shenyang Zhanyan Technology Co ltd
Current assignee: Shenyang Zhanyan Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-06-06

Abstract

本发明属于人工智能视觉识别及图像处理领域，具体说是一种人群安全异常事件识别方法，包括以下步骤：通过相机获取连续t帧图像，对连续t帧图像进行目标检测，得到t副包含所有的人群区域的人群图像；对人群图像进行人群运动区域选择，获取所有行人运动区域的mask图，再获取t帧的人群运动区域真实图像，作为预测网络模型的输入；建立预测网络模型，将生成的连续t帧人群运动图像输入至预测网络模型，输出生成的预测图像；将待检测图像的真实图像与生成的预测图像进行异常预测，获取其峰值信噪比，并，设定其动态阈值，进而实现对图像进行判定。本发明提出对抗网络来使生成网络能更准确的预测未来帧，使预测误差更能反映出人群异常。

Description

一种人群安全异常事件识别方法

技术领域

本发明属于人工智能视觉识别及图像处理领域，具体说是一种人群安全异常事件识别方法。

背景技术

随着经济的快速发展，在商场、体育场、车站等公共场所中常常存在人流高峰，而这些拥挤的人群对公共安全带来了极大的隐患。如果能够对人群进行监测，及时发现人群异常的行为，就可以及时采取相应的解决方案，避免重大意外事件的发生。因此，为了保障人群安全，维护公共秩序，越来越多的视频监控系统被投入使用。但大多数传统的监控系统都需要专门的人员对监控视频进行人工判断，需要耗费大量的人力，而且人长时间专注于一件事情，可能会疏忽某些异常情况，从而带来严重后果。

人群异常事件检测方式主要有两种：传统方式和基于深度学习方式。传统方式主要从光流、梯度方面进行特征提取，然后利用SVM进行分类。用传统方式进行人群异常事件检测，由于自身算法的特性，只能获得一些简单和基本的特征，无法对图像进行深层次的表达。

发明内容

本发明目的是提供一种基于深度学习方式进行人群异常事件检测方法，提出对抗网络来使生成网络能更准确的预测未来帧，使预测误差更能反映出人群异常。

本发明为实现上述目的所采用的技术方案是：一种人群安全异常事件识别方法，包括以下步骤：

1)通过相机获取连续t帧图像，通过Yolo-V4目标检测算法对连续t帧图像进行目标检测，获取每帧图像的所有行人位置，并排除非人群区域，获取到t副包含所有的人群区域的人群图像；

2)对人群图像进行人群运动区域选择，获取连续t帧所有行人运动区域的mask图像，再根据mask图像计算t帧的人群运动区域真实图像，作为预测网络模型的输入；

3)建立预测网络模型，将生成的t帧的人群运动区域真实图像输入至预测网络模型中，生成下一帧预测图像；

4)将待检测图像的真实图像与生成的预测图像进行异常预测，获取其峰值信噪比，并根据图像的峰值信噪比，设定其动态阈值，进而实现对图像进行判定。

所述步骤2)，具体为：

2-1)选择连续t帧图像信息作为输入，提取人群图像中所有人目标位置，生成人群位置为1和背景位置为0的mask图，取连续t帧mask图的并集，获得人在连续帧的运动区域mask图；

2-2)获取原始图像上对应mask位置的原始信息，原始图像mask位置之外的背景图像设定为黑色，生成连续t帧行人运动区域图像，并输入至预测网络模型中。

所述建立预测网络模型，包括以下步骤：

(1)通过U-Net网络建立预测网络模型的生成网络，通过逐渐降低空间分辨率来提取图像特征，建立编码器；添加通过增加空间分辨率逐渐恢复帧，建立解码器；

(2)采用Pixel2Pixel结构形成的生成对抗网络；

(3)在生成对抗网络中建立相应的损失函数并对损失函数进行训练，以使预测图像更接近于真实图像；

(4)在生成网络中，建立光流估计模型RAFT，并对光流值进行估计；

(5)训练生成对抗网络，完成预测网络模型的建立；

(6)将生成的t帧的人群运动区域真实图像输入至预测网络模型的生成器中，生成下一帧预测图像

步骤(1)中，所述编码器，包括：每一次编码都要经过2个3*3的卷积、一个ReLU激活函数和一个步长为2的下采样，最终通过生成器生成特征图；

所述解码器，包括：每一次解码都由特征图的上采样、2*2上卷积和两个3*3卷积组成，其中2*2上卷积将特征通道的数量减半，2*2上卷积与编码中相应裁剪的特征图相连，每个卷积后面都设置一个ReLU激活函数；在最后一层，使用1x1卷积将每个64个组成要素向量映射到所需的类别数，最终生成预测图。

所述步骤(3)，具体为：

通过梯度惩罚锐化生成器生成的图像，在强度空间中最小化的预测帧

与真实帧I之间的l₂距离，L_int表示强度损失，则强度损失函数为：

为保证生成图像梯度和原始图像梯度一致，设计了梯度损失，对于数字图像，相当于是二维离散函数求梯度，使用差分来近似导数，x方向梯度为|I_i,j-I_i-1,j|，y方向梯度为|I_i,j-I_i,j-1|，分别计算预测帧

梯度和真实帧

梯度，并用预测帧和真实帧梯度差作为梯度损失L_gd，即为：

步骤(4)中，所述建立光流估计模型，具体为：

通过真实下一帧图像I_t+1和当前帧图像I_t的光流值f(I_t+1,I_t)与预测下一帧

与当前真实帧I_t的光流值

得差作为光流损失，其中f代表RAFT光流生成算法，RAFT光流模型需要提前训练完成，具体公式如下，用L_op表示光流损失，即：

所述步骤(5)，具体为：

生成对抗网络包含一个对抗网络D和一个生成网络G，引入对抗网络加入判别器，用于区分出预测帧和真实帧，对于生成器，用于欺骗判别器；

训练生成网络时，固定判别网络参数，优化对抗损失，增加判别器的真假判别能力，并采用均方误差损失计算判别器损失，即：

其中，Y为实际值，取值为{0,1}，

为预测值，取值范围为Y∈[0,1]；

当训练判别器时，对于真实帧I_t+1，判别器D需要判定为1，对于预测帧

使判别器D判定为0，其中，1代表为真，0代表为假，因此对抗损失

表示为：

其中，

为预测帧，I为真实帧，L_MSE()为均方误差损失计算，D(I)_i，j为判别器中的实际帧，

为判别器中的预测帧；

对于生成器，即生成网络U-Net，增加一个对抗损失，使生成帧

为1更接近真实值，采用均方误差损失MES计算对抗损失

根据生成损失和对抗损失得到以下目标函数，包含生成器的目标函数L_G和判别器的目标函数L_D，并交替训练这两个损失，即：

其中，α，β，γ，δ为权重系数，分别取1.0，2.0，0.1和0.5，

为预测下一帧，I_t+1为实际下一帧；

获取到包含生成器的目标函数L_G和判别器的目标函数L_D，完成生成对抗网络的训练。

所述步骤4)，具体为：

4-1)利用预测帧

与其真实帧I之间的差异进行异常预测，根据峰值信噪比，即：

其中，I表示待检测图像，

表示生成图像，

表示生成图像中图像像素点颜色的最大数值，PSNR越大，表示待检测图像I没有发生异常情况的可能性越大；

4-2)将PSNR归一化，表示为Score(t)，即：

4-3)对上述得到的Score(t)，计算ROC，AUC曲线，根据获取阈值Threshold与Score(t)对比大小，如果Score(t)>阈值Threshold则为人群正常图像，反之，则为发生人群异常事件情况的图像。

所述获取阈值Threshold，具体为：

a.统计部分历史数据的psnr值，计算上四分位数Q3，即组数据排序后处于75％位置上的值，下四分位数Q1，即组数据排序后处于25％位置上的值，再计算四分位距IQR＝Q3-Q1，确定内限的最小值Q1-1.5IQR和外限的最小值Q1-3IQR，从而确定两个最低阈值点；

b.根据相机实际安装场景确定选择内限或外限值作为计算的阈值，如果新一帧图像的psnr值高于阈值，判断这帧图像为正常，并把这帧图像的psnr值更新到历史值中，如果新一帧图像psnr值低于阈值，判断这帧图像为异常，同时该帧图像的psnr值不参与历史数据的更新，通过不断循环更新历史psnr值数据，获取最新历史数据的阈值，从而实现获取动态阈值。

本发明具有以下有益效果及优点：

1.本发明使用视频预测框架内解决异常检测问题，提出使用生成对抗网络来对人群运动区域进行预测，除了常用的外观(空间)约束强度和梯度,本项目还引入运动(时间)之间的视频预测执行光流约束预测生成帧。

2.本发明提出对抗网络来使生成网络能更准确的预测未来帧，使预测误差更能反映出人群异常。

3.本发明创新得提出基于AI算法的动态阈值异常检测。通过计算各场景下的实时PSNR值，建立历史数据库，实时更新动态阈值，更好的适用在不同场景中。

附图说明

图1是本发明的方法流程图。

图2是本发明的预测网络模型结构示意图；

图3是本发明的光流估计模型原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示，为本发明的方法流程图，本发明一种人群安全异常事件识别方法，包括以下步骤：

2)对人群图像进行人群运动区域选择，获取连续t帧所有行人运动区域的mask图像，再根据mask图计算t帧的人群运动区域真实图像，作为预测网络模型的输入；

3)建立预测网络模型，将生成的连续t帧人群运动图像输入至预测网络模型，输出生成的预测图像；

步骤1)中，关于行人检测：

本发明中，可以首先对原始图像进行行人检测，从而检测得到原始图像中的人群的区域，例如：运动人群的区域、行驶车辆的区域、飞翔的鸟类区域等等，再对这些区域进行检测识别，排除非人群区域，从而得到包含运动人群的目标区域图像。对目标的检测识别可以基于双阶段目标检测器Faster-RCNN，也可以基于单阶段目标检测器YOLO、SSD等等，本文在此不做具体限制。关于CNN、YOLO、SSD的具体技术细节为本领域的现有技术，本文在此不再赘述。本文选择速度和精度都很好的YOLO-V4目标检测算法，检测出图像中所有行人区域。

步骤2)中，关于人群运动区域选择：

本实施案例中选择连续t帧信息作为特征输入，提取所有人目标位置的mask图，取连续t帧mask图取并集，获得人在连续帧的运动区域mask图，再去原始图像上获得对应mask位置的原始信息，原始图像mask位置之外的背景图像置黑色。

异常检测主要通过自编码方式进行重构或者预测误差对异常值进行计算的，现有的方法大多是基于全图像素值进行预测，但图像包含大量的背景信息，人群信息只是占小部分，异常检测由于复杂的背景信息而不准。本文提出先用yolov4法检测出行人位置，再根据每帧的行人的位置信息计算出行人的运动区域。具体步骤如下：将连续t帧当成一个运动周期，先将t帧图像所有行人检测出来，根据人的位置信息将人和背景区分开来，背景像素置0，行人像素置1，生成连续t帧的mask图像，再将连续t帧图像做逻辑或运算，获得连续t帧行人运动区域的mask图，再去原始图像上获得对应mask位置的原始信息，原始图像mask位置之外的背景图像素置0，最终得到预测网络的输入图像。

步骤3)中，关于预测网络结构：

本发明整个预测网络包含三个部分，生成网络，光流估计，对抗网络。整体结构如图2所示；

生成网络本发明采用UNet网络，主要包含两个模块。一是通过逐渐降低空间分辨率来提取特征的编码器，一种通过增加空间分辨率逐渐恢复帧的解码器。然而，这种解决方案面临着梯度消失问题和每一层的信息不平衡。为了避免这种情况，U-Net提出在高层和低层之间增加一条分辨率相同的快捷方式。这种方法抑制了梯度消失，导致信息对称。在本项目中，本发明略微修改了U-Net，用于生成未来的帧预测。具体来说，对于每两个卷积层，本发明保持输出分辨率不变，在添加快捷方式时，它不再需要裁剪和调整大小操作。输入网络的为连续4帧256*256*3的RGB图像，并在通道层上进行拼接，组成256*256*12的tensor送入网络。在编码部分，每一次编码都要经过2个3*3的卷积，一个ReLU激活函数和一个步长为2的下采样，本案例中设计了4次这样的编码结构，最终生成32*32*512大小的特征图。在解码部分，每一次解码都由特征图的上采样、2*2卷积(“上卷积”)和两个3*3卷积组成，其中2*2卷积将特征通道的数量减半，2*2卷积与编码中相应裁剪的特征图相连，每个卷积后面都有一个ReLU。由于每次卷积都会丢失边界像素，因此裁剪是必要的。在最后一层，使用1x1卷积将每个64个组成要素向量映射到所需的类别数，最终生成256*256*3大小的预测图。

在设计损失函数部分，为了使预测更接近于真实值，本发明使用了强度和梯度差，强度惩罚保证了RGB空间中所有像素的相似性，梯度惩罚可以锐化生成的图像，具体地说，本发明在强度空间中最小化预测帧

与真实帧I之间的l₂距离，L_int表示强度损失，计算公式如下所示：

进一步，本发明为了保证生成图像梯度和原始图像梯度一致，设计了梯度损失，对于数字图像来说，相当于是二维离散函数求梯度，使用差分来近似导数，x方向梯度为|I_i,j-I_i-1,j|，y方向梯度为|I_i,j-I_i,j-1|，分别计算预测帧

梯度和真实帧

梯度，并用预测帧和真实帧梯度差作为梯度损失，L_gd表示梯度损失，具体计算公式如下：

强度损失和梯度损失提取出来的是静态特征，为了保证生成图像更准确，考虑添加运动约束，本案例中使用Recurrent All-Pairs Field Transforms(RAFT)稠密光流估计对前后两帧图像计算光流，RAFT主要包含Feature Encoder模块，Context Encoder模块和4D Correlation Volumes模块，Feature Encoder提取相邻两帧的特征图，ContextEncoder只对第一帧进行特征提取，二者都是CNN-based的网络，可以理解成浅层的自定义ResNet，4D Correlation Volumes是将相邻两帧的特征图逐像素求相关性得到的4D体像素。整体结构如图3所示；

在训练预测网络之前需要先训练光流估计RAFT模型，光流估计模型在公开光流数据集下完成训练，在计算光流损失时，加载RAFT模型完成光流推理计算。本项目中使用真实下一帧I_t+1和当前帧I_t的光流值

与预测下一帧

与当前真实帧I_t的光流值得差作为光流损失，其中f代表RAFT光流生成算法，具体公式如下，用L_op表示光流损失：

为了进一步使生成图像更逼真，这里采用Pixel2Pixel结构的生成对抗网络，通常生成对抗网络(GAN)包含一个对抗网络D和一个生成网络G。本项目引入对抗网络加入判别器，判别器能够区分出预测帧和真实帧，对于生成器，希望其能欺骗判别器。训练生成网络时，固定判别网络参数，优化如下对抗loss，直白来说就是对真实图像，让他分类为真，对生成图像，让他分类为假，即通过训练，增加判别器的真假判别能力，这里用均方误差(MSE)损失计算判别器损失，均方差损失计算公式如下：

其中，Y为实际值，取值为{0,1}，

为预测值，取值范围为Y∈[0,1]；

判别器D需要判定为0，这里1代表为真，0代表为假，因此对抗损失

可以的用如下公式表示：

对于生成器，也就是前文提到的生成网络U-Net，增加一个对抗loss，即想方设法使生成的骗过判别器，使生成帧

为1更接近真实值，这里同样优化一个MSE loss，用

表示对抗损失：

本发明将所有这些关于外观、运动和对抗性训练的约束结合到本发明的目标函数中，并得到以下目标函数，包含生成器的目标函数L_G和判别器的目标函数L_D，并交替训练这两个loss。

其中，α，β，γ，δ为权重系数，本实施例中分别取1.0，2.0，0.1和0.5，

为预测下一帧，I_t+1为实际下一帧；

确定好生成网络和对抗网络损失函数后，交替训练生成和对抗网络，可以看见，整体的框架是GAN网络的形式，包含一个生成器和判别器。训练的时候只学习正常图片，不输入异常图片。有一个假设的前提，异常图片生成的质量没有正常图片生成的好。推理阶段，输入的为连续四帧图片，输入到网络中预测第五帧图片，正常图片生成的质量会更好，异常图片生成的质量相对较差。那么本发明通过评估生成图片和ground truth之间的图像质量差距，就能够判断出异常的图片。本发明通过PSNR来计算图片之间的差距。

关于异常评价指标：

本发明假定正常事件可以很好地预测。因此，本发明可以利用预测帧

与其真实帧I之间的差异进行异常预测，MSE是一种常用的度量预测图像质量的方法，它通过计算RGB颜色空间中所有像素的预测值与其地面真实值之间的欧氏距离来度量。峰值信噪比(PSNR)是一种更好的图像质量评估方法，如下式：

其中，I表示待检测图像，

表示生成图像，

表示生成图像中图像像素点颜色的最大数值，PSNR越大，表示待检测图像I没有发生异常情况的可能性越大，再将PSNR归一化，表示为Score(t)如下，

以此进行归一化操作，对上述得到的Score(t)，计算ROC，AUC曲线，根据计算出来的阈值Threshold对比Score(t)大小，如果Score(t)>Threshold则为人群正常图像，反之则为发生人群异常事件情况的图像。

关于针对于阈值Threshold的设定，阈值Threshold为动态阈值，具体方法如下：

传统的异常检测主要是通过设置固定阈值的方式实现对数据异常监控，阈值往往需要随着实际调整进行手动优化，当固定阈值不满足需求时，可以设计动态阈值异常检测。

本项目采用统计方法Tukey Test检测方法确定动态阈值，具体方式是先统计部分历史数据的psnr值，计算上四分位数Q3，即组数据排序后处于75％位置上的值，下四分位数Q1，即组数据排序后处于25％位置上的值，再计算四分位距IQR＝Q3-Q1，确定内限的最小值Q1-1.5IQR和外限的最小值Q1-3IQR，从而确定两个最低阈值点。根据相机实际安装场景确定选择内限还是外限值作为计算的阈值，如果新一帧图像的psnr值高于阈值，判断这帧图像为正常，并把这帧图像的psnr值更新到历史值中，如果新一帧图像psnr值低于阈值，判断这帧图像为异常，同时这帧的psnr不参与历史数据的更新，通过不断更新历史psnr值数据，不断计算最新历史数据的阈值，从而达到动态阈值的设计。

因此，传统的异常检测主要是通过设置固定阈值的方式实现对数据异常监控，阈值往往需要随着实际调整进行手动优化。本项目使用场景为大型监控场所，包含大量的监控相机，各相机下的监控场景不尽相同，统一适用单一固定阈值或者逐个设置不同场景的固定阈值并不适用，因此本项目中创新得提出基于AI算法的动态阈值异常检测。通过计算各场景下的实时PSNR值，建立历史数据库，实时更新动态阈值，更好的适用在不同场景中。

综上所述，由于训练数据仅仅包含正常事件，而监督方法既需要正样本又需要负样本，因此监督学习方法不适用于此次异常事件检测任务。我们的方法选择半监督深度学习方法，只在人群正常事件数据上进行训练，在推理阶段去预测人群异常。

以上所述仅为本发明的实施方式，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进、扩展等，均包含在本发明的保护范围内。