CN116229347A - 一种人群安全异常事件识别方法 - Google Patents

一种人群安全异常事件识别方法 Download PDF

Info

Publication number
CN116229347A
CN116229347A CN202211696571.4A CN202211696571A CN116229347A CN 116229347 A CN116229347 A CN 116229347A CN 202211696571 A CN202211696571 A CN 202211696571A CN 116229347 A CN116229347 A CN 116229347A
Authority
CN
China
Prior art keywords
image
crowd
frame
images
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211696571.4A
Other languages
English (en)
Inventor
周磊
周晓
王磊
孙岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Zhanyan Technology Co ltd
Original Assignee
Shenyang Zhanyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Zhanyan Technology Co ltd filed Critical Shenyang Zhanyan Technology Co ltd
Priority to CN202211696571.4A priority Critical patent/CN116229347A/zh
Publication of CN116229347A publication Critical patent/CN116229347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能视觉识别及图像处理领域,具体说是一种人群安全异常事件识别方法,包括以下步骤:通过相机获取连续t帧图像,对连续t帧图像进行目标检测,得到t副包含所有的人群区域的人群图像;对人群图像进行人群运动区域选择,获取所有行人运动区域的mask图,再获取t帧的人群运动区域真实图像,作为预测网络模型的输入;建立预测网络模型,将生成的连续t帧人群运动图像输入至预测网络模型,输出生成的预测图像;将待检测图像的真实图像与生成的预测图像进行异常预测,获取其峰值信噪比,并,设定其动态阈值,进而实现对图像进行判定。本发明提出对抗网络来使生成网络能更准确的预测未来帧,使预测误差更能反映出人群异常。

Description

一种人群安全异常事件识别方法
技术领域
本发明属于人工智能视觉识别及图像处理领域,具体说是一种人群安全异常事件识别方法。
背景技术
随着经济的快速发展,在商场、体育场、车站等公共场所中常常存在人流高峰,而这些拥挤的人群对公共安全带来了极大的隐患。如果能够对人群进行监测,及时发现人群异常的行为,就可以及时采取相应的解决方案,避免重大意外事件的发生。因此,为了保障人群安全,维护公共秩序,越来越多的视频监控系统被投入使用。但大多数传统的监控系统都需要专门的人员对监控视频进行人工判断,需要耗费大量的人力,而且人长时间专注于一件事情,可能会疏忽某些异常情况,从而带来严重后果。
人群异常事件检测方式主要有两种:传统方式和基于深度学习方式。传统方式主要从光流、梯度方面进行特征提取,然后利用SVM进行分类。用传统方式进行人群异常事件检测,由于自身算法的特性,只能获得一些简单和基本的特征,无法对图像进行深层次的表达。
发明内容
本发明目的是提供一种基于深度学习方式进行人群异常事件检测方法,提出对抗网络来使生成网络能更准确的预测未来帧,使预测误差更能反映出人群异常。
本发明为实现上述目的所采用的技术方案是:一种人群安全异常事件识别方法,包括以下步骤:
1)通过相机获取连续t帧图像,通过Yolo-V4目标检测算法对连续t帧图像进行目标检测,获取每帧图像的所有行人位置,并排除非人群区域,获取到t副包含所有的人群区域的人群图像;
2)对人群图像进行人群运动区域选择,获取连续t帧所有行人运动区域的mask图像,再根据mask图像计算t帧的人群运动区域真实图像,作为预测网络模型的输入;
3)建立预测网络模型,将生成的t帧的人群运动区域真实图像输入至预测网络模型中,生成下一帧预测图像;
4)将待检测图像的真实图像与生成的预测图像进行异常预测,获取其峰值信噪比,并根据图像的峰值信噪比,设定其动态阈值,进而实现对图像进行判定。
所述步骤2),具体为:
2-1)选择连续t帧图像信息作为输入,提取人群图像中所有人目标位置,生成人群位置为1和背景位置为0的mask图,取连续t帧mask图的并集,获得人在连续帧的运动区域mask图;
2-2)获取原始图像上对应mask位置的原始信息,原始图像mask位置之外的背景图像设定为黑色,生成连续t帧行人运动区域图像,并输入至预测网络模型中。
所述建立预测网络模型,包括以下步骤:
(1)通过U-Net网络建立预测网络模型的生成网络,通过逐渐降低空间分辨率来提取图像特征,建立编码器;添加通过增加空间分辨率逐渐恢复帧,建立解码器;
(2)采用Pixel2Pixel结构形成的生成对抗网络;
(3)在生成对抗网络中建立相应的损失函数并对损失函数进行训练,以使预测图像更接近于真实图像;
(4)在生成网络中,建立光流估计模型RAFT,并对光流值进行估计;
(5)训练生成对抗网络,完成预测网络模型的建立;
(6)将生成的t帧的人群运动区域真实图像输入至预测网络模型的生成器中,生成下一帧预测图像
Figure BDA0004022542830000021
步骤(1)中,所述编码器,包括:每一次编码都要经过2个3*3的卷积、一个ReLU激活函数和一个步长为2的下采样,最终通过生成器生成特征图;
所述解码器,包括:每一次解码都由特征图的上采样、2*2上卷积和两个3*3卷积组成,其中2*2上卷积将特征通道的数量减半,2*2上卷积与编码中相应裁剪的特征图相连,每个卷积后面都设置一个ReLU激活函数;在最后一层,使用1x1卷积将每个64个组成要素向量映射到所需的类别数,最终生成预测图。
所述步骤(3),具体为:
通过梯度惩罚锐化生成器生成的图像,在强度空间中最小化的预测帧
Figure BDA0004022542830000029
与真实帧I之间的l2距离,Lint表示强度损失,则强度损失函数为:
Figure BDA0004022542830000022
为保证生成图像梯度和原始图像梯度一致,设计了梯度损失,对于数字图像,相当于是二维离散函数求梯度,使用差分来近似导数,x方向梯度为|Ii,j-Ii-1,j|,y方向梯度为|Ii,j-Ii,j-1|,分别计算预测帧
Figure BDA0004022542830000023
梯度和真实帧
Figure BDA0004022542830000024
梯度,并用预测帧和真实帧梯度差作为梯度损失Lgd,即为:
Figure BDA0004022542830000025
步骤(4)中,所述建立光流估计模型,具体为:
通过真实下一帧图像It+1和当前帧图像It的光流值f(It+1,It)与预测下一帧
Figure BDA0004022542830000026
与当前真实帧It的光流值
Figure BDA0004022542830000027
得差作为光流损失,其中f代表RAFT光流生成算法,RAFT光流模型需要提前训练完成,具体公式如下,用Lop表示光流损失,即:
Figure BDA0004022542830000028
所述步骤(5),具体为:
生成对抗网络包含一个对抗网络D和一个生成网络G,引入对抗网络加入判别器,用于区分出预测帧和真实帧,对于生成器,用于欺骗判别器;
训练生成网络时,固定判别网络参数,优化对抗损失,增加判别器的真假判别能力,并采用均方误差损失计算判别器损失,即:
Figure BDA0004022542830000031
其中,Y为实际值,取值为{0,1},
Figure BDA0004022542830000032
为预测值,取值范围为Y∈[0,1];
当训练判别器时,对于真实帧It+1,判别器D需要判定为1,对于预测帧
Figure BDA0004022542830000033
使判别器D判定为0,其中,1代表为真,0代表为假,因此对抗损失
Figure BDA0004022542830000034
表示为:
Figure BDA0004022542830000035
其中,
Figure BDA0004022542830000036
为预测帧,I为真实帧,LMSE()为均方误差损失计算,D(I)i,j为判别器中的实际帧,
Figure BDA0004022542830000037
为判别器中的预测帧;
对于生成器,即生成网络U-Net,增加一个对抗损失,使生成帧
Figure BDA0004022542830000038
为1更接近真实值,采用均方误差损失MES计算对抗损失
Figure BDA0004022542830000039
Figure BDA00040225428300000310
根据生成损失和对抗损失得到以下目标函数,包含生成器的目标函数LG和判别器的目标函数LD,并交替训练这两个损失,即:
Figure BDA00040225428300000311
Figure BDA00040225428300000312
其中,α,β,γ,δ为权重系数,分别取1.0,2.0,0.1和0.5,
Figure BDA00040225428300000313
为预测下一帧,It+1为实际下一帧;
获取到包含生成器的目标函数LG和判别器的目标函数LD,完成生成对抗网络的训练。
所述步骤4),具体为:
4-1)利用预测帧
Figure BDA00040225428300000314
与其真实帧I之间的差异进行异常预测,根据峰值信噪比,即:
Figure BDA00040225428300000315
其中,I表示待检测图像,
Figure BDA00040225428300000316
表示生成图像,
Figure BDA00040225428300000317
表示生成图像中图像像素点颜色的最大数值,PSNR越大,表示待检测图像I没有发生异常情况的可能性越大;
4-2)将PSNR归一化,表示为Score(t),即:
Figure BDA00040225428300000318
4-3)对上述得到的Score(t),计算ROC,AUC曲线,根据获取阈值Threshold与Score(t)对比大小,如果Score(t)>阈值Threshold则为人群正常图像,反之,则为发生人群异常事件情况的图像。
所述获取阈值Threshold,具体为:
a.统计部分历史数据的psnr值,计算上四分位数Q3,即组数据排序后处于75%位置上的值,下四分位数Q1,即组数据排序后处于25%位置上的值,再计算四分位距IQR=Q3-Q1,确定内限的最小值Q1-1.5IQR和外限的最小值Q1-3IQR,从而确定两个最低阈值点;
b.根据相机实际安装场景确定选择内限或外限值作为计算的阈值,如果新一帧图像的psnr值高于阈值,判断这帧图像为正常,并把这帧图像的psnr值更新到历史值中,如果新一帧图像psnr值低于阈值,判断这帧图像为异常,同时该帧图像的psnr值不参与历史数据的更新,通过不断循环更新历史psnr值数据,获取最新历史数据的阈值,从而实现获取动态阈值。
本发明具有以下有益效果及优点:
1.本发明使用视频预测框架内解决异常检测问题,提出使用生成对抗网络来对人群运动区域进行预测,除了常用的外观(空间)约束强度和梯度,本项目还引入运动(时间)之间的视频预测执行光流约束预测生成帧。
2.本发明提出对抗网络来使生成网络能更准确的预测未来帧,使预测误差更能反映出人群异常。
3.本发明创新得提出基于AI算法的动态阈值异常检测。通过计算各场景下的实时PSNR值,建立历史数据库,实时更新动态阈值,更好的适用在不同场景中。
附图说明
图1是本发明的方法流程图。
图2是本发明的预测网络模型结构示意图;
图3是本发明的光流估计模型原理示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,为本发明的方法流程图,本发明一种人群安全异常事件识别方法,包括以下步骤:
1)通过相机获取连续t帧图像,通过Yolo-V4目标检测算法对连续t帧图像进行目标检测,获取每帧图像的所有行人位置,并排除非人群区域,获取到t副包含所有的人群区域的人群图像;
2)对人群图像进行人群运动区域选择,获取连续t帧所有行人运动区域的mask图像,再根据mask图计算t帧的人群运动区域真实图像,作为预测网络模型的输入;
3)建立预测网络模型,将生成的连续t帧人群运动图像输入至预测网络模型,输出生成的预测图像;
4)将待检测图像的真实图像与生成的预测图像进行异常预测,获取其峰值信噪比,并根据图像的峰值信噪比,设定其动态阈值,进而实现对图像进行判定。
步骤1)中,关于行人检测:
本发明中,可以首先对原始图像进行行人检测,从而检测得到原始图像中的人群的区域,例如:运动人群的区域、行驶车辆的区域、飞翔的鸟类区域等等,再对这些区域进行检测识别,排除非人群区域,从而得到包含运动人群的目标区域图像。对目标的检测识别可以基于双阶段目标检测器Faster-RCNN,也可以基于单阶段目标检测器YOLO、SSD等等,本文在此不做具体限制。关于CNN、YOLO、SSD的具体技术细节为本领域的现有技术,本文在此不再赘述。本文选择速度和精度都很好的YOLO-V4目标检测算法,检测出图像中所有行人区域。
步骤2)中,关于人群运动区域选择:
本实施案例中选择连续t帧信息作为特征输入,提取所有人目标位置的mask图,取连续t帧mask图取并集,获得人在连续帧的运动区域mask图,再去原始图像上获得对应mask位置的原始信息,原始图像mask位置之外的背景图像置黑色。
异常检测主要通过自编码方式进行重构或者预测误差对异常值进行计算的,现有的方法大多是基于全图像素值进行预测,但图像包含大量的背景信息,人群信息只是占小部分,异常检测由于复杂的背景信息而不准。本文提出先用yolov4法检测出行人位置,再根据每帧的行人的位置信息计算出行人的运动区域。具体步骤如下:将连续t帧当成一个运动周期,先将t帧图像所有行人检测出来,根据人的位置信息将人和背景区分开来,背景像素置0,行人像素置1,生成连续t帧的mask图像,再将连续t帧图像做逻辑或运算,获得连续t帧行人运动区域的mask图,再去原始图像上获得对应mask位置的原始信息,原始图像mask位置之外的背景图像素置0,最终得到预测网络的输入图像。
步骤3)中,关于预测网络结构:
本发明整个预测网络包含三个部分,生成网络,光流估计,对抗网络。整体结构如图2所示;
生成网络本发明采用UNet网络,主要包含两个模块。一是通过逐渐降低空间分辨率来提取特征的编码器,一种通过增加空间分辨率逐渐恢复帧的解码器。然而,这种解决方案面临着梯度消失问题和每一层的信息不平衡。为了避免这种情况,U-Net提出在高层和低层之间增加一条分辨率相同的快捷方式。这种方法抑制了梯度消失,导致信息对称。在本项目中,本发明略微修改了U-Net,用于生成未来的帧预测。具体来说,对于每两个卷积层,本发明保持输出分辨率不变,在添加快捷方式时,它不再需要裁剪和调整大小操作。输入网络的为连续4帧256*256*3的RGB图像,并在通道层上进行拼接,组成256*256*12的tensor送入网络。在编码部分,每一次编码都要经过2个3*3的卷积,一个ReLU激活函数和一个步长为2的下采样,本案例中设计了4次这样的编码结构,最终生成32*32*512大小的特征图。在解码部分,每一次解码都由特征图的上采样、2*2卷积(“上卷积”)和两个3*3卷积组成,其中2*2卷积将特征通道的数量减半,2*2卷积与编码中相应裁剪的特征图相连,每个卷积后面都有一个ReLU。由于每次卷积都会丢失边界像素,因此裁剪是必要的。在最后一层,使用1x1卷积将每个64个组成要素向量映射到所需的类别数,最终生成256*256*3大小的预测图。
在设计损失函数部分,为了使预测更接近于真实值,本发明使用了强度和梯度差,强度惩罚保证了RGB空间中所有像素的相似性,梯度惩罚可以锐化生成的图像,具体地说,本发明在强度空间中最小化预测帧
Figure BDA0004022542830000061
与真实帧I之间的l2距离,Lint表示强度损失,计算公式如下所示:
Figure BDA0004022542830000062
进一步,本发明为了保证生成图像梯度和原始图像梯度一致,设计了梯度损失,对于数字图像来说,相当于是二维离散函数求梯度,使用差分来近似导数,x方向梯度为|Ii,j-Ii-1,j|,y方向梯度为|Ii,j-Ii,j-1|,分别计算预测帧
Figure BDA0004022542830000063
梯度和真实帧
Figure BDA0004022542830000064
梯度,并用预测帧和真实帧梯度差作为梯度损失,Lgd表示梯度损失,具体计算公式如下:
Figure BDA0004022542830000065
强度损失和梯度损失提取出来的是静态特征,为了保证生成图像更准确,考虑添加运动约束,本案例中使用Recurrent All-Pairs Field Transforms(RAFT)稠密光流估计对前后两帧图像计算光流,RAFT主要包含Feature Encoder模块,Context Encoder模块和4D Correlation Volumes模块,Feature Encoder提取相邻两帧的特征图,ContextEncoder只对第一帧进行特征提取,二者都是CNN-based的网络,可以理解成浅层的自定义ResNet,4D Correlation Volumes是将相邻两帧的特征图逐像素求相关性得到的4D体像素。整体结构如图3所示;
在训练预测网络之前需要先训练光流估计RAFT模型,光流估计模型在公开光流数据集下完成训练,在计算光流损失时,加载RAFT模型完成光流推理计算。本项目中使用真实下一帧It+1和当前帧It的光流值
Figure BDA0004022542830000066
与预测下一帧
Figure BDA0004022542830000067
与当前真实帧It的光流值得差作为光流损失,其中f代表RAFT光流生成算法,具体公式如下,用Lop表示光流损失:
Figure BDA0004022542830000068
为了进一步使生成图像更逼真,这里采用Pixel2Pixel结构的生成对抗网络,通常生成对抗网络(GAN)包含一个对抗网络D和一个生成网络G。本项目引入对抗网络加入判别器,判别器能够区分出预测帧和真实帧,对于生成器,希望其能欺骗判别器。训练生成网络时,固定判别网络参数,优化如下对抗loss,直白来说就是对真实图像,让他分类为真,对生成图像,让他分类为假,即通过训练,增加判别器的真假判别能力,这里用均方误差(MSE)损失计算判别器损失,均方差损失计算公式如下:
Figure BDA0004022542830000069
其中,Y为实际值,取值为{0,1},
Figure BDA00040225428300000610
为预测值,取值范围为Y∈[0,1];
当训练判别器时,对于真实帧It+1,判别器D需要判定为1,对于预测帧
Figure BDA00040225428300000611
判别器D需要判定为0,这里1代表为真,0代表为假,因此对抗损失
Figure BDA00040225428300000612
可以的用如下公式表示:
Figure BDA0004022542830000071
对于生成器,也就是前文提到的生成网络U-Net,增加一个对抗loss,即想方设法使生成的骗过判别器,使生成帧
Figure BDA0004022542830000072
为1更接近真实值,这里同样优化一个MSE loss,用
Figure BDA0004022542830000073
表示对抗损失:
Figure BDA0004022542830000074
本发明将所有这些关于外观、运动和对抗性训练的约束结合到本发明的目标函数中,并得到以下目标函数,包含生成器的目标函数LG和判别器的目标函数LD,并交替训练这两个loss。
Figure BDA0004022542830000075
Figure BDA0004022542830000076
其中,α,β,γ,δ为权重系数,本实施例中分别取1.0,2.0,0.1和0.5,
Figure BDA0004022542830000077
为预测下一帧,It+1为实际下一帧;
确定好生成网络和对抗网络损失函数后,交替训练生成和对抗网络,可以看见,整体的框架是GAN网络的形式,包含一个生成器和判别器。训练的时候只学习正常图片,不输入异常图片。有一个假设的前提,异常图片生成的质量没有正常图片生成的好。推理阶段,输入的为连续四帧图片,输入到网络中预测第五帧图片,正常图片生成的质量会更好,异常图片生成的质量相对较差。那么本发明通过评估生成图片和ground truth之间的图像质量差距,就能够判断出异常的图片。本发明通过PSNR来计算图片之间的差距。
关于异常评价指标:
本发明假定正常事件可以很好地预测。因此,本发明可以利用预测帧
Figure BDA00040225428300000712
与其真实帧I之间的差异进行异常预测,MSE是一种常用的度量预测图像质量的方法,它通过计算RGB颜色空间中所有像素的预测值与其地面真实值之间的欧氏距离来度量。峰值信噪比(PSNR)是一种更好的图像质量评估方法,如下式:
Figure BDA0004022542830000078
其中,I表示待检测图像,
Figure BDA0004022542830000079
表示生成图像,
Figure BDA00040225428300000710
表示生成图像中图像像素点颜色的最大数值,PSNR越大,表示待检测图像I没有发生异常情况的可能性越大,再将PSNR归一化,表示为Score(t)如下,
Figure BDA00040225428300000711
以此进行归一化操作,对上述得到的Score(t),计算ROC,AUC曲线,根据计算出来的阈值Threshold对比Score(t)大小,如果Score(t)>Threshold则为人群正常图像,反之则为发生人群异常事件情况的图像。
关于针对于阈值Threshold的设定,阈值Threshold为动态阈值,具体方法如下:
传统的异常检测主要是通过设置固定阈值的方式实现对数据异常监控,阈值往往需要随着实际调整进行手动优化,当固定阈值不满足需求时,可以设计动态阈值异常检测。
本项目采用统计方法Tukey Test检测方法确定动态阈值,具体方式是先统计部分历史数据的psnr值,计算上四分位数Q3,即组数据排序后处于75%位置上的值,下四分位数Q1,即组数据排序后处于25%位置上的值,再计算四分位距IQR=Q3-Q1,确定内限的最小值Q1-1.5IQR和外限的最小值Q1-3IQR,从而确定两个最低阈值点。根据相机实际安装场景确定选择内限还是外限值作为计算的阈值,如果新一帧图像的psnr值高于阈值,判断这帧图像为正常,并把这帧图像的psnr值更新到历史值中,如果新一帧图像psnr值低于阈值,判断这帧图像为异常,同时这帧的psnr不参与历史数据的更新,通过不断更新历史psnr值数据,不断计算最新历史数据的阈值,从而达到动态阈值的设计。
因此,传统的异常检测主要是通过设置固定阈值的方式实现对数据异常监控,阈值往往需要随着实际调整进行手动优化。本项目使用场景为大型监控场所,包含大量的监控相机,各相机下的监控场景不尽相同,统一适用单一固定阈值或者逐个设置不同场景的固定阈值并不适用,因此本项目中创新得提出基于AI算法的动态阈值异常检测。通过计算各场景下的实时PSNR值,建立历史数据库,实时更新动态阈值,更好的适用在不同场景中。
综上所述,由于训练数据仅仅包含正常事件,而监督方法既需要正样本又需要负样本,因此监督学习方法不适用于此次异常事件检测任务。我们的方法选择半监督深度学习方法,只在人群正常事件数据上进行训练,在推理阶段去预测人群异常。
以上所述仅为本发明的实施方式,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进、扩展等,均包含在本发明的保护范围内。

Claims (9)

1.一种人群安全异常事件识别方法,其特征在于,包括以下步骤:
1)通过相机获取连续t帧图像,通过Yolo-V4目标检测算法对连续t帧图像进行目标检测,获取每帧图像的所有行人位置,并排除非人群区域,获取到t副包含所有的人群区域的人群图像;
2)对人群图像进行人群运动区域选择,获取连续t帧所有行人运动区域的mask图像,再根据mask图像计算t帧的人群运动区域真实图像,作为预测网络模型的输入;
3)建立预测网络模型,将生成的t帧的人群运动区域真实图像输入至预测网络模型中,生成下一帧预测图像;
4)将待检测图像的真实图像与生成的预测图像进行异常预测,获取其峰值信噪比,并根据图像的峰值信噪比,设定其动态阈值,进而实现对图像进行判定。
2.根据权利要求1所述的一种人群安全异常事件识别方法,其特征在于,所述步骤2),具体为:
2-1)选择连续t帧图像信息作为输入,提取人群图像中所有人目标位置,生成人群位置为1和背景位置为0的mask图,取连续t帧mask图的并集,获得人在连续帧的运动区域mask图;
2-2)获取原始图像上对应mask位置的原始信息,原始图像mask位置之外的背景图像设定为黑色,生成连续t帧行人运动区域图像,并输入至预测网络模型中。
3.根据权利要求1所述的一种人群安全异常事件识别方法,其特征在于,所述建立预测网络模型,包括以下步骤:
(1)通过U-Net网络建立预测网络模型的生成网络,通过逐渐降低空间分辨率来提取图像特征,建立编码器;添加通过增加空间分辨率逐渐恢复帧,建立解码器;
(2)采用Pixel2Pixel结构形成的生成对抗网络;
(3)在生成对抗网络中建立相应的损失函数并对损失函数进行训练,以使预测图像更接近于真实图像;
(4)在生成网络中,建立光流估计模型RAFT,并对光流值进行估计;
(5)训练生成对抗网络,完成预测网络模型的建立;
(6)将生成的t帧的人群运动区域真实图像输入至预测网络模型的生成器中,生成下一帧预测图像
Figure FDA0004022542820000011
4.根据权利要求3所述的一种人群安全异常事件识别方法,其特征在于,步骤(1)中,所述编码器,包括:每一次编码都要经过2个3*3的卷积、一个ReLU激活函数和一个步长为2的下采样,最终通过生成器生成特征图;
所述解码器,包括:每一次解码都由特征图的上采样、2*2上卷积和两个3*3卷积组成,其中2*2上卷积将特征通道的数量减半,2*2上卷积与编码中相应裁剪的特征图相连,每个卷积后面都设置一个ReLU激活函数;在最后一层,使用1x1卷积将每个64个组成要素向量映射到所需的类别数,最终生成预测图。
5.根据权利要求3所述的一种人群安全异常事件识别方法,其特征在于,所述步骤(3),具体为:
通过梯度惩罚锐化生成器生成的图像,在强度空间中最小化的预测帧
Figure FDA00040225428200000216
与真实帧I之间的l2距离,Lint表示强度损失,则强度损失函数为:
Figure FDA0004022542820000021
为保证生成图像梯度和原始图像梯度一致,设计了梯度损失,对于数字图像,相当于是二维离散函数求梯度,使用差分来近似导数,x方向梯度为|Ii,j-Ii-1,j|,y方向梯度为|Ii,j-Ii,j-1|,分别计算预测帧
Figure FDA00040225428200000217
梯度和真实帧
Figure FDA00040225428200000218
梯度,并用预测帧和真实帧梯度差作为梯度损失Lgd,即为:
Figure FDA0004022542820000022
6.根据权利要求3所述的一种人群安全异常事件识别方法,其特征在于,步骤(4)中,所述建立光流估计模型,具体为:
通过真实下一帧图像It+1和当前帧图像It的光流值f(It+1,It)与预测下一帧
Figure FDA0004022542820000023
与当前真实帧It的光流值
Figure FDA0004022542820000024
得差作为光流损失,其中f代表RAFT光流生成算法,RAFT光流模型需要提前训练完成,具体公式如下,用Lop表示光流损失,即:
Figure FDA0004022542820000025
7.根据权利要求3所述的一种人群安全异常事件识别方法,其特征在于,所述步骤(5),具体为:
生成对抗网络包含一个对抗网络D和一个生成网络G,引入对抗网络加入判别器,用于区分出预测帧和真实帧,对于生成器,用于欺骗判别器;
训练生成网络时,固定判别网络参数,优化对抗损失,增加判别器的真假判别能力,并采用均方误差损失计算判别器损失,即:
Figure FDA0004022542820000026
其中,Y为实际值,取值为{0,1},
Figure FDA0004022542820000027
为预测值,取值范围为Y∈[0,1];
当训练判别器时,对于真实帧It+1,判别器D需要判定为1,对于预测帧
Figure FDA0004022542820000028
使判别器D判定为0,其中,1代表为真,0代表为假,因此对抗损失
Figure FDA0004022542820000029
表示为:
Figure FDA00040225428200000210
其中,
Figure FDA00040225428200000211
为预测帧,I为真实帧,LMSE()为均方误差损失计算,D(I)i,j为判别器中的实际帧,
Figure FDA00040225428200000212
为判别器中的预测帧;
对于生成器,即生成网络U-Net,增加一个对抗损失,使生成帧
Figure FDA00040225428200000213
为1更接近真实值,采用均方误差损失MES计算对抗损失
Figure FDA00040225428200000214
Figure FDA00040225428200000215
根据生成损失和对抗损失得到以下目标函数,包含生成器的目标函数LG和判别器的目标函数LD,并交替训练这两个损失,即:
Figure FDA0004022542820000031
Figure FDA0004022542820000032
其中,a,β,γ,δ为权重系数,分别取1.0,2.0,0.1和0.5,
Figure FDA0004022542820000033
为预测下一帧,It+1为实际下一帧;
获取到包含生成器的目标函数LG和判别器的目标函数LD,完成生成对抗网络的训练。
8.根据权利要求1所述的一种人群安全异常事件识别方法,其特征在于,所述步骤4),具体为:
4-1)利用预测帧
Figure FDA0004022542820000038
与其真实帧I之间的差异进行异常预测,根据峰值信噪比,即:
Figure FDA0004022542820000034
其中,I表示待检测图像,
Figure FDA0004022542820000035
表示生成图像,
Figure FDA0004022542820000036
表示生成图像中图像像素点颜色的最大数值,PSNR越大,表示待检测图像I没有发生异常情况的可能性越大;
4-2)将PSNR归一化,表示为Score(t),即:
Figure FDA0004022542820000037
4-3)对上述得到的Score(t),计算ROC,AUC曲线,根据获取阈值Threshold与Score(t)对比大小,如果Score(t)>阈值Threshold则为人群正常图像,反之,则为发生人群异常事件情况的图像。
9.根据权利要求8所述的一种人群安全异常事件识别方法,其特征在于,所述获取阈值Threshold,具体为:
a.统计部分历史数据的psnr值,计算上四分位数Q3,即组数据排序后处于75%位置上的值,下四分位数Q1,即组数据排序后处于25%位置上的值,再计算四分位距IQR=Q3-Q1,确定内限的最小值Q1-1.5IQR和外限的最小值Q1-3IQR,从而确定两个最低阈值点;
b.根据相机实际安装场景确定选择内限或外限值作为计算的阈值,如果新一帧图像的psnr值高于阈值,判断这帧图像为正常,并把这帧图像的psnr值更新到历史值中,如果新一帧图像psnr值低于阈值,判断这帧图像为异常,同时该帧图像的psnr值不参与历史数据的更新,通过不断循环更新历史psnr值数据,获取最新历史数据的阈值,从而实现获取动态阈值。
CN202211696571.4A 2022-12-28 2022-12-28 一种人群安全异常事件识别方法 Pending CN116229347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211696571.4A CN116229347A (zh) 2022-12-28 2022-12-28 一种人群安全异常事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211696571.4A CN116229347A (zh) 2022-12-28 2022-12-28 一种人群安全异常事件识别方法

Publications (1)

Publication Number Publication Date
CN116229347A true CN116229347A (zh) 2023-06-06

Family

ID=86577640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211696571.4A Pending CN116229347A (zh) 2022-12-28 2022-12-28 一种人群安全异常事件识别方法

Country Status (1)

Country Link
CN (1) CN116229347A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117278643A (zh) * 2023-11-20 2023-12-22 杭州广安汽车电器有限公司 基于云边协同的车载云标定数据传输系统
CN117724137A (zh) * 2023-11-21 2024-03-19 江苏北斗星通汽车电子有限公司 一种基于多模态传感器的汽车事故自动检测系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117278643A (zh) * 2023-11-20 2023-12-22 杭州广安汽车电器有限公司 基于云边协同的车载云标定数据传输系统
CN117278643B (zh) * 2023-11-20 2024-01-26 杭州广安汽车电器有限公司 基于云边协同的车载云标定数据传输系统
CN117724137A (zh) * 2023-11-21 2024-03-19 江苏北斗星通汽车电子有限公司 一种基于多模态传感器的汽车事故自动检测系统及方法

Similar Documents

Publication Publication Date Title
CN116229347A (zh) 一种人群安全异常事件识别方法
CN113223059A (zh) 基于超分辨率特征增强的弱小空域目标检测方法
CN111626199B (zh) 面向大型多人车厢场景的异常行为分析方法
CN113536972B (zh) 一种基于目标域伪标签的自监督跨域人群计数方法
CN113313037A (zh) 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN115311241B (zh) 一种基于图像融合和特征增强的煤矿井下行人检测方法
CN103425967A (zh) 一种基于行人检测和跟踪的人流监控方法
CN114067251B (zh) 一种无监督监控视频预测帧异常检测方法
CN114298948A (zh) 基于PSPNet-RCNN的球机监控异常检测方法
CN111160100A (zh) 一种基于样本生成的轻量级深度模型航拍车辆检测方法
CN118297984A (zh) 智慧城市摄像机多目标追踪方法及系统
Liu et al. [Retracted] Self‐Correction Ship Tracking and Counting with Variable Time Window Based on YOLOv3
CN115116137A (zh) 基于轻量化YOLO v5网络模型与时空记忆机制的行人检测方法
CN114821434A (zh) 一种基于光流约束的时空增强视频异常检测方法
Roy et al. Transformer-based Flood Scene Segmentation for Developing Countries
CN116665015A (zh) 一种基于YOLOv5的红外序列图像弱小目标检测方法
CN107665325A (zh) 基于原子特征袋模型的视频异常事件检测方法及系统
CN112183310B (zh) 冗余监控画面过滤及无效监控画面筛选的方法及系统
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法
CN114708544A (zh) 一种基于边缘计算的违规行为智能监测头盔及其监测方法
Xiang et al. A new model for daytime visibility index estimation fused average sobel gradient and dark channel ratio
Shen et al. Lfnet: Lightweight fire smoke detection for uncertain surveillance environment
Hayat et al. Mask R-CNN based real time near drowning person detection system in swimming pools
Padmaja et al. Crowd abnormal behaviour detection using convolutional neural network and bidirectional LSTM
CN116665016B (zh) 一种基于改进YOLOv5的单帧红外弱小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination