CN114241408A - 基于视听学习的人群异常事件检测方法 - Google Patents

基于视听学习的人群异常事件检测方法 Download PDF

Info

Publication number
CN114241408A
CN114241408A CN202111515972.0A CN202111515972A CN114241408A CN 114241408 A CN114241408 A CN 114241408A CN 202111515972 A CN202111515972 A CN 202111515972A CN 114241408 A CN114241408 A CN 114241408A
Authority
CN
China
Prior art keywords
audio
network
crowd
inputting
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111515972.0A
Other languages
English (en)
Inventor
李学龙
高君宇
杨思宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111515972.0A priority Critical patent/CN114241408A/zh
Publication of CN114241408A publication Critical patent/CN114241408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D‑ResNet网络中进行特征提取,得到视频表征;最后,融合两类特征,并将其输入到分类网络,得到事件类别预测结果。本发明是一种多模态学习方法,可以更加有效地用于人群分析中的异常事件检测。

Description

基于视听学习的人群异常事件检测方法
技术领域
本发明属计算机视觉、智能视频分析技术领域,具体涉及一种基于视听学习的人群异常事件检测方法。
背景技术
人群分析是公共安全领域的一项基本任务,包括人群计数、人群定位、人群异常事件检测、人群流/人群运动分析、人群分割、群体检测等。而异常事件检测是人群场景安全预警的一项基本任务。对正在发生的异常事件及时报警对于确保公共安全至关重要。
目前的异常检测方法主要分为局部分析和全局分析两大类。局部分析方法是检测发生异常事件的异常对象,如卡车或人群中的行人,并定位异常发生的位置。如Liao等人在文献“H.Liao,J.Xiang,W.Sun,Q.Feng,and J.Dai,‘An abnormal event recognition incrowd scene,’in Sixth International Conference on Image and Graphics,ICIG2011,Hefei,Anhui,China,August 12-15,2011.IEEE Computer Society,2011,pp.731-736.”中提出的使用视频描述符检测视频帧中的打架事件。全局分析方法通常是分析整个视频片段并预测视频片段中是否存在异常事件。全局分析方法有三种典型方案:基于轨迹点、基于光流和基于分类。如Mehran等人在文献“R.Mehran,A.Oyama,and M.Shah,‘Abnormal crowd behavior detection using social force model,’in 2009IEEEComputer Society Conference on Computer Vision and Pattern Recognition(CVPR2009),20-25June 2009,Miami,Florida,USA.IEEE Computer Society,2009,pp.935-942.”中利用人群视频片段中提取的目标轨迹进行异常检测;Helbinge等人提出了一种典型的基于轨迹点的描述人群相互作用的社会力模型方法;受Helbinge等人的启发,Mehran和Zhang等人将社会力量模型引入到视频中的社会事件分析中;Cui等人在文献“J.Cui,W.Liu,and W.Xing,‘Crowd behaviors analysis and abnormal detection based onsurveillance data,’J.Vis.Lang.Comput.,vol.25,no.6,pp.628-636,2014.”中尝试使用模糊c均值聚类的方法对轨迹进行聚类,并通过聚类预测输入轨迹的类别;Du等人提出了一种名为DSFA的变化检测器,它利用两个对称流和慢速特征分析模块来获得更好的遥感图像变化性能。
由于基于统计的方法对异常事件的定义不明确、不成熟,Demarty等人和Sultani等人分别提出了用于人群场景异常事件检测的VSD和UCFCrime数据集,其中分别包含7种和13种不同类型的异常事件。这两个数据集中的视频片段来自互联网上的电影和视频。上述数据集对人群中的异常事件进行了详细定义,将异常检测任务引入到视频分类任务中。然而当一个异常事件发生时,它往往伴随着一些特殊的声音。视听多模态联合学习是试图从视觉和听觉模态中学习到特殊任务的表征。近年来,视听多模态学习被应用于一般的场景中。Owenset等人,试图将知识从音频学习转移到视频学习;Arandjelovic等人通过视听关系分析视频。同时,这项工作被用于声音定位和视听分离。
然而,在人群分析领域,目前只有一种结合视觉和听觉信息的方法,是Hu等人在文献“D.Hu,L.Mou,Q.Wang,J.Gao,Y.Hua,D.Dou,and X.Zhu,‘Ambient sound helps:Audiovisual crowd counting in extreme conditions,’arXiv preprint arXiv:2005.07097,2020.”中提出的方法,该方法提出了一种多模式学习,以同时对静止图像和环境声音进行编码。该方法大大减少了极端条件下人群计数的估计误差。而传统的人群场景中的异常检测方法没有考虑到音频数据的影响,具有一定的局限性。
发明内容
为了克服现有技术的不足,本发明提供一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D-ResNet网络中进行特征提取,得到视频表征;最后,融合两类特征,并将其输入到分类网络,得到事件类别预测结果。本发明是一种多模态学习方法,可以更加有效的用于人群分析中的异常事件检测。
一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;
步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;
步骤4:将步骤3处理后的视频序列输入到3D-ResNet网络中进行特征提取,得到视频表征;
步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;
步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。
进一步地,步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。
进一步地,步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分析后处理部分,并在其输出上沿通道施加全局平均池化,并利用公开的Audio Set数据集进行预训练。
进一步地,步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240,并以0.5的概率对所有图像进行随机水平翻转;所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。
进一步地,步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。
进一步地,步骤5中所述的融合处理是采用特征拼接融合方式。
进一步地,步骤6中所述的分类网络采用全连接网络,其损失函数采用交叉熵损失。
本发明的有益效果是:由于采用融合时空3D-CNN特征和时空音频特征的多模态学习方式,能够有效实现视觉和音频表达的平衡,获得更好的异常检测精度。
附图说明
图1是本发明基于视听学习的人群异常事件检测方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供了一种基于视听学习的人群异常事件检测方法。面向复杂人群场景,本发明通过融合视频表征学习和音频表征学习模块完成异常事件检测的目标。由于本发明采用了全新的融合视听表征学习方式,而且两个阶段分别针对视频序列和音频信号进行了训练与特定的方法模型设计,最终能够达到较好的异常事件检测效果,提升方法在复杂场景中的鲁棒性与表征精度。如图1所示,其具体实现过程如下:
基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换。比如,进行16kHz重采样,再通过带有Hann窗口的短时傅里叶变换(STFT)获得重采样音频信号的时频图。
步骤2:将音频预处理后的对数梅尔谱图(LMS)输入VGGish网络进行特征提取,得到音频表征。对数梅尔谱图(LMS)的特征
Figure BDA0003392720810000041
是二维的,基于CNN的方法可以很容易地从音频信号中提取隐藏特征。
进一步地,本发明的音频表征学习模块去掉了VGGish的主成分分析(PCA)的后处理;由于音频长度的差异,对数梅尔谱图(LMS)特征具有不同的形状,因此,本发明在音频表示的输出上沿通道施加全局平均池化(GAP),使音频表征fa成为一个统一的大小Ca×1;并在Audio Set数据集上对VGGish进行预训练,以此作为本申请的音频表征学习模块
Figure BDA0003392720810000042
音频表征提取定义为:
Figure BDA0003392720810000043
其中,
Figure BDA0003392720810000044
是音频表征,并且在VGGish网络中Ca=512。
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换。空间变换是将输入的视频序列调整为240×240,并以0.5的概率进行随机水平翻转。时间变换是以固定的步长从整个视频序列中采样,将具有L帧的输入视频序列采样到固定长度T(T=50)。
步骤4:将步骤3处理后的定长的视频序列
Figure BDA0003392720810000045
传递至视觉表征学习模块
Figure BDA0003392720810000046
即输入到在UCF-101数据集上预训练后的3D-ResNet网络中,通过3D卷积进行特征提取。通过以下等式进行提取视觉表征fv
Figure BDA0003392720810000047
3D-ResNet是一种广泛应用于视频视觉任务的深度学习模型。3D-ResNet是将ResNet中传统的二维卷积层替换为三维卷积层,在CNNs中引入了时间相关性。3D卷积滤波器是在2D卷积滤波器中增加了一个额外的长度维度。具体来说,假设在ith3D卷积层输出的jth特征图上,
Figure BDA0003392720810000048
是其特征图映射到位置(x,y,z)处的值,以及ith层输入特征通道数为C,而3D卷积滤波器高为H、宽为W、长为L。则3D卷积如下公式所示:
Figure BDA0003392720810000049
其中,wij和bij分别表示卷积滤波器的权重和偏差。
步骤5:将两个模块传递的特征表征进行融合,通过拼接融合将该多模态特征传递到分类网络
Figure BDA0003392720810000051
中,检测视频中是否发生异常事件。分类网络
Figure BDA0003392720810000052
采用一个简单的全连接网络。涉及到的公式如下所示:
Figure BDA0003392720810000053
其中,
Figure BDA0003392720810000054
表示事件类别预测,N表示数据集中的类别数,Cat表示特征串联操作。
人群场景异常事件检测是一项视频分类任务。为了找到异常事件,模型需要判断视频中的动作是否属于异常事件,如射击、散开、打斗等。给定一个具有类别的视频和一个预测类别p,本发明选择交叉熵损失,这是一种典型的分类任务损失函数。损失函数
Figure BDA0003392720810000055
定义为:
Figure BDA0003392720810000056
其中,M表示网络训练最小批处理大小,N表示类别数量,y表示视频类别,p表示预测的视频类别。
为验证本发明方法有效性,在
Figure BDA0003392720810000057
i7-6900K@3.4GHz,64GB RAM,2个NVIDIA GTX 1080Ti GPU,Ubuntu 16.04系统环境上进行仿真实验。实验中使用的数据集为SHADE Dataset,该数据集由Lin等人在文献“W.Lin,J.Gao,Q.Wang,and X.Li,‘Learningto detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中提出,在名为Grand Theft Auto V(GTA5)的视频游戏中生成的,包括2149个视频(879932帧,大小为1920×1080)。SHADE中的视频分为九类:逮捕、追捕、打架、击倒、逃跑、射击、散开、正常类型1和正常类型2。每个类别包含大约200个不同天气条件(雨、雾、晴等)和不同发生时间的视频。有1701个视频(约80%)用于训练,其余448个视频(约20%)用于验证或测试。同时,从视频中提取音频,用于音频表征学习模块的训练。
首先,利用训练数据训练好本发明模型;然后,利用联合模型对测试集进行测试,并计算出不同类别的分类精度。在实验中,分别衡量了每个类别的Top-1准确度。为了证明算法的有效性,比较了几种基于视觉的视频分类模型的性能,如MLP方法、LSTM方法、LRCN方法、3D-ResNet方法和N3D-ResNet方法。其中,MLP方法记载在文献“P.Allan,‘Approximation theory of the MLP model in neural networks.’Acta Numerica,vol.8,pp.143-195,1999.”中;LSTM方法记载在文献“H.Sak,A.W.Senior,and F.Beaufays,‘Long short-term memory recurrent neural network architectures for largescale acoustic modeling,’in INTERSPEECH 2014,15th Annual Conference of theInternational Speech Communication Association,Singapore,September 14-18,2014,H.Li,H.M.Meng,B.Ma,E.Chng,and L.Xie,Eds.ISCA,2014,pp.338-342.”中;LRCN方法记载在文献“J.Donahue,L.A.Hendricks,M.Rohrbach,S.V enugopalan,S.Guadar-rama,K.Saenko,and T.Darrell,‘Long-term recurrent convolutional networks for visualrecognition and description,’IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.4,pp.677-691,2017.”中;3D-ResNet方法记载在文献“K.Hara,H.Kataoka,andY.Satoh,‘Learning spatio-temporal features with 3d residual networks foraction recognition,’in 2017IEEE Inter-national Conference on Computer VisionWorkshops,ICCV Workshops 2017,Venice,Italy,October22-29,2017.IEEE ComputerSociety,2017,pp.3154-3160.”中;N3D-ResNet方法记载在文献“W.Lin,J.Gao,Q.Wang,andX.Li,‘Learning to detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中。对比结果如表1所示。可以看出,与最新的N3D-ResNet方法相比,本发明方法在大多数类别上实现了更高的Top-1精度,并且仅在逃跑和追捕两个类别上低于N3D-ResNet方法。本发明方法将音频表征学习模块和应用基于视觉方法的3D-ResNet的视频表征学习模块结合起来,并使用一个非常简单的融合模块,在事件分类的Top-1准确性方面取得了显著进步。如射击、分散、逮捕和击倒这类具有特殊环境声音的事件,在事件分类准确性方面就有显著的增加,这意味着本发明方法能够学习到有助于有效进行分类的音频信号中的鉴别特征。同时,尽管本发明只用一种简单的连接方法来融合音频和视频表征,但是获得了很大的改进,这显示出多模态学习在异常事件检测中的优越性。
表1
Figure BDA0003392720810000061
Figure BDA0003392720810000071

Claims (7)

1.一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;
步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;
步骤4:将步骤3处理后的视频序列输入到3D-ResNet网络中进行特征提取,得到视频表征;
步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;
步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。
2.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。
3.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分析后处理部分,并在其输出上沿通道施加全局平均池化,并利用公开的Audio Set数据集进行预训练。
4.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240,并以0.5的概率对所有图像进行随机水平翻转;所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。
5.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。
6.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤5中所述的融合处理是采用特征拼接融合方式。
7.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤6中所述的分类网络采用全连接网络,其损失函数采用交叉熵损失。
CN202111515972.0A 2021-12-06 2021-12-06 基于视听学习的人群异常事件检测方法 Pending CN114241408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111515972.0A CN114241408A (zh) 2021-12-06 2021-12-06 基于视听学习的人群异常事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111515972.0A CN114241408A (zh) 2021-12-06 2021-12-06 基于视听学习的人群异常事件检测方法

Publications (1)

Publication Number Publication Date
CN114241408A true CN114241408A (zh) 2022-03-25

Family

ID=80755122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111515972.0A Pending CN114241408A (zh) 2021-12-06 2021-12-06 基于视听学习的人群异常事件检测方法

Country Status (1)

Country Link
CN (1) CN114241408A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118228194A (zh) * 2024-04-02 2024-06-21 北京科技大学 一种融合时空图注意力网络的多模态人格预测方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118228194A (zh) * 2024-04-02 2024-06-21 北京科技大学 一种融合时空图注意力网络的多模态人格预测方法和系统

Similar Documents

Publication Publication Date Title
D’Eusanio et al. A transformer-based network for dynamic hand gesture recognition
CN112016500A (zh) 基于多尺度时间信息融合的群体异常行为识别方法及系统
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN112634329B (zh) 一种基于时空与或图的场景目标活动预测方法及装置
CN108416780B (zh) 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法
CN107506734A (zh) 一种群体突发异常事件检测与定位方法
CN108830170B (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
Jiang et al. A self-attention network for smoke detection
CN115861772A (zh) 基于RetinaNet的多尺度单阶段目标检测方法
Rehman et al. Multi-modal anomaly detection by using audio and visual cues
CN114879891B (zh) 一种自监督多目标跟踪下的多模态人机互动方法
CN110991278A (zh) 计算机视觉系统的视频中人体动作识别方法和装置
CN104504367B (zh) 一种基于级联字典的人群异常检测方法及系统
Fei et al. Flow-pose Net: An effective two-stream network for fall detection
Leyva et al. Abnormal event detection in videos using binary features
Gao et al. Audio–visual representation learning for anomaly events detection in crowds
Fang et al. Vision-based traffic accident detection and anticipation: A survey
Qian et al. A fire monitoring and alarm system based on channel-wise pruned YOLOv3
CN114241408A (zh) 基于视听学习的人群异常事件检测方法
Kanu-Asiegbu et al. Leveraging trajectory prediction for pedestrian video anomaly detection
CN114038011A (zh) 一种室内场景下人体异常行为的检测方法
Xin et al. Surface defect detection with channel-spatial attention modules and bi-directional feature pyramid
Adewopo et al. Baby physical safety monitoring in smart home using action recognition system
Sha et al. An improved two-stream CNN method for abnormal behavior detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination