CN114241408A

CN114241408A - 基于视听学习的人群异常事件检测方法

Info

Publication number: CN114241408A
Application number: CN202111515972.0A
Authority: CN
Inventors: 李学龙; 高君宇; 杨思宇
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-25

Abstract

本发明提供了一种基于视听学习的人群异常事件检测方法。首先，对音频信号进行预处理，再将其对数梅尔谱图输入VGGish网络进行特征提取，得到音频表征；然后，对视频序列进行空间变换和时间变换，再将其输入到3D‑ResNet网络中进行特征提取，得到视频表征；最后，融合两类特征，并将其输入到分类网络，得到事件类别预测结果。本发明是一种多模态学习方法，可以更加有效地用于人群分析中的异常事件检测。

Description

基于视听学习的人群异常事件检测方法

技术领域

本发明属计算机视觉、智能视频分析技术领域，具体涉及一种基于视听学习的人群异常事件检测方法。

背景技术

人群分析是公共安全领域的一项基本任务，包括人群计数、人群定位、人群异常事件检测、人群流/人群运动分析、人群分割、群体检测等。而异常事件检测是人群场景安全预警的一项基本任务。对正在发生的异常事件及时报警对于确保公共安全至关重要。

目前的异常检测方法主要分为局部分析和全局分析两大类。局部分析方法是检测发生异常事件的异常对象，如卡车或人群中的行人，并定位异常发生的位置。如Liao等人在文献“H.Liao,J.Xiang,W.Sun,Q.Feng,and J.Dai,‘An abnormal event recognition incrowd scene,’in Sixth International Conference on Image and Graphics,ICIG2011,Hefei,Anhui,China,August 12-15,2011.IEEE Computer Society,2011,pp.731-736.”中提出的使用视频描述符检测视频帧中的打架事件。全局分析方法通常是分析整个视频片段并预测视频片段中是否存在异常事件。全局分析方法有三种典型方案：基于轨迹点、基于光流和基于分类。如Mehran等人在文献“R.Mehran,A.Oyama,and M.Shah,‘Abnormal crowd behavior detection using social force model,’in 2009IEEEComputer Society Conference on Computer Vision and Pattern Recognition(CVPR2009),20-25June 2009,Miami,Florida,USA.IEEE Computer Society,2009,pp.935-942.”中利用人群视频片段中提取的目标轨迹进行异常检测；Helbinge等人提出了一种典型的基于轨迹点的描述人群相互作用的社会力模型方法；受Helbinge等人的启发，Mehran和Zhang等人将社会力量模型引入到视频中的社会事件分析中；Cui等人在文献“J.Cui,W.Liu,and W.Xing,‘Crowd behaviors analysis and abnormal detection based onsurveillance data,’J.Vis.Lang.Comput.,vol.25,no.6,pp.628-636,2014.”中尝试使用模糊c均值聚类的方法对轨迹进行聚类，并通过聚类预测输入轨迹的类别；Du等人提出了一种名为DSFA的变化检测器，它利用两个对称流和慢速特征分析模块来获得更好的遥感图像变化性能。

由于基于统计的方法对异常事件的定义不明确、不成熟，Demarty等人和Sultani等人分别提出了用于人群场景异常事件检测的VSD和UCFCrime数据集，其中分别包含7种和13种不同类型的异常事件。这两个数据集中的视频片段来自互联网上的电影和视频。上述数据集对人群中的异常事件进行了详细定义，将异常检测任务引入到视频分类任务中。然而当一个异常事件发生时，它往往伴随着一些特殊的声音。视听多模态联合学习是试图从视觉和听觉模态中学习到特殊任务的表征。近年来，视听多模态学习被应用于一般的场景中。Owenset等人，试图将知识从音频学习转移到视频学习；Arandjelovic等人通过视听关系分析视频。同时，这项工作被用于声音定位和视听分离。

然而，在人群分析领域，目前只有一种结合视觉和听觉信息的方法，是Hu等人在文献“D.Hu,L.Mou,Q.Wang,J.Gao,Y.Hua,D.Dou,and X.Zhu,‘Ambient sound helps:Audiovisual crowd counting in extreme conditions,’arXiv preprint arXiv:2005.07097,2020.”中提出的方法，该方法提出了一种多模式学习，以同时对静止图像和环境声音进行编码。该方法大大减少了极端条件下人群计数的估计误差。而传统的人群场景中的异常检测方法没有考虑到音频数据的影响，具有一定的局限性。

发明内容

为了克服现有技术的不足，本发明提供一种基于视听学习的人群异常事件检测方法。首先，对音频信号进行预处理，再将其对数梅尔谱图输入VGGish网络进行特征提取，得到音频表征；然后，对视频序列进行空间变换和时间变换，再将其输入到3D-ResNet网络中进行特征提取，得到视频表征；最后，融合两类特征，并将其输入到分类网络，得到事件类别预测结果。本发明是一种多模态学习方法，可以更加有效的用于人群分析中的异常事件检测。

一种基于视听学习的人群异常事件检测方法，其特征在于步骤如下：

步骤1：输入人群事件视频中的音频信号，对音频信号进行重采样和短时傅里叶变换；

步骤2：将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取，得到音频表征；

步骤3：输入人群事件视频序列，对视频序列进行空间变换和时间变换；

步骤4：将步骤3处理后的视频序列输入到3D-ResNet网络中进行特征提取，得到视频表征；

步骤5：将音频表征和视频表征进行融合处理，得到融合后的特征；

步骤6：将融合后的特征输入到分类网络，得到事件类别预测结果。

进一步地，步骤1中所述的重采样是对音频信号进行16kHz重采样；所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。

进一步地，步骤2中所述的特征提取采用改进的VGGish网络，去掉VGGish网络的主成分分析后处理部分，并在其输出上沿通道施加全局平均池化，并利用公开的Audio Set数据集进行预训练。

进一步地，步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240，并以0.5的概率对所有图像进行随机水平翻转；所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。

进一步地，步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。

进一步地，步骤5中所述的融合处理是采用特征拼接融合方式。

进一步地，步骤6中所述的分类网络采用全连接网络，其损失函数采用交叉熵损失。

本发明的有益效果是：由于采用融合时空3D-CNN特征和时空音频特征的多模态学习方式，能够有效实现视觉和音频表达的平衡，获得更好的异常检测精度。

附图说明

图1是本发明基于视听学习的人群异常事件检测方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于视听学习的人群异常事件检测方法。面向复杂人群场景，本发明通过融合视频表征学习和音频表征学习模块完成异常事件检测的目标。由于本发明采用了全新的融合视听表征学习方式，而且两个阶段分别针对视频序列和音频信号进行了训练与特定的方法模型设计，最终能够达到较好的异常事件检测效果，提升方法在复杂场景中的鲁棒性与表征精度。如图1所示，其具体实现过程如下：

基于视听学习的人群异常事件检测方法，其特征在于步骤如下：

步骤1：输入人群事件视频中的音频信号，对音频信号进行重采样和短时傅里叶变换。比如，进行16kHz重采样，再通过带有Hann窗口的短时傅里叶变换(STFT)获得重采样音频信号的时频图。

步骤2：将音频预处理后的对数梅尔谱图(LMS)输入VGGish网络进行特征提取，得到音频表征。对数梅尔谱图(LMS)的特征

是二维的，基于CNN的方法可以很容易地从音频信号中提取隐藏特征。

进一步地，本发明的音频表征学习模块去掉了VGGish的主成分分析(PCA)的后处理；由于音频长度的差异，对数梅尔谱图(LMS)特征具有不同的形状，因此，本发明在音频表示的输出上沿通道施加全局平均池化(GAP)，使音频表征f_a成为一个统一的大小C_a×1；并在Audio Set数据集上对VGGish进行预训练，以此作为本申请的音频表征学习模块

音频表征提取定义为：

其中，

是音频表征，并且在VGGish网络中C_a＝512。

步骤3：输入人群事件视频序列，对视频序列进行空间变换和时间变换。空间变换是将输入的视频序列调整为240×240，并以0.5的概率进行随机水平翻转。时间变换是以固定的步长从整个视频序列中采样，将具有L帧的输入视频序列采样到固定长度T(T＝50)。

步骤4：将步骤3处理后的定长的视频序列

传递至视觉表征学习模块

即输入到在UCF-101数据集上预训练后的3D-ResNet网络中，通过3D卷积进行特征提取。通过以下等式进行提取视觉表征f_v：

3D-ResNet是一种广泛应用于视频视觉任务的深度学习模型。3D-ResNet是将ResNet中传统的二维卷积层替换为三维卷积层，在CNNs中引入了时间相关性。3D卷积滤波器是在2D卷积滤波器中增加了一个额外的长度维度。具体来说，假设在i^th3D卷积层输出的j^th特征图上，

是其特征图映射到位置(x，y，z)处的值，以及i^th层输入特征通道数为C，而3D卷积滤波器高为H、宽为W、长为L。则3D卷积如下公式所示：

其中，w^ij和b^ij分别表示卷积滤波器的权重和偏差。

步骤5：将两个模块传递的特征表征进行融合，通过拼接融合将该多模态特征传递到分类网络

中，检测视频中是否发生异常事件。分类网络

采用一个简单的全连接网络。涉及到的公式如下所示：

其中，

表示事件类别预测，N表示数据集中的类别数，Cat表示特征串联操作。

人群场景异常事件检测是一项视频分类任务。为了找到异常事件，模型需要判断视频中的动作是否属于异常事件，如射击、散开、打斗等。给定一个具有类别的视频和一个预测类别p，本发明选择交叉熵损失，这是一种典型的分类任务损失函数。损失函数

定义为:

其中，M表示网络训练最小批处理大小，N表示类别数量，y表示视频类别，p表示预测的视频类别。

为验证本发明方法有效性，在

i7-6900K@3.4GHz，64GB RAM，2个NVIDIA GTX 1080Ti GPU，Ubuntu 16.04系统环境上进行仿真实验。实验中使用的数据集为SHADE Dataset，该数据集由Lin等人在文献“W.Lin,J.Gao,Q.Wang,and X.Li,‘Learningto detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中提出，在名为Grand Theft Auto V(GTA5)的视频游戏中生成的，包括2149个视频(879932帧，大小为1920×1080)。SHADE中的视频分为九类：逮捕、追捕、打架、击倒、逃跑、射击、散开、正常类型1和正常类型2。每个类别包含大约200个不同天气条件(雨、雾、晴等)和不同发生时间的视频。有1701个视频(约80％)用于训练，其余448个视频(约20％)用于验证或测试。同时，从视频中提取音频，用于音频表征学习模块的训练。

首先，利用训练数据训练好本发明模型；然后，利用联合模型对测试集进行测试，并计算出不同类别的分类精度。在实验中，分别衡量了每个类别的Top-1准确度。为了证明算法的有效性，比较了几种基于视觉的视频分类模型的性能，如MLP方法、LSTM方法、LRCN方法、3D-ResNet方法和N3D-ResNet方法。其中，MLP方法记载在文献“P.Allan,‘Approximation theory of the MLP model in neural networks.’Acta Numerica,vol.8,pp.143-195,1999.”中；LSTM方法记载在文献“H.Sak,A.W.Senior,and F.Beaufays,‘Long short-term memory recurrent neural network architectures for largescale acoustic modeling,’in INTERSPEECH 2014,15th Annual Conference of theInternational Speech Communication Association,Singapore,September 14-18,2014,H.Li,H.M.Meng,B.Ma,E.Chng,and L.Xie,Eds.ISCA,2014,pp.338-342.”中；LRCN方法记载在文献“J.Donahue,L.A.Hendricks,M.Rohrbach,S.V enugopalan,S.Guadar-rama,K.Saenko,and T.Darrell,‘Long-term recurrent convolutional networks for visualrecognition and description,’IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.4,pp.677-691,2017.”中；3D-ResNet方法记载在文献“K.Hara,H.Kataoka,andY.Satoh,‘Learning spatio-temporal features with 3d residual networks foraction recognition,’in 2017IEEE Inter-national Conference on Computer VisionWorkshops,ICCV Workshops 2017,Venice,Italy,October22-29,2017.IEEE ComputerSociety,2017,pp.3154-3160.”中；N3D-ResNet方法记载在文献“W.Lin,J.Gao,Q.Wang,andX.Li,‘Learning to detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中。对比结果如表1所示。可以看出，与最新的N3D-ResNet方法相比，本发明方法在大多数类别上实现了更高的Top-1精度，并且仅在逃跑和追捕两个类别上低于N3D-ResNet方法。本发明方法将音频表征学习模块和应用基于视觉方法的3D-ResNet的视频表征学习模块结合起来，并使用一个非常简单的融合模块，在事件分类的Top-1准确性方面取得了显著进步。如射击、分散、逮捕和击倒这类具有特殊环境声音的事件，在事件分类准确性方面就有显著的增加，这意味着本发明方法能够学习到有助于有效进行分类的音频信号中的鉴别特征。同时，尽管本发明只用一种简单的连接方法来融合音频和视频表征，但是获得了很大的改进，这显示出多模态学习在异常事件检测中的优越性。

表1

Claims

1.一种基于视听学习的人群异常事件检测方法，其特征在于步骤如下：

2.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤1中所述的重采样是对音频信号进行16kHz重采样；所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。

3.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤2中所述的特征提取采用改进的VGGish网络，去掉VGGish网络的主成分分析后处理部分，并在其输出上沿通道施加全局平均池化，并利用公开的Audio Set数据集进行预训练。

4.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240，并以0.5的概率对所有图像进行随机水平翻转；所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。

5.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。

6.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤5中所述的融合处理是采用特征拼接融合方式。

7.如权利要求1所述的一种基于视听学习的人群异常事件检测方法，其特征在于：步骤6中所述的分类网络采用全连接网络，其损失函数采用交叉熵损失。