CN114241408A - 基于视听学习的人群异常事件检测方法 - Google Patents
基于视听学习的人群异常事件检测方法 Download PDFInfo
- Publication number
- CN114241408A CN114241408A CN202111515972.0A CN202111515972A CN114241408A CN 114241408 A CN114241408 A CN 114241408A CN 202111515972 A CN202111515972 A CN 202111515972A CN 114241408 A CN114241408 A CN 114241408A
- Authority
- CN
- China
- Prior art keywords
- audio
- network
- crowd
- inputting
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000012952 Resampling Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 4
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 14
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000012512 characterization method Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003197 gene knockdown Methods 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D‑ResNet网络中进行特征提取,得到视频表征;最后,融合两类特征,并将其输入到分类网络,得到事件类别预测结果。本发明是一种多模态学习方法,可以更加有效地用于人群分析中的异常事件检测。
Description
技术领域
本发明属计算机视觉、智能视频分析技术领域,具体涉及一种基于视听学习的人群异常事件检测方法。
背景技术
人群分析是公共安全领域的一项基本任务,包括人群计数、人群定位、人群异常事件检测、人群流/人群运动分析、人群分割、群体检测等。而异常事件检测是人群场景安全预警的一项基本任务。对正在发生的异常事件及时报警对于确保公共安全至关重要。
目前的异常检测方法主要分为局部分析和全局分析两大类。局部分析方法是检测发生异常事件的异常对象,如卡车或人群中的行人,并定位异常发生的位置。如Liao等人在文献“H.Liao,J.Xiang,W.Sun,Q.Feng,and J.Dai,‘An abnormal event recognition incrowd scene,’in Sixth International Conference on Image and Graphics,ICIG2011,Hefei,Anhui,China,August 12-15,2011.IEEE Computer Society,2011,pp.731-736.”中提出的使用视频描述符检测视频帧中的打架事件。全局分析方法通常是分析整个视频片段并预测视频片段中是否存在异常事件。全局分析方法有三种典型方案:基于轨迹点、基于光流和基于分类。如Mehran等人在文献“R.Mehran,A.Oyama,and M.Shah,‘Abnormal crowd behavior detection using social force model,’in 2009IEEEComputer Society Conference on Computer Vision and Pattern Recognition(CVPR2009),20-25June 2009,Miami,Florida,USA.IEEE Computer Society,2009,pp.935-942.”中利用人群视频片段中提取的目标轨迹进行异常检测;Helbinge等人提出了一种典型的基于轨迹点的描述人群相互作用的社会力模型方法;受Helbinge等人的启发,Mehran和Zhang等人将社会力量模型引入到视频中的社会事件分析中;Cui等人在文献“J.Cui,W.Liu,and W.Xing,‘Crowd behaviors analysis and abnormal detection based onsurveillance data,’J.Vis.Lang.Comput.,vol.25,no.6,pp.628-636,2014.”中尝试使用模糊c均值聚类的方法对轨迹进行聚类,并通过聚类预测输入轨迹的类别;Du等人提出了一种名为DSFA的变化检测器,它利用两个对称流和慢速特征分析模块来获得更好的遥感图像变化性能。
由于基于统计的方法对异常事件的定义不明确、不成熟,Demarty等人和Sultani等人分别提出了用于人群场景异常事件检测的VSD和UCFCrime数据集,其中分别包含7种和13种不同类型的异常事件。这两个数据集中的视频片段来自互联网上的电影和视频。上述数据集对人群中的异常事件进行了详细定义,将异常检测任务引入到视频分类任务中。然而当一个异常事件发生时,它往往伴随着一些特殊的声音。视听多模态联合学习是试图从视觉和听觉模态中学习到特殊任务的表征。近年来,视听多模态学习被应用于一般的场景中。Owenset等人,试图将知识从音频学习转移到视频学习;Arandjelovic等人通过视听关系分析视频。同时,这项工作被用于声音定位和视听分离。
然而,在人群分析领域,目前只有一种结合视觉和听觉信息的方法,是Hu等人在文献“D.Hu,L.Mou,Q.Wang,J.Gao,Y.Hua,D.Dou,and X.Zhu,‘Ambient sound helps:Audiovisual crowd counting in extreme conditions,’arXiv preprint arXiv:2005.07097,2020.”中提出的方法,该方法提出了一种多模式学习,以同时对静止图像和环境声音进行编码。该方法大大减少了极端条件下人群计数的估计误差。而传统的人群场景中的异常检测方法没有考虑到音频数据的影响,具有一定的局限性。
发明内容
为了克服现有技术的不足,本发明提供一种基于视听学习的人群异常事件检测方法。首先,对音频信号进行预处理,再将其对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;然后,对视频序列进行空间变换和时间变换,再将其输入到3D-ResNet网络中进行特征提取,得到视频表征;最后,融合两类特征,并将其输入到分类网络,得到事件类别预测结果。本发明是一种多模态学习方法,可以更加有效的用于人群分析中的异常事件检测。
一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;
步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;
步骤4:将步骤3处理后的视频序列输入到3D-ResNet网络中进行特征提取,得到视频表征;
步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;
步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。
进一步地,步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。
进一步地,步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分析后处理部分,并在其输出上沿通道施加全局平均池化,并利用公开的Audio Set数据集进行预训练。
进一步地,步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240,并以0.5的概率对所有图像进行随机水平翻转;所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。
进一步地,步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。
进一步地,步骤5中所述的融合处理是采用特征拼接融合方式。
进一步地,步骤6中所述的分类网络采用全连接网络,其损失函数采用交叉熵损失。
本发明的有益效果是:由于采用融合时空3D-CNN特征和时空音频特征的多模态学习方式,能够有效实现视觉和音频表达的平衡,获得更好的异常检测精度。
附图说明
图1是本发明基于视听学习的人群异常事件检测方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供了一种基于视听学习的人群异常事件检测方法。面向复杂人群场景,本发明通过融合视频表征学习和音频表征学习模块完成异常事件检测的目标。由于本发明采用了全新的融合视听表征学习方式,而且两个阶段分别针对视频序列和音频信号进行了训练与特定的方法模型设计,最终能够达到较好的异常事件检测效果,提升方法在复杂场景中的鲁棒性与表征精度。如图1所示,其具体实现过程如下:
基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换。比如,进行16kHz重采样,再通过带有Hann窗口的短时傅里叶变换(STFT)获得重采样音频信号的时频图。
进一步地,本发明的音频表征学习模块去掉了VGGish的主成分分析(PCA)的后处理;由于音频长度的差异,对数梅尔谱图(LMS)特征具有不同的形状,因此,本发明在音频表示的输出上沿通道施加全局平均池化(GAP),使音频表征fa成为一个统一的大小Ca×1;并在Audio Set数据集上对VGGish进行预训练,以此作为本申请的音频表征学习模块音频表征提取定义为:
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换。空间变换是将输入的视频序列调整为240×240,并以0.5的概率进行随机水平翻转。时间变换是以固定的步长从整个视频序列中采样,将具有L帧的输入视频序列采样到固定长度T(T=50)。
3D-ResNet是一种广泛应用于视频视觉任务的深度学习模型。3D-ResNet是将ResNet中传统的二维卷积层替换为三维卷积层,在CNNs中引入了时间相关性。3D卷积滤波器是在2D卷积滤波器中增加了一个额外的长度维度。具体来说,假设在ith3D卷积层输出的jth特征图上,是其特征图映射到位置(x,y,z)处的值,以及ith层输入特征通道数为C,而3D卷积滤波器高为H、宽为W、长为L。则3D卷积如下公式所示:
其中,wij和bij分别表示卷积滤波器的权重和偏差。
人群场景异常事件检测是一项视频分类任务。为了找到异常事件,模型需要判断视频中的动作是否属于异常事件,如射击、散开、打斗等。给定一个具有类别的视频和一个预测类别p,本发明选择交叉熵损失,这是一种典型的分类任务损失函数。损失函数定义为:
其中,M表示网络训练最小批处理大小,N表示类别数量,y表示视频类别,p表示预测的视频类别。
为验证本发明方法有效性,在i7-6900K@3.4GHz,64GB RAM,2个NVIDIA GTX 1080Ti GPU,Ubuntu 16.04系统环境上进行仿真实验。实验中使用的数据集为SHADE Dataset,该数据集由Lin等人在文献“W.Lin,J.Gao,Q.Wang,and X.Li,‘Learningto detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中提出,在名为Grand Theft Auto V(GTA5)的视频游戏中生成的,包括2149个视频(879932帧,大小为1920×1080)。SHADE中的视频分为九类:逮捕、追捕、打架、击倒、逃跑、射击、散开、正常类型1和正常类型2。每个类别包含大约200个不同天气条件(雨、雾、晴等)和不同发生时间的视频。有1701个视频(约80%)用于训练,其余448个视频(约20%)用于验证或测试。同时,从视频中提取音频,用于音频表征学习模块的训练。
首先,利用训练数据训练好本发明模型;然后,利用联合模型对测试集进行测试,并计算出不同类别的分类精度。在实验中,分别衡量了每个类别的Top-1准确度。为了证明算法的有效性,比较了几种基于视觉的视频分类模型的性能,如MLP方法、LSTM方法、LRCN方法、3D-ResNet方法和N3D-ResNet方法。其中,MLP方法记载在文献“P.Allan,‘Approximation theory of the MLP model in neural networks.’Acta Numerica,vol.8,pp.143-195,1999.”中;LSTM方法记载在文献“H.Sak,A.W.Senior,and F.Beaufays,‘Long short-term memory recurrent neural network architectures for largescale acoustic modeling,’in INTERSPEECH 2014,15th Annual Conference of theInternational Speech Communication Association,Singapore,September 14-18,2014,H.Li,H.M.Meng,B.Ma,E.Chng,and L.Xie,Eds.ISCA,2014,pp.338-342.”中;LRCN方法记载在文献“J.Donahue,L.A.Hendricks,M.Rohrbach,S.V enugopalan,S.Guadar-rama,K.Saenko,and T.Darrell,‘Long-term recurrent convolutional networks for visualrecognition and description,’IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.4,pp.677-691,2017.”中;3D-ResNet方法记载在文献“K.Hara,H.Kataoka,andY.Satoh,‘Learning spatio-temporal features with 3d residual networks foraction recognition,’in 2017IEEE Inter-national Conference on Computer VisionWorkshops,ICCV Workshops 2017,Venice,Italy,October22-29,2017.IEEE ComputerSociety,2017,pp.3154-3160.”中;N3D-ResNet方法记载在文献“W.Lin,J.Gao,Q.Wang,andX.Li,‘Learning to detect anomaly events in crowd scenes from synthetic data,’Neurocomputing,vol.436,pp.248-259,2021.”中。对比结果如表1所示。可以看出,与最新的N3D-ResNet方法相比,本发明方法在大多数类别上实现了更高的Top-1精度,并且仅在逃跑和追捕两个类别上低于N3D-ResNet方法。本发明方法将音频表征学习模块和应用基于视觉方法的3D-ResNet的视频表征学习模块结合起来,并使用一个非常简单的融合模块,在事件分类的Top-1准确性方面取得了显著进步。如射击、分散、逮捕和击倒这类具有特殊环境声音的事件,在事件分类准确性方面就有显著的增加,这意味着本发明方法能够学习到有助于有效进行分类的音频信号中的鉴别特征。同时,尽管本发明只用一种简单的连接方法来融合音频和视频表征,但是获得了很大的改进,这显示出多模态学习在异常事件检测中的优越性。
表1
Claims (7)
1.一种基于视听学习的人群异常事件检测方法,其特征在于步骤如下:
步骤1:输入人群事件视频中的音频信号,对音频信号进行重采样和短时傅里叶变换;
步骤2:将步骤1处理后的音频信号的对数梅尔谱图输入VGGish网络进行特征提取,得到音频表征;
步骤3:输入人群事件视频序列,对视频序列进行空间变换和时间变换;
步骤4:将步骤3处理后的视频序列输入到3D-ResNet网络中进行特征提取,得到视频表征;
步骤5:将音频表征和视频表征进行融合处理,得到融合后的特征;
步骤6:将融合后的特征输入到分类网络,得到事件类别预测结果。
2.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤1中所述的重采样是对音频信号进行16kHz重采样;所述的短时傅里叶变换是对重采样的音频信号进行带有Hann窗口的短时傅里叶变换。
3.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤2中所述的特征提取采用改进的VGGish网络,去掉VGGish网络的主成分分析后处理部分,并在其输出上沿通道施加全局平均池化,并利用公开的Audio Set数据集进行预训练。
4.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤3中所述的空间变换是将视频序列中的图像大小调整为240×240,并以0.5的概率对所有图像进行随机水平翻转;所述的时间变换是以固定的步长从整个视频序列中采样50帧图像。
5.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤4中所述的3D-ResNet网络是在UCF-101数据集上预训练后的3D-ResNet网络。
6.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤5中所述的融合处理是采用特征拼接融合方式。
7.如权利要求1所述的一种基于视听学习的人群异常事件检测方法,其特征在于:步骤6中所述的分类网络采用全连接网络,其损失函数采用交叉熵损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515972.0A CN114241408A (zh) | 2021-12-06 | 2021-12-06 | 基于视听学习的人群异常事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515972.0A CN114241408A (zh) | 2021-12-06 | 2021-12-06 | 基于视听学习的人群异常事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241408A true CN114241408A (zh) | 2022-03-25 |
Family
ID=80755122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111515972.0A Pending CN114241408A (zh) | 2021-12-06 | 2021-12-06 | 基于视听学习的人群异常事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241408A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118228194A (zh) * | 2024-04-02 | 2024-06-21 | 北京科技大学 | 一种融合时空图注意力网络的多模态人格预测方法和系统 |
-
2021
- 2021-12-06 CN CN202111515972.0A patent/CN114241408A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118228194A (zh) * | 2024-04-02 | 2024-06-21 | 北京科技大学 | 一种融合时空图注意力网络的多模态人格预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
D’Eusanio et al. | A transformer-based network for dynamic hand gesture recognition | |
CN112016500A (zh) | 基于多尺度时间信息融合的群体异常行为识别方法及系统 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN112634329B (zh) | 一种基于时空与或图的场景目标活动预测方法及装置 | |
CN108416780B (zh) | 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法 | |
CN107506734A (zh) | 一种群体突发异常事件检测与定位方法 | |
CN108830170B (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
Jiang et al. | A self-attention network for smoke detection | |
CN115861772A (zh) | 基于RetinaNet的多尺度单阶段目标检测方法 | |
Rehman et al. | Multi-modal anomaly detection by using audio and visual cues | |
CN114879891B (zh) | 一种自监督多目标跟踪下的多模态人机互动方法 | |
CN110991278A (zh) | 计算机视觉系统的视频中人体动作识别方法和装置 | |
CN104504367B (zh) | 一种基于级联字典的人群异常检测方法及系统 | |
Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
Leyva et al. | Abnormal event detection in videos using binary features | |
Gao et al. | Audio–visual representation learning for anomaly events detection in crowds | |
Fang et al. | Vision-based traffic accident detection and anticipation: A survey | |
Qian et al. | A fire monitoring and alarm system based on channel-wise pruned YOLOv3 | |
CN114241408A (zh) | 基于视听学习的人群异常事件检测方法 | |
Kanu-Asiegbu et al. | Leveraging trajectory prediction for pedestrian video anomaly detection | |
CN114038011A (zh) | 一种室内场景下人体异常行为的检测方法 | |
Xin et al. | Surface defect detection with channel-spatial attention modules and bi-directional feature pyramid | |
Adewopo et al. | Baby physical safety monitoring in smart home using action recognition system | |
Sha et al. | An improved two-stream CNN method for abnormal behavior detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |