CN111062297B - 基于eann深度学习模型的暴力异常行为检测方法 - Google Patents

基于eann深度学习模型的暴力异常行为检测方法 Download PDF

Info

Publication number
CN111062297B
CN111062297B CN201911266994.0A CN201911266994A CN111062297B CN 111062297 B CN111062297 B CN 111062297B CN 201911266994 A CN201911266994 A CN 201911266994A CN 111062297 B CN111062297 B CN 111062297B
Authority
CN
China
Prior art keywords
violent
abnormal behavior
eann
model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911266994.0A
Other languages
English (en)
Other versions
CN111062297A (zh
Inventor
王传旭
杜彤彤
闫春娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Litong Information Technology Co ltd
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN201911266994.0A priority Critical patent/CN111062297B/zh
Publication of CN111062297A publication Critical patent/CN111062297A/zh
Application granted granted Critical
Publication of CN111062297B publication Critical patent/CN111062297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明提出一种基于EANN深度学习模型的暴力异常行为检测方法,包括(1)获得待检测视频,基于帧差法对视频中连续两帧进行差分,得到差分图像作为EANN模型的输入;(2)基于卷积神经网络Efficentnet提取图像空间特征;(3)基于ConvLSTM对步骤(2)中提取的空间特征进行连续时间上的编码,获得视频的局部时空特征;(4)针对步骤(3)所获得的时空特征,利用注意力机制对剧烈运动部分进行加强;(5)基于全连接层对步骤(4)的输出进行分类,得到该视频暴力异常行为的概率,进而实现对暴力异常行为的检测。本发明所提出的方法在保持精度损失很小的情况下,大幅度降低了参数量,提升网络运行速度;与传统方法相比,精度提升幅度明显,鲁棒性强,具有较高的实际应用及推广价值。

Description

基于EANN深度学习模型的暴力异常行为检测方法
技术领域
本发明涉及视频中暴力异常行为检测领域,具体涉及一种基于EANN深度学习模型的暴力异常行为检测方法。
背景技术
异常行为检测在安防领域有着十分重要的价值,暴力异常行为检测在简单场景下的识别比较成熟,但是对于群组暴力异常行为识别具有很大的挑战性,并且人越多,情况越复杂。
暴力异常行为检测的方法大致可以分为两个大的类别,一个是基于传统手工特征的方法,另一个是基于深度学习的方法。基于传统手工特征的暴力异常行为检测方法,如总结的兴趣点,光流场,加速模式和群体纹理,由于研究时间较长,算法比较成熟,速度很快,但是这些特征过分依赖于特征工程,对研究人员的要求很高,在特定场景下可靠,但是鲁棒性不强,模型的泛化能力有限。基于深度学习的方法能够自动学习出数据的特征,把更多的精力集中在了模型设计上,现在用于暴力异常行为检测的深度学习方法,比如基于VGG的暴力异常行为检测模型,基于残差网络的暴力异常行为检测模型,基于AlexNet的暴力异常行为检测模型等等,虽然精度非常高,但是参数量巨大,这在实际应用中会消耗大量的计算资源和存储空间,这就不适合一些对时间效率要求很高的场景,限制了深度学习的应用场景。
因此,设计一个高效的暴力异常行为检测网络,不仅要保持现有网络的高精度的优势,又要使得参数量最大限度的降低,将成为未来研究的一个方向。
发明内容
本发明针对现有技术中存在的缺陷,提出一种基于EANN深度学习模型的暴力异常行为检测方法。
本发明是采用以下的技术方案实现的:一种基于EANN深度学习模型的暴力异常行为检测方法,包括以下步骤:
步骤S1、获得待检测视频,基于帧差法对视频中连续两帧图像进行差分,得到差分图像作为EANN模型的输入;
步骤S2、基于卷积神经网络Efficientnet提取差分图像的空间特征;
步骤S3、基于ConvLSTM对步骤S2提取的空间特征进行连续时间上的编码,获得视频的局部时空特征;
步骤S4、针对步骤S3所获得的局部时空特征,利用注意力机制对剧烈运动部分进行加强;
步骤S5、基于全连接层对步骤S4的输出进行分类,得到该视频暴力异常行为的概率,进而实现对暴力异常行为的检测。
进一步的,所述EANN深度学习模型包括输入层、空间特征提取层、局部时空特征编码层、注意力机制层和全连接层,所述卷积神经网络提取空间特征层基于EfficientNet实现,所述局部时空特征编码层基于ConvLSTM实现。
进一步的,所述步骤S2中,在提取空间特征时,Eficientnet基于复合缩放方法,基于一个复合系数φ来统一的缩放网络的宽度、深度和分辨率。
进一步的,所述步骤S2中,EfficientNet的搜索方式包括两步:
(1)固定
Figure SMS_1
设有两倍的资源可用,做一个关于α,β,γ的网格搜索,α,β,γ是常量,且α,β,γ服从约束α·β2·γ2≈2;
(2)把α,β,γ固定为常量,用不同的φ来缩放网络,以得到EfficientNet不同层的变体网络。
进一步的,所述步骤S4中,注意力机制对剧烈运动部分进行加强时,基于按位点积的方式实现:
(1)设X={x1,x2,...,xn}为网络层的输入,具体为Efficientnet+ConvLstm生成的局部时空特征作为输入,Y={y1,y2,...,yn}为网络层的输出;
(2)注意力机制对Efficientnet+ConvLstm生成的局部时空特征,按照剧烈程度分配权重,再按照按位点积的方式对信息进行融合;
(3)最后,经过全连接+softmax实现是否是剧烈运动异常行为的判别,得到最终的输出。
与现有技术相比,本发明的优点和积极效果在于:
本方案所提出的暴力异常行为检测方法,基于EANN深度学习模型实现,首先利用AutoML的产生的网络结构,基于AutoML中的神经网络架构搜索方法(NAS)能从设计的原始网络中得到原始网络的最佳网络结构,这样避免了人工设计网络的弊端,也能够得到一个当前网络下的最佳模型;然后利用注意力机制在原有的特征的基础上产生更适合特定场景的重要特征,并且注意力机制的计算代价引入很小。该模型与其他轻量级的深度学习方法方法比较,在保持精度损失很小的情况下,大幅度降低了参数量,与传统方法相比,精度提升幅度明显,鲁棒性强,并且不依赖于手工特征。
附图说明
图1为本发明实施例所述的EANN网络模型结构示意图;
图2为本发明实施例所述的EfficientNetB0结构示意图;
图3为本发明实施例所述的ConvLSTM的内部结构示意图;
图4为本发明实施例所述的注意力机制示意图。
具体实施方式
为了能够更清楚的理解本实用新型的上述目的和优点,下面结合附图对本实用新型的具体实施方式做详细地描述:
首先,需要解释的是:本方案设计的EANN(Efficient Attention-based NeuralNetworks)模型,包括输入层、空间特征提取层、局部时空特征编码层、注意力机制层和全连接层,卷积神经网络提取空间特征层基于EfficientNet实现,局部时空特征编码层基于ConvLSTM实现,该模型融合了AutoML(Automated Machine Learning)的高效神经网络,并结合ConvLSTM提取空间时序特征,最后利用注意力机制来提升模型对差异化特征建模的性能,在精度和模型效率上都达到了最佳的性能。
本实施例提出一种基于EANN深度学习模型的暴力异常行为检测方法,包括以下步骤:
步骤S1、获得待检测视频,基于帧差法对视频中连续两帧进行差分,得到差分图像作为EANN模型的输入;
步骤S2、基于卷积神经网络Efficientnet提取差分图像空间特征;
步骤S3、基于ConvLSTM对步骤S2提取的空间特征进行连续时间上的编码,获得视频的局部时空特征;
步骤S4、针对步骤S3所获得的局部时空特征,利用注意力机制对剧烈运动部分进行加强;
步骤S5、基于全连接层对步骤S4的输出进行分类,得到该视频暴力异常行为的概率,进而实现对暴力异常行为的检测。
下面结合具体的模型结构及处理原则对上述方法原理进行详细的介绍,具体的:
步骤S1中,本实施例可选用10帧或者20帧序列,基于帧差法对视频中连续两帧进行差分,这些序列在原视频中为两两相邻,作为EANN模型的输入;
步骤S2中,所述卷积神经网络选择AutoML训练出来的EfficientNet,EfficientNet分别处理每一帧图像,提取图像的空间特征,在训练期间权重是共享的,最初的权重是在ImageNet上预训练的权重。
在提取空间特征时,Efficientnet基于复合缩放方法(compund scalingmethod),使用一个复合系数φ来统一的缩放网络的宽度、深度和分辨率,如下列公式所示:
Figure SMS_2
其中d代表深度,w代表宽度,r代表分辨率,α,β,γ是常量,这些常量可以由一个小的网格搜索决定,φ是一个用户指定的系数,控制着有多少的资源可以用于模型的缩放。
为了进一步提升模型的性能,EfficientNet通过AutoML MNAS框架来进行神经结构搜索,搜索同时能够优化精度和效率。利用MBConv并加入squeeze-and-excitation优化,得到的EfficientNetB0的结构如图2所示,其详细参数如表1所示:
表1 EfficientNetB0的网络详细参数
网络层名称 EfficientNetB0 网络层数量
Conv 3x3 1
MBConv1 k3x3 1
MBConv6 k3x3 2
MBConv6 K5x5 2
MBConv6 K3x3 3
MBConv6 k5x5 3
MBConv6 k5x5 4
MBConv6 k3x3 1
conv 1x1,Pooling,FC 1
EfficientNet的搜索方式分为两步:
(1):固定住
Figure SMS_3
假设有两倍的资源可用,做一个关于α,β,γ的网格搜索。特别地,发现了EfficientNet-B0的最佳参数:α=1.2,β=1.1,γ=1.15α,β,γ服从约束α·β2·γ2≈2。其公式参考1;
(2):把α,β,γ固定为常量,用不同的φ来缩放网络,以得到EfficientB1~B7这几个变体的网络。
步骤S3中,基于ConvLSTM实现,每一帧的数据从CNN进入到ConvLSTM单元里面,其中隐藏层由256个大小为3的卷积核组成。ConvLSTM的内部结构如图3所示,ConvLSTM的关键方程如下式(2)所示,其中“*”表示的是卷积操作,
Figure SMS_4
表示的是哈达码积。ConvLSTM所有的输入X1,...,Xt,单元输出C1,...,Ct,隐藏状态H1,...,Ht和门it,ft,ot都是三维的张量。
Figure SMS_5
一个系统要识别一个视频是异常的还是正常的,它应该能够编码局部空间特征以及它们随时间变化的方式。CNN能够产生识别的空间特征,但现有的方法利用从全连通层提取的特征进行LSTM时间编码。而全连接层的输出表示整个图像的全局描述符。因此,现有的方法无法对局部空间变化进行编码。本实施例中采用convLSTM则可以克服这一缺陷,通过编码CNN的卷积特征,同时训练卷积门对局部区域的时间变化进行编码,这样整个网络就能够对局部时空特征进行编码,得到局部的时空特征。
步骤S4中,基于注意力层对剧烈运动部分进行加强,考虑到使用预训练模型的原因,由于预训练模型是为了图像分类而设计的,跟视频的暴力异常行为检测还是有不一样的地方,暴力异常行为检测除了需要时间维度的特征外,还需要与暴力异常行为相关的特征,并不是图像中的每一个部分都包含着与暴力异常行为相关的特征,因此运用注意力机制,可以在一定程度上获取到图片中适用于暴力异常行为检测的重要特征,从而能够加速模型的收敛,在参数量增加很小的情况下,提高模型的准确率。
(3)本实施例注意力机制的设计图如图4所示。其中,X={x1,x2,...,xn}为网络层的输入,Efficientnet+ConvLstm生成的局部时空特征作为输入,Y={y1,y2,...,yn}为网络层的输出。然后注意力机制对Efficientnet+ConvLstm生成的局部时空特征,按照剧烈程度分配权重,再按照按位点积的方式对信息进行融合;最后,经过全连接+softmax实现是否是剧烈运动异常行为的判别,得到最终的输出,利用全连接层来学习注意力权重,然后和X进行加和处理,公式表达如下:
Figure SMS_6
αij是一个softmax模型输出,这里用一个全连接来学习全局的权重信息,然后利用softmax把全局的权重信息变成权重概率分布。所以ci可以看做是输入的隐含状态的权重分布律,输出的yi由输入、之前的输出、隐含层和权重分布律共同决定。
其中,权重的学习用一个全连接来学习全局的权重信息,然后利用softmax把全局的权重信息变成权重概率分布,最后通过按位点积的方法得到最终的输出。注意力机制能够对筛选出有用的特征,通过对重要的特征进行叠加能够使得重要的特征进一步增强,从而得到的效果会更好。
步骤S5中,分类出该视频帧的暴力异常行为,考虑到图像的特殊性,全连接层的神经元使用RELU作为激活函数。
本发明利用AutoML搜索出来的EfficientNet来进一步优化模型的参数,使得模型的参数量减少幅度非常的大,但是精度几乎没有损耗,借助注意力机制的作用,使得模型在参数量减少的情况下,通过注意力机制做特征选择,不至于使模型性能下降,精度降低。最后利用ConvLSTM对暴力异常行为的时序进行建模,从时间维度和空间维度抽取特征,从而更好的识别出暴力异常行为,最后分别在Hockey Fights,Violent flow数据集进行实验,实验结果表明EANN模型在借助Auto ML和注意力机制的情况下,参数降低1000万以上,并且精度损失比较小具有较高的实际应用及推广价值。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (3)

1.基于EANN深度学习模型的暴力异常行为检测方法,其特征在于,包括以下步骤:
步骤S1、获得待检测视频,基于帧差法对视频中连续两帧图像进行差分,得到差分图像作为EANN深度学习模型的输入,EANN深度学习模型包括输入层、空间特征提取层、局部时空特征编码层、注意力机制层和全连接层;
步骤S2、基于卷积神经网络Efficentnet提取差分图像的空间特征;
步骤S3、基于ConvLSTM对步骤S2提取的空间特征进行连续时间上的编码,获得视频的局部时空特征;
步骤S4、针对步骤S3所获得的局部时空特征,利用注意力机制对剧烈运动部分进行加强;注意力机制对剧烈运动部分进行加强时,基于按位点积的方式实现:
(1)设X={x1,x2,…,xn}为网络层的输入,具体为Efficientnet+ConvLstm生成的局部时空特征作为输入,Y={y1,y2,…,yn}为网络层的输出;
(2)注意力机制对Efficientnet+ConvLstm生成的局部时空特征,按照剧烈程度分配权重,再按照按位点积的方式对信息进行融合;
(3)最后,经过全连接+softmax实现是否是剧烈运动异常行为的判别,得到最终的输出;
步骤S5、基于全连接层对步骤S4的输出进行分类,得到该视频暴力异常行为的概率,进而实现对暴力异常行为的检测。
2.根据权利要求1所述的基于EANN深度学习模型的暴力异常行为检测方法,其特征在于:所述步骤S2中,在提取空间特征时,Eficientnet采用复合缩放方法,基于一个复合系数φ来统一的缩放网络的宽度、深度和分辨率。
3.根据权利要求2所述的基于EANN深度学习模型的暴力异常行为检测方法,其特征在于:所述步骤S2中,EfficientNet的搜索方式包括两步:
(1)固定
Figure FDA0004123891960000011
设有两倍的资源可用,做关于α,β,γ的网格搜索,α,β,γ是常量,且α,β,γ服从约束α·β2·γ2≈2;
(2)把α,β,γ固定为常量,用不同的φ来缩放网络,以得到EfficientNet不同层的变体网络。
CN201911266994.0A 2019-12-11 2019-12-11 基于eann深度学习模型的暴力异常行为检测方法 Active CN111062297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266994.0A CN111062297B (zh) 2019-12-11 2019-12-11 基于eann深度学习模型的暴力异常行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266994.0A CN111062297B (zh) 2019-12-11 2019-12-11 基于eann深度学习模型的暴力异常行为检测方法

Publications (2)

Publication Number Publication Date
CN111062297A CN111062297A (zh) 2020-04-24
CN111062297B true CN111062297B (zh) 2023-05-23

Family

ID=70300524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266994.0A Active CN111062297B (zh) 2019-12-11 2019-12-11 基于eann深度学习模型的暴力异常行为检测方法

Country Status (1)

Country Link
CN (1) CN111062297B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666980A (zh) * 2020-05-13 2020-09-15 武汉大学 一种基于轻量化网络的目标检测方法
WO2021232172A1 (zh) * 2020-05-18 2021-11-25 陈永聪 一种可解释的多层信息筛选网络
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN112487862B (zh) * 2020-10-28 2021-07-02 南京云牛智能科技有限公司 基于改进EfficientDet模型的车库行人检测方法
CN112613359B (zh) * 2020-12-09 2024-02-02 苏州玖合智能科技有限公司 用于人员异常行为检测的神经网络的构建方法
CN112396571A (zh) * 2021-01-20 2021-02-23 浙江鹏信信息科技股份有限公司 一种基于注意力机制的EfficientNet敏感图像检测方法及系统
CN112949694A (zh) * 2021-02-04 2021-06-11 广州春和数码科技有限公司 基于温度标签的信息熵的智能头发护理参数控制方法
CN112989986A (zh) * 2021-03-09 2021-06-18 北京京东乾石科技有限公司 用于识别人群行为的方法、装置、设备以及存储介质
CN115082870A (zh) * 2022-07-18 2022-09-20 松立控股集团股份有限公司 一种停车场异常事件检测方法
CN115049969B (zh) * 2022-08-15 2022-12-13 山东百盟信息技术有限公司 一种改进YOLOv3和BiConvLSTM的不良视频检测方法
CN117237994B (zh) * 2023-11-13 2024-02-13 四川泓宝润业工程技术有限公司 一种油气作业区人员计数及行为检测方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271527A (zh) * 2008-02-25 2008-09-24 北京理工大学 一种基于运动场局部统计特征分析的异常行为检测方法
JP2010072782A (ja) * 2008-09-17 2010-04-02 Secom Co Ltd 異常行動検知装置
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271527A (zh) * 2008-02-25 2008-09-24 北京理工大学 一种基于运动场局部统计特征分析的异常行为检测方法
JP2010072782A (ja) * 2008-09-17 2010-04-02 Secom Co Ltd 異常行動検知装置
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Also Published As

Publication number Publication date
CN111062297A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062297B (zh) 基于eann深度学习模型的暴力异常行为检测方法
Tian et al. Small object detection via dual inspection mechanism for UAV visual images
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
Li et al. Detection-friendly dehazing: Object detection in real-world hazy scenes
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN116012722A (zh) 一种遥感影像场景分类方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Liang et al. View knowledge transfer network for multi-view action recognition
Wang et al. Video-based air quality measurement with dual-channel 3-D convolutional network
Huyan et al. AUD-Net: a unified deep detector for multiple hyperspectral image anomaly detection via relation and few-shot learning
Shen et al. An improved UAV target detection algorithm based on ASFF-YOLOv5s
Hu et al. Vehicle color recognition based on smooth modulation neural network with multi-scale feature fusion
Lin et al. Full-scale selective transformer for semantic segmentation
CN115222998B (zh) 一种图像分类方法
CN117079095A (zh) 基于深度学习的高空抛物检测方法、系统、介质和设备
Xue et al. Multi‐scale pedestrian detection with global–local attention and multi‐scale receptive field context
Wei et al. A novel algorithm for small object detection based on YOLOv4
Li et al. Online rail fastener detection based on YOLO network
Sang et al. Improved land cover classification of VHR optical remote sensing imagery based upon detail injection procedure
Cai et al. Automatic traffic state recognition based on video features extracted by an autoencoder
Liang et al. YOLOD: A Task Decoupled Network Based on YOLOv5
CN114937222A (zh) 一种基于双分支网络的视频异常检测方法及系统
CN113255464A (zh) 一种飞机动作识别方法及系统
Gangyi et al. Small object detection via dual inspection mechanism for UAV visual images
Yi et al. Research on Garbage Image Classification and Recognition Method Based on Improved ResNet Network Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240315

Address after: 509 Kangrui Times Square, Keyuan Business Building, 39 Huarong Road, Gaofeng Community, Dalang Street, Longhua District, Shenzhen, Guangdong Province, 518000

Patentee after: Shenzhen Litong Information Technology Co.,Ltd.

Country or region after: China

Address before: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right