CN111832469A - 一种基于双流卷积神经网络的抽烟行为检测方法 - Google Patents

一种基于双流卷积神经网络的抽烟行为检测方法 Download PDF

Info

Publication number
CN111832469A
CN111832469A CN202010661345.7A CN202010661345A CN111832469A CN 111832469 A CN111832469 A CN 111832469A CN 202010661345 A CN202010661345 A CN 202010661345A CN 111832469 A CN111832469 A CN 111832469A
Authority
CN
China
Prior art keywords
stream
attention
output
spatial
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010661345.7A
Other languages
English (en)
Inventor
张国强
葛泉波
申兴发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010661345.7A priority Critical patent/CN111832469A/zh
Publication of CN111832469A publication Critical patent/CN111832469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于双流卷积神经网络的抽烟行为检测方法,本发明首先获得视频段的空间流和时间流;其次将空间流和时间流卷积;然后将卷积输出的特征序列传入LSTM,获得输出;再将该输出输入至LSTM中将多头自注意力的结果经过softmax函数,得到空间流和时间流的输出;最后将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。本发明在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其它无用信息,从而提供检测的准确率。

Description

一种基于双流卷积神经网络的抽烟行为检测方法
技术领域
本发明属于人体行为检测领域,涉及一种基于双流卷积神经网络的抽烟行为检测方法。
背景技术
智能视频监控可以提高实际监控场景中的监控效率,并减少人力财力的投入,同时可以在异常发生时及时报警,能够最大程度的避免对公众的危害。
相较于监控视频中的其他异常,如打斗,跌倒等行为,抽烟行为识别的准确率会大大降低。因为烟头在视频中的所占比重少,因此检测准确率不高,因此需要识别一个时间段内人的手势动作来判断视频监控中是否有抽烟行为。如图1所示,传统的双流卷积神经网络通过两个相同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果来检测出视频中的抽烟行为,但存在两个问题:
1、双流卷积神经网络将输入帧解析为空间流和时序流之后,仅使用CNN卷积提取空间流和时序流(光流)中的特征,因此无法充分利用空间流和时序流帧之间的时间信息,对动作进行时间上的关联。
2、双流卷积神经网络的输入数据为堆叠的帧,而不是将记录完整行为过程的图像序列一起处理,这时网络对每个帧的关注是相同的,但实际上某些有判别力的帧需要更多的关注,如抽烟时会将手抬到嘴前等标志性动作。
因此,对双流卷积神经网络进行改进,引入LSTM和多头自注意力机制,可解决上述问题,以提高其检测正确率。
发明内容
本发明的目的是针对现有双流卷积神经网络在检测视频中抽烟行为成功率低的情况,提供了一种基于双流卷积神经网络的抽烟行为检测方法。
本发明解决技术问题所采取的技术方案为:
一种基于双流卷积神经网络的抽烟行为检测方法包括以下步骤:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流,空间流就是采样得到的帧,时间流是两帧之间的光流图,包含帧之间的运动信息。
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3。
步骤三:特征输入长短期记忆网络(LSTM)
将步骤二卷积输出的特征序列传入LSTM,获得LSTM的输出。
步骤四:多头自注意力输出结果
LSTM的输出即是多头自注意力中Q,K,V的输入,将多头自注意力的结果经过softmax函数。
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
本发明的有益效果:本发明提出一种基于双流卷积神经网络的抽烟行为检测方法,在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其它无用信息,从而提供检测的准确率。
附图说明
图1.双流卷积神经网络。
图2.本发明流程图。
图3.长短期记忆网络。
具体实施方式
以下结合附图对本发明作进一步说明。
如图2所示,本发明方法具体是:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流,空间流就是采样得到的帧,时间流是两帧之间的光流图,包含帧之间的运动信息。
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3。
将提取的帧特征向量化后得到如下表示:
S=(x1,x2,......xi......xn)
其中xi表示该段中所提取帧的d维向量,将所有的帧向量连接在一起,S∈Rn×d,序列S中的每一项彼此独立。
步骤三:特征输入长短期记忆网络(LSTM)
为了获得单个视频段中帧之间的依赖关系,将步骤二卷积网络中提取到的特征S传给LSTM:
ht=LSTM(xt,ht-1)
如图3所示,其计算公式如下:
zt=σ(Wz[ht-1,xt])
rt=σ(Wr[ht-1,xt])
Figure BDA0002578682830000031
Figure BDA0002578682830000032
σ代表sigmod函数
其中ht表示LSTM在t时刻隐藏层的状态。假设单向LSTM中隐藏层单元数量为u,得到H∈Rn×u
H=(h1,h2,......hu)
整个LSTM隐藏层状态的输出U:
U=tanh(WhHt+bn)
步骤四:多头自注意力输出结果
多头自注意力的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习,在将来再出现类似场景时把注意力放到该部分上。
LSTM隐藏层状态的输出U也是多头自注意力机制的输入,得到多头自注意力层的输出V为:
V=multihead(U,U,U)
多头自注意力机制计算公式如下:
multihead(Q,K,V)=Concat(head1,head2...headm)W0
其中:
Q=K=V
Figure BDA0002578682830000041
Figure BDA0002578682830000042
Figure BDA0002578682830000043
为K的维度,其中
Figure BDA0002578682830000044
W0是需要学习的参数,将这m次计算结果合并起来,所得的值就是多头自注意力的计算结果,并将多头自注意力的结果经过softmax函数,分别得到空间流和时间流的输出结果。
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
综上,本发明在双流网络的基础上引入LSTM和多头自注意力机制,能够有效提高监控系统中抽烟行为的识别率。

Claims (1)

1.一种基于双流卷积神经网络的抽烟行为检测方法,其特征在于该方法包括以下步骤:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流;
所述空间流就是采样得到的帧,所述时间流是两帧之间的光流图,包含帧之间的运动信息;
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3;
步骤三:特征输入长短期记忆网络
将步骤二卷积输出的特征序列传入长短期记忆网络,获得长短期记忆网络的输出;
步骤四:多头自注意力输出结果
长短期记忆网络的输出即是多头自注意力的输入,将多头自注意力的结果经过softmax函数,分别得到空间流和时间流的输出结果;
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
CN202010661345.7A 2020-07-10 2020-07-10 一种基于双流卷积神经网络的抽烟行为检测方法 Pending CN111832469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010661345.7A CN111832469A (zh) 2020-07-10 2020-07-10 一种基于双流卷积神经网络的抽烟行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661345.7A CN111832469A (zh) 2020-07-10 2020-07-10 一种基于双流卷积神经网络的抽烟行为检测方法

Publications (1)

Publication Number Publication Date
CN111832469A true CN111832469A (zh) 2020-10-27

Family

ID=72900459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661345.7A Pending CN111832469A (zh) 2020-07-10 2020-07-10 一种基于双流卷积神经网络的抽烟行为检测方法

Country Status (1)

Country Link
CN (1) CN111832469A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537165A (zh) * 2021-09-15 2021-10-22 湖南信达通信息技术有限公司 一种行人打闹的检测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110909672A (zh) * 2019-11-21 2020-03-24 江苏德劭信息科技有限公司 一种基于双流卷积神经网络和svm的抽烟动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110909672A (zh) * 2019-11-21 2020-03-24 江苏德劭信息科技有限公司 一种基于双流卷积神经网络和svm的抽烟动作识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537165A (zh) * 2021-09-15 2021-10-22 湖南信达通信息技术有限公司 一种行人打闹的检测方法和系统
CN113537165B (zh) * 2021-09-15 2021-12-07 湖南信达通信息技术有限公司 一种行人打闹的检测方法和系统

Similar Documents

Publication Publication Date Title
WO2022111506A1 (zh) 视频动作识别方法、装置、电子设备和存储介质
CN113158723B (zh) 一种端到端的视频动作检测定位系统
Wang et al. Vision-based heart rate estimation via a two-stream cnn
CN111814661A (zh) 基于残差-循环神经网络的人体行为识别方法
CN109993269B (zh) 基于注意力机制的单张图像人群计数方法
CN112989977B (zh) 一种基于跨模态注意力机制的视听事件定位方法及装置
CN112308000B (zh) 一种基于时空信息的高空抛物检测方法
CN109635693B (zh) 一种正脸图像检测方法及装置
CN112668522B (zh) 一种人体关键点与人体掩码联合检测网络及方法
CN114399818A (zh) 一种多模态人脸情绪识别方法及装置
CN111563404B (zh) 用于基于视频的人再识别的全局局部时间表示方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Hu et al. AVMSN: An audio-visual two stream crowd counting framework under low-quality conditions
CN114399838A (zh) 基于姿态估计和二重分类的多人行为识别方法及系统
CN111488805A (zh) 一种基于显著性特征提取的视频行为识别方法
CN112287741A (zh) 基于图像处理的农事操作管理方法及装置
Yi et al. Human action recognition based on action relevance weighted encoding
CN115240117A (zh) 一种在工地施工场景下的安全帽佩戴检测方法
CN111832469A (zh) 一种基于双流卷积神经网络的抽烟行为检测方法
WO2024103682A1 (zh) 基于视频分类的跌倒行为识别方法及电子设备
CN112508121A (zh) 一种工业机器人感知外界的方法和系统
CN112417974A (zh) 一种公共卫生监控方法
CN115798055A (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination