CN111832469A - 一种基于双流卷积神经网络的抽烟行为检测方法 - Google Patents
一种基于双流卷积神经网络的抽烟行为检测方法 Download PDFInfo
- Publication number
- CN111832469A CN111832469A CN202010661345.7A CN202010661345A CN111832469A CN 111832469 A CN111832469 A CN 111832469A CN 202010661345 A CN202010661345 A CN 202010661345A CN 111832469 A CN111832469 A CN 111832469A
- Authority
- CN
- China
- Prior art keywords
- stream
- attention
- output
- spatial
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 18
- 230000006399 behavior Effects 0.000 title claims abstract description 14
- 230000000391 smoking effect Effects 0.000 title claims abstract description 14
- 238000012935 Averaging Methods 0.000 claims abstract description 4
- 230000002123 temporal effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims 3
- 238000012544 monitoring process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于双流卷积神经网络的抽烟行为检测方法,本发明首先获得视频段的空间流和时间流;其次将空间流和时间流卷积;然后将卷积输出的特征序列传入LSTM,获得输出;再将该输出输入至LSTM中将多头自注意力的结果经过softmax函数,得到空间流和时间流的输出;最后将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。本发明在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其它无用信息,从而提供检测的准确率。
Description
技术领域
本发明属于人体行为检测领域,涉及一种基于双流卷积神经网络的抽烟行为检测方法。
背景技术
智能视频监控可以提高实际监控场景中的监控效率,并减少人力财力的投入,同时可以在异常发生时及时报警,能够最大程度的避免对公众的危害。
相较于监控视频中的其他异常,如打斗,跌倒等行为,抽烟行为识别的准确率会大大降低。因为烟头在视频中的所占比重少,因此检测准确率不高,因此需要识别一个时间段内人的手势动作来判断视频监控中是否有抽烟行为。如图1所示,传统的双流卷积神经网络通过两个相同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果来检测出视频中的抽烟行为,但存在两个问题:
1、双流卷积神经网络将输入帧解析为空间流和时序流之后,仅使用CNN卷积提取空间流和时序流(光流)中的特征,因此无法充分利用空间流和时序流帧之间的时间信息,对动作进行时间上的关联。
2、双流卷积神经网络的输入数据为堆叠的帧,而不是将记录完整行为过程的图像序列一起处理,这时网络对每个帧的关注是相同的,但实际上某些有判别力的帧需要更多的关注,如抽烟时会将手抬到嘴前等标志性动作。
因此,对双流卷积神经网络进行改进,引入LSTM和多头自注意力机制,可解决上述问题,以提高其检测正确率。
发明内容
本发明的目的是针对现有双流卷积神经网络在检测视频中抽烟行为成功率低的情况,提供了一种基于双流卷积神经网络的抽烟行为检测方法。
本发明解决技术问题所采取的技术方案为:
一种基于双流卷积神经网络的抽烟行为检测方法包括以下步骤:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流,空间流就是采样得到的帧,时间流是两帧之间的光流图,包含帧之间的运动信息。
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3。
步骤三:特征输入长短期记忆网络(LSTM)
将步骤二卷积输出的特征序列传入LSTM,获得LSTM的输出。
步骤四:多头自注意力输出结果
LSTM的输出即是多头自注意力中Q,K,V的输入,将多头自注意力的结果经过softmax函数。
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
本发明的有益效果:本发明提出一种基于双流卷积神经网络的抽烟行为检测方法,在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其它无用信息,从而提供检测的准确率。
附图说明
图1.双流卷积神经网络。
图2.本发明流程图。
图3.长短期记忆网络。
具体实施方式
以下结合附图对本发明作进一步说明。
如图2所示,本发明方法具体是:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流,空间流就是采样得到的帧,时间流是两帧之间的光流图,包含帧之间的运动信息。
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3。
将提取的帧特征向量化后得到如下表示:
S=(x1,x2,......xi......xn)
其中xi表示该段中所提取帧的d维向量,将所有的帧向量连接在一起,S∈Rn×d,序列S中的每一项彼此独立。
步骤三:特征输入长短期记忆网络(LSTM)
为了获得单个视频段中帧之间的依赖关系,将步骤二卷积网络中提取到的特征S传给LSTM:
ht=LSTM(xt,ht-1)
如图3所示,其计算公式如下:
zt=σ(Wz[ht-1,xt])
rt=σ(Wr[ht-1,xt])
σ代表sigmod函数
其中ht表示LSTM在t时刻隐藏层的状态。假设单向LSTM中隐藏层单元数量为u,得到H∈Rn×u:
H=(h1,h2,......hu)
整个LSTM隐藏层状态的输出U:
U=tanh(WhHt+bn)
步骤四:多头自注意力输出结果
多头自注意力的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习,在将来再出现类似场景时把注意力放到该部分上。
LSTM隐藏层状态的输出U也是多头自注意力机制的输入,得到多头自注意力层的输出V为:
V=multihead(U,U,U)
多头自注意力机制计算公式如下:
multihead(Q,K,V)=Concat(head1,head2...headm)W0
其中:
Q=K=V
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
综上,本发明在双流网络的基础上引入LSTM和多头自注意力机制,能够有效提高监控系统中抽烟行为的识别率。
Claims (1)
1.一种基于双流卷积神经网络的抽烟行为检测方法,其特征在于该方法包括以下步骤:
步骤一:获得视频段的空间流和时间流
对待检测视频段按设定时间采样,提取帧,并将提取到的帧进行处理,得到空间流和时间流;
所述空间流就是采样得到的帧,所述时间流是两帧之间的光流图,包含帧之间的运动信息;
步骤二:将空间流和时间流卷积
将步骤一得到的时间流和空间流中的图片传入各自的卷积网络,两部分的网络架构相同,都采用CNN-M-2048架构,卷积核从前到后分别为7x7,5x5,3x3,3x3,3x3;
步骤三:特征输入长短期记忆网络
将步骤二卷积输出的特征序列传入长短期记忆网络,获得长短期记忆网络的输出;
步骤四:多头自注意力输出结果
长短期记忆网络的输出即是多头自注意力的输入,将多头自注意力的结果经过softmax函数,分别得到空间流和时间流的输出结果;
步骤五:拼接获得检测结果
将步骤四中空间流和时间流输出的结果求和取平均,获得最终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010661345.7A CN111832469A (zh) | 2020-07-10 | 2020-07-10 | 一种基于双流卷积神经网络的抽烟行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010661345.7A CN111832469A (zh) | 2020-07-10 | 2020-07-10 | 一种基于双流卷积神经网络的抽烟行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111832469A true CN111832469A (zh) | 2020-10-27 |
Family
ID=72900459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010661345.7A Pending CN111832469A (zh) | 2020-07-10 | 2020-07-10 | 一种基于双流卷积神经网络的抽烟行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832469A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537165A (zh) * | 2021-09-15 | 2021-10-22 | 湖南信达通信息技术有限公司 | 一种行人打闹的检测方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110909672A (zh) * | 2019-11-21 | 2020-03-24 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络和svm的抽烟动作识别方法 |
-
2020
- 2020-07-10 CN CN202010661345.7A patent/CN111832469A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110909672A (zh) * | 2019-11-21 | 2020-03-24 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络和svm的抽烟动作识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537165A (zh) * | 2021-09-15 | 2021-10-22 | 湖南信达通信息技术有限公司 | 一种行人打闹的检测方法和系统 |
CN113537165B (zh) * | 2021-09-15 | 2021-12-07 | 湖南信达通信息技术有限公司 | 一种行人打闹的检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022111506A1 (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN113158723B (zh) | 一种端到端的视频动作检测定位系统 | |
Wang et al. | Vision-based heart rate estimation via a two-stream cnn | |
CN111814661A (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN109993269B (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN112989977B (zh) | 一种基于跨模态注意力机制的视听事件定位方法及装置 | |
CN112308000B (zh) | 一种基于时空信息的高空抛物检测方法 | |
CN109635693B (zh) | 一种正脸图像检测方法及装置 | |
CN112668522B (zh) | 一种人体关键点与人体掩码联合检测网络及方法 | |
CN114399818A (zh) | 一种多模态人脸情绪识别方法及装置 | |
CN111563404B (zh) | 用于基于视频的人再识别的全局局部时间表示方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
Hu et al. | AVMSN: An audio-visual two stream crowd counting framework under low-quality conditions | |
CN114399838A (zh) | 基于姿态估计和二重分类的多人行为识别方法及系统 | |
CN111488805A (zh) | 一种基于显著性特征提取的视频行为识别方法 | |
CN112287741A (zh) | 基于图像处理的农事操作管理方法及装置 | |
Yi et al. | Human action recognition based on action relevance weighted encoding | |
CN115240117A (zh) | 一种在工地施工场景下的安全帽佩戴检测方法 | |
CN111832469A (zh) | 一种基于双流卷积神经网络的抽烟行为检测方法 | |
WO2024103682A1 (zh) | 基于视频分类的跌倒行为识别方法及电子设备 | |
CN112508121A (zh) | 一种工业机器人感知外界的方法和系统 | |
CN112417974A (zh) | 一种公共卫生监控方法 | |
CN115798055A (zh) | 一种基于cornersort跟踪算法的暴力行为检测方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |