CN111832469A

CN111832469A - 一种基于双流卷积神经网络的抽烟行为检测方法

Info

Publication number: CN111832469A
Application number: CN202010661345.7A
Authority: CN
Inventors: 张国强; 葛泉波; 申兴发
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-27

Abstract

本发明涉及一种基于双流卷积神经网络的抽烟行为检测方法，本发明首先获得视频段的空间流和时间流；其次将空间流和时间流卷积；然后将卷积输出的特征序列传入LSTM，获得输出；再将该输出输入至LSTM中将多头自注意力的结果经过softmax函数，得到空间流和时间流的输出；最后将步骤四中空间流和时间流输出的结果求和取平均，获得最终的检测结果。本发明在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其它无用信息，从而提供检测的准确率。

Description

一种基于双流卷积神经网络的抽烟行为检测方法

技术领域

本发明属于人体行为检测领域，涉及一种基于双流卷积神经网络的抽烟行为检测方法。

背景技术

智能视频监控可以提高实际监控场景中的监控效率，并减少人力财力的投入，同时可以在异常发生时及时报警，能够最大程度的避免对公众的危害。

相较于监控视频中的其他异常，如打斗，跌倒等行为，抽烟行为识别的准确率会大大降低。因为烟头在视频中的所占比重少，因此检测准确率不高，因此需要识别一个时间段内人的手势动作来判断视频监控中是否有抽烟行为。如图1所示，传统的双流卷积神经网络通过两个相同的卷积神经网络分别学习时间特征和空间特征并使用Softmax获取动作识别结果来检测出视频中的抽烟行为，但存在两个问题：

1、双流卷积神经网络将输入帧解析为空间流和时序流之后，仅使用CNN卷积提取空间流和时序流(光流)中的特征，因此无法充分利用空间流和时序流帧之间的时间信息，对动作进行时间上的关联。

2、双流卷积神经网络的输入数据为堆叠的帧，而不是将记录完整行为过程的图像序列一起处理，这时网络对每个帧的关注是相同的，但实际上某些有判别力的帧需要更多的关注，如抽烟时会将手抬到嘴前等标志性动作。

因此，对双流卷积神经网络进行改进，引入LSTM和多头自注意力机制，可解决上述问题，以提高其检测正确率。

发明内容

本发明的目的是针对现有双流卷积神经网络在检测视频中抽烟行为成功率低的情况，提供了一种基于双流卷积神经网络的抽烟行为检测方法。

本发明解决技术问题所采取的技术方案为：

一种基于双流卷积神经网络的抽烟行为检测方法包括以下步骤：

步骤一：获得视频段的空间流和时间流

对待检测视频段按设定时间采样，提取帧，并将提取到的帧进行处理，得到空间流和时间流，空间流就是采样得到的帧，时间流是两帧之间的光流图，包含帧之间的运动信息。

步骤二：将空间流和时间流卷积

将步骤一得到的时间流和空间流中的图片传入各自的卷积网络，两部分的网络架构相同，都采用CNN-M-2048架构，卷积核从前到后分别为7x7，5x5，3x3，3x3，3x3。

步骤三：特征输入长短期记忆网络(LSTM)

将步骤二卷积输出的特征序列传入LSTM，获得LSTM的输出。

步骤四：多头自注意力输出结果

LSTM的输出即是多头自注意力中Q，K，V的输入，将多头自注意力的结果经过softmax函数。

步骤五：拼接获得检测结果

将步骤四中空间流和时间流输出的结果求和取平均，获得最终的检测结果。

本发明的有益效果：本发明提出一种基于双流卷积神经网络的抽烟行为检测方法，在双流卷积神经网络的基础上引入LSTM和多头自注意力机制来构建混合模型。该混合模型可以快速获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其它无用信息，从而提供检测的准确率。

附图说明

图1.双流卷积神经网络。

图2.本发明流程图。

图3.长短期记忆网络。

具体实施方式

以下结合附图对本发明作进一步说明。

如图2所示，本发明方法具体是：

步骤一：获得视频段的空间流和时间流

步骤二：将空间流和时间流卷积

将提取的帧特征向量化后得到如下表示：

S＝(x₁，x₂，......x_i......x_n)

其中x_i表示该段中所提取帧的d维向量，将所有的帧向量连接在一起，S∈R^n×d，序列S中的每一项彼此独立。

步骤三：特征输入长短期记忆网络(LSTM)

为了获得单个视频段中帧之间的依赖关系，将步骤二卷积网络中提取到的特征S传给LSTM：

h_t＝LSTM(x_t，h_t-1)

如图3所示，其计算公式如下：

z_t＝σ(W_z[h_t-1，x_t])

r_t＝σ(W_r[h_t-1，x_t])

σ代表sigmod函数

其中h_t表示LSTM在t时刻隐藏层的状态。假设单向LSTM中隐藏层单元数量为u，得到H∈R^n×u：

H＝(h₁，h₂，......h_u)

整个LSTM隐藏层状态的输出U：

U＝tanh(W_hH_t+b_n)

步骤四：多头自注意力输出结果

多头自注意力的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习，在将来再出现类似场景时把注意力放到该部分上。

LSTM隐藏层状态的输出U也是多头自注意力机制的输入，得到多头自注意力层的输出V为：

V＝multihead(U，U，U)

多头自注意力机制计算公式如下：

multihead(Q，K，V)＝Concat(head₁，head₂...head_m)W⁰

其中：

Q＝K＝V

为K的维度，其中

W⁰是需要学习的参数，将这m次计算结果合并起来，所得的值就是多头自注意力的计算结果，并将多头自注意力的结果经过softmax函数，分别得到空间流和时间流的输出结果。

步骤五：拼接获得检测结果

综上，本发明在双流网络的基础上引入LSTM和多头自注意力机制，能够有效提高监控系统中抽烟行为的识别率。

Claims

1.一种基于双流卷积神经网络的抽烟行为检测方法，其特征在于该方法包括以下步骤：

步骤一：获得视频段的空间流和时间流

对待检测视频段按设定时间采样，提取帧，并将提取到的帧进行处理，得到空间流和时间流；

所述空间流就是采样得到的帧，所述时间流是两帧之间的光流图，包含帧之间的运动信息；

步骤二：将空间流和时间流卷积

将步骤一得到的时间流和空间流中的图片传入各自的卷积网络，两部分的网络架构相同，都采用CNN-M-2048架构，卷积核从前到后分别为7x7，5x5，3x3，3x3，3x3；

步骤三：特征输入长短期记忆网络

将步骤二卷积输出的特征序列传入长短期记忆网络，获得长短期记忆网络的输出；

步骤四：多头自注意力输出结果

长短期记忆网络的输出即是多头自注意力的输入，将多头自注意力的结果经过softmax函数，分别得到空间流和时间流的输出结果；

步骤五：拼接获得检测结果