CN111414876A

CN111414876A - 一种基于时序引导空间注意力的暴力行为识别方法

Info

Publication number: CN111414876A
Application number: CN202010224816.8A
Authority: CN
Inventors: 李凡; 张斯瑾; 贺丽君
Original assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Current assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-14
Anticipated expiration: 2040-03-26
Also published as: CN111414876B

Abstract

本发明公开了一种基于时序引导空间注意力的暴力行为识别方法，该方法采用双流参数共享的深度卷积网络提取RGB图像和帧差图像特征，分别作为空间域和时间域信息的表征，并对双流特征进行融合，提高了特征对于暴力行为的表征能力；在时序引导空间注意力模块，采用ConvLSTM的隐含时序状态引导空间注意力权值的策略，相较于传统的自注意力，时序引导的空间注意力根据全局运动信息赋予空间权值，引导网络关注运动区域，忽略背景信息的干扰，同时增大运动区域特征的比例可以减少目标较小时的漏检。在公开数据集上的测试结果验证了本发明对于暴力行为识别性能提升的有效性。

Description

一种基于时序引导空间注意力的暴力行为识别方法

技术领域

本发明属于行为识别领域，具体涉及一种基于时序引导空间注意力的暴力行为识别方法。

背景技术

暴力行为影响社会秩序，危害公共安全，及时识别并预警暴力行为，遏制暴力事件的事态发展对于公共安全具有重大意义。传统人工监控的方式不仅耗费大量人力，而且极易出现因监视者注意力不集中造成的漏检现象。近年来，基于深度学习识别行为的方法得到了广泛的关注，也促使了暴力行为检测算法性能的提高。

基于深度学习的暴力行为识别方法可分为三大类，一类是采用RGB和光流的双流结构，需要事先提取并保存光流，而提取光流的过程会耗费大量的时间和空间资源，因此难以满足实时性要求。第二类方法采用3D卷积网络结构，虽然该类方法识别速度较快，但是因为3D卷积网络参数量通常较大，对于硬件要求较高，难以应用于实际。第三类方法采用卷积长短时记忆网络(ConvLSTM)结构，因为在时序上每帧共享ConvLSTM网络参数，具有参数量较小的优点，但是仍然存在易受背景干扰的问题，尤其是当运动目标较小时，漏检现象明显。

在人眼视觉机制中存在注意力机制，即当人眼观察一幅图像时，会通过扫描全局图像，获得需要重点关注的目标区域，并对这一区域投入更多注意力资源，以获取该区域更多的细节信息，抑制其他区域无用的信息。空间注意力机制受人眼视觉注意力的启发，通过为部分区域赋予更高的权值，帮助网络关注重要区域，忽略其他区域的干扰。注意力机制在图像描述，机器翻译及图像识别等领域证明了其对减少背景干扰具有很好的效果。

发明内容

针对目前基于深度学习的暴力行为识别方法存在的问题，本发明提供了一种基于时序引导空间注意力的暴力行为识别方法。

本发明采用如下技术方案来实现：

一种基于时序引导空间注意力的暴力行为识别方法，包括以下步骤：

1)采用双流特征提取及融合模块对输入的视频图像，使用双流网络模型分别提取RGB图像和帧差图像的深度特征，并对双流特征进行融合，融合后的特征用于时序引导空间注意力模块；

2)时序引导空间注意力模块利用ConvLSTM输出的时序特征来引导空间注意力，为特征图分配不同的空间权重，使网络更加关注运动的区域。

本发明进一步的改进在于，步骤1)中，双流特征提取及融合模块选取经过ImageNet数据集预训练的VGG-16深度神经网络，去掉最后的三层全连接层，仅保留前面的卷积层部分作为特征提取器，提取RGB图像和帧差图像的特征，分别作为空间域和时间域的表征，然后将RGB和帧差双流的特征进行拼接融合，得到的融合特征输入时序引导空间注意力模块。

本发明进一步的改进在于，步骤2)中，时序引导空间注意力模块，提出使用ConvLSTM的隐含时序状态引导空间注意力权值的策略，采用了两层ConvLSTM网络层，将双流融合后的特征和第二层ConvLSTM上一时刻的隐含时序状态分别送入第一层ConvLSTM和空间注意力模块，之后将空间注意力模块输出的空间权值与第一层ConvLSTM的特征图进行点乘运算，为特征图不同空间位置赋予不同的权重，通过时序特征的引导使网络更加关注运动区域的特征，减少对运动目标的漏检。

本发明进一步的改进在于，第一层ConvLSTM和空间注意力模块分别采用式1-5和式6表示：

i_t＝σ(W_hi*h_t-1+W_xi*x_t+b_i) (1)

f_t＝σ(W_hf*h_t-1+W_xf*x_t+b_f) (2)

o_t＝σ(W_ho*h_t-1+W_xo*x_t+b_o) (3)

c_t＝f_tΘc_t-1+i_tΘtanh(W_hc*h_t-1+W_xc*x_t+b_c) (4)

m_t＝o_tΘtanh(c_t) (5)

a_t＝σ(W_z*σ(W_ha*h_t-1+W_xa*x_t+b_a1)+b_z) (6)

其中x_t表示t时刻的双流融合特征，i_t表示输入门，f_t表示遗忘门，o_t表示输出门，h_t,h_t-1分别表示t时刻和t-1时刻的隐含状态，c_t,c_t-1分别表示t时刻和t-1时刻的细胞状态，m_t表示t时刻ConvLSTM的输出，a_t表示t时刻空间注意力模块的输出，W_*和b_*分别代表对应输入情况下卷积网络的权值和偏移量，Θ表示逐元素点乘；

之后将第一层ConvLSTM和空间注意力模块的输出进行点乘加权操作，对于第一层ConvLSTM的输出赋予不同的权值，如下式所示，将t时刻隐含状态h_t赋值为空间注意力权值a_t与ConvLSTM输出m_t的乘积：

h_t＝a_tΘm_t (7)

经过加权之后的特征送入第二层ConvLSTM中进行再次的时序整合，将整合后的时序隐含状态送入三层全连接层，利用Softmax得到最终是否为暴力行为的分类结构和分类分数。

本发明至少具有以下有益的技术效果：

本发明提供的一种基于时序引导空间注意力的暴力行为识别方法。该方法基于暴力行为在空间和时间域的特点，提出RGB和帧差特征融合的双流结构，减少背景干扰的影响，同时设计由时序特征引导的空间注意力机制，通过为运动区域赋予更高的权值，减少运动目标较小时的漏检现象。

所述方法的双流特征提取结构中，每条支路的特征提取网络是基于VGG-16网络，VGG-16网络是在大规模图像分类数据集ImageNet上预训练好的，在提取RGB和帧差图像特征时，删除了最后的全连接层，仅保留了网络前面的五组卷积层。一方面通过删除参数量较大的全连接层，另一方面RGB和帧差图像共享特征提取网络的参数，减少了网络结构的参数量。

进一步，所述方法中的双流特征融合模块，采用拼接融合方式融合RGB图像特征和帧差图像特征。暴力行为在视频序列中一方面体现在空间域的挥拳打斗动作，另一方面体现在时间域的剧烈变化。RGB图像特征反映视频序列的静态信息，是行为在空间域的表征；帧差图像特征反映相邻视频帧之间的差异和运动变化，是行为在时间域的表征。双流网络将RGB图像的空间域信息和帧差图像的时间域信息融合，提高了网络特征的表征能力，从而可以减少误检情况的发生。

进一步，所述方法中的时序引导空间注意力模块，采用两层ConvLSTM结构，由上一时刻第二层的隐含状态作为时序特征，引导空间注意力模块对第一层的输出特征加权。相较于传统的空间自注意力，时序引导的空间注意力能够根据全局运动信息，自适应地为不同区域赋予不同权值，引导网络更加关注运动目标区域，忽略背景信息的干扰，从而减少运动区域较小时的漏检。

进一步，为了验证所述方法的有效性，在公开的暴力行为识别数据集HockyFights上进行了训练验证。通过实验证明所述方法中的双流特征提取及融合模块和时序引导的空间注意力模块均对暴力行为识别的准确性有一定的提升效果。

综上所述，本发明提供一种基于时序引导空间注意力的暴力行为识别方法。本发明基于暴力行为的特点，针对背景干扰和小目标漏检问题，使用双流特征提取和融合模块，提取并融合了RGB和帧差图像特征，结合空间域和时间域的信息，提高了特征对于运动信息的表征能力；同时使用时序特征引导的空间注意力模块，由上一时刻的时序特征引导网络为运动区域赋予更大的权值，减少背景区域的干扰，减少运动目标较小情况下的漏检。从整体上来看，本发明提高了暴力行为识别的准确率，同时通过共享参数减少网络的参数量，提高识别速率，具有良好的应用价值。

附图说明

图1为本发明中一种基于时序引导空间注意力的暴力行为识别方法流程图。

图2为本发明中双流特征提取及融合模块的流程图。

图3为本发明中时序引导空间注意力模块的流程图。

具体实施方式

下面结合附图对本发明进行详细阐述：

如图1所示，本发明提供的一种基于时序引导空间注意力的暴力行为识别方法，以下步骤：

1)双流特征提取及融合对于输入的连续视频序列，使用深度卷积神经网络分别提取RGB图像和帧差图像的特征，并将双流特征进行融合，用于时序引导的空间注意力模块。

2)时序引导空间注意力模块使用ConvLSTM输出的时序特征引导空间注意力模块为特征的不同空间区域赋予不同权值，引导网络关注运动区域。最后根据加权后的特征输出识别的类别和分数。

具体来说，在步骤1)双流特征提取及融合模块中，如图2所示，对于所有的输入图像，均先缩放至224x 224x 3的大小，作为RGB流的输入，同时计算相邻帧之间的对应像素差作为帧差流的输入。RGB和帧差图像的深度特征提取器均选用在ImageNet数据集上预训练好的VGG-16网络，去除最后的全连接层仅保留5组卷积层，减少网络的参数量。然后将提出的RGB和帧差图像特征拼接融合，形成融合特征，输入时序引导空间注意力模块中。

在步骤2)时序引导空间注意力模块中，如图3所示，将双流融合后的特征与上一时刻第二层ConvLSTM的时序隐含状态一起送入第一层ConvLSTM(式1)和空间注意力模块(式2)中，

为了测试本发明对于暴力行为识别的有效性，在公开的HockyFights暴力行为数据集上进行了训练和测试，实验中按照6:4的比例划分训练集和测试集，表1中展示了不同网络结构下暴力行为识别的准确率对比。根据测试结果，本发明中提出的双流网络结构和时序引导的空间注意力结构准确率为最高，相较原单流结构准确率有所提升，验证了双流网络结构和时序引导的空间注意力的有效性。

表1算法在HockyFights数据集上的评估结果

Claims

1.一种基于时序引导空间注意力的暴力行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于时序引导空间注意力的暴力行为识别方法，其特征在于，步骤1)中，双流特征提取及融合模块选取经过ImageNet数据集预训练的VGG-16深度神经网络，去掉最后的三层全连接层，仅保留前面的卷积层部分作为特征提取器，提取RGB图像和帧差图像的特征，分别作为空间域和时间域的表征，然后将RGB和帧差双流的特征进行拼接融合，得到的融合特征输入时序引导空间注意力模块。

3.根据权利要求2所述的一种基于时序引导空间注意力的暴力行为识别方法，其特征在于，步骤2)中，时序引导空间注意力模块，提出使用ConvLSTM的隐含时序状态引导空间注意力权值的策略，采用了两层ConvLSTM网络层，将双流融合后的特征和第二层ConvLSTM上一时刻的隐含时序状态分别送入第一层ConvLSTM和空间注意力模块，之后将空间注意力模块输出的空间权值与第一层ConvLSTM的特征图进行点乘运算，为特征图不同空间位置赋予不同的权重，通过时序特征的引导使网络更加关注运动区域的特征，减少对运动目标的漏检。

4.根据权利要求3所述的一种基于时序引导空间注意力的暴力行为识别方法，其特征在于，第一层ConvLSTM和空间注意力模块分别采用式1-5和式6表示：

i_t＝σ(W_hi*h_t-1+W_xi*x_t+b_i) (1)

f_t＝σ(W_hf*h_t-1+W_xf*x_t+b_f) (2)

o_t＝σ(W_ho*h_t-1+W_xo*x_t+b_o) (3)

c_t＝f_tΘC_t-1+i_tΘtanh(W_hc*h_t-1+W_xc*x_t+b_c) (4)

m_t＝o_tΘtanh(c_t) (5)

a_t＝σ(W_z*σ(W_ha*h_t-1+W_xa*x_t+b_a1)+b_z) (6)

其中x_t表示t时刻的双流融合特征，i_t表示输入门，f_t表示遗忘门，o_t表示输出门，h_t，h_t-1分别表示t时刻和t-1时刻的隐含状态，c_t，c_t-1分别表示t时刻和t-1时刻的细胞状态，m_t表示t时刻ConvLSTM的输出，a_t表示t时刻空间注意力模块的输出，W_*和b_*分别代表对应输入情况下卷积网络的权值和偏移量，Θ表示逐元素点乘；

h_t＝a_tΘm_t (7)

经过加权之后的特征送入第二层ConvLSTM中进行再次的时序整合，将整合后的时序隐含状态送入三层全连接层，利用Sofimax得到最终是否为暴力行为的分类结构和分类分数。