CN114743138A

CN114743138A - 基于3D SE-Densenet网络的视频暴力行为识别模型

Info

Publication number: CN114743138A
Application number: CN202210338977.9A
Authority: CN
Inventors: 陈杰; 颜普; 邵慧; 徐恒; 孙龙
Original assignee: Anhui Jianzhu University
Current assignee: Anhui Jianzhu University
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-12

Abstract

本发明涉及视频行为识别，具体涉及基于3DSE‑Densenet网络的视频暴力行为识别模型，包括依次连接的初始卷积层、池化层、密集块和全连接层，密集块之间连接有过渡层，初始卷积层将连续视频帧作为输入，并生成特征图，密集块根据每个特征通道的重要程度在通道维度上对原始特征进行重标定，池化层、过渡层对特征图进行下采样，并减少相邻密集块之间匹配输出和输入特征图的数量，密集块与全连接层之间通过全局平均池化操作连接起来进行分类；本发明提供的技术方案能够有效克服现有技术所存在的参数数量较多、视频暴力行为识别准确性较低的缺陷。

Description

基于3D SE-Densenet网络的视频暴力行为识别模型

技术领域

本发明涉及视频行为识别，具体涉及基于3D SE-Densenet网络的视频暴力行为识别模型。

背景技术

暴力行为通常情况下是指在特定场景下发生的，危害公共安全及生命和财产安全的一系列行为，如打架斗殴、抢劫等行为。暴力行为一旦发生通常会造成非常严重的后果，因此在视频监控中及时识别暴力行为并自动预警，对维护公共安全和社会秩序具有至关重要的现实意义和应用价值。

视频暴力行为识别是视频异常行为识别的一种特殊应用。目前，越来越多的研究人员对视频暴力行为识别技术进行研究，并提出了许多针对暴力行为识别的研究方法。视频暴力行为识别的方法根据其特征提取方法通常可以分为两类：传统的基于手工特征的方法和深度学习方法。

基于手工特征的方法通常提取人工设计的特征，然后使用编码策略进行聚合，最后使用机器学习分类器进行最终决策。其中，STIP(Space-Time Interest Points)、MoSIFT(Motion Scale Invariant Feature Transform)和iDT(improved dense trajectories)是暴力行为识别中广泛使用的特征描述符，还有一些明确设计用来表示暴力信息的描述符，如Hassner等人提出暴力流VIF(Violent Flows)描述符，通过提取相邻帧间的光流信息来识别拥挤场景下的暴力行为。后来，Gao等人改进了这项工作，并通过额外计算光流的方向信息，提出了定向暴力流OVIF(Oriented Violent Flows)特征。但是，这些方法需要经过复杂图像预处理过程，耗时过长，并且受先验知识影响较大。

与基于手工特征的方法不同，深度学习方法使用可训练的深度神经网络作为特征提取器，构建一种包括特征提取、编码和分类的“端到端”模型。Simonyan等人提出了用于人体动作识别的双流网络，通过增加一个时间网络来捕获光流中的运动信息；Dong等人将该模型扩展到多流，增加了一个用于描捉暴力运动的加速流；此外，他们还使用LSTM(LongShort Term Memory)网络对长期信息进行建模。

这些方法充分利用了手工特性与深度学习相结合的优势。然而，缺点是它们不是端到端可训练的，更依赖于有效性手工制作的功能。为了解决这些问题，Ding等人提出了一种不使用任何手工特征或先验知识的3D卷积网络来识别暴力行为；Sudhakaran等人利用二维卷积神经网络提取空间特征图，然后利用卷积神经网络ConvLSTM编码时空信息，对视频暴力行为进行识别。

由于大规模数据集的可用性和深度学习技术的改进，基于三维卷积神经网络的方法在动作识别方面取得了巨大成功。Tran等人提出了C3D描述符，并强调了有效视频描述符的四个特性：通用性、紧凑性、高效性和简单性。不久之后，Hara等人进行了一系列实验，证明在Kinetics数据集上预先训练的3D CNN可以取得良好效果。Tran等人探索了多种3D CNN架构，并设计了一种新的时空卷积块R(2+1)D用于动作识别。然而，这些三维卷积神经网络的参数数量较多，冗余参数可能导致模型过度拟合和泛化能力下降。

发明内容

(一)解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了基于3DSE-Densenet网络的视频暴力行为识别模型，能够有效克服现有技术所存在的参数数量较多、视频暴力行为识别准确性较低的缺陷。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

基于3D SE-Densenet网络的视频暴力行为识别模型，包括依次连接的初始卷积层、池化层、密集块和全连接层，所述密集块之间连接有过渡层，所述初始卷积层将连续视频帧作为输入，并生成特征图，所述密集块根据每个特征通道的重要程度在通道维度上对原始特征进行重标定，所述池化层、过渡层对特征图进行下采样，并减少相邻密集块之间匹配输出和输入特征图的数量，所述密集块与全连接层之间通过全局平均池化操作连接起来进行分类。

优选地，所述密集块包括紧密相连的密集层，所述密集层中嵌入有SENet模块，并且每个密集层都采用带预激活的瓶颈架构。

优选地，所述SENet模块包括全局平均池化操作和Excitation操作，所述全局平均池化操作采用下式表示：

其中，原始数据的维度为C×W×H×D，H是高度，W是宽度，C是特征通道数，D是时间深度，所述全局平均池化操作将数据维度由C×W×H×D压缩为C×1×1×1，获得了之前W×H×D全局视野。

优选地，所述Excitation操作包括：

用w₁乘以全局平均池化操作得到的结果a，然后经过ReLU激活函数，再与w₂相乘，最后经过sigmoid函数，得到输出权重s：

s＝σ(g(a,w))＝σ(w₂δ(w₁a))

其中，w₁的维度为C/r×C，r是一个缩放参数，目的是为了减少特征通道数从而降低计算量，δ(*)表示ReLU激活函数，w₂的维度为C×C/r，σ(*)表示sigmoid函数。

优选地，所述密集块将Excitation操作得到的输出权重s作为每个特征通道的重要程度，并通过乘法逐通道加权到先前特征图上，完成在通道维度上对原始特征的重标定。

优选地，所述SENet模块扩展到三维。

优选地，所述密级块中第l密集层接收前l-1密集层生成的所有特征图作为输入：

y_l＝H_l([y₀,y₁,...,y_l-1])

其中，H_l(*)是第l密集层的状态转移函数，[*]表示连接操作，每个密集层生成k个新的特征图，k为增长率的超参数。

优选地，所述初始卷积层、池化层和全连接层均设有一个，所述密集块设有三个，所述过渡层设有两个，所述初始卷积层、池化层的所有内核大小都是三维的。

(三)有益效果

与现有技术相比，本发明所提供的基于3D SE-Densenet网络的视频暴力行为识别模型，以3D Densenet网络作为主网络，Densenet网络由于其结构特性可以很大程度减少参数数量，而通道注意力机制提升了卷积神经网络模型的准确性，因此将3D DenseNet网络和通道注意力机制进行结合，提出了一种基于3D SE-Densenet网络的视频暴力行为识别模型，该识别模型构造一种“端到端”的模型，原始数据可以直接输入，无需复杂的预处理或额外计算，该识别模型通过3DSE-Densenet网络能够更好地提取视频中的时空特征，提高了识别准确率，满足了实际需求，具有较高的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中3D SE-Densenet网络架构示意图；

图2为本发明中密集块的结构示意图；

图3为本发明中SENet模块的结构示意图；

图4为3D SE-Densenet网络、3D Densenet网络在Hockey Fights Dataset数据集上的准确率随迭代次数的曲线图；

图5为本发明中的视频暴力行为识别模型对Hockey Fights Dataset数据集的识别效果图；

图6为本发明中的视频暴力行为识别模型对Movies Dataset数据集的识别效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于3D SE-Densenet网络的视频暴力行为识别模型，如图1所示，包括依次连接的初始卷积层、池化层、密集块(Dense Block)和全连接层，密集块之间连接有过渡层，初始卷积层将连续视频帧作为输入，并生成特征图，密集块根据每个特征通道的重要程度在通道维度上对原始特征进行重标定，池化层、过渡层对特征图进行下采样，并减少相邻密集块之间匹配输出和输入特征图的数量，密集块与全连接层之间通过全局平均池化操作连接起来进行分类。

初始卷积层、池化层和全连接层均设有一个，密集块设有三个，过渡层设有两个，初始卷积层、池化层的所有内核大小都是三维的。

本申请技术方案中，密集块与全连接层之间通过全局平均池化操作连接起来进行分类，采用全局平均池化策略有利于免过拟合，提高模型的泛化能力，同时比直接用全连接能够减少更多参数。

如图2所示，密集块包括紧密相连的密集层(密集层是特征学习的基本单元)，密集层中嵌入有SENet模块，并且每个密集层都采用带预激活的瓶颈架构。

密级块中第l密集层接收前l-1密集层生成的所有特征图作为输入：

y_l＝H_l([y₀,y₁,...,y_l-1])

对于包含L个密集层的密集块，其生成k×L个新的特征图。图2中说明了密集块的简化机制，其中密集层有2个，增长率的超参数为2，共输出6个特征图，其中4个是由密集块中密集层新生成的。

使用SENet模块根据特征通道的重要程度增强有用的特征，并抑制对当前任务没有用的特征，接着采用1×1×1卷积生成32×4个中间特征图，然后采用3×3×3卷积生成32个(增长率)输出特征图。通常，较后位置的密集层在接收来自其前一密集层的所有特征图时具有更多的输入。因此，使用瓶颈架构有助于压缩特征图，从而提高计算效率，同时瓶颈内部的扩展促进了不同渠道之间的信息交互，有利于复杂特征的学习。

本申请技术方案中，SENet模块是一种关于通道注意力的网络结构，SENet不是一个完整的网络结构，而是一个子结构，可以嵌入具有相同输入大小和输出大小的其他识别分类模型中。由于本申请中主网络采用的是3D Densenet网络架构，因此，需要将SENet模块扩展到三维。

如图3所示，SENet模块包括全局平均池化操作和Excitation操作，全局平均池化操作采用下式表示：

其中，原始数据的维度为C×W×H×D，H是高度，W是宽度，C是特征通道数，D是时间深度，全局平均池化操作将数据维度由C×W×H×D压缩为C×1×1×1，获得了之前W×H×D全局视野，感受区域更广。

Excitation操作包括：

s＝σ(g(a,w))＝σ(w₂δ(w₁a))

上述Excitation操作过程中，用w₁乘以全局平均池化操作得到的结果a，这是一个全连接层操作，w₁的维度为C/r×C，因为a的维度为C×1×1×1，所以w₁a的结果就是C/16×1×1×1；然后经过ReLU激活函数，输出的维度不变；再与w₂相乘，这也是一个全连接层操作，w₂的维度为C×C/r，因此输出的维度为C×1×1×1；最后经过sigmoid函数，得到输出权重s。

密集块将Excitation操作得到的输出权重s作为每个特征通道的重要程度，并通过乘法逐通道加权到先前特征图上，完成在通道维度上对原始特征的重标定。

本申请技术方案中，过渡层位于任意两个密集块之间，过渡层对特征图进行下采样，并减少相邻密集块之间匹配输出和输入特征图的数量。这里，将输出特征图的数量设置为输入的一半，即F＝Fin/2。除了降低识别模型的复杂性和调整非线性，过渡层还可以促进特征通道之间的交互，从而增强特征学些能力，提高识别模型的鲁棒性。

表1中列出了基于3D SE-Densenet网络的视频暴力行为识别模型网络结构的详细信息，在输出列中，[C,W,H,D]表示由相应模块生成特征图的形状。

表1基于3D SE-Densenet网络的视频暴力行为识别模型网络结构

Hockey Fights Dataset包含从曲棍球比赛中收集的1000个视频，每个视频由50帧720×576组成，所有视频都有相同的背景和类似的人类活动，包括打架和正常行为。

Movies Dataset包含来200个从不同分辨率的动作电影中提取的剪辑视频，与Hockey Fights Dataset稍有不同的是，Movies Dataset中的视频内容各不相同。

这两种数据集都包含暴力和非暴力视频，然而这些数据集的规模相对较小，可能无法训练深层神经网络。为了解决这个问题，ConvLSTM采用了在ImageNet上预先训练的AlexNet模型，Hara等人进行了一系列实验证明3D CNN在Kinetics数据集上预先训练在行为识别方面可以取得良好效果。本申请中先将3D SE-Densenet模型在UCF101数据集上预先训练，然后再利用得到的模型参数对本申请识别模型的初始卷积层进行初始化。

本申请识别模型是使用PyTorch1.7.1平台实现的，实验硬件环境为酷睿i7-11800H处理器，内存为32GB，显卡为RTX3060。网络输入准备形状为N×C×D×H×W的特征图，其中，N是批量大小，C是通道数(RGB视频为3)，D是剪辑的持续时间，H×W表示帧分辨率。在实验中，每个视频都是用16个连续帧进行采样，然后裁剪并调整大小为112×112像素。

在训练阶段，考虑到数据集的规模大小，Hockey Fights Dataset使用的学习率和批量大小N分别为0.001、32，而Movies Dataset使用的学习率和批量大小N分别为0.0001、16。本申请采用权重衰减为0.001，动量为0.5的小批量随机梯度下降法SGD进行模型优化，损失函数采用的是交叉熵函数。

在上述实验中，采用Five-fold Cross Validation来评估模型的识别性能。从图4中可以看出，3D SE-Densenet和3D Densenet网络具有较强学习能力，在模型训练的早期阶段准确率上升速度快，随着迭代次数增加，准确率上升速度逐渐变慢，最后趋向稳定。此外，在3D Densenet网络中加入SENet网络后准确率得到进一步提升。

表2给出了不同模型的参数数量，从表中可以看出基于3D SE-Densenet网络的视频暴力行为识别模型相对其他网络模型具有较少的参数。本申请的识别模型在验证集上的交叉熵损失为0.0351，比ConvLSTM的0.1355低一个数量级；与C3D模型相比，本申请的识别模型节省了高达88％的参数，由此可见，本申请所提出的识别模型参数数量相对较少。

表2不同模型的参数数量

为进一步验证本申请识别模型的有效性，与现有的其他视频暴力行为识别算法进行对比，不同算法在Hockey Fights Dataset、Movies Dataset数据集的识别分类精度如表3所示，表中“-”表示算法未在对应数据集上进行实验。

表3中ViF+OViF、Radon Transform、STIFV(spatio-temporal Improved FisherVectors)、MoIWLD是采用传统手工提取特征的方法。其中，MoIWLD算法的识别准确率要高于其他传统算法，这是因为MoIWLD算法能够有效提取视频中的时空特征以及底层图像属性，能够有效消除不相关特征，因此识别效果比其他传统算法好。

3D CNN、C3D、Three streams+LSTM、FightNet、Hough Forests+CNN、ConvLSTM、Bi-ConvLSTM是采用深度学习的方法。其中Three streams+LSTM、FightNet、Hough Forests+CNN利用传统方法与深度学习方法相结合，缺点是更依赖于手工制作功能的有效性。

从表3中可以看出本申请的识别模型在两种数据集上的分类精度优于传统手工提取特征的方法和深度学习的方法。在Hockey Fights Dataset数据集中，本申请识别模型比MoIWLD算法的准确率提高了2.3％，比深度学习Bi-ConvLSTM算法的准确率提高了1％。由此可见，基于3D SE-Densenet网络的视频暴力行为识别模型的有效性。

表3不同算法在两种数据集的识别分类精度

本申请使用训练好的基于3D SE-Densenet网络的视频暴力行为识别模型估计每个被测视频片段的概率，然后对每个视频中所有片段概率值取平均得到整个视频的概率，用来识别视频暴力行为。

如图5、图6所示，图中使用“violeent”、“normal”表示视频中存在暴力行为、非暴力行为，使用“prob”表示视频中存在暴力行为的概率。左侧是发生暴力行为的视频，右侧是没有发生暴力行为的视频，从图中可以看出本申请识别模型能够有效识别视频中是否存在暴力行为。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：包括依次连接的初始卷积层、池化层、密集块和全连接层，所述密集块之间连接有过渡层，所述初始卷积层将连续视频帧作为输入，并生成特征图，所述密集块根据每个特征通道的重要程度在通道维度上对原始特征进行重标定，所述池化层、过渡层对特征图进行下采样，并减少相邻密集块之间匹配输出和输入特征图的数量，所述密集块与全连接层之间通过全局平均池化操作连接起来进行分类。

2.根据权利要求1所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述密集块包括紧密相连的密集层，所述密集层中嵌入有SENet模块，并且每个密集层都采用带预激活的瓶颈架构。

3.根据权利要求2所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述SENet模块包括全局平均池化操作和Excitation操作，所述全局平均池化操作采用下式表示：

4.根据权利要求3所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述Excitation操作包括：

s＝σ(g(a,w))＝σ(w₂δ(w₁a))

5.根据权利要求4所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述密集块将Excitation操作得到的输出权重s作为每个特征通道的重要程度，并通过乘法逐通道加权到先前特征图上，完成在通道维度上对原始特征的重标定。

6.根据权利要求2-5中任意一项所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述SENet模块扩展到三维。

7.根据权利要求2所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述密级块中第l密集层接收前l-1密集层生成的所有特征图作为输入：

y_l＝H_l([y₀,y₁,...,y_l-1])

8.根据权利要求1所述的基于3D SE-Densenet网络的视频暴力行为识别模型，其特征在于：所述初始卷积层、池化层和全连接层均设有一个，所述密集块设有三个，所述过渡层设有两个，所述初始卷积层、池化层的所有内核大小都是三维的。