CN116189286A

CN116189286A - 一种视频图像暴力行为检测模型及检测方法

Info

Publication number: CN116189286A
Application number: CN202211679196.2A
Authority: CN
Inventors: 白小军; 傅妍芳; 王宗鑫; 马振喜
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-05-30

Abstract

本发明涉及一种视频图像暴力行为检测模型及检测方法，采用轻量化结构和单阶段检测流程。采用双分支骨干特征提取网络，一路使用改进的I3D网络专注于提取时空特征，一路通过优化的RepVGG网络专注于提取关键帧的空间特征。通过通道融合注意力模块进一步强化骨干网络得到的时空特征，挖掘特征图各通道间的重要程度，得到两个尺度不同的有效特征层。通道剪枝加快模型推理速度。本发明由于采用了双分支结构的骨干特征提取网络、合理的特征融合方法、轻量化结构以及单阶段的检测流程，能够从视频流中自动检测暴力行为，取得了较优异的效果，能够从监控摄像头获取的视频影像中，实时识别暴力行为并及时告警，验证了本发明在实际使用中的有效性。

Description

一种视频图像暴力行为检测模型及检测方法

技术领域

本发明属于人工智能和视频理解技术领域，涉及一种视频图像暴力行为检测模型及检测方法，能够实现从实时监控视频中自动检测暴力行为，提供实时预警，并完成监控日志记录，可用于公共安全领域，协助治安管理及案件侦破。

背景技术

现有技术的方案：受到高精度目标检测算法Faster R-CNN的启发，现有大多数工作将经典的两阶段网络架构应用于暴力行为检测中，基本思路为：对于待检测视频片段，首先，在第一阶段对视频中每帧图像执行目标检测算法，以产生多个动作候选框；其次，在第二阶段利用动作分类模型对行为进行分类和定位细化。

Feichtenhofer等人在文献“Feichtenhofer C,Fan H,Malik J,et al.Slowfastnetworks for video recognition[C]//Proc of IEEE/CVF ICCV.Piscataway,NJ:IEEEPress,2019:6201-6210”中提出了用于视频行为识别的SlowFast网络，该网络首先利用Faster R-CNN目标检测算法将每个视频帧中的人体进行定位，然后利用一个低频的慢速路径和高频的快速路径分别用于提取空间特征和时间特征，进而实现暴力行为检测。

Dong等人在文献“Dong Min,Fang Zhenglin,Li Yongfa,et al.AR3D:attentionresidual 3D network for human action recognition[J].Sensors,2021,21(5):1656-1669”中利用残差结构和注意机制对现有的3D卷积模型进行了改进，提出了注意残差3D网络(AR3D),加强了人体行为特征的提取。

李颀等人在文献“基于轻量级图卷积网络的校园暴力行为识别”中提出了一种基于轻量级图卷积的人体骨架数据的行为识别方法，通过多信息流数据融合与自适应图卷积相结合的方式，实现了行为识别。

现有技术的缺点：以上方法在暴力行为检测中存在三个缺陷，首先，由跨多个帧的边界框组成的动作管道的生成要比二维的情况复杂得多，也更加费时；其次，动作候选框只关注视频中人体的特征，忽略了人体与背景的潜在关联，此种潜在关联往往能够为行为预测提供关键的上下文信息；第三，分别训练目标检测网络和行为分类网络并不能保证找到全局最优，训练成本也比单阶段网络高，因此需要更长的时间和更多的内存。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种视频图像暴力行为检测模型及检测方法，采用双分支结构的骨干特征提取网络，一路专注于提取时空特征，一路专注于提取空间特征，两分支特征对于最终的目标行为定位具有互补作用，克服了两阶段方法只关注视频中人体区域特征的不足，表现出与现有最优方法相当的检测精度；同时，本发明采用轻量化结构和单阶段检测流程，可以端到端进行模型训练与预测，大幅度降低了训练成本，并具有更高的检测效率。

技术方案

一种视频图像暴力行为检测模型，其特征在于包括特征提取网络依次连接通道融合注意力模块和分类回归模块；所述特征提取网络为双分支骨干特征提取网络，其中I3D网络，进行时空特征提取，另一路为优化的RepVGG网络，对关键帧进行空间特征提取；通道融合注意力模块强化得到的时空特征，得到两个尺度不同的有效特征层；以1×1卷积调整特征图通道数，输入分类器和回归器获得目标行为位置及其所属行为分类；所述优化的RepVGG网络是将RepVGGBlock4模块的输出的特征图作为ASPP的输入，首先经过并行的卷积和空洞卷积操作进行特征提取；其次，将提取到的特征图进行合并；然后，对合并后的特征图进行1×1卷积，压缩特征，得到最终输出。

一种利用述视频图像暴力行为检测模型对监控视频中的暴力行为检测方法，其特征在于步骤如下：

步骤1、建立基础数据集：以M段暴力行为的视频图像作为视频数据，将每段视频切分为长度为16的图像帧序列作为基础数据集vioData；

步骤2、数据集标注：在切分得到的视频帧图像中，标注是否包含暴力行为以及发生暴力行为的位置；

步骤3、数据增强：将视频帧序列中的每幅图像做左右镜像处理，使训练集样本数扩充为原来的2倍；再随机改变扩充后图像RGB通道的亮度、对比度、饱和度来进行图像的色彩增强；

步骤4、检测模型训练：将步骤3的图像输入到视频图像暴力行为检测模型进行训练，得到暴力行为检测模型；

其中训练网络模型的损失函数包含：分类预测损失L_cls、定位损失L_rect以及置信度损失L_obj；

所述分类预测损失公式：

其中，N代表行为类别总数，x_i为类别预测值，y_i为激活函数后得到的当前类别概率，y为当前类别真实值；

所述定位损失公式：

其中，w^gt和h^gt表示真实框的宽和高，w和h表示预测框的宽和高，v表示预测框与真实框长宽比例差值的归一化，p²表示计算真实框与预测框之间的中心点距离，α是权衡长宽比例造成损失和IoU造成损失的平衡因子；

所述置信度损失公式：

其中，N表示特征点数量，Ci为置信度预测值，Ci为激活函数后得到的当前置信度概率，C则为当前位置置信度真实值，有目标为1，无目标为0；

最后，将三个损失函数整合成一个总的损失函数，L＝a₁×L_cls+a₂×L_rect+a3×L_obj，其中，a1＝0.4，a2＝0.3，a3＝0.3，当最小化该损失函数能使暴力行为检测模型收敛；

步骤5：将监控摄像头实时获取的视频数据切分成视频帧序列，并将一段段视频帧序列作为暴力行为检测模型的输入；然后进行模型前向推理，得到检测结果，当暴力行为预测的分类置信度大于0.5时，视为发生了暴力行为；一旦检测到暴力行为就进行告警，并做日志记录包括但不限于时间地点，一同将检测到的暴力行为片段和日志存到数据库中。

构建了基础数据集VioData，并对视频帧序列数据进行数据增强，执行暴力行为检测时将依次经过特征提取网络、通道融合注意力模块以及分类回归模块。

有益效果

本发明提出的一种视频图像暴力行为检测模型及检测方法，采用轻量化结构和单阶段检测流程。采用双分支骨干特征提取网络，一路使用改进的I3D网络专注于提取时空特征，一路通过优化的RepVGG网络专注于提取关键帧的空间特征。通过通道融合注意力模块进一步强化骨干网络得到的时空特征，挖掘特征图各通道间的重要程度，得到两个尺度不同的有效特征层。通道剪枝加快模型推理速度。

本发明由于采用了双分支结构的骨干特征提取网络、合理的特征融合方法、轻量化结构以及单阶段的检测流程，能够从视频流中自动检测暴力行为，取得了较优异的效果，并将暴力行为检测模型部署到了嵌入式设备上，能够从监控摄像头获取的视频影像中，实时识别暴力行为并及时告警，验证了本发明在实际使用中的有效性。

附图说明

图1：暴力行为检测模型

图2：优化前后的RepVGG的区别，

图3：ASPP整体结构

图4：方法训练流程

图5：方法推理流程图

图6：通道裁剪示意图

图7：检测效果示意

具体实施方式

现结合实施例、附图对本发明作进一步描述：(a)原始RepVGG；(b)优化后RepVGG；

本发明采用的技术方案：

步骤1，获取基础数据集

从相应的官网获得了行为检测领域最常用的两个公共数据集UCF101-24(24种行为类别)、JHMDB(21种行为类别)，以评估本发明方法在行为检测领域的有效性。由于没有真正适合暴力行为检测场景的公共数据集，因此参考了上述两个数据集的设计方案，从其他视频数据集以及监控摄像头所拍摄的资源中整理出2500段暴力行为视频数据，然后将视频切分为一定量的图像帧序列作为本发明的基础数据集vioData。

步骤2，数据集标注

将切分得到的视频帧图像标注是否包含暴力行为以及发生暴力行为的位置。

步骤3，数据增强

为了丰富行为视频帧序列的训练集，更好的提取图像不变性特征，提高模型泛化能力，对原始视频帧进行相应的数据增强处理。将视频帧序列中的每幅图像做左右镜像处理，使训练集样本数扩充为原来的2倍，来提高模型的泛化能力；通过随机改变原始图像RGB通道的亮度、对比度、饱和度来进行图像的色彩增强。

步骤4，模型设计与训练

将经过步骤3处理的视频帧数据输入到所设计的网络模型进行训练，得到暴力行为检测模型。

如图1所示，所述设计的网络模型整体分为三个部分，包括特征提取网络、通道融合注意力模块以及分类回归模块。该模型以视频帧序列为输入，首先，利用双分支骨干特征提取网络，其中一路为优化的I3D网络，负责对输入的视频帧序列进行时空特征提取，另一路为优化的RepVGG网络，负责对关键帧进行空间特征提取；然后，通过通道融合注意力模块进一步强化得到的时空特征，挖掘特征图各通道间的重要程度，得到两个尺度不同的有效特征层；最后，利用1×1卷积调整特征图通道数，并利用分类器和回归器获得目标行为位置及其所属行为分类。

其中，由于原始RepVGG网络骨干网络层次结构复杂，且没有重点信息筛选或融合，计算量很大，同时难以学习到有效的特征，故而出现较多的漏检和误检问题。本发明引入轻量化的ASPP代替原始RepVGG网络的特定模块，降低计算复杂度，同时加强信息融合能力。原始RepVGG和优化后的RepVGG结构如图2所示。

上述ASPP整体结构如图3所示，将RepVGGBlock4模块的输出的特征图作为ASPP的输入，首先经过并行的卷积和空洞卷积操作进行特征提取；其次，将提取到的特征图进行合并；然后，对合并后的特征图进行1×1卷积，压缩特征，得到最终输出。

训练网络模型需要最小化损失函数，损失函数包含三个部分：分类预测损失L_cls、定位损失L_rect以及置信度损失L_obj。

分类预测损失公式如下：

其中，N代表行为类别总数，x_i为类别预测值，y_i为激活函数后得到的当前类别概率，y为当前类别真实值。

定位损失公式如下：

其中，w^gt和h^gt表示真实框的宽和高，w和h表示预测框的宽和高，v表示预测框与真实框长宽比例差值的归一化，p²表示计算真实框与预测框之间的中心点距离，α是权衡长宽比例造成损失和IoU造成损失的平衡因子。

置信度损失公式如下：

其中，N表示特征点数量，Ci为置信度预测值，Ci为激活函数后得到的当前置信度概率，C则为当前位置置信度真实值(有目标为1，无目标为0)。

最后，将三个损失函数整合成一个总的损失函数，L＝a₁×L_cls+a₂×L_rect+a3×L_obj，其中，a1＝0.4，a2＝0.3，a3＝0.3，只要最小化该损失函数就能使暴力行为检测模型收敛。

步骤5，模型预测

将监控摄像头实时获取的视频数据切分成视频帧序列，并将一段段视频帧序列作为暴力行为检测模型的输入；然后进行模型前向推理，得到检测结果，当暴力行为预测的分类置信度大于0.5时，视为发生了暴力行为；一旦检测到暴力行为就进行告警，并做日志记录(时间地点等信息)，一同将检测到的暴力行为片段和日志存到数据库中，以备后用。

本发明的效果可以通过实验做进一步说明，具体实施例：

1)硬件条件

本发明在中央处理器为Intel(R)Xeon(R)CPU E5-2609 v4@1.70GHz、NVIDIAGeForce RTX 3080、Ubuntu18.04操作系统上，运用PyCharm平台、Python3.7、深度学习框架Pytorch1.8.0环境下进行实验。

2)实验数据

本发明采用UCF101-24、JHMD以及所构建的暴力行为检测数据集vioData开展实验。UCF101-24数据集包含3207段行为视频序列，JHMD数据集包含视频序列总数为908段，vioData中则包含2500段视频片段，最终切分为4784段视频帧序列，然后都将它们划分为训练集、验证集和测试集，划分比例也都为8:1:1。

3)稀疏训练

考虑到算法的边缘部署需求,训练后的模型体积仍然较大，由于训练数据集类别及数量较少，卷积运算会存在一些冗余的结构，导致不必要的计算开销,使得推理耗时较长。为了进一步压缩体积，通过稀疏训练与结构稀疏正则化筛选并删除不重要的通道层,从而减少计算量。将I3D与RepVGG的每个卷积层后的BN层的γ作为缩放因子,作为判别通道重要性的指标,根据如下公式第二项将缩放因子添加到损失函数训练。

其中，为l(f(x,W),y)位原始损失函数，x为输入，y为目标，W为训练参数，λ为稀疏比例因子，Γ为BN层中缩放因子全集，g(γ)为缩放因子惩罚项。

由上式第二项对缩放因子进行L1正则化操作，与通道的输出相乘,接着联合权重与缩放因子训练网络。

4)模型剪枝

在经过稀疏训练后,首先对BN层的所有缩放因子γ的绝对值排序,同时设定剪枝比例为40％,求出一个阈值S；然后，对于所有小于S的缩放因子对应的通道执行裁剪。通道裁剪示意如图所示。

4)评价指标

mAP(mean Average precision，平均精度均值)是图像或视频检测任务中常用的评测指标，因为这类任务中的标签数量大多不止一个，因此不能用普通的单标签图像的分类标准，即mean accuracy。

mAP指将多类任务中的平均精度(AP)求和再取平均，其相对大小是衡量一个同类任务模型好坏的重要标准之一。

其中，分子验证集中该类所有准确率之和，分母为该类目标的样本数量。由于检测任务中不止有一个类别，因此需要对所有类别计算平均AP值：

4)实验结果

实验中作为对比的方法如下：

Feichtenhofer等人在文献“Feichtenhofer C,Fan H,Malik J,et al.Slowfastnetworks for video recognition[C]//Proc of IEEE/CVF ICCV.Piscataway,NJ:IEEEPress,2019:6201-6210”中提出的SlowFast算法。

表1.暴力行为检测结果

方案	UCF101-24	JHMD	vioData
				SlowFast	80.5％	72.3％	83.9％
AR3D	84.4％	70.5％	80.6％
				本发明	85.8％	77.7％	91.3％

表2.暴力行为检测速度

方案	Speed(fps)
		SlowFast	10
AR3D	16
		本发明	32

由表1和表2可以看出，由于采用了双分支结构的骨干特征提取网络、合理的特征融合方法、轻量化结构和单阶段检测流程，可以取得更高的识别效果，并具有更高的检测效率，验证了本发明的先进性。

二、将所设计模型部署到嵌入式设备验证本发明的有效性

1)硬件条件

采用中央处理器为4核64位的Raspberry Pi 4B开发板，Raspberry Pi 4B通过HDMI接口可连接显示屏，还提供了wifi连接等功能。Raspberry Pi 4B如图3所示。

2)模型加速

使用Pytorch训练得到的模型格式不便于做移植与部署，ONNX则为AI模型提供了一个开放式的文件格式，因此，本发明将Pytorch训练所得.pth模型文件转为.onnx模型文件，并利用onnxruntime并行加速推理包实现对ONNX模型进行解读，优化等操作，以便于模型在边缘设备的移植和部署。

3)检测效果

将在服务器上训练好的最优模型部署到Raspberry Pi 4B低成本设备上，以验证本发明在实际工业应用时的有效性，检测效果如图4所示。

Claims

1.一种视频图像暴力行为检测模型，其特征在于包括特征提取网络依次连接通道融合注意力模块和分类回归模块；所述特征提取网络为双分支骨干特征提取网络，其中I3D网络，进行时空特征提取，另一路为优化的RepVGG网络，对关键帧进行空间特征提取；通道融合注意力模块强化得到的时空特征，得到两个尺度不同的有效特征层；以1×1卷积调整特征图通道数，输入分类器和回归器获得目标行为位置及其所属行为分类；所述优化的RepVGG网络是将RepVGGBlock4模块的输出的特征图作为ASPP的输入，首先经过并行的卷积和空洞卷积操作进行特征提取；其次，将提取到的特征图进行合并；然后，对合并后的特征图进行1×1卷积，压缩特征，得到最终输出。

2.一种利用权利要求所述视频图像暴力行为检测模型对监控视频中的暴力行为检测方法，其特征在于步骤如下：

所述分类预测损失公式：

所述定位损失公式：

所述置信度损失公式：

3.根据权利要求2所述的方法，其特征在于：构建了基础数据集VioData，并对视频帧序列数据进行数据增强，执行暴力行为检测时将依次经过特征提取网络、通道融合注意力模块以及分类回归模块。