CN113191182A

CN113191182A - 一种基于深度学习的暴力异常行为检测方法

Info

Publication number: CN113191182A
Application number: CN202110224967.8A
Authority: CN
Inventors: 李双全; 魏壮
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-07-30

Abstract

本发明公开了一种基于深度学习的暴力异常行为检测方法，涉及暴力异常行为技术领域；它的检测方法如下：步骤一：研究异常行为检测的原理以及经典的检测方法；步骤二：研究基于3D卷积神经网络的特征提取方法；步骤三：搭建神经网络，通过网络训练得到最终的暴力异常行为检测网络模型；步骤四：提出将行为检测与目标检测相结合；本发明利用计算机视觉技术对监控视频中的暴力异常行为检测技术展开研究，实现对抢劫、打架斗殴等暴力行为能够进行实时的监测预警，并且实现在在大量视频中对暴力行为的快速检索定位功能；有效改善目前监控系统数据利用率低下的问题以及智能监控视频技术的完善和发展有着重大的意义。

Description

一种基于深度学习的暴力异常行为检测方法

技术领域

本发明属于暴力异常行为技术领域，具体涉及一种基于深度学习的暴力异常行为检测方法。

背景技术

如今，随着社会经济不断发展，城市扩张，人口密度越来越高，在街道、商场等公共区域的人口密度较大，很容易发生抢劫、打斗等危险的异常事件。这些危险因素都给公共管理以及安全带来了极大的威胁和挑战。

面对这一问题，社会对于安防设施的需求不断增长，这促使政府在公共场所部署了大量的视频监控系统。但是传统的监控视频有如下两个弊端：(1)、在需要对监控视频实时监测的场景下，只能用人的肉眼进行监测，在长期监测过程中会让人产生视觉疲劳，从而导致监测信息的可靠性和效率降低。(2)、很多的监控系统处于“只记录不判断”的模式，在暴力事件发生后，相关部门需要对监控进行调查取证，存在很大的信息滞后性，不能实时地对暴力异常行为做出响应。所以，目前传统的监控系统对于视频数据的审查不仅费时费力，而且容易造成漏检或者误检，无法从根本上达到防患于未然。

发明内容

为解决背景技术中的问题；本发明的目的在于提供一种基于深度学习的暴力异常行为检测方法。

本发明的一种基于深度学习的暴力异常行为检测方法，它的检测方法如下：

步骤一：研究异常行为检测的原理以及经典的检测方法，其中包括背景减除法、光流法以及帧差法；

步骤二：研究基于3D卷积神经网络的特征提取方法，通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核，卷积层中的特征图会与上一层中的多个相邻帧相连，从而捕获运动信息；

步骤三：搭建神经网络，通过网络训练得到最终的暴力异常行为检测网络模型；

步骤四：为提升识别准确率将识别算法进行优化和改进，提出将行为检测与目标检测相结合。

与现有技术相比，本发明的有益效果为：

一、利用计算机视觉技术对监控视频中的暴力异常行为检测技术展开研究，实现对抢劫、打架斗殴等暴力行为能够进行实时的监测预警，并且实现在在大量视频中对暴力行为的快速检索定位功能。

二、有效改善目前监控系统数据利用率低下的问题以及智能监控视频技术的完善和发展有着重大的意义。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本具体实施方式采用以下技术方案：基于深度学习的方法，结合目标检测技术、行为识别技术开展研究，构建人体暴力异常行为检测网络模型，实现在监控视频中实时检测出暴力行为。主要内容如下：

1、研究异常行为检测的原理以及经典的检测方法，其中包括背景减除法、光流法以及帧差法；

2、研究基于3D卷积神经网络的特征提取方法，通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核，卷积层中的特征图会与上一层中的多个相邻帧相连，从而捕获运动信息。

3、搭建神经网络，通过网络训练得到最终的暴力异常行为检测网络模型。

4、为提升识别准确率将识别算法进行优化和改进，提出将行为检测与目标检测相结合。

如图1所示，本具体实施方式的具体实施方式如下：

一、在数据集的选择上，选择Hockey数据集、UCF-Crime数据集、CAVIAR数据集以及BEHAVE数据集四个公开数据集。其中Hockey数据集中包含了500个不同角度的暴力行为，500个正常比赛或站立的动作，该数据集用于训练集；UCF-Crime数据集有1900个带有标签的监控视频组成，涵盖真是场景中的纵火、打架斗殴、抢劫等暴力异常行为，此数据集将用于训练集；CAVIAR数据集和BEHAVE数据集包含了不同场景下人的行为，选取其中包含打架行为、奔跑行为、正常行走等30个视频作为测试集。

二、在训练方式方面，使用公开数据集，在模型训练方面将采用有监督学习。

三、采用Pytorch网络框架，选择基于CNN的目标检测网络模型，通过研究行为检测的算法，分析各类算法的特性，最终选择3D卷积神经网络。3DCNN可以同时在空间和时间两个维度捕获视频序列的运动和表现特征信息；采用三维的卷积核对多帧视频叠加组成的视频时空块在时间和空间维度上进行卷积，以考虑相邻帧的时序信息融合。具体公式为：

表示第i层卷积层的第j层特征图上(x,y,z)位置的特征值；

表示计算第i层卷积层中第j层特征图的第m个3D卷积核中位置为(h,w,r)的权重；H,W,R表示3D卷积核的空间高度、宽度以及时间长度。卷积核的个数决定卷积层输出的特征图个数，且每个特征图是一个3维矩阵块。

四、为了提升识别的准确率，降低误报的情况，将在暴力行为识别的基础上，加入目标检测，检测发生暴力行为的人手中是否持有枪支、刀具、棍棒，进行暴力等级判定。在对比分析目前的各类目标检测算法，最后选择YOLO网络，YOLO网络是一种端到端的网络，可以将检测当做回归问题求解，而且YOLO的实时性在目前所有目标检测算法中是最好的。网络训练的大体流程如下：

(4.1)、将处理过得图像进行resize处理，调整图像尺寸作为整个网络的输出。

(4.2)、通过运行神经网络得到boundingbox(边界框)坐标，坐标中含有目标的置信度和类别概率。

(4.3)、在测试的时候，每个网格预测的类别信息和boundingbox(边界框)预测的信息相乘，得到每个boundingbox的具体类别和置信度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的暴力异常行为检测方法，其特征在于：它的检测方法如下：