CN110503081A

CN110503081A - 基于帧间差分的暴力行为检测方法、系统、设备及介质

Info

Publication number: CN110503081A
Application number: CN201910817240.3A
Authority: CN
Inventors: 吕蕾; 陈梓铭
Original assignee: Shandong Normal University
Current assignee: Hefei Wisdom Dragon Machinery Design Co ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-26
Anticipated expiration: 2039-08-30
Also published as: CN110503081B

Abstract

本公开公开了基于帧间差分的暴力行为检测方法、系统、设备及介质，将待检测视频的所有帧图像，均输入到第一卷积神经网络中，输出每一帧图像的外观特征；利用帧间差分法对待检测视频进行处理，提取出若干个差分帧图像；将每一个差分帧图像，均输入到第二卷积神经网络中，输出每一个差分帧图像的动作特征；将每一帧图像的外观特征输入到第一分类器中，输出当前帧图像的第一分类标签；将每一个差分帧图像的动作特征输入到第二分类器中，输出当前差分帧图像的第二分类标签；将第一分类标签和第二分类标签进行融合，输出当前帧图像的暴力行为检测结果；当存在暴力行为图像的帧数超过设定阈值时，则认为待检测视频存在暴力行为。

Description

基于帧间差分的暴力行为检测方法、系统、设备及介质

技术领域

本公开涉及暴力行为检测技术领域，特别是涉及基于帧间差分的暴力行为检测方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

基于监控视频的人体行为识别，一直以来都备受中外研究者们的热情关注，原因不仅是由于基于视频的人体的行为识别研究在人机交互领域、安全监控方面、医疗诊断方面等具有非常重要的现实意义，而且行为识别的多领域广泛运用更是让它拥有了更多的研究价值，因此国内外众多科研工作者已经开展了大量的研究工作。基于视频的人体行为识别技术，涉及到了包括模式识别、图像处理和人工智能等多个知识领域，其中可能遇到的各种有待解决的问题包括环境变化、光线变化、目标遮挡等更是为视频中人的行为识别研究带来了很大的挑战。

视频中异常行为的判断还处于人工识别的阶段，人工识别虽然比计算机识别的准确率高，但要通过人工的方式实时地处理大量的监控数据几乎是不可能的，再者想要快速地从大量视频数据中提取有用信息的难度更大。

为了提高视频中异常行为检测的效率与分类的准确率，大量研究者们开始从事计算机视觉相关技术来进行针对视频中异常行为识别方面的研究。通过对监控视频进行分析、定位、跟踪来分析目标的动作序列，另外还通过综合场景特征来实现异常行为的判定，以提高异常行为识别的效率。

随着社会的进步与经济的不断发展，公共安全事务越来越受到社会各界的关注。暴力事件的频繁发生，威胁着每个人的人身和生命安全，而无处不在的监控可以用来防范、制止暴力事件的发生。基于这些实际考虑，我们将重点放在利用计算机视觉和深度学习技术检测人类暴力行为上。

暴力行为检测现在主要有基于全局特征和局部特征两种方法。局部特征大多是提取周围兴趣点的特征描述符，如流强、方向、梯度等，虽然局部特征方法在提供运动的精确表示方面表现良好，但是当场景拥挤时，精确度就大大下降。全局特性多是利用光流直方图来检测拥挤场景中的异常行为。现有的局部和全局方法都是针对特定任务而主观设计的，而基于多特征的暴力行为检测需要提取声音、纹理等特征，在医院、学校等地点这些特征是很难以被提取的。

发明内容

为了解决现有技术的不足，本公开提供了基于帧间差分的暴力行为检测方法、系统、设备及介质；

第一方面，本公开提供了基于帧间差分的暴力行为检测方法；

基于帧间差分的暴力行为检测方法，包括：

将待检测视频的所有帧图像，均输入到预先训练好的第一卷积神经网络中，输出每一帧图像的外观特征；

利用帧间差分法对待检测视频进行处理，提取出若干个差分帧图像；将每一个差分帧图像，均输入到预先训练好的第二卷积神经网络中，输出每一个差分帧图像的动作特征；

将每一帧图像的外观特征输入到预训练的第一分类器中，输出当前帧图像的第一分类标签；

将每一个差分帧图像的动作特征输入到预训练的第二分类器中，输出当前差分帧图像的第二分类标签；

将第一分类标签和第二分类标签进行标签融合，输出当前帧图像的暴力行为检测结果；

当存在暴力行为图像的帧数超过设定阈值时，则认为待检测视频存在暴力行为。

第二方面，本公开还提供了基于帧间差分的暴力行为检测系统；

基于帧间差分的暴力行为检测系统，包括：

外观特征提取模块，其被配置为：将待检测视频的所有帧图像，均输入到预先训练好的第一卷积神经网络中，输出每一帧图像的外观特征；

动作特征提取模块，其被配置为：利用帧间差分法对待检测视频进行处理，提取出若干个差分帧图像；将每一个差分帧图像，均输入到预先训练好的第二卷积神经网络中，输出每一个差分帧图像的动作特征；

第一分类模块，其被配置为：将每一帧图像的外观特征输入到预训练的第一分类器中，输出当前帧图像的第一分类标签；

第二分类模块，其被配置为：将每一个差分帧图像的动作特征输入到预训练的第二分类器中，输出当前差分帧图像的第二分类标签；

融合模块，其被配置为：将第一分类标签和第二分类标签进行标签融合，输出当前帧图像的暴力行为检测结果；

输出模块，其被配置为：当存在暴力行为图像的帧数超过设定阈值时，则认为待检测视频存在暴力行为。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

提供一种基于帧间差分的双通道特征提取和标签融合的视频暴力行为检测方法，其能够精确地从实时监控或视频中识别出发生的暴力行为，使得安全部门能即使得知和制止暴力行为的发生，也解决了人为观察监考的疲惫和疏忽。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的帧间差分方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于帧间差分的暴力行为检测方法；

如图1所示，基于帧间差分的暴力行为检测方法，包括：

作为一个或多个实施例，所述将待检测视频的所有帧图像，均输入到预先训练好的第一卷积神经网络中，输出每一帧图像的外观特征；其中，预选训练好的第一卷积神经网络的训练步骤，包括：

构建第一卷积神经网络；所述第一卷积神经网络采用VGG-16模型；

构建第一训练集；所述第一训练集为：ImageNet数据集；

将第一训练集输入到第一卷积神经网络中，对第一卷积神经网络进行训练，当第一卷积神经网络的损失函数达到最小值时，停止训练，得到训练好的第一卷积神经网络。

应理解的，所述外观特征，是指：直接将待检测视频的所有帧图像作为第一卷积神经网络输入，并从第一卷积神经网络的第一个全连接层得到的特征向量，即为外观特征。

作为一个或多个实施例，如图2所示，所述利用帧间差分法对待检测视频进行处理，提取出若干个差分帧图像；具体步骤为：

首先，将待检测视频的每一帧图像通过中值滤波处理；

然后，对中值滤波处理后的结果进行差分操作；

然后，对差分操作后的图像帧进行二值化处理，得到差分帧图像；

最后，对待检测视频的所有帧图像进行处理，得到所有的差分帧图像。

进一步地，对中值滤波处理后的结果进行差分操作，具体公式为：

D_k(x,y)＝|f_k+1(x,y)-f_k(x,y)|

视频的过滤完成后图像帧记为f_i(x,y)，这里的i＝1,2,3…,n表示图像的帧数，Dk(x,y)表示差分后的图像。

进一步地，将差分后的图像帧进行二值化：

其中，T_k(x,y)表示二值化后的图像，T为二值化的阈值。

这里用差分帧作为提取动作特征的卷积神经网络的好处是计算简单，可以提高效率，可以达到实时性，方便监控系统的集成；

其中，动作特征提取卷积神经网络的训练使用的是与外观特征提取卷积神经网络相同的数据集，但是，是经过差分处理之后的数据。

作为一个或多个实施例，所述将每一个差分帧图像，均输入到预先训练好的第二卷积神经网络中，输出每一个差分帧图像的动作特征；预先训练好的第二卷积神经网络具体训练步骤为：

构建第二卷积神经网络；所述第二卷积神经网络采用VGG-16模型；

构建第二训练集；所述第二训练集为：ImageNet数据集的差分帧图像；

将第二训练集输入到第二卷积神经网络中，对第二卷积神经网络进行训练，当第二卷积神经网络的损失函数达到最小值时，停止训练，得到训练好的第二卷积神经网络。

应理解的，所述动作特征，是指：将差分帧图像作为第二卷积神经网络的输入，并从第二卷积神经网络的第一个全连接层得到的特征向量，用以描述动作特征。

进一步地，所述预训练的第一分类器，在预训练阶段所使用的训练集是第一卷积神经网络采用ImageNet数据集训练得到的外观特征。

第一分类标签，具体包括：暴力行为外观标签和非暴力行为外观标签；

所述第一分类器为线性SVM分类器；

进一步地，所述预训练的第二分类器，在预训练阶段所使用的训练集是二卷积神经网络采用ImageNet数据集训练得到的动作特征。所述第二分类器为线性SVM分类器；

第二分类标签，具体包括：暴力行为动作标签和非暴力行为动作标签；

作为一个或多个实施例，所述将第一分类标签和第二分类标签进行标签融合，输出当前帧图像的暴力行为检测结果；具体步骤为：对第一分类标签和第二分类标签进行加权融合。

其中，Label_F表示标签融合结果；label_a表示第一分类标签，label_m表示第二分类标签；β为权重，δ是标签融合的阈值，δ的值为0.4，δ为融合加权系数，β的值越大对暴力行为检测的特征影响越大，β融合系数的值给定为0.5；如果f的数值大于阈值t的数值，则结果为1。

作为一个或多个实施例，所述当存在暴力行为图像的帧数超过设定阈值时，则认为待检测视频存在暴力行为；具体步骤为：

其中，T为取用视频的时长，阈值τ取自时间轴T中，且τ小于T，τ的值大于等于T/2Label表示检测视频最终标签融合结果；

如果最终计算检测得到的暴力行为总时长小于τ，则这次检测的视频就会被判定为是非暴力的。

VGG-16的模型结构为：该架构共包含5个卷积层(Conv1-5)和3个全连接层(Full1-3)，每一卷积层的细节分三部分给出，第一部分指定卷积滤波器的个数及其接收的大小(num*size*size)；第二部分表示卷积步长(st)和填充(pad)；第三部分为是否局部响应归一化(LRN)以及max-pooling下采样。激活函数为ReLU函数；

激活函数我们使用线性修正单元激活函数(ReLU)，ReLU函数可以表示为：

f(x)＝max(o,x)

此激活函数具有不受饱和的影响、大大加快随机梯度下降算法收敛以及缓解过拟合问题的发生等优点。

其中，选择VGG-16模型的第一个全连接层作为输出，第一个全连接层作为特征，其分类精度要高于其他层，所以是最好的选择；

其中，VGG(Visual Geometry Group)属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型；

需要说明的是，特征提取所用的卷积神经网络也可以使用其他神经网络模型；

因为线性SVM的预测函数非常简单，所以其分类速度很快，而且因为其优秀的泛化能力，所以在小样本训练集上能够得到很好的结果，这使得本方法的应用更贴合实际。且线性SVM基于结构风险最小化的原则，这样就避免过学习的问题。

实施例二，本实施例提供了基于帧间差分的暴力行为检测系统；

基于帧间差分的暴力行为检测系统，包括：

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于帧间差分的暴力行为检测方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，所述将待检测视频的所有帧图像，均输入到预先训练好的第一卷积神经网络中，输出每一帧图像的外观特征；其中，预选训练好的第一卷积神经网络的训练步骤，包括：

构建第一训练集；所述第一训练集为：ImageNet数据集；

3.如权利要求1所述的方法，其特征是，所述外观特征，是指：直接将待检测视频的所有帧图像作为第一卷积神经网络输入，并从第一卷积神经网络的第一个全连接层得到的特征向量，即为外观特征。

4.如权利要求1所述的方法，其特征是，所述利用帧间差分法对待检测视频进行处理，提取出若干个差分帧图像；具体步骤为：

首先，将待检测视频的每一帧图像通过中值滤波处理；

然后，对中值滤波处理后的结果进行差分操作；

5.如权利要求1所述的方法，其特征是，所述将每一个差分帧图像，均输入到预先训练好的第二卷积神经网络中，输出每一个差分帧图像的动作特征；预先训练好的第二卷积神经网络具体训练步骤为：

6.如权利要求1所述的方法，其特征是，所述动作特征，是指：将差分帧图像作为第二卷积神经网络的输入，并从第二卷积神经网络的第一个全连接层得到的特征向量，用以描述动作特征。

7.如权利要求1所述的方法，其特征是，所述将第一分类标签和第二分类标签进行标签融合，输出当前帧图像的暴力行为检测结果；具体步骤为：对第一分类标签和第二分类标签进行加权融合。

8.基于帧间差分的暴力行为检测系统，其特征是，包括：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。