CN111860286A

CN111860286A - 基于混合策略的暴力行为检测方法及系统、存储介质

Info

Publication number: CN111860286A
Application number: CN202010685116.9A
Authority: CN
Inventors: 滕峰; 杨晨; 张嘉森
Original assignee: Abacus Info Shenzhen Co ltd
Current assignee: Abacus Info Shenzhen Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-30
Anticipated expiration: 2040-07-14
Also published as: CN111860286B

Abstract

本发明公开了一种基于混合策略的暴力行为检测方法及系统、计算机可读存储介质，该方法包括以下步骤：获取已训练的第一深度神经网络模型和第二深度神经网络模型；提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流；当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测；当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测。本发明解决了传统技术中存在的泛化能力较弱的问题，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

Description

基于混合策略的暴力行为检测方法及系统、存储介质

技术领域

本申请涉及计算机软件应用技术领域，尤其涉及一种基于混合策略的暴力行为检测方法及系统、计算机可读存储介质。

背景技术

暴力行为是以人身、财产为侵害目标，采取暴力手段，对被害人的身心健康和生命财产安全造成极大的损害，直接危及人的生命、健康与自由的一种行为。暴力行为的发生会给社会带来财产损失和人员伤亡，是影响社会安定的重要因素。因此，针对暴力行为的及早发现和取证具有重要意义。目前，各地区主要采用在公共场所安装视频监控并通过人工或机器对暴力行为进行检测的方法来发现和遏制暴力行为。其中，相比于人工检测的方法，采用基于机器的暴力检测方法可以实现7×24小时不间断检测，提高检测覆盖率，有效防止漏检的发生，并节省大量的人力成本。

目前，暴力行为检测的相关方法主要包括：(1)简单的运动检测方法，如速度检测、加速度检测、光流法；(2)传统的机器学习方法，如支持向量机(Support Vector Machine,SVM)、最邻近节点算法(K-Nearest Neighbor,KNN)、Adaboost算法；(3)基于深度学习的检测方法，如卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory,LSTM)。运动检测方法通过判断物体的运动状态(如速度、加速度、方向)以实现暴力行为检测。该方法基于两个假设：(1)暴力行为具有运动的特征；(2)暴力行为的运动状态和其他行为的运动状态可以区分。然而在一些情境下，上述假设不成立，从而造成漏检或误报。如原地扭打，该行为的运动特征可能不显著，从而使假设(1)不成立。传统的机器学习方法需要人工完成特征工程。然而暴力行为场景相对多样和复杂，缺乏科学和系统的特征构建、特征提取和特征选择标准，使得传统的机器学习方法存在较大瓶颈。基于深度学习的模型依赖于大量的数据。然而，目前已知的暴力行为公开数据集较少，是阻碍在暴力行为检测中应用深度学习模型的重要因素。此外，目前已知的暴力行为公开数据集的数据组成较为单一，且数据量较少，使得训练出的深度学习模型泛化能力有限，只适用于少数简单场景。综上所述，目前的暴力行为检测方法在特定的场景上表现良好，但始终受限于较弱的泛化能力，而无法在真实的环境下使用，这是暴力行为检测领域亟待解决的一个问题。

发明内容

本申请实施例通过提供一种基于混合策略的暴力行为检测方法及系统、计算机可读存储介质，解决了传统技术中存在的泛化能力较弱的问题，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

本申请实施例提供了一种基于混合策略的暴力行为检测方法，所述方法包括以下步骤：

获取已训练的第一深度神经网络模型和第二深度神经网络模型；其中，所述第一深度神经网络模型用于识别运动激烈程度达到预设值的视频；所述第二深度神经网络模型用于识别仅包含人体特征的视频；

提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流；

当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测；

当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测。

在一实施例中，所述获取已训练的第一深度神经网络模型的步骤具体包括：

获取针对第一深度神经网络模型的视频帧数据集；

对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集；

对所述标准化视频帧数据集进行相邻视频帧间的差值处理，得到差值视频帧数据集；

分别使用从所述差值视频帧数据集中划分出的训练集、验证集和测试集对所述第一深度神经网络模型进行训练、验证和测试，得到已训练的第一深度神经网络模型。

在一实施例中，所述获取针对第一深度神经网络模型的视频帧数据集的步骤具体包括：

获取满足设定条件的视频，并在每个所述视频中提取视频帧，得到第一深度神经网络模型的视频帧数据集。

在一实施例中，所述获取已训练的第二深度神经网络模型的步骤具体包括：

获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集；

分别使用从所述标准化视频帧数据集中划分出的训练集、验证集和测试集对所述第二深度神经网络模型进行训练、验证和测试，得到已训练的第二深度神经网络模型。

在一实施例中，所述获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集的步骤具体包括：

获取满足设定条件的视频，并在每个所述视频中提取视频帧，得到第二深度神经网络模型的视频帧数据集；

识别所述视频帧中的人体，并将其他非人体区域的像素在每个通道上的通道值设置为0。

在一实施例中，所述对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集的步骤具体包括：

使用一个五维数组存储所述视频帧数据集中的每个像素在每个通道上的通道值，得到训练用五维数组；其中，所述训练用五维数组的维度分别表示视频编号、视频帧编号、像素水平坐标、像素垂直坐标、通道编号；

将存储在所述训练用五维数组上的通道值映射为0到1之间的浮点数；

分别计算所述训练用五维数组在每个通道上的通道值的平均值和标准差；

在所述训练用五维数组中分别对每个通道上的通道值进行标准差标准化，得到训练用标准化五维数组，将其作为标准化视频帧数据集。

在一实施例中，所述利用所述已训练的第一深度神经网络模型进行暴力行为检测的步骤具体包括：

在所述全部视频帧中提取视频帧，并使用一个五维数组存储所述视频帧中的每个像素在每个通道上的通道值，得到检测用五维数组；其中，所述检测用五维数组的维度分别表示视频编号、视频帧编号、像素水平坐标、像素垂直坐标、通道编号；

将存储在所述检测用五维数组上的通道值映射为0到1之间的浮点数；

在所述检测用五维数组中分别对每个通道上的通道值进行标准差标准化，得到检测用标准化五维数组；

在所述检测用标准化五维数组中进行相邻视频帧间的差值处理，得到检测用差值五维数组；

将所述检测用差值五维数组输入所述已训练的第一深度神经网络模型进行暴力行为检测。

在一实施例中，所述利用所述已训练的第二深度神经网络模型进行暴力行为检测的步骤具体包括：

识别所述视频帧中的人体，并将其他非人体区域的像素在每个通道上的通道值设置为0；

将所述检测用标准化五维数组输入所述已训练的第二深度神经网络模型进行暴力行为检测。

本申请实施例还提供了一种暴力行为检测系统，所述暴力行为检测系统包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的暴力行为检测程序，所述暴力行为检测程序被所述处理器执行时实现如上述的基于混合策略的暴力行为检测方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有暴力行为检测程序，所述暴力行为检测程序被处理器执行时实现如上述的基于混合策略的暴力行为检测方法的步骤。

本申请实施例中提供的一种基于混合策略的暴力行为检测方法及系统、计算机可读存储介质的技术方案，至少具有如下技术效果：

由于采用了获取已训练的第一深度神经网络模型和第二深度神经网络模型；其中，所述第一深度神经网络模型用于识别运动激烈程度达到预设值的视频；所述第二深度神经网络模型用于识别仅包含人体特征的视频；提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流；当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测；当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测的技术手段。通过对具有不同光流的视频分别采用不同的已训练的深度神经网络模型进行暴力行为检测，有效解决了传统技术中存在的泛化能力较弱的问题，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

附图说明

图1为本申请实施例涉及的暴力行为检测系统的结构示意图；

图2为本申请基于混合策略的暴力行为检测方法的第一实施例的流程示意图；

图3为本申请实施例涉及的第一深度神经网络模型的结构示意图；

图4为本申请实施例涉及的Mask-R-CNN模型的结构示意图；

图5为本申请实施例涉及的第二深度神经网络模型的结构示意图；

图6为本申请基于混合策略的暴力行为检测方法的第二实施例的流程示意图；

图7为本申请基于混合策略的暴力行为检测方法的第三实施例的流程示意图。

具体实施方式

本申请为了解决传统技术中存在的泛化能力较弱的问题，采用了获取已训练的第一深度神经网络模型和第二深度神经网络模型；其中，所述第一深度神经网络模型用于识别运动激烈程度达到预设值的视频；所述第二深度神经网络模型用于识别仅包含人体特征的视频；提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流；当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测；当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测的技术方案。通过对具有不同光流的视频分别采用不同的已训练的深度神经网络模型进行暴力行为检测，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

结合图1所示，其为本申请各个实施例中涉及的暴力行为检测系统的一种硬件结构示意图，该暴力行为检测系统可以包括：处理器101、存储器102、摄像头103等部件。本领域技术人员可以理解，图1所示的暴力行为检测系统的硬件结构并不构成对该暴力行为检测系统的限定，该暴力行为检测系统可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对该暴力行为检测系统的各个部件进行具体的介绍：

处理器101是暴力行为检测系统的控制中心，连接整个暴力行为检测系统的各个部分，通过运行或执行存储在存储器102内的程序，以及调用存储在存储器102内的数据，执行暴力行为检测系统的各种功能或者对数据进行处理，从而对暴力行为检测系统进行整体监控。此外，处理器101至少包括图形处理器GPU，用于对深度神经网络模型进行训练、加载以及对视频进行暴力行为检测。

存储器102可用于存储暴力行为检测系统中的各种程序以及各种数据。存储器102主要包括存储程序区和存储数据区，其中，存储程序区至少存储了进行暴力行为检测所需的程序；存储数据区可以存储暴力行为检测系统的各种数据。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

摄像头103可用于获取用于进行暴力行为检测的监控视频，在暴力行为检测系统中，可以包括一个或者多个摄像头。其中，多个摄像头之间可以是相同型号的，也可以是不同型号的。此外，处理器101中的一个处理器可以对应多路摄像头。

本实施例根据上述技术方案，采用了获取已训练的第一深度神经网络模型和第二深度神经网络模型；其中，所述第一深度神经网络模型用于识别运动激烈程度达到预设值的视频；所述第二深度神经网络模型用于识别仅包含人体特征的视频；提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流；当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测；当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测的技术方案。通过对具有不同光流的视频分别采用不同的已训练的深度神经网络模型进行暴力行为检测，有效解决了传统技术中存在的泛化能力较弱的问题，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

结合图2所示，在本申请的第一实施例中，本申请的基于混合策略的暴力行为检测方法具体包括以下步骤：

步骤S110，获取已训练的第一深度神经网络模型和第二深度神经网络模型。

在本实施例中，所述第一深度神经网络模型用于识别运动激烈程度达到预设值的视频，即对运动激烈程度达到预设值的视频进行暴力行为检测。所述第一深度神经网络模型根据需要可以具备不同的结构。例如，在一个实施例中，所述第一深度神经网络模型可以为如图3所示的ResNet(残差网络)，其具有如下特征：其输入为一组连续视频帧两两做差后的新视频帧序列，该序列仅保留相邻视频帧间的运动信息；其可以包含五个卷积块，这五个卷积块又分别可以包含1个、9个、12个、69个、9个卷积层，其中第二个卷积块还可以包含一个池化层；第一深度神经网络模型还可以包含Bi-LSTM块，所述Bi-LSTM块由两个单向LSTM网络构成，这两个单向LSTM网络方向相反；第一深度神经网络模型在整体结构上可以包含一个池化层和四个全连接层。在对所述第一深度神经网络模型进行训练后，即可用于对运动激烈程度达到预设值的视频进行暴力行为检测。

所述第二深度神经网络模型用于识别仅包含人体特征的视频，即对仅包含人体特征的视频进行暴力行为检测。所述第二深度神经网络模型根据需要可以具备不同的结构。例如，在一个实施例中，所述第二深度神经网络模型可以为如图5所示的ResNet，其具有如下特征：其输入为一组连续视频帧，首先可以通过如图4所示的Mask-R-CNN模型识别出视频帧中的人体所在区域(其中class、box和mask为三种表示方法，FPN(Feature PyramidNetwork,特征金字塔网络)是一种利用常规CNN模型来高效提取图片中各维度特征的方法，RPN(Region Proposal Network,区域生成网络)是一种提取候选区域的方法，ROI(Regionof Interest,感兴趣区域)Align是一种区域特征聚集的方法)，然后保持视频帧中人体区域的像素在每个通道上的通道值不变，并将其他非人体区域的像素在每个通道上的通道值设置为0；其同样可以包含五个卷积块，这五个卷积块又分别可以包含1个、9个、12个、69个、9个卷积层，其中第二个卷积块还可以包含一个池化层；第二深度神经网络模型同样还可以包含Bi-LSTM块，所述Bi-LSTM块由两个单向LSTM网络构成，这两个单向LSTM网络方向相反；第二深度神经网络模型在整体结构上可以包含一个池化层和四个全连接层。在对所述第二深度神经网络模型进行训练后，即可用于对仅包含人体特征的视频进行暴力行为检测。

步骤S120，提取监控视频在预测间隔时间内的全部视频帧并计算所述全部视频帧的平均光流。

在本实施例中，所述提取监控视频在预测间隔时间内的全部视频帧可以是在通过监控摄像头实时获得的监控视频中提取预测间隔时间内的全部视频帧，也可以是在录制的监控视频中提取预测间隔时间内的全部视频帧。前者可以对暴力行为进行实时监测，而后者可以对未进行实时检测的监控视频进行暴力行为检测。其中，所述预测间隔时间为一个预先设定的进行暴力行为检测的间隔时间。

所述光流是指视频中亮度模式的运动速度，其反应了视频中物体的运动激烈程度。通过计算一个视频中全部视频帧的平均光流，可以得到在这个视频中的物体的运动激烈程度，从而可以根据物体的运动激烈程度选择不同的深度神经网络模型对该视频进行暴力行为检测，达到提高暴力行为检测的泛化能力的效果。

步骤S130，当所述平均光流大于或等于光流阈值时，利用所述已训练的第一深度神经网络模型进行暴力行为检测。

在本实施例中，所述平均光流大于或等于光流阈值意味着在该视频中物体的运动激烈程度达到了预设值，因此可以使用已训练的第一深度神经网络模型对从该视频中提取出的全部视频帧进行暴力行为检测。但是由于原始的视频帧数据无法满足第一深度神经网络模型的输入条件，因此在利用已训练的第一深度神经网络模型对视频帧数据进行暴力行为检测之前，需要对所述视频帧数据进行处理。在一个实施例中，所述处理可以包括：提取视频帧、将视频帧转化为数组形式的视频帧数据、对视频帧数据进行标准差标准化。在进行暴力行为检测之后，可以对暴力行为检测的结果进行展示。

步骤S140，当所述平均光流小于光流阈值时，利用所述已训练的第二深度神经网络模型进行暴力行为检测。

在本实施例中，所述平均光流小于光流阈值意味着在该视频中物体的运动激烈程度没有达到预设值，因此不能使用已训练的第一深度神经网络模型对从该视频中提取出的全部视频帧进行暴力行为检测，需要在对该视频的全部视频帧进行人体特征提取后使用已训练的第二深度神经网络模型进行暴力行为检测。但是由于原始的视频帧数据无法满足第二深度神经网络模型的输入条件，因此在利用已训练的第二深度神经网络模型对视频帧数据进行暴力行为检测之前，需要对所述视频帧数据进行处理。在一个实施例中，所述处理可以包括：提取视频帧、将视频帧转化为数组形式的视频帧数据、对非人体区域特征进行处理以及对视频帧数据进行标准差标准化。在进行暴力行为检测之后，可以对暴力行为检测的结果进行展示。

上述方法通过对具有不同光流的视频分别采用不同的已训练的深度神经网络模型进行暴力行为检测，有效解决了传统技术中存在的泛化能力较弱的问题，实现了对更全面的暴力行为场景的覆盖，从而提高了暴力行为检测的准确性和泛化能力，达到了使其能够在真实环境中应用的效果。

如图6所示，结合上述实施例，提供一种获取已训练的第一深度神经网络模型的方法，包括以下步骤：

步骤S211，获取针对第一深度神经网络模型的视频帧数据集。

在本实施例中，要获取已训练的深度神经网络模型就需要先获取对深度神经网络模型进行训练、验证和测试的数据集，由于所述第一深度神经网络模型为对视频进行暴力行为检测的深度神经网络模型，因此，需要先获取针对第一深度神经网络模型的与暴力行为相关的视频帧数据集。在一个实施例中，获取针对第一深度神经网络模型的视频帧数据集可以包括以下步骤。

步骤a，获取满足设定条件的视频，并在每个所述视频中提取视频帧，得到第一深度神经网络模型的视频帧数据集。

用于得到训练第一深度神经网络模型的视频帧数据集的视频需要在格式等方面保持一致，以使得输入第一深度神经网络模型的每个数据在规格、数量等形式上是一致的。因此需要要求所述视频满足设定条件，所述设定条件可以包括：具有相同且为设定值的分辨率、具有相同且为设定值的视频时长、具有相同且特定的视频格式、具有相同且特定的命名规则。所述分辨率的设定值由需要进行暴力行为检测的视频的分辨率决定；所述视频时长的设定值为一个预先给定的数值并且其决定了进行暴力行为检测时的时间间隔；所述特定的视频格式可以是MP4格式或者AVI格式，还可以在需要的情况下选择其他格式；所述特定的命名规则可以是以“videofora”加数字进行命名的命名规则，也可以是其它可行的命名规则。值得注意的是，由于第一深度神经网络模型用于识别运动激烈程度达到预设值的视频，所以还需要预先给定一个光流阈值f_T，并且要求用于得到视频帧数据集的视频中全部视频帧的平均光流大于或者等于光流阈值。

在获取满足设定条件的视频之后，只需要通过一定的方法在每个所述视频中提取部分视频帧即可得到该视频中的图像特征等信息，而不需要提取全部的视频帧。在一个实施例中，提取视频帧的方法为在每个视频中以间隔长度l_A均匀提取n_A个视频帧。在得到视频帧后，需要将所述视频帧保存至指定路径。在经过提取视频帧之后，可以得到第一深度神经网络模型的视频帧数据集。

步骤S212，对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集。

在本实施例中，对视频帧数据集中的视频帧数据进行标准化处理可以有效缩短进行深度神经网络模型训练的时间。在对视频帧数据集中的每个视频帧数据都进行了标准化处理之后，可以得到一个新的视频帧数据集，称之为标准化视频帧数据集。在一个实施例中，对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集可以包括以下四个步骤。

步骤a，使用一个五维数组存储所述视频帧数据集中的每个像素在每个通道上的通道值，得到训练用五维数组。

深度神经网络模型无法直接对视频帧进行处理，因此需要将视频帧转化为可供深度神经网络模型直接处理的数据类型，在这里，将视频帧数据集转化为了五维数组形式的视频帧数据集。所述训练用五维数组的五个维度分别表示视频编号、视频帧编号、像素水平坐标、像素垂直坐标、通道编号，其中存储的是每个视频的每个视频帧的每个像素在每个通道上的通道值。对于具有M个视频、每个视频提取N帧、分辨率为X×Y且采用RGB 3通道的视频帧数据集而言，该五维数组为A[M][N][X][Y][3]。对于视频m的第n帧在坐标为(x,y)上的像素而言，其在第i个通道上的通道值A[m][n][x][y][i]为c_i，其中m∈{0,1,…,M-1}，n∈{0,1,…,N-1}，x∈{0,1,…,X-1}，y∈{0,1,…,Y-1}，i∈{0,1,2}，c_i∈{0,1,…,255}。在进行转化后，可以得到一个训练用五维数组。

步骤b，将存储在所述训练用五维数组上的通道值映射为0到1之间的浮点数。

在RGB图像中，每个通道上的通道值的取值为0到255的整数，我们需要采用一种方法将取值范围为0到255的通道值映射为取值范围为0到1的浮点数，例如将所有通道值除以255。对于包含更多的通道，或者组合某些通道，或者不同的通道布置的视频，对其中的每个通道的通道值的映射也是类似的。

步骤c，分别计算所述训练用五维数组在每个通道上的通道值的平均值和标准差。

要对每个通道上的通道值进行标准差标准化，就需要求出每个通道上的通道值的平均值和标准差，即将训练用五维数组中的全部通道值按照其所属的通道进行划分，然后分别计算其平均值和标准差，则可得到每个通道上的通道值的平均值和标准差。

步骤d，在所述训练用五维数组中分别对每个通道上的通道值进行标准差标准化，得到训练用标准化五维数组，将其作为标准化视频帧数据集。

利用上述步骤中求得的每个通道上的通道值的平均值和标准差分别对在每个通道上的全部通道值进行标准差标准化，即对于每个通道上的每个通道值，先减去所属通道的平均值再除以所属通道的标准差。在对训练用五维数组中存储的每个通道值进行了标准差标准化之后，可以得到一个新的五维数组，将其称为训练用标准化五维数组。

步骤S213，对所述标准化视频帧数据集进行相邻视频帧间的差值处理，得到差值视频帧数据集。

在本实施例中，对所述标准化视频帧数据集中的每个视频帧数据进行相邻视频帧间的差值处理，即在每个视频中对相邻的视频帧数据做差，得到新的视频帧数据。假设第v个视频中的视频帧序列上的数据依次为：f₁、f₂、…、f_n，则对相邻的视频帧数据做差即为使f_i＝f_i+1-f_i，得到一个有n-1个视频帧的新视频帧序列，新视频帧序列上的每个视频帧数据为之前相邻视频帧数据的差值。而对标准化视频帧数据集中的每个视频帧数据进行相邻视频帧间的差值处理是为了得到视频帧数据集中的运动信息。在对标准化视频帧数据集中的每个视频帧数据都进行了相邻视频帧间的差值处理之后，可以得到一个新的视频帧数据集，称之为差值视频帧数据集。

步骤S214，分别使用从所述差值视频帧数据集中划分出的训练集、验证集和测试集对所述第一深度神经网络模型进行训练、验证和测试，得到已训练的第一深度神经网络模型。

在本实施例中，为了得到已训练的第一深度神经网络模型，需要使用三个数据集分别对第一深度神经网络模型进行训练、验证和测试，因此需要将差值视频帧数据集按照一定的比例划分为三个数据集，分别作为训练集、验证集和测试集。这里采用的比例是6∶2∶2，根据实际情况和不同的需要，也可以按照其他比例进行数据集的划分。在使用所述训练集、验证集和测试集对第一深度神经网络模型进行训练、验证和测试之后，即可得到已训练的第一深度神经网络模型并进行保存。

结合上述实施例，提供一种获取已训练的第二深度神经网络模型的方法，包括以下步骤：

步骤S215，获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集。

在本实施例中，获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集同样是因为需要使用该视频帧数据集对第二深度神经网络模型进行训练、验证和测试。在一个实施例中，获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集可以包括以下两个步骤。

步骤a，获取满足设定条件的视频，并在每个所述视频中提取视频帧，得到第二深度神经网络模型的视频帧数据集。

所述用于得到训练第二深度神经网络模型的视频帧数据集的视频需要满足的设定条件与用于得到训练第一深度神经网络模型的视频帧数据集的视频需要满足的设定条件基本相同，唯一的区别在于用于得到训练第二深度神经网络模型的视频帧数据集的视频中全部视频帧的平均光流需要小于预先给定的光流阈值f_T。

在获取满足设定条件的视频之后，只需要通过一定的方法在每个所述视频中提取部分视频帧即可得到该视频中的图像特征等信息，而不需要提取全部的视频帧。在一个实施例中，提取视频帧的方法为在每个视频中以间隔长度l_B均匀提取n_B个视频帧。在得到视频帧后，需要将所述视频帧保存至指定路径。在经过提取视频帧之后，可以得到第二深度神经网络模型的视频帧数据集。

步骤b，识别所述视频帧中的人体，并将其他非人体区域的像素在每个通道上的通道值设置为0。

可以通过Mask-R-CNN模型或者其他方法识别出视频帧中的人体所在的区域，然后保持视频帧中人体区域的像素在每个通道上的通道值不变，将其他非人体区域的像素在每个通道上的通道值设置为0。这样做可以起到仅提取视频帧中的人体特征，而忽略掉其它非人体特征的效果。对于平均光流小于光流阈值的视频而言，这样的处理可以使得第二深度神经网络模型更方便地对视频中与暴力行为相关的特征进行提取。

步骤S216，对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集。

在本实施例中，对第二深度神经网络模型的视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集同样可以包括以下四个步骤并且步骤中的具体操作与对第一深度神经网络模型的视频帧数据集中的视频帧数据进行标准化处理的步骤的具体操作是相同的。

步骤S217，分别使用从所述标准化视频帧数据集中划分出的训练集、验证集和测试集对所述第二深度神经网络模型进行训练、验证和测试，得到已训练的第二深度神经网络模型。

在本实施例中，为了得到已训练的第二深度神经网络模型，同样需要使用三个数据集分别对第二深度神经网络模型进行训练、验证和测试，因此需要将差值视频帧数据集按照一定的比例划分为三个数据集，分别作为训练集、验证集和测试集。这里采用的比例是6∶2∶2，根据实际情况和不同的需要，也可以按照其他比例进行数据集的划分。在使用所述训练集、验证集和测试集对第二深度神经网络模型进行训练、验证和测试之后，即可得到已训练的第二深度神经网络模型并进行保存。

可以理解，上述获取已训练的第一深度神经网络模型和第二深度神经网络模型的顺序没有先后要求。既可以先训练其中一个，再训练另一个，也可以同时对两个进行训练。

上述实施例提供了获取已训练的第一深度神经网络模型和第二深度神经网络模型的方法。其中，通过对原始的进行深度神经网络模型训练的视频帧数据集进行标准化处理，有效缩短了进行深度神经网络模型训练所消耗的时间；通过对进行第一深度神经网络模型训练的视频帧数据集进行差值处理以及对进行第二深度神经网络模型训练的视频帧数据集进行仅提取人体特征的处理，使得深度神经网络模型能够更好地提取视频数据集中与暴力行为相关的特征，从而提高了暴力行为检测的准确性。

如图7所示，结合上述实施例，提供一种利用所述已训练的第一深度神经网络模型进行暴力行为检测的方法，包括以下步骤：

步骤S331，在所述全部视频帧中提取视频帧，并使用一个五维数组存储所述视频帧中的每个像素在每个通道上的通道值，得到检测用五维数组。

在本实施例中，获得所述全部视频帧之后，只需要通过一定的方法在所述全部视频帧中提取部分视频帧即可得到所述全部视频帧中的图像特征等信息，而不需要使用全部的视频帧。其中，提取视频帧的方法为在对用于得到训练第一深度神经网络模型的视频帧数据集的视频提取视频帧的方法。在一实施例中，所述方法为在所述全部视频帧中以间隔长度l_A均匀提取n_A个视频帧。

由于第一深度神经网络模型无法直接对所述视频帧进行处理，因此需要将视频帧转化为可供深度神经网络模型直接处理的数据类型，在这里，将所述视频帧数据转化为了五维数组形式的视频帧数据。所述检测用五维数组的五个维度分别表示视频编号、视频帧编号、像素水平坐标、像素垂直坐标、通道编号，其中存储的是所述视频帧的每个视频帧的每个像素在每个通道上的通道值。值得注意的是，在视频编号维度上只存在一个视频编号。对于具有N个视频帧、分辨率为X×Y且采用RGB 3通道的所述视频帧而言，该五维数组为A[1][N][X][Y][3]。对于第n帧在坐标为(x,y)上的像素而言，其在第i个通道上的通道值A[1][n][x][y][i]为c_i，其中n∈{0,1,…,N-1}，x∈{0,1,…,X-1}，y∈{0,1,…,Y-1}，i∈{0,1,2}，c_i∈{0,1,…,255}。在进行转化后，可以得到一个检测用五维数组。

步骤S332，将存储在所述检测用五维数组上的通道值映射为0到1之间的浮点数。

在本实施例中，RGB图像中，每个通道上的通道值的取值为0到255的整数，我们需要采用一种方法将取值范围为0到255的通道值映射为取值范围为0到1的浮点数，例如将所有通道值除以255。对于包含更多的通道，或者组合某些通道，或者不同的通道布置的视频，对其中的每个通道的通道值的映射也是类似的。

步骤S333，在所述检测用五维数组中分别对每个通道上的通道值进行标准差标准化，得到检测用标准化五维数组。

在本实施例中，利用在对第一深度神经网络模型的视频帧数据集进行标准化的步骤中求得的每个通道上的通道值的平均值和标准差，分别对所述检测用五维数组在每个通道上的全部通道值进行标准差标准化，即对于每个通道上的每个通道值，先减去所属通道的平均值再除以所属通道的标准差。在对检测用五维数组中存储的每个通道值进行了标准差标准化之后，可以得到一个新的检测用五维数组，将其称为检测用标准化五维数组。

步骤S334，在所述检测用标准化五维数组中进行相邻视频帧间的差值处理，得到检测用差值五维数组。

在本实施例中，对所述检测用标准化五维数组中的视频帧数据进行相邻视频帧间的差值处理，即对相邻的视频帧数据做差，得到新的视频帧数据。假设视频帧序列上的数据依次为：f₁、f₂、…、f_n，则对相邻的视频帧数据做差即为使f_i＝f_i+1-f_i，得到一个有n-1个视频帧的新视频帧序列，新视频帧序列上的每个视频帧数据为之前相邻视频帧数据的差值。而对检测用标准化五维数组中的视频帧数据进行相邻视频帧间的差值处理是为了得到视频帧数据的运动信息。在对检测用标准化五维数组中的每个视频帧数据都进行了相邻视频帧间的差值处理之后，可以得到一个新的五维数组，称之为检测用差值五维数组。

步骤S335，将所述检测用差值五维数组输入所述已训练的第一深度神经网络模型进行暴力行为检测。

结合上述实施例，提供一种利用所述已训练的第二深度神经网络模型进行暴力行为检测的方法，包括以下步骤：

步骤S341，在所述全部视频帧中提取视频帧，并使用一个五维数组存储所述视频帧中的每个像素在每个通道上的通道值，得到检测用五维数组。

在本实施例中，获得所述全部视频帧之后，只需要通过一定的方法在所述全部视频帧中提取部分视频帧即可得到所述全部视频帧中的图像特征等信息，而不需要使用全部的视频帧。其中，提取视频帧的方法为在对用于得到训练第二深度神经网络模型的视频帧数据集的视频提取视频帧的方法。在一实施例中，所述方法为在所述全部视频帧中以间隔长度l_B均匀提取n_B个视频帧。

由于第二深度神经网络模型无法直接对所述视频帧进行处理，因此需要将视频帧转化为可供深度神经网络模型直接处理的数据类型，在这里，同样将所述视频帧数据转化为五维数组形式的视频帧数据。所述检测用五维数组的五个维度分别表示视频编号、视频帧编号、像素水平坐标、像素垂直坐标、通道编号，其中存储的是所述视频帧的每个视频帧的每个像素在每个通道上的通道值。值得注意的是，在视频编号维度上同样只存在一个视频编号。在进行转化后，可以得到一个检测用五维数组。

步骤S342，识别所述视频帧中的人体，并将其他非人体区域的像素在每个通道上的通道值设置为0。

在本实施例中，可以通过Mask-R-CNN模型或者其他方法识别出视频帧中的人体所在的区域，之后保持视频帧中人体区域的像素在每个通道上的通道值不变，将其他非人体区域的像素在每个通道上的通道值设置为0。这样做可以起到仅提取视频帧中的人体特征，而忽略掉其它非人体特征的效果。对于平均光流小于光流阈值的视频而言，这样的处理可以使得第二深度神经网络模型更方便地对视频中与暴力行为相关的特征进行提取。

步骤S343，将存储在所述检测用五维数组上的通道值映射为0到1之间的浮点数。

步骤S344，在所述检测用五维数组中分别对每个通道上的通道值进行标准差标准化，得到检测用标准化五维数组。

在本实施例中，利用在对第二深度神经网络模型的视频帧数据集进行标准化的步骤中求得的每个通道上的通道值的平均值和标准差，分别对所述检测用五维数组在每个通道上的全部通道值进行标准差标准化，即对于每个通道上的每个通道值，先减去所属通道的平均值再除以所属通道的标准差。在对检测用五维数组中存储的每个通道值进行了标准差标准化之后，可以得到一个新的检测用五维数组，将其称为检测用标准化五维数组。

步骤S345，将所述检测用标准化五维数组输入所述已训练的第二深度神经网络模型进行暴力行为检测。

上述实施例提供了在利用所述已训练的第一或者第二深度神经网络模型进行暴力行为检测时，对视频帧进行处理的方法。其中，通过对原始的视频帧数据进行标准化处理，有效缩短了进行暴力行为检测所消耗的时间；通过对视频帧数据进行差值处理以及对视频帧数据进行仅提取人体特征的处理，使得深度神经网络模型能够更好地提取视频数据集中与暴力行为相关的特征，从而提高了暴力行为检测的准确性。

基于同一发明构思，本申请实施例还提供了一种暴力行为检测系统，所述暴力行为检测系统包括训练子系统、视频管理子系统和暴力行为检测子系统。

训练子系统包括数据集管理模块、数据标准化模块、模型训练模块、模型管理模块。数据集管理模块负责下载、存储、载入、格式转换、压缩、切片不同来源的原始视频；数据标准化模块将构造好的数据集标准化为训练深度神经网络模型要求的数据输入格式；模型训练模块将标准化后的数据输入到深度神经网络中进行训练，生成相应的训练结果；模型管理模块负责载入与保存深度神经网络模型，以及对模型训练模块输出的训练结果进行保存和展示。

视频管理子系统包括摄像头接入模块、摄像头视频帧读取模块、摄像头视频帧预处理模块、摄像头视频帧发送模块。摄像头接入模块用于连接监控摄像头，支持多种型号摄像头同时接入，并支持多种数据传输协议；摄像头视频帧读取模块从连接的摄像头中按帧顺序读取图像；摄像头视频帧预处理模块读取摄像头视频帧模块输出的图像数据，并按照暴力行为预测子系统要求，对图像进行初步处理(如尺度变换)；摄像头视频帧发送模块将视频帧预处理模块输出数据发送到暴力行为预测子系统进行分析。

暴力行为检测子系统包括视频图像处理模块、运动检测模块和暴力行为检测模块，视频图像处理模块负责接收视频管理子系统发送的视频帧，完成视频帧的标准化；运动检测模块负责检测视频图像处理模块输出的一组视频帧是否超过光流阈值；根据运动检测模块的检测结果，暴力行为检测模块负责初始化深度神经网络模型，并将完成标准化的视频帧输入深度神经网络模型中进行预测，然后展示预测结果。

由于本申请实施例提供的暴力行为检测系统，为实施本申请实施例的方法所采用的暴力行为检测系统，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该暴力行为检测系统的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的暴力行为检测系统都属于本申请所欲保护的范围。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有暴力行为检测程序，所述暴力行为检测程序被处理器执行时实现如上述的基于混合策略的暴力行为检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

由于本申请实施例提供的计算机可读存储介质，为实施本申请实施例的方法所采用的计算机可读存储介质，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的计算机可读存储介质都属于本申请所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于混合策略的暴力行为检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于混合策略的暴力行为检测方法，其特征在于，所述获取已训练的第一深度神经网络模型的步骤具体包括：

获取针对第一深度神经网络模型的视频帧数据集；

3.如权利要求2所述的基于混合策略的暴力行为检测方法，其特征在于，所述获取针对第一深度神经网络模型的视频帧数据集的步骤具体包括：

4.如权利要求1所述的基于混合策略的暴力行为检测方法，其特征在于，所述获取已训练的第二深度神经网络模型的步骤具体包括：

5.如权利要求4所述的基于混合策略的暴力行为检测方法，其特征在于，所述获取针对第二深度神经网络模型的仅包含人体特征的视频帧数据集的步骤具体包括：

6.如权利要求2或4所述的基于混合策略的暴力行为检测方法，其特征在于，所述对所述视频帧数据集中的视频帧数据进行标准化处理，得到标准化视频帧数据集的步骤具体包括：

7.如权利要求6所述的基于混合策略的暴力行为检测方法，其特征在于，所述利用所述已训练的第一深度神经网络模型进行暴力行为检测的步骤具体包括：

8.如权利要求6所述的基于混合策略的暴力行为检测方法，其特征在于，所述利用所述已训练的第二深度神经网络模型进行暴力行为检测的步骤具体包括：

9.一种暴力行为检测系统，其特征在于，所述暴力行为检测系统包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的暴力行为检测程序，所述暴力行为检测程序被所述处理器执行时实现如权利要求1至8任一项所述的基于混合策略的暴力行为检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有暴力行为检测程序，所述暴力行为检测程序被处理器执行时实现如权利要求1至8任一项所述的基于混合策略的暴力行为检测方法的步骤。