CN112183359B

CN112183359B - 视频中的暴力内容检测方法、装置及设备

Info

Publication number: CN112183359B
Application number: CN202011048615.3A
Authority: CN
Inventors: 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-14
Anticipated expiration: 2040-09-29
Also published as: CN112183359A

Abstract

本申请属于图像处理领域，提供了一种视频的暴力内容检测方法、装置及设备。该方法包括：获取待检测视频；对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；根据所提取的人像所在区域的图像，确定待检测视频中的人像所对应的光流；将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果。由于本申请仅需对待检测视频中的人像区域进行处理，通过暴力检测模型对人像区域和人像对应的光流进行计算，有利于减少冗余信息干扰，有利于提升对视频的暴力内容的检测精度。

Description

视频中的暴力内容检测方法、装置及设备

技术领域

本申请属于图像处理领域，尤其涉及视频中的暴力内容检测方法、装置及设备。

背景技术

随着视频监控系统的大量部署，获取到的视频数据也越来越多。为了能够及时的发现所监控的内容中存在的异常内容，比如及时的发现视频中的暴力内容，以便于及时的采取应对措施，减小异常事故所带来的损失。

在对视频内容进行实时监控的方式中，传统的人工监控不能有效的满足对大量的视频监控内容的检测要求。为了减少内容监控的人工成本，可以采用深度网络模型来提取图像的全局特征，基于全局特征确定暴力内容的检测结果。然而，在视频监控等场景中，往往会包括较多的冗余信息，使得深度网络模型进行暴力内容检测的结果的精度不高。

发明内容

有鉴于此，本申请实施例提供了一种视频中的暴力内容检测方法、装置及设备，以解决现有技术中通过深度网络模型进行暴力内容检测的结果的精度不高的问题。

本申请实施例的第一方面提供了一种视频中的暴力内容检测方法，所述方法包括：

获取待检测视频；

对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；

根据所提取的人像所在区域的图像，确定待检测视频中的人像所对应的光流；

将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果。

结合第一方面，在第一方面的第一种可能实现方式中，将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果，包括：

将所述人像所在区域的图像输入已训练的暴力检测模型中的第一时空卷积层进行时空卷积，获得第一特征信息；

将所述光流输入已训练的暴力检测模型中的第二时空卷积层进行时空卷积，获得第二特征信息；

激活所述第一特征信息和第二特征信息，然后依次经过池化层、融合层和全连接层处理，输出暴力内容的检测结果；

其中，第一时空卷积层和第二时空卷积层包括局部卷积层和非局部卷积层。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述非局部卷积层的卷积操作表示为：

其中，x_i表示第i个卷积块的输入，z_i表示第i个卷积块的输出，W_v1和W_v2表示线性变换矩阵，W_v2ReLU(LN(W_v1)表示残差卷积中的瓶颈设计，N_p＝H·W·T表示参数量，H表示图像长度，W表示图像宽度，T表示图像深度，表示全局注意力的权重，W_k表示线性变换矩阵，x_j表示遍历全局时第j个卷积块的输入，x_m表示遍历全局时第m个卷积块的输入。

结合第一方面的第一种可能实现方式，在第一方面的第三种可能实现方式中，所述局部卷积层的卷积操作表示为：

(I+T·S)·x_i：＝x_i+T(S(x_i))＝z_i

其中，其中x_i表示第i个卷积块的输入，z_i表示第i个卷积块的输入和输出，T代表n*1*1的时间卷积，S表示1*n*n的空间卷积，n为时间卷积核或空间卷积核的尺寸参数，I表示单位矩阵。

结合第一方面的第一种可能实现方式，在第一方面的第四种可能实现方式中，激活所述第一特征信息和第二特征信息，包括：

通过Relu函数激活第一特征信息；

通过sigmoid函数激活第二特征信息。

结合第一方面，在第一方面的第五种可能实现方式中，在确定待检测视频中的人像所对应的光流之前，所述方法包括：

将提取了人像所在区域的图像的待检测视频进行等时间间隔采样，得到预定帧数的待检测视频；

对所述视频样本中的人像所在区域的图像进行缩放处理，得到各帧中的人像所在区域具有相同像素大小的待检测视频，再执行确定待检测视频中的人像所对应的光流。

结合第一方面，在第一方面的第六种可能实现方式中，在将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理之前，所述方法包括：

通过交叉熵损失函数训练所述暴力检测模型，所述交叉熵损失函数Loss为：

其中，(x_i，y_i)为样本，N为样本数量，L为网络层数，f(x_i)为最终层的输出，/>为对模型参数规模的惩罚因子，λ为正则化系数，W_k为模型权值向量。

结合第一方面，在第一方面的第七种可能实现方式中，对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像，包括：

通过多尺度卷积核进行卷积计算，得到多尺度卷积特征；

将所述多尺度卷积特征进行叠加处理，并通过Relu函数对叠加处理后数据进行激活处理；

通过多层感知卷积层进行像素点的全连接处理，得到待检测视频的帧画面中的人像所在区域的图像。

本申请实施例的第二方面提供了一种视频中的暴力内容检测装置，所述装置包括：

获取单元，用于获取待检测视频；

人像提取单元，用于对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；

光流确定单元，用于根据所提取的人像所在区域的图像，确定待检测视频中的人像所对应的光流；

内容检测单元，用于将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果。

本申请实施例的第三方面提供了一种暴力内容检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：对待检测视频进行暴力内容检测时，首先对待检测视频进行人像检测，提取待检测视频中的人像所在区域的图像，剔除非人像的冗余信息，并根据剔除了非人像信息的图像确定光流，将人像所在区域的图像和光流作为已训练的暴力检测模型的输入，输出得到暴力内容的检测结果。由于本申请仅需对待检测视频中的人像区域进行处理提取，通过暴力检测模型对人像区域和人像对应的光流进行计算，有利于减少冗余信息干扰，有利于提升对视频的暴力内容的检测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频的暴力内容检测方法的实现流程示意图；

图2是本申请实施例提供的暴力检测模型的结构示意图；

图3是本申请实施例提供的非局部时空卷积层结构示意图；

图4是本申请实施例提供的一种视频的暴力内容检测装置的示意图；

图5是本申请实施例提供的暴力内容检测设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

目前的深度学习的暴力检测系统中，通常包括图像输入模块、图像全局特性模块、深度网络模型模块、3D网络模型模块、D3D网络模型模块和图像输出模块，其中：图像输入模块用于输入所检测的图像，图像全局特性模块用于提取出图像的全局特征，所述深度网络模型模块用于将所提取的图像全局特征融合在深度网络模型中，所述3D网络模型模块基于深度网络模型模块确定暴力检测结果，所述D3D网络模型模块用于优化3D网络模型模块暴力检测结果，所述图像输出模块用于输出优化的暴力检测结果。

虽然目前的深度学习的暴力内容检测系统能够在一定程度上提升了暴力内容的检测精度，但是，由于视频监控等场景中，往往会包括较多的冗余信息，影响深度网络模型进行暴力内容检测的结果的精度。

并且，系统中往往采用较大的多维卷积核，系统结构较为冗余，引入参数较多，从而会影响系统检测的实时性。

另外，在视频监控场景中，检测目标可能会出现身体部分出镜或部分时间出镜的情况，目前的深度学习的暴力检测系统不能有效的适应这种较为复杂的情况，系统的泛化能力较弱。

基于上述问题，本申请实施例提出了一种视频的暴力内容检测方法，通过人像检测定位视频图像或视频帧中的人像所在区域，将视频图像或视频帧中的人像所在区域剪裁出来，检测人像对应的光流，通过已训练的、基于卷积神经网络的暴力检测模型进行检测，实现减少暴力检测的计算量，并提高检测精度的目的。其次，本申请将非局部卷积层引入到暴力检测模型中，通过非局部卷积层引入全局的信息，从而有利于为后面的卷积层带来更为丰富的关联性，使得模型应对不同情况暴力行为的泛化能力得到提升。并且，对于暴力检测模型采用分离卷积的方式，减少了模型参数和计算量。图1为申请实施例所述的视频中的暴力内容检测方法的实现流程示意图，包括：

S101，获取待检测视频。

具体的，本申请实施例中的待检测视频，可以为摄像头实时采集的监控视频，也可以为其它设备所传送的视频。其中：

待检测视频为摄像头实时采集的监控视频时，获取监控视频的设备可以为监控主机，通过监控主机获取当前场景中设置的一个或者多个摄像头所采集的视频。或者，获取监控视频的设备也可以为云平台或服务器，通过云平台或服务器获取所采集的监控视频。当检测到摄像头所采集的视频中包含暴力内容时，比如，检测到所采集的视频中包含打架、斗殴、持有危险器械等画面内容时，可以向监控终端发送提示，或者向指定的监控平台发送异常事件的提醒消息等。

待检测视频为其它设备所传送的视频时，获取待检测视频的设备，也即视频检测设备可以视频服务器。比如，视频网站所对应的视频服务器，可以接收其它用户所上传的视频，通过视频检测设备对视频进行暴力内容的检测。当服务器检测到用户所上传的视频包括不允许传播的暴力内容时，则可以禁止所上传的视频传播，或者禁止该用户上传权限等。

S102，对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像。

对待检测视频进行人像检测时，可以通过人像特征的匹配，提取视频中的人像区域。其中的人像特征，可以包括人体的各个身体部位的特征。比如，可以包括人像的胳膊、腿部、躯干等部位的特征，便于对人像部分出镜的情形进行准确的识别。

在一种可能的实现方式中，本申请实施例可以通过卷积神经网络模型来识别待检测视频中包括的人像所在的区域。

比如，可以采用多尺度卷积估计待检测视频中的视频帧的人像，或者也可以通过多尺度卷积估计待检测视频中的视频帧中人的人群密度。其中，多尺度的卷积块可以包括9*9、7*7、5*5和3*3等卷积核做不同尺度的卷积计算，再把卷积结果进行叠加，通过Relu(中文全称为线性整流函数，英文全称为Rectified Linear Unit)激活处理，可以使用多层感知卷积层(英文简称为MLP，英文全称为Multilayer Perceptron)对像素进行全连接处理，并可使用1*1卷积核进行卷积处理，回归得到对应的视频帧的人群密度估计图，或者得到人像在视频帧中所在的区域。

根据所确定的人像在视频中所在的区域，可以对视频帧进行裁剪，提取人像所在区域，从而使得后续的检测对象更为明确，能够有效的减少冗余信息的影响，有效提升检测精度。或者，也可以通过人群密度对视频帧进行裁剪，得到人群密度大于预先设定的密度值，则对人群所在区域进行裁剪和提取。

S103，根据所提取的人像所在区域的图像，确定待检测视频中的人像所对应的光流。

在提取到人像所在区域的图像后，可以通过光流计算方法，计算相邻帧间的光流，即像素的瞬时移动速度。从而便于根据光流和人像所在区域的图像进行暴力内容检测。其中，光流计算方法中，可以采用基于梯度的Farneback算法计算相邻帧间的稠密光流。当然，不局限于此，还可以包括基于匹配的方法、基于能量的方法、基于相位的方法或神经动力学方法等。

在本申请的一种实现方式中，在计算所提取的人像所在区域的图像后，以及确定待检测视频中的人像所对应的光流之前，还可以包括归一化处理操作。即通过归一化处理，将裁剪后的视频帧进行等时间间隔的同帧数采样，并将采样的视频帧进行缩放处理，得到相同尺寸的视频帧样本。比如，通过采样和缩放处理后，可以得到224*224像素大小的连续64帧的视频样本。

S104，将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果。

将提取的人像所在区域的图像和光流输入到已训练的暴力检测模型，通过提取人像所在区域的图像中的特征信息，以及光流中的特征信息，实现对待检测视频的暴力内容的二分类检测。

在可能的实现方式中，如图2所示，该暴力检测模型可以包括两个支流，分别为RGB(英文全称为Red，Green，Blue，中文全称为红绿蓝)支流和光流支流。其中，RGB支流用于对采样的RGB视频帧的图像进行滤波、卷积的特征提取操作，光流支流用于对光流进行滤波、卷积的特征提取操作。具体的，可以将人像所在区域的图像输入已训练的暴力检测模型中的第一时空卷积层进行时空卷积操作，获得第一特征信息。光流输入已训练的暴力检测模型中的第二时空卷积层进行时空卷积操作，获得第二特征信息。然后激活所得到的第一特征信息和第二特征信息，融合所激活的第一特征信息和第二特征信息后，通过池化层、融合层以及全连接层，输出暴力内容的检测结果。

其中，如图2所示，第一时空卷积层和第二时空卷积层可以包括局部卷积层(或者也可以称为常规时空卷积)和非局部non-local卷积层。通过局部卷积层结合非局部卷积层的卷积处理，可以进一步发掘不同帧间的关联信息，从而在输入数据有限制的情况下，比如人像部分出镜，或者人像在不同时间出镜时，能够使得暴力检测模型能够有效的进行识别，提升模型的泛化能力。

其中，非局部non-local时空卷积层的结构可以如图3所示，对于输入的图像，通过卷积核为1*1的卷积处理后，通过归一化函数Softmax归一化处理得到的图像，与输入的图像相乘得到的图像，进一步通过卷积核为1*1的卷积处理，然后通过Relu激活处理得到的图像，进一步通过卷积核为1*1的卷积处理，与输入的图像求和，得到非局部时空卷积层的输出。

在可能的实现方式中，第一时空卷积层和第二时空卷积层的结构可以相同或不同。如图2所示，第一时空卷积层和第二时空卷积层可以包括依次包括非局部时空卷积层1、局部时空卷积层2、非局部时空卷积层3、局部时空卷积层4。其中，第一时空卷积层和第二时空卷积层中的卷积核的尺寸可以为3，比如可以包括3*1*1和1*3*3的时空卷积核。

在第一时空卷积层和第二时空卷积层所提取的特征信息进行非线性映射的激活处理时，可以采用不同的激活函数。在一种实现方式中，第一时空卷积层所提取的特征信息，可以通过Relu激活处理，第二时空卷积层所提取的特征信息，可以通过Sigmoid进行激活处理。其中，Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线，常被用作神经网络的阈值函数，将变量映射到(0，1)之间。通过对第一时空卷积层的第一特征信息和第二时空卷积层的第二特征信息采用不同的激活函数进行激活处理，得到更为有效的RGB特征信息和光流特征信息。

在本申请实施例中，双支流的时空卷积层中包括的常规时空卷积层，可以采用时空分别残差的卷积方式，如下式如示：

(I+T·s)·x_i：＝x_i+T(S(x_i))＝z_i

非局部卷积层可以表示为：

经过激活层激活处理后，可以对激活后的图像进行池化处理。对于RGB支流中图像，可以采用基于空间维度的池化因子，比如可以采用1*2*2的池化因子进行空间维度的池化，不进行时间维度的池化。对于光流支流中的图像，可以采用基于时间维度的池化因子n*1*1，比如8*1*1，不进行空间维度的池化，而对其进行时间维度的池化。对池化后的图像，通过融合层进行融合处理，比如可以采用2*2*2的池化因子进行融合，通过全连接层分类后，可以通过激活函数，比如通过Softmax激活获得分类结果。

由于本申请所采用的卷积核为基于时空的卷积核，比如为n*n*1以及1*1*n，使得卷积计算时的参数减少，从而有利于减少视频分类中的卷积参数，降低分类的计算量。并且，通过基于非局部卷积块的特征提取，有利于提升模型的泛化能力。

另外，本申请实施例在得到暴力检测模型时，可以通过交叉熵损失函数训练所述暴力检测模型，所述交叉熵损失函数Loss为：

其中，(x_i，y_i)为样本，N为样本数量，L为网络层数，f(x_i)为最终层的输出，/>为对模型参数规模的惩罚因子，λ为正则化系数，W_k为矩阵权值向量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了验证本申请实施例所述的视频中的暴力内容检测方法的有效性，本申请采用传统的3D卷积神经网络进行了检测结果的比较，实验对比数据如下表所示：

通过上表可以看出，本申请实施例所示的暴力内容检测方法，在训练准确率、检测准确率均比传统的3D卷积神经网络有了提升，并且大大的降低了所使用的参数量。

图4为本申请实施例提供的一种视频中的暴力内容检测装置的示意图，该装置包括：

获取单元401，用于获取待检测视频；

人像提取单元402，用于对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；

光流确定单元403，用于根据所提取的人像所在区域的图像，确定待检测视频中的人像所对应的光流；

内容检测单元404，用于将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果。

图4所示的视频中的暴力内容检测装置，与图1所示的视频中的暴力内容检测方法对应。

图5是本申请一实施例提供的一种暴力内容检测设备的示意图。如图5所示，该实施例的暴力内容检测设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52，例如视频中的暴力内容检测程序。所述处理器50执行所述计算机程序52时实现上述各个视频中的暴力内容检测方法实施例中的步骤。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述暴力内容检测设备5中的执行过程。

所述暴力内容检测设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述暴力内容检测设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是暴力内容检测设备5的示例，并不构成对暴力内容检测设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述暴力内容检测设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述暴力内容检测设备5的内部存储单元，例如暴力内容检测设备5的硬盘或内存。所述存储器51也可以是所述暴力内容检测设备5的外部存储设备，例如所述暴力内容检测设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述暴力内容检测设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述暴力内容检测设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频中的暴力内容检测方法，其特征在于，所述方法包括：

获取待检测视频；

通过人像特征匹配，对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；

将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果；

将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果，包括：

激活所述第一特征信息和所述第二特征信息，然后依次经过池化层、融合层和全连接层处理，输出暴力内容的检测结果；

其中，第一时空卷积层和第二时空卷积层包括局部卷积层和非局部卷积层；

所述非局部卷积层的卷积操作表示为：

其中，x_i表示第i个卷积块的输入，z_i表示第i个卷积块的输出，W_v1和W_v2表示线性变换矩阵，W_v2ReLU(LN(W_v1)表示残差卷积中的瓶颈设计，N_p＝H·W·T表示参数量，H表示图像长度，W表示图像宽度，T表示图像深度，表示全局注意力的权重，这其中W_k表示线性变换矩阵，x_j表示遍历全局时第j个卷积块的输入，x_m表示遍历全局时第m个卷积块的输入。

2.根据权利要求1所述的方法，其特征在于，所述局部卷积层的卷积操作表示为：

(I+T·S)·x_i：＝x_i+T(S(x_i))＝z_i

3.根据权利要求1所述的方法，其特征在于，激活所述第一特征信息和第二特征信息，包括：

通过Relu函数激活第一特征信息；

通过sigmoid函数激活第二特征信息。

4.根据权利要求1所述的方法，其特征在于，在确定待检测视频中的人像所对应的光流之前，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，在将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理之前，所述方法包括：

其中，(x_i,y_i)为样本，N为样本数量，L为网络层数，f(x_i)为最终层的输出,/>为对模型参数规模的惩罚因子，λ为正则化系数，W_k为模型权值向量。

6.根据权利要求1所述的方法，其特征在于，对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像，包括：

通过多尺度卷积核进行卷积计算，得到多尺度卷积特征；

7.一种视频中的暴力内容检测装置，其特征在于，所述装置包括：

获取单元，用于获取待检测视频；

人像提取单元，用于通过人像特征匹配，对所述待检测视频进行人像检测，提取待检测视频的帧画面中的人像所在区域的图像；

内容检测单元，用于将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果，包括将所述人像所在区域的图像和所述光流输入到已训练的暴力检测模型中处理，输出暴力内容的检测结果，包括：将所述人像所在区域的图像输入已训练的暴力检测模型中的第一时空卷积层进行时空卷积，获得第一特征信息；将所述光流输入已训练的暴力检测模型中的第二时空卷积层进行时空卷积，获得第二特征信息；激活所述第一特征信息和所述第二特征信息，然后依次经过池化层、融合层和全连接层处理，输出暴力内容的检测结果；其中，第一时空卷积层和第二时空卷积层包括局部卷积层和非局部卷积层；

所述非局部卷积层的卷积操作表示为：

8.一种暴力内容检测设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。