CN113673364A

CN113673364A - 一种基于深度神经网络的视频暴力检测方法及装置

Info

Publication number: CN113673364A
Application number: CN202110859397.XA
Authority: CN
Inventors: 宋波
Original assignee: Shanghai Yingpu Technology Co Ltd
Current assignee: Shanghai Yingpu Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-19

Abstract

本申请公开了一种基于深度神经网络的视频暴力检测方法及装置，所述方法包括：检测目标视频中每个暴力子概念，所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念；针对每个子概念，利用已训练的第一神经网络检测目标视频的视觉特征，利用已训练的第二神经网络检测目标视频的听觉特征；将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测。所述装置包括：暴力概念模块、混合特征模块和融合检测模块。本申请利用两个深度神经网络形成的暴力概念，最终形成一个暴力主题，从而达到了检测视频中普遍存在的暴力行为的目标。

Description

一种基于深度神经网络的视频暴力检测方法及装置

技术领域

本申请涉及计算机数据处理技术领域，特别是涉及一种基于深度神经网络的视频暴力检测方法及装置。

背景技术

现有的经典的视频暴力检测方法包括语义检测方法，通过对于视频中的一些肢体动作提取与语言提取，根据深度学习方法进行分析处理来实现暴力检测，另外一种是根据对于图像描述生成低级特征，并通过支持向量机对特征向量进行分类分析实现暴力检测。

目前的基于语义分析的暴力视频检测算法以及基于深度神经网络的暴力视频检测算法只是依靠特定暴力的概念(例如战斗，血液等)的评估方法，而没有考虑各种可能的不同暴力的概念，分析不全面且算法复杂度较高。

随着深度神经网络的发展，深度神经网络在视频暴力检测中也有了一定的应用，特别的是近年一些人将深度神经网络框架应用于暴力检测，通过对于暴力一词进行特定的定义，根据框架通过监督学习算法来识别正确的暴力类别标签，从而达到视频暴力的检测。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于深度神经网络的视频暴力检测方法，包括：

检测目标视频中每个暴力子概念，所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念；

针对每个子概念，利用已训练的第一神经网络检测目标视频的视觉特征，利用已训练的第二神经网络检测目标视频的听觉特征；

将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测。

优选地，利用已训练的第一神经网络检测目标视频的视觉特征包括：

提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度；

利用所述已训练的第一深度神经网络模型进行视觉特征检测。

优选地，获得所述已训练的第一深度神经网络模型包括：

采用C3D模型，遵循随机梯度下降算法对第一深度神经网络模型进行训练；

对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练；其中，P为正整数。

优选地，利用已训练的第二神经网络检测目标视频的听觉特征包括：

对所述目标视频对应的音频信息进行特征提取，利用至少两种标准音频特征提取器生成特征向量；

对生成的特征向量应用统计方法，对于不同提取器获得的特征向量进行串联，提取区别性的特征向量。

优选地，所述标准音频特征提取器包括：短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。

优选地，将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测包括：

将所述视觉特征和所述听觉特征进行视听融合网络的训练，视听融合网络将子概念训练形成的特征向量作为输入，输出目标视频中存在暴力的可能性结果。

优选地，将所述视觉特征和所述听觉特征进行视听融合网络的训练包括：

利用视觉听觉特征融合网络管道中，并行处理每个子概念对应的所述视觉特征和所述听觉特征，生成视觉特征向量和听觉特征向量；

利用浅层网络每个隐藏层分别针对神经元实现关于网络性能的最佳权衡；

所述浅层网络根据视听特征权重，获得针对每个暴力概念训练的模型的最终特征；通过标准的Min-Max归一化步骤传递特征向量。

优选地，提取目标视频在预测间隔时间内的全部视频帧之后还包括：

对所述全部视频帧进行标准化处理，得到标准化视频帧数据集。

第二方面，本发明还提供一种基于深度神经网络的视频暴力检测装置，包括：

暴力概念模块，设置为检测目标视频中每个暴力子概念，所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念；

混合特征模块，设置为针对每个子概念，利用已训练的第一神经网络检测目标视频的视觉特征，利用已训练的第二神经网络检测目标视频的听觉特征；

融合检测模块，设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测。

第三方面，本发明还提供一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的方法。

本申请的基于深度神经网络的暴力视频检测方法和方法，通过两个深度神经网络实现对不同类型暴力概念的学习，并在此基础上训练一个融合网络学习训练形成一个暴力主题，根据最终形成的暴力主题从而实现检测视频中普遍存在的暴力行为的目标。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于深度神经网络的视频暴力检测方法的示意性流程图；

图2是根据本申请一个实施例的检测目标视频的视觉特征的示意性流程图；

图3是根据本申请一个实施例的检测目标视频的听觉特征的示意性流程图；

图4是根据本申请一个实施例的基于深度神经网络的视频暴力检测装置的结构示意图；

图5是根据本申请实施例的第一种计算机可读存储介质的示意性结构框图；

图6是根据本申请实施例的第二种计算机可读存储介质的示意性结构框图。

具体实施方式

图1是根据本申请一个实施例的基于深度神经网络的视频暴力检测方法，一般性的可以包括步骤S101至步骤S103：

S101、检测目标视频中每个暴力子概念，所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念；

S102、针对每个子概念，利用已训练的第一神经网络检测目标视频的视觉特征，利用已训练的第二神经网络检测目标视频的听觉特征；

S103、将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测。

本发明实施例的基于深度神经网络的视频暴力检测方法，首先检测传达暴力理念的K个更加客观的子概念(如血液，冷武器，爆炸等)进行分解暴力检测。对于每个子概念，训练特定的神经网络，首先分析其视觉特征，然后分析其听觉特征，最后，将两种功能结合起来，更好的理解该子概念，对于K个子概念重复此步骤。最后，使用融合网络将所有子概念(通过听觉与视觉特征进行描述)组合起来，达到检测更加一般的暴力概念视频的目的。本发明实施例通过两个深度神经网络从目标视频中提取不同类型的暴力概念进行学习训练，最后在两个深度神经网络的基础上训练形成一个特征融合网络，利用以上两个深度神经网络形成的暴力概念，最终形成一个暴力主题，从而达到了检测视频中普遍存在的暴力行为的目标。

本发明实施例中的K个子概念是传统意义上所认为的暴力概念，包括血液，冷武器，爆炸，战斗，火，火器，枪声等，标准为“一个不该让8岁孩子看到的视频”即为暴力视频。

如图2所示，本发明实施例中，步骤S102中利用已训练的第一神经网络检测目标视频的视觉特征包括：

S1021、提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度；

S1022、利用所述已训练的第一深度神经网络模型进行视觉特征检测。

对于视觉的暴力检测，本发明实施例对于每个视频，分别提取所有帧，并通过计算帧之间的光通量以及光学加速度实现三种视觉训练输入：原始帧、光流和光加速度，通过卷积神经网络进行训练。

本发明实施例中的卷积神经网络采用C3D模型，遵循随机梯度下降算法对第一深度神经网络模型进行训练；

对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练；其中，P为正整数。例如，对于原始帧、光流和光加速度采用连续帧和相距5帧的连续光流进行光加速进行模型训练。

如图3所示，本发明实施例中，步骤S102利用已训练的第二神经网络检测目标视频的听觉特征包括：

S1023、对所述目标视频对应的音频信息进行特征提取，利用至少两种标准音频特征提取器生成特征向量；

S1024、对生成的特征向量应用统计方法，对于不同提取器获得的特征向量进行串联，提取区别性的特征向量。

对于音频的暴力检测，本发明实施例对于每个视频，提取对噪声和背景杂波具有鲁棒性的信息，而不是处理原始音频波形。对音频进行特征提取，可以利用如下四种标准音频特征提取器方法生成特征向量。

本发明实施例中，所述标准音频特征提取器包括：短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。

本发明实施例中采用的提取方法分别是短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱四种变换方式，四种方式都是先提取音频波形，不过是做不同函数的变换，采用四种是因为这里针对的是K个暴力子概念，这样做分析结果更加全面。

本发明实施例中，对于提取区别性的特征向量是为了提取对噪声和背景杂波具有鲁棒性的信息。

本发明实施例中，步骤S103中将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测包括：

本发明实施例中，将所述视觉特征和所述听觉特征进行视听融合网络的训练包括：

本发明实施例中，视听融合网络是视觉、听觉特征融合网络的管道，视频是使用dCNN进行描述的，音频功能是在浅层功能进行处理的。在此管道中，并行处理了不同的子概念(C1，...，Ck)，生成了视觉特征向量和听觉特征向量，其中浅层网络具有三个隐藏层和一个在网络顶部的softmax层，从第一个隐藏层到最后一个隐藏层，分别针对512、128、32个神经元实现关于网络性能的最佳权衡。网络的输入是从最后一个完全连接的层获得的视听特征权重，从而获得了针对每个暴力概念训练的模型的最终特征，最后，通过标准的Min-Max归一化步骤传递特征向量。输出的目标视频中存在暴力的可能性结果是“是”或者“否”。

本发明实施例对生成的特征向量应用统计方法，再对于不同提取器获得的特征向量进行串联，提取更具区别性的特征向量，即通过统计生成最终特征向量。在对于每个暴力子概念进行视觉与音频处理训练后，进行视听融合网络的训练生成，视听融合网络将子概念训练形成的特征向量作为输入，并输出片段中存在暴力的可能性。最终实现对特定类型的暴力行为进行训练，并将其视听检测器获得的特征向量进行合并，以此检测视频中普遍存在的暴力行为。

本发明实施例中，步骤S102中提取目标视频在预测间隔时间内的全部视频帧之后还包括：

如图4所示，本发明实施例还提供一种基于深度神经网络的视频暴力检测装置，包括：

暴力概念模块100，设置为检测目标视频中每个暴力子概念，所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念；

混合特征模块200，设置为针对每个子概念，利用已训练的第一神经网络检测目标视频的视觉特征，利用已训练的第二神经网络检测目标视频的听觉特征；

融合检测模块300，设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测。

本发明实施例中，所述混合特征模块200利用已训练的第一神经网络检测目标视频的视觉特征包括：

本发明实施例中，所述混合特征模块200利用已训练的第二神经网络检测目标视频的听觉特征包括：

本发明实施例中，所述融合检测模块300将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测包括：

本发明实施例中，所述混合特征模块200提取目标视频在预测间隔时间内的全部视频帧之后还包括：

本申请实施例还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图6，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度神经网络的视频暴力检测方法，包括：

2.根据权利要求1所述的方法，其特征在于，利用已训练的第一神经网络检测目标视频的视觉特征包括：

3.根据权利要求1或2所述的方法，其特征在于，获得所述已训练的第一深度神经网络模型包括：

4.根据权利要求1或2所述的方法，其特征在于，利用已训练的第二神经网络检测目标视频的听觉特征包括：

5.根据权利要求4所述的方法，其特征在于，所述标准音频特征提取器包括：短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。

6.根据权利要求4所述的方法，其特征在于，将所有子概念对应的所述视觉特征和所述听觉特征进行融合，根据融合得到的特征向量进行暴力行为检测包括：

7.根据权利要求6所述的方法，其特征在于，将所述视觉特征和所述听觉特征进行视听融合网络的训练包括：

8.根据权利要求2所述的方法，其特征在于，提取目标视频在预测间隔时间内的全部视频帧之后还包括：

9.一种基于深度神经网络的视频暴力检测装置，包括：

10.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。