CN110647804A

CN110647804A - 一种暴力视频识别方法、计算机系统和存储介质

Info

Publication number: CN110647804A
Application number: CN201910736118.3A
Authority: CN
Inventors: 吴晓雨; 徐星宇; 顾超男; 杨磊; 侯聪聪
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2020-01-03

Abstract

本发明提供了一种暴力视频识别方法、计算机系统和存储介质。该方法根据暴力视频在单帧图像、运动光流和音频上的特征信息，构建基于多特征融合的暴力视频多任务学习网络，通过在多特征融合过程中，利用构建共享特征子空间的方式，保留各特征之间以及特征向量内部的数据结构，同时在特征映射变换过程中保证多特征之间的语义信息以及同一模态下的各特征点之间的语义信息不变。由于同时考虑到音视频语义一致性问题，增加多特征融合网络中对音视频语义一致性的度量任务，因此进一步了提升暴力视频分类系统的泛化能力。

Description

一种暴力视频识别方法、计算机系统和存储介质

技术领域

本发明属于图像识别技术领域，尤其涉及一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法、计算机系统和存储介质。

背景技术

互联网技术的快速发展给我们的生活带来了便利，也带来了各种隐患，暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境，不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中，如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。

从以往的暴力视频检测技术来看，主要还存在以下两种不足。

首先是对暴力场景的描述能力不够，主要表现为没有充分提取暴力特征。在音视频特征提取方面：要么基于传统的手工特征提取方法，要么提取、拼凑众多的手工特征和深度学习获得的特征，而不是针对暴力场景的特点，提取更具有暴力场景描述能力的音视频特征。

其次特征融合策略有待完善：目前大多数研究采用信息有限的决策层后融合方法为主，没有建立起各模态特征之间的交互作用；而且在利用前融合的方案中，多数文献是通过音视频特征的简单拼接实现特征层面的前融合，未从理论上探索合理的特征子空间构建方法，也没有在融合时考虑度量音视频特征的语义一致性(即具有相同的语义概念)。在多模态融合问题上，各模态数据在某些情况下是互补的，但在有些情况下是互相干扰的(如著名的“麦格克效应”-McGurkeffect)。如何度量暴力音视频的语义一致性，采用合理的融合方案降低模态间干扰、提升模态间信息的互补性，从而提高暴力检测识别性能，这仍需要开展进一步的理论方法研究。现有的研究方法基本上只以视频标签为监督信号，构建并训练带有特征融合层的网络结构以得到视频暴力/非暴力的标签，却忽略了融合的特征应具有语义一致性的约束，这使得学习的分类器在有限的暴力视频训练数据库上容易产生过拟合现象，影响了分类器的泛化能力。

发明内容

针对上述问题，本发明提出了一种暴力视频识别方法、计算机系统和存储介质。

根据本发明的第一个方面，本发明的一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法，具体包括以下步骤：

S100，获取样本视频数据流，并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流；

S200，将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征；

S300，将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合，以构建特征融合向量；

S400，基于所述特征融合向量进行暴力视频分类学习，以构建暴力视频分类模型；

S500，基于所述特征融合向量进行暴力音视频语义一致性度量分类学习，以构建暴力音视频语义一致性度量分类模型；

S600，将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型，以判断所述待识别的视频属于暴力视频还是非暴力视频。

根据本发明的实施例，在所述步骤S200中，将所述单帧图像数据流输入对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征，具体包括以下步骤：

通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络；

利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练，将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型；

将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型，以提取描述暴力场景的单帧图像特征。

根据本发明的实施例，在所述步骤S200中，将所述运动光流数据流输入对应的特征提取网络模型，以提取描述暴力场景的运动光流特征，具体包括以下步骤：

通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络；

利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练，将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型；

将运动光流数据流输入针对运动光流数据流的特征提取网络模型，以提取描述暴力场景的运动光流特征。

根据本发明的实施例，在所述步骤S200中，将所述音频数据流输入对应的特征提取网络模型，以提取描述暴力场景的音频信息特征，具体包括以下步骤：

利用VGGish网络构建基于音频分类的深度神经网络；

利用暴力视频样本数据对基于音频分类的深度神经网络进行训练，将通过训练获得的深度神经网络模型作为针对音频数据流的特征提取网络模型；

将音频数据流输入针对音频数据流的特征提取网络模型，以提取描述暴力场景的音频信息特征。

根据本发明的实施例，所述P3D网络与LSTM网络拼接，具体包括：

截取P3D网络的最后一个平均池化层；

将所述P3D网络的最后一个平均池化层后面连接LSTM网络。

根据本发明的实施例，所述VGGish网络为，采用全局平均池化层代替原始VGGish网络中最后两个全连接层之后所获得的改进后的VGGish网络。

根据本发明的实施例，所述步骤S300包括以下步骤：

将单帧图像特征和运动光流特征分别送入两个第一全连接层，其中，每个所述第一全连接层后面分别接有一个第一ReLU激活函数，用以实现非线性变换；

将经过非线性变换的单帧图像特征和运动光流特征拼接在一起，以组成一个基于视觉层面的视觉通道特征；

将音频信息特征和视觉通道特征分别送入两个第二全连接层，其中，每个所述第二全连接层后面分别接有一个第二ReLU激活函数，用以实现非线性变换；

将经过非线性变换的音频信息特征和视觉通道特征拼接在一起，以组成最终的特征融合向量。

根据本发明的实施例，在所述步骤S600中，所述联合分类任务模型的总体损失函数为所述暴力视频分类模型的损失函数与所述暴力音视频语义一致性度量分类模型的损失函数之和。

根据本发明的实施例，在所述步骤S600中，所述暴力视频分类模型的损失函数为二值交叉熵损失函数。

根据本发明的实施例，在所述步骤S600中，所述暴力音视频语义一致性度量分类模型的损失函数为余弦相似度损失函数

此外，本发明还提供一种计算机存储介质，其中存储有用于实现上述方法的计算机程序。

此外，本发明还一种计算机设备，其包括存储器和处理器，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序用于实现上述方法。

与现有技术相比，本发明提供的基于音视频语义一致性度量及多任务学习的暴力视频识和系统等具有如下优点或有益效果：

本发明根据暴力视频在单帧图像、运动光流和音频上的特征信息，设计了基于多特征融合的暴力视频多任务学习网络。在多特征融合过程中，利用构建共享特征子空间的方式，既保留了各特征之间及特征向量内部的数据结构，同时在特征映射变换过程中也保证了多特征之间的语义信息及同一模态下各特征点之间的语义信息不变；同时考虑到音视频语义一致性问题，增加多特征融合网络中对音视频语义一致性的度量任务，进一步了提升暴力视频分类系统的泛化能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

从下面描述的实施例并参考附图，本发明的其它优点和细节将变得显而易见。以下是示意图并示出：

图1为本发明基于多特征融合的暴力视频识别方法的工作流程图。

图2为本发明实施例中P3D与LSTM网络拼接的示意图。

图3为本发明实施例中基于改进后的VGGish网络的特征提取模型的示意图。

图4为本发明实施例中多特征融合时的特征融合网络的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明作进一步地详细说明，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

本发明设计整体思路：首先以分析暴力场景视频的特点为出发点，提取适合暴力场景描述的、具有时空相关性的音视频特征；而后以各模态特征空间数据的语义保持为原则，为暴力音视频特征建立共享的特征融合子空间；最后以融合相同语义的音视频特征从而实现多模态信息互补为出发点，研宄基于暴力音视频特征的语义一致性度量和暴力视频分类的多任务学习的暴力视频识别系统。综上，暴力音视频特征提取、暴力音视频特征融合和基于多任务优化的暴力视频检测系统是本项目的主要研宄内容，各研宄内容紧密相邻、层次分明，构成了一个完整的暴力视频识别的检测框架。

如图1所示，本发明主要包括以下步骤：

S500，基于所述特征融合向量进行暴力音视频语义一致性度量分类学习，以构建音视频语义一致性度量分类模型；

在本实施例中，步骤S200包括以下三个方面的内容：

1)对单帧图像数据流提取描述暴力场景的单帧图像特征；

2)对运动光流数据流提取描述暴力场景的运动光流特征；

3)对音频数据流提取描述暴力场景的音频信息特征。

具体地，提取暴力视频在单帧图像上的特征信息的过程如下：

步骤211：构建基于单帧图像分类的深度神经网络。通过图2所示的P3D与LSTM拼接的方式，将P3D网络最后一个平均池化层之后连接到1024维的LSTM网络，再加入512维的全连接层，以为分类做降维准备，最后加入2维的分类全连接层(激活函数例如为Softmax)，形成基于单帧图像分类的深度神经网络；

步骤212：利用暴力视频样本数据集对步骤11的基于单帧图像分类的深度神经网络进行训练，得到基于单帧图像分类的深度神经网络模型；

步骤213：利用步骤12得到的基于单帧图像分类的深度神经网络模型，对单帧图像数据流做特征提取，特征截取至512维的全连接层，即单帧图像特征为512维的特征向量。

具体地，提取暴力视频在运动光流上的特征信息的过程如下：

步骤221：构建基于运动光流分类的深度神经网络。通过图2所示的P3D与LSTM拼接的方式，将P3D网络最后一个平均池化层之后连接到1024维的LSTM网络，再加入512维的全连接层，以为分类做降维准备，最后加入2维的分类全连接层(激活函数例如为Softmax)，形成基于运动光流分类的深度神经网络；

步骤222：利用暴力视频样本数据集对步骤21的基于运动光流分类的深度神经网络进行做训练，得到基于运动光流分类的深度神经网络模型；

步骤223：利用步骤22得到的基于运动光流分类的深度神经网络模型，对运动光流数据流做特征提取，特征截取至512维的全连接层，即运动光流特征为512维的特征向量。

具体地，提取暴力视频在音频上的特征信息的过程如下：

步骤231：构建基于音频分类的深度神经网络。如图3所示，采用全局平均池化层代替原始VGGish网络中最后两个4096维的全连接层，再在全局平均池化层之后加入128维的全连接层，用于分类前的降维，最后加入1维的分类全连接层(激活函数例如为Sigmoid)，形成基于音频分类的深度神经网络；

步骤232：利用暴力视频样本数据集对步骤31的基于音频分类的深度神经网络模型进行训练，得到基于音频分类的深度神经网络模型；

步骤233：利用步骤32得到的基于音频分类的深度神经网络模型，对音频数据流做特征提取，特征截取至128维的全连接层，即音频信息特征为128维的特征向量。

在本实施例中，步骤S300，进行多特征融合的过程如下：

步骤300：利用如图4所示特征融合网络，对描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征进行融合。

首先将单帧图像特征的512维特征向量和运动光流特征的512维特征向量分别送入一个全连接层，其中，在每个全连接层后面都接有一个ReLU激活函数，用以非线性变换，之后将经过非线性变换的单帧图像特征向量和运动光流特征向量直接拼接在一起，共同组成一个基于视觉层面的1024维的视觉通道特征向量；接下来，将音频信息特征的128维特征向量与基于视觉层面的1024维的视觉通道特征向量再分别送入一个全连接层，其中，在每个全连接层后面都接有一个ReLU激活函数，用以非线性变换，之后将经过非线性变换的音频特征向量和视觉通道特征向量拼接在一起，得到最终的特征融合向量；

在本实施例中，步骤S400的实施过程如下：

步骤410：构建暴力视频分类网络。在步骤300之后，加入256维的全连接层用于分类全连接层之前的降维，再加入2维的全连接层(激活函数例如为Sigmoid)完成基于多特征融合决策的暴力视频分类网络。

步骤420：构建暴力视频分类网络损失函数。训练步骤42得到的基于多特征融合决策的暴力视频分类网络时，相应的损失函数可以采用例如二值交叉熵损失函数。

在本实施例中，步骤S500的实施过程如下：

步骤510：构建暴力音视频语义一致性度量分类网络(可以与步骤41同步进行)。在步骤300之后，加入256维的全连接层，用于分类全连接层之前的降维，再加入2维的全连接层(激活函数例如为Sigmoid)，形成暴力音视频一致性度量分类网络。

步骤520：构建暴力音视频语义一致性度量分类网络损失函数。训练步骤51得到基于多特征融合决策的的暴力音视频语义一致性度量分类网络时，损失函数可以采用例如余弦相似度损失函数。

在本实施例中，步骤S600的实施过程如下：

步骤610：训练由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型。其中，所述联合分类任务模型损失函数可以采用所述暴力视频分类模型损失函数与所述暴力音视频语义一致性度量分类模型之和的形式，进行基于多特征融合的联调训练。

步骤620：将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型，以判断所述待识别的视频属于暴力视频还是非暴力视频，输出判断结果。

在优选的实施例中，所述联合分类任务模型损失函数为：

Loss＝L_{classification}+λL_{corespondence}

其中，整个深度神经网络的训练损失函数Loss中，λ取1；暴力视频分类模型损失函数Lclasstficatwn中，j>表示暴力视频分类的预测值，y表示暴力视频分类的真实值；在暴力音视频语义一致性度量分类模型损失函数Lcorrespondence中，

表示语义一致性任务的预测值，y'表示语义一致性任务的真实值，margin为阈值。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“实施例”意指结合实施例描述的特定特征、或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“实施例”并不一定均指同一个实施例。

本领域的技术人员应该明白，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域的技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储介质(RAM)、内存、只读存储介质(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种暴力视频识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200中，将所述单帧图像数据流输入对应的特征提取网络模型，以提取描述暴力场景的单帧图像特征，具体包括以下步骤：

3.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200 中，将所述运动光流数据流输入对应的特征提取网络模型，以提取描述暴力场景的运动光流特征，具体包括以下步骤：

4.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S200中，将所述音频数据流输入对应的特征提取网络模型，以提取描述暴力场景的音频信息特征，具体包括以下步骤：

利用VGGish网络构建基于音频分类的深度神经网络；

5.根据权利要求2或3所述的暴力视频识别方法，其特征在于，所述P3D网络与LSTM网络拼接，具体包括：

截取P3D网络的最后一个平均池化层；

将所述P3D网络的最后一个平均池化层后面连接LSTM网络。

6.根据权利要求4所述的暴力视频识别方法，其特征在于，所述VGGish网络为，采用全局平均池化层代替原始VGGish网络中最后两个全连接层之后所获得的改进后的VGGish网络。

7.根据权利要求1所述的暴力视频识别方法，其特征在于，所述步骤S300包括以下步骤：

8.根据权利要求1所述的暴力视频识别方法，其特征在于，在所述步骤S600中：

所述联合分类任务模型的总体损失函数为所述暴力视频分类模型的损失函数与所述暴力音视频语义一致性度量分类模型的损失函数之和。

9.根据权利要求8所述的暴力视频识别方法，其特征在于，在所述步骤S600中：

所述暴力视频分类模型的损失函数为二值交叉熵损失函数。

10.根据权利要求8所述的暴力视频识别方法，其特征在于，在所述步骤S600中：

所述暴力音视频语义一致性度量分类模型的损失函数为余弦相似度损失函数。

11.一种计算机存储介质，其特征在于，其中存储有用于实现上述权利要求1至10中任意一项所述方法的计算机程序。

12.一种计算机设备，其特征在于，包括存储器和处理器，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序用于实现上述权利要求1至10中任意一项所述方法。