CN111898458A

CN111898458A - 基于注意力机制的双模态任务学习的暴力视频识别方法

Info

Publication number: CN111898458A
Application number: CN202010645107.7A
Authority: CN
Inventors: 吴晓雨; 侯聪聪; 顾超男; 杨磊
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-11-06

Abstract

基于注意力机制的双模态任务学习的暴力视频识别方法，属于自然交互及图像智能识别技术领域。以分析暴力场景视频的特点为出发点，提取适合暴力场景描述的、具有时空相关性的视频特征；而后以捕捉全局特征信息为原则，为暴力视频特征建立注意力机制模块；最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点，研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤，构成了一个完整的暴力视频识别的检测框架。本发明暴力视频识别方法，实现了对暴力视频的智能化、有效性检测。

Description

基于注意力机制的双模态任务学习的暴力视频识别方法

技术领域

本发明涉及基于注意力机制的双模态任务学习的暴力视频识别方法，属于自然交互及图像智能识别技术领域。

背景技术

互联网技术的快速发展给我们的生活带来了便利，也带来了各种隐患，暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境，不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中，如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。

从以往的暴力视频检测技术来看，主要还存在两种不足。首先是对暴力场景的描述能力不够，主要表现为没有充分提取暴力特征。在视频特征提取方面：要么基于传统的手工特征提取方法，要么提取、拼凑众多的手工特征和深度学习获得的特征，而不是针对暴力场景的特点，提取更具有暴力场景描述能力的音视频特征。

另外就是在对长视频这样的数据进行建模时，由于无法更好的提取到全局信息使得不能进行有效的建模：目前大多数研究采用3D卷积网络作为视频数据建模的基础网络，但是卷积神经网络在模拟人的大脑认知学习的过程中，主要是通过底层的卷积神经网络去捕捉输入数据的轮廓边缘信息，网络的中间层进行融合底层提取的所有轮廓信息，网络的高层充当全局认知，将融合前面传来的局部信息，最终将提取的不同局部信息全部融合在一起达到全局信息获取的目的，但是因为网络进行特征提取采样和信息在各个网络层传递时会损失大量的信息，所以卷积网络在获取全局信息时会有很大的不足性，同时尽管3D卷积网络通过利用三维卷积构造了时间相关性，提取了短视频片段的时序特征，但对长时间视频序列的预测仍然存在不足。如何建立更有效的长时间视频的模型，利用卷积网络提取全局信息、提升模态间特征信息的互补性，从而提高暴力检测识别性能，这仍需要开展进一步的理论方法研究。现有的研究方法基本上只以视频标签为监督信号，构建并训练网络结构以得到视频暴力/非暴力的标签，却忽略了网络结构中特征之间的相互依赖关系，这使得学习的分类器在有限的暴力视频训练数据库上容易产生过拟合现象，影响了分类器的泛化能力。

发明内容

为了克服现有技术的不足,本发明提供基于注意力机制的双模态任务学习的暴力视频识别方法。

基于注意力机制的双模态任务学习的暴力视频识别方法，含有以下步骤：首先以分析暴力场景视频的特点为出发点，提取适合暴力场景描述的、具有时空相关性的视频特征；而后以捕捉全局特征信息为原则，为暴力视频特征建立注意力机制模块；最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点，研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤，构成了一个完整的暴力视频识别的检测框架。

在深度神经网络中添加注意力机制模块，用来捕捉特征之间的相互依赖关系，从而提高有用的特征的表观性；利用带有注意力机制模块的深度神经网络分别提取暴力视频在单帧图像、运动光流上的特征；采用后融合的平均融合策略实现对暴力血腥视频的最终分类决策。

采用的基础神经卷积网络是TSN网络，该网络是由空间流卷积神经网络和时间流卷积神经网络组成的，分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉，获得注意力关系权重，其中注意力机制模块是GCNet模块，在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块，在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块。

对正负样本组成的暴力视频样本库进行分帧处理，保存视频的单帧图像数据，然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练，得到基于空间流的带有注意力关系的特征提取模型。

对正负样本组成的暴力视频样本库做光流提取处理，保存视频的光流数据，然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练，得到基于运动光流的特征提取模型。

经过模型后给出每个模态下的暴力决策得分结果，最后将两个模态下的决策得分进行后融合给出最终的视频决策结果，其中后融合主要是通过平均融合的方法来实现的。

本发明的优点是：暴力视频时空特征与注意力机制相结合的暴力视频检测系统是主要内容，各研究内容紧密相邻、层次分明，构成了一个完整的暴力视频识别的检测框架。

本发明根据暴力视频在单帧图像和运动光流特征信息，设计了基于注意力机制的双模态任务学习的网络。在双模态任务学习过程中，利用注意力机制模块进行空间特征与通道间特征的注意力关系的捕捉，既保留了底层特征之间及特征向量内部的数据结构，同时在中高层特征映射变换过程中获得了特征之间的相互依赖关系表达；基于相互依赖关系的重要性，重新提高特征的表观性，根据注意力权重的大小，在网络学习时提高关系权重大的特征表观性，抑制对本任务影响较小的特征表达，进一步了提升暴力视频分类系统的泛化能力。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，如图其中：

图1为本发明基于注意力机制的双模态任务学习的流程图。

图2为本发明的基础网络TSN与注意力机制模块GCNet的空间流网络结合图。

图3为本发明的基础网络TSN与注意力机制模块GCNet的时间流网络结合图。

图4为本发明中使用注意力机制的多特征融合样式图。

下面结合附图和实施例对本发明进一步说明。

具体实施方式

显然，本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当称元件、组件被“连接”到另一元件、组件时，它可以直接连接到其他元件或者组件，或者也可以存在中间元件或者组件。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与所属领域中的普通技术人员的一般理解相同的意义。

为便于对实施例的理解，下面将结合做进一步的解释说明，且各个实施例并不构成对本发明的限定。

实施例1：如图1、图2、图3及图4所示，基于注意力机制的双模态任务学习的暴力视频识别方法，包括以下步骤：

步骤1：在空间流深度神经网络中添加注意力机制模块捕捉静态帧图片的暴力特征之间的相互依赖关系，形成注意力机制权重；

步骤2：在时间流深度神经网络中添加注意力机制模块捕捉光流时序图的暴力特征之间的相互依赖关系，形成注意力机制权重；

步骤3：提取暴力视频在单帧图像上的特征信息，建立基于单帧图像的暴力视频识别模型；

步骤4：提取暴力视频在运动光流上的特征信息，建立基于运动光流的暴力视频识别模型；

步骤5：时空特征融合。利用平均融合方法，将基于单帧图像的暴力视频识别模型下的得分策略与基于运动光流的暴力视频识别模型的得分策略进行融合给出最终的暴力分类得分。

具体地，在空间流深度神经网络中添加注意力机制模块步骤如下：

步骤11：构建基于空间流的暴力注意力关系捕捉的深度神经网络。利用TSN网络作为基础网络，将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中，完成基于空间流的暴力注意力关系捕捉的深度神经网络；

步骤12:学习注意力关系权重。利用暴力视频样本数据集在步骤11的基于空间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习，得到基于空间流的暴力注意力关系权重。

步骤13：注意力特征形成。利用原特征与步骤12学习到的基于空间流的暴力注意力关系权重进行特征元素相加融合，得到带有注意力相互依赖关系的空间流上的特征。

具体地，在时间流深度神经网络中添加注意力机制模块步骤如下：

步骤21：构建基于时间流的暴力注意力关系捕捉的深度神经网络。利用TSN网络作为基础网络，将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中，完成基于时间流的暴力注意力关系捕捉的深度神经网络；

步骤22:学习注意力关系权重。利用暴力视频样本数据集在步骤21的基于时间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习，得到基于时间流的暴力注意力关系权重。

步骤23：注意力特征形成。利用原特征与步骤22学习到的基于时间流的暴力注意力关系权重进行特征元素相加融合，得到带有注意力相互依赖关系的时间流上的特征。

具体地，提取暴力视频在单帧图像上的特征信息步骤如下

步骤31：构建基于带有注意力关系的单帧图像分类的深度神经网络。利用TSN网络与注意力机制模块GCNet相互结合，完成基于带有注意力关系的单帧图像分类的深度神经网络；

步骤32：利用暴力视频样本数据集在步骤31的基于带有注意力关系的单帧图像分类的深度神经网络模型做训练，得到基于单帧图像分类的深度神经网络模型；

步骤33：利用步骤32得到的基于单帧图像分类的深度神经网络模型，对暴力视频样本数据进行预测得分的输出。

具体地，提取暴力视频在运动光流上的特征信息步骤如下：

步骤41：构建基于带有注意力关系的运动光流分类的深度神经网络。利用TSN网络与注意力机制模块GCNet相互结合，完成基于带有注意力关系的运动光流分类的深度神经网络；

步骤42：利用暴力视频样本数据集在步骤41的基于带有注意力关系的运动光流分类的深度神经网络模型做训练，得到基于运动光流分类的深度神经网络模型；

步骤43：利用步骤42得到的基于运动光流分类的深度神经网络模型，对暴力视频样本数据对暴力视频样本数据进行预测得分的输出。

具体地，时空特征融合包括步骤如下：

步骤51：获取两个模态网络下的暴力预测得分。首先分别得到空间流网络下的单帧图像预测得分和时间流网络下的运动光流预测得分；

步骤52：构建时空特征的后融合。在步骤51之后，将两个模态下的暴力预测得分进行平均融合，给出最终的暴力预测得分。

图1是基于注意力机制的双模态任务学习的流程图。按照流程顺序，本算法各步骤的具体实施过程如下：

读入视频流；

系统首先获取视频流数据。视频数据获取来源方式可为事先采集的视频文件。

带有注意力关系权重的特征提取；

提取视频中的单帧图像，将单帧图像信息送入基于TSN+GCNet网络的单帧图像特征提取网络模型中提取带有注意力关系权重的特征；

提取视频中的运动光流，将光流信息送入基于TSN+GCNet网络的运动光流特征提取网络模型中提取带有注意力关系权重的特征；

时空特征融合；

将步骤2中获得的两种特征信息进行训练，得到时空特征下的两个网络模型。

经过两个模型后分别给出每个模型下的暴力视频预测得分；

将步骤32中两个模型下给出的预测得分进行平均融合后，输出对暴力视频的分类结果。

实施例2：如图1、图2、图3及图4所示，基于注意力机制的双模态任务学习的暴力视频识别方法，包括以下步骤：

步骤S101、在深度神经网络中添加注意力机制模块捕捉暴力特征之间的相互依赖关系；

步骤S102、利用带有注意力机制的深度神经网络提取暴力视频在单帧图像上的特征；

步骤S103、利用带有注意力机制的深度神经网络提取暴力视频在运动光流上的特征；

步骤S104、基于后融合的多特征平均融合策略，搭建更加合理的暴力识别系统。

首先采用的基础神经卷积网络是TSN网络，该网络是由空间流卷积神经网络和时间流卷积神经网络组成的，分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉，获得注意力关系权重，其中注意力机制模块是GCNet模块，这里具体在网络中添加注意力机制模块的位置设计包括以下步骤：

在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块；

在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块。

步骤S102还具有以下特征，首先对正负样本组成的暴力视频样本库进行分帧处理，保存视频的单帧图像数据，然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练，得到基于空间流的带有注意力关系的特征提取模型，这里深度卷积神经网络设计、注意力关系特征提取情况包括以下步骤：

经过带有注意力模块的网络层后，获得带有注意力关系的权重，之后与原特征进行融合得到单帧图像的注意力关系特征。

步骤S103还具有以下特征，首先对正负样本组成的暴力视频样本库做光流提取处理，保存视频的光流数据，然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练，得到基于运动光流的特征提取模型，这里深度卷积神经网络设计、注意力关系特征提取情况包括以下步骤：

在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块；

经过带有注意力模块的网络层后，获得带有注意力关系的权重，之后与原特征进行融合得到运动光流的注意力关系特征。

步骤S104还具有以下特征，首先将步骤S102、步骤S103提取到的两种特征送入对应的神经网络训练，得到基于每个模态下对应的模型，然后经过模型后给出每个模态下的暴力决策得分结果，最后将两个模态下的决策得分进行后融合给出最终的视频决策结果，其中后融合主要是通过平均融合的方法来实现的。

如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。

Claims

1.基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于含有以下步骤：首先以分析暴力场景视频的特点为出发点，提取适合暴力场景描述的、具有时空相关性的视频特征；而后以捕捉全局特征信息为原则，为暴力视频特征建立注意力机制模块；最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点，研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤，构成了一个完整的暴力视频识别的检测框架。

2.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于在深度神经网络中添加注意力机制模块，用来捕捉特征之间的相互依赖关系，从而提高有用的特征的表观性；利用带有注意力机制模块的深度神经网络分别提取暴力视频在单帧图像、运动光流上的特征；采用后融合的平均融合策略实现对暴力血腥视频的最终分类决策。

3.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于采用的基础神经卷积网络是TSN网络，该网络是由空间流卷积神经网络和时间流卷积神经网络组成的，分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉，获得注意力关系权重，其中注意力机制模块是GCNet模块，在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块，在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块。

4.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于对正负样本组成的暴力视频样本库进行分帧处理，保存视频的单帧图像数据，然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练，得到基于空间流的带有注意力关系的特征提取模型。

5.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于对正负样本组成的暴力视频样本库做光流提取处理，保存视频的光流数据，然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练，得到基于运动光流的特征提取模型。

6.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于经过模型后给出每个模态下的暴力决策得分结果，最后将两个模态下的决策得分进行后融合给出最终的视频决策结果，其中后融合主要是通过平均融合的方法来实现的。

7.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于包括以下步骤：

步骤5：时空特征融合；利用平均融合方法，将基于单帧图像的暴力视频识别模型下的得分策略与基于运动光流的暴力视频识别模型的得分策略进行融合给出最终的暴力分类得分。

8.根据权利要求7所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于在空间流深度神经网络中添加注意力机制模块步骤如下：

步骤11：构建基于空间流的暴力注意力关系捕捉的深度神经网络；利用TSN网络作为基础网络，将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中，完成基于空间流的暴力注意力关系捕捉的深度神经网络；

步骤12:学习注意力关系权重；利用暴力视频样本数据集在步骤11的基于空间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习，得到基于空间流的暴力注意力关系权重；

步骤13：注意力特征形成；利用原特征与步骤12学习到的基于空间流的暴力注意力关系权重进行特征元素相加融合，得到带有注意力相互依赖关系的空间流上的特征；

步骤21：构建基于时间流的暴力注意力关系捕捉的深度神经网络；利用TSN网络作为基础网络，将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中，完成基于时间流的暴力注意力关系捕捉的深度神经网络；

步骤22:学习注意力关系权重；利用暴力视频样本数据集在步骤21的基于时间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习，得到基于时间流的暴力注意力关系权重；

步骤23：注意力特征形成；利用原特征与步骤22学习到的基于时间流的暴力注意力关系权重进行特征元素相加融合，得到带有注意力相互依赖关系的时间流上的特征。

9.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在在时间流深度神经网络中添加注意力机制模块步骤如下：

10.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法，其特征在于提取暴力视频在单帧图像上的特征信息步骤如下

步骤31：构建基于带有注意力关系的单帧图像分类的深度神经网络；利用TSN网络与注意力机制模块GCNet相互结合，完成基于带有注意力关系的单帧图像分类的深度神经网络；

步骤33：利用步骤32得到的基于单帧图像分类的深度神经网络模型，对暴力视频样本数据进行预测得分的输出；

提取暴力视频在运动光流上的特征信息步骤如下：

步骤41：构建基于带有注意力关系的运动光流分类的深度神经网络；利用TSN网络与注意力机制模块GCNet相互结合，完成基于带有注意力关系的运动光流分类的深度神经网络；

步骤43：利用步骤42得到的基于运动光流分类的深度神经网络模型，对暴力视频样本数据对暴力视频样本数据进行预测得分的输出；

时空特征融合包括步骤如下：

步骤51：获取两个模态网络下的暴力预测得分；首先分别得到空间流网络下的单帧图像预测得分和时间流网络下的运动光流预测得分；

步骤52：构建时空特征的后融合；在步骤51之后，将两个模态下的暴力预测得分进行平均融合，给出最终的暴力预测得分。