CN111898458A - 基于注意力机制的双模态任务学习的暴力视频识别方法 - Google Patents
基于注意力机制的双模态任务学习的暴力视频识别方法 Download PDFInfo
- Publication number
- CN111898458A CN111898458A CN202010645107.7A CN202010645107A CN111898458A CN 111898458 A CN111898458 A CN 111898458A CN 202010645107 A CN202010645107 A CN 202010645107A CN 111898458 A CN111898458 A CN 111898458A
- Authority
- CN
- China
- Prior art keywords
- violent
- attention
- neural network
- video
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 230000003287 optical effect Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000003068 static effect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Abstract
基于注意力机制的双模态任务学习的暴力视频识别方法,属于自然交互及图像智能识别技术领域。以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的视频特征;而后以捕捉全局特征信息为原则,为暴力视频特征建立注意力机制模块;最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点,研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤,构成了一个完整的暴力视频识别的检测框架。本发明暴力视频识别方法,实现了对暴力视频的智能化、有效性检测。
Description
技术领域
本发明涉及基于注意力机制的双模态任务学习的暴力视频识别方法,属于自然交互及图像智能识别技术领域。
背景技术
互联网技术的快速发展给我们的生活带来了便利,也带来了各种隐患,暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境,不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。
从以往的暴力视频检测技术来看,主要还存在两种不足。首先是对暴力场景的描述能力不够,主要表现为没有充分提取暴力特征。在视频特征提取方面:要么基于传统的手工特征提取方法,要么提取、拼凑众多的手工特征和深度学习获得的特征,而不是针对暴力场景的特点,提取更具有暴力场景描述能力的音视频特征。
另外就是在对长视频这样的数据进行建模时,由于无法更好的提取到全局信息使得不能进行有效的建模:目前大多数研究采用3D卷积网络作为视频数据建模的基础网络,但是卷积神经网络在模拟人的大脑认知学习的过程中,主要是通过底层的卷积神经网络去捕捉输入数据的轮廓边缘信息,网络的中间层进行融合底层提取的所有轮廓信息,网络的高层充当全局认知,将融合前面传来的局部信息,最终将提取的不同局部信息全部融合在一起达到全局信息获取的目的,但是因为网络进行特征提取采样和信息在各个网络层传递时会损失大量的信息,所以卷积网络在获取全局信息时会有很大的不足性,同时尽管3D卷积网络通过利用三维卷积构造了时间相关性,提取了短视频片段的时序特征,但对长时间视频序列的预测仍然存在不足。如何建立更有效的长时间视频的模型,利用卷积网络提取全局信息、提升模态间特征信息的互补性,从而提高暴力检测识别性能,这仍需要开展进一步的理论方法研究。现有的研究方法基本上只以视频标签为监督信号,构建并训练网络结构以得到视频暴力/非暴力的标签,却忽略了网络结构中特征之间的相互依赖关系,这使得学习的分类器在有限的暴力视频训练数据库上容易产生过拟合现象,影响了分类器的泛化能力。
发明内容
为了克服现有技术的不足,本发明提供基于注意力机制的双模态任务学习的暴力视频识别方法。
基于注意力机制的双模态任务学习的暴力视频识别方法,含有以下步骤:首先以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的视频特征;而后以捕捉全局特征信息为原则,为暴力视频特征建立注意力机制模块;最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点,研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤,构成了一个完整的暴力视频识别的检测框架。
在深度神经网络中添加注意力机制模块,用来捕捉特征之间的相互依赖关系,从而提高有用的特征的表观性;利用带有注意力机制模块的深度神经网络分别提取暴力视频在单帧图像、运动光流上的特征;采用后融合的平均融合策略实现对暴力血腥视频的最终分类决策。
采用的基础神经卷积网络是TSN网络,该网络是由空间流卷积神经网络和时间流卷积神经网络组成的,分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉,获得注意力关系权重,其中注意力机制模块是GCNet模块,在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块,在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块。
对正负样本组成的暴力视频样本库进行分帧处理,保存视频的单帧图像数据,然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练,得到基于空间流的带有注意力关系的特征提取模型。
对正负样本组成的暴力视频样本库做光流提取处理,保存视频的光流数据,然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练,得到基于运动光流的特征提取模型。
经过模型后给出每个模态下的暴力决策得分结果,最后将两个模态下的决策得分进行后融合给出最终的视频决策结果,其中后融合主要是通过平均融合的方法来实现的。
本发明的优点是:暴力视频时空特征与注意力机制相结合的暴力视频检测系统是主要内容,各研究内容紧密相邻、层次分明,构成了一个完整的暴力视频识别的检测框架。
本发明根据暴力视频在单帧图像和运动光流特征信息,设计了基于注意力机制的双模态任务学习的网络。在双模态任务学习过程中,利用注意力机制模块进行空间特征与通道间特征的注意力关系的捕捉,既保留了底层特征之间及特征向量内部的数据结构,同时在中高层特征映射变换过程中获得了特征之间的相互依赖关系表达;基于相互依赖关系的重要性,重新提高特征的表观性,根据注意力权重的大小,在网络学习时提高关系权重大的特征表观性,抑制对本任务影响较小的特征表达,进一步了提升暴力视频分类系统的泛化能力。
附图说明
当结合附图考虑时,通过参照下面的详细描述,能够更完整更好地理解本发明以及容易得知其中许多伴随的优点,但此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,如图其中:
图1为本发明基于注意力机制的双模态任务学习的流程图。
图2为本发明的基础网络TSN与注意力机制模块GCNet的空间流网络结合图。
图3为本发明的基础网络TSN与注意力机制模块GCNet的时间流网络结合图。
图4为本发明中使用注意力机制的多特征融合样式图。
下面结合附图和实施例对本发明进一步说明。
具体实施方式
显然,本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当称元件、组件被“连接”到另一元件、组件时,它可以直接连接到其他元件或者组件,或者也可以存在中间元件或者组件。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与所属领域中的普通技术人员的一般理解相同的意义。
为便于对实施例的理解,下面将结合做进一步的解释说明,且各个实施例并不构成对本发明的限定。
实施例1:如图1、图2、图3及图4所示,基于注意力机制的双模态任务学习的暴力视频识别方法,包括以下步骤:
步骤1:在空间流深度神经网络中添加注意力机制模块捕捉静态帧图片的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤2:在时间流深度神经网络中添加注意力机制模块捕捉光流时序图的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤3:提取暴力视频在单帧图像上的特征信息,建立基于单帧图像的暴力视频识别模型;
步骤4:提取暴力视频在运动光流上的特征信息,建立基于运动光流的暴力视频识别模型;
步骤5:时空特征融合。利用平均融合方法,将基于单帧图像的暴力视频识别模型下的得分策略与基于运动光流的暴力视频识别模型的得分策略进行融合给出最终的暴力分类得分。
具体地,在空间流深度神经网络中添加注意力机制模块步骤如下:
步骤11:构建基于空间流的暴力注意力关系捕捉的深度神经网络。利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中,完成基于空间流的暴力注意力关系捕捉的深度神经网络;
步骤12:学习注意力关系权重。利用暴力视频样本数据集在步骤11的基于空间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习,得到基于空间流的暴力注意力关系权重。
步骤13:注意力特征形成。利用原特征与步骤12学习到的基于空间流的暴力注意力关系权重进行特征元素相加融合,得到带有注意力相互依赖关系的空间流上的特征。
具体地,在时间流深度神经网络中添加注意力机制模块步骤如下:
步骤21:构建基于时间流的暴力注意力关系捕捉的深度神经网络。利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中,完成基于时间流的暴力注意力关系捕捉的深度神经网络;
步骤22:学习注意力关系权重。利用暴力视频样本数据集在步骤21的基于时间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习,得到基于时间流的暴力注意力关系权重。
步骤23:注意力特征形成。利用原特征与步骤22学习到的基于时间流的暴力注意力关系权重进行特征元素相加融合,得到带有注意力相互依赖关系的时间流上的特征。
具体地,提取暴力视频在单帧图像上的特征信息步骤如下
步骤31:构建基于带有注意力关系的单帧图像分类的深度神经网络。利用TSN网络与注意力机制模块GCNet相互结合,完成基于带有注意力关系的单帧图像分类的深度神经网络;
步骤32:利用暴力视频样本数据集在步骤31的基于带有注意力关系的单帧图像分类的深度神经网络模型做训练,得到基于单帧图像分类的深度神经网络模型;
步骤33:利用步骤32得到的基于单帧图像分类的深度神经网络模型,对暴力视频样本数据进行预测得分的输出。
具体地,提取暴力视频在运动光流上的特征信息步骤如下:
步骤41:构建基于带有注意力关系的运动光流分类的深度神经网络。利用TSN网络与注意力机制模块GCNet相互结合,完成基于带有注意力关系的运动光流分类的深度神经网络;
步骤42:利用暴力视频样本数据集在步骤41的基于带有注意力关系的运动光流分类的深度神经网络模型做训练,得到基于运动光流分类的深度神经网络模型;
步骤43:利用步骤42得到的基于运动光流分类的深度神经网络模型,对暴力视频样本数据对暴力视频样本数据进行预测得分的输出。
具体地,时空特征融合包括步骤如下:
步骤51:获取两个模态网络下的暴力预测得分。首先分别得到空间流网络下的单帧图像预测得分和时间流网络下的运动光流预测得分;
步骤52:构建时空特征的后融合。在步骤51之后,将两个模态下的暴力预测得分进行平均融合,给出最终的暴力预测得分。
图1是基于注意力机制的双模态任务学习的流程图。按照流程顺序,本算法各步骤的具体实施过程如下:
读入视频流;
系统首先获取视频流数据。视频数据获取来源方式可为事先采集的视频文件。
带有注意力关系权重的特征提取;
提取视频中的单帧图像,将单帧图像信息送入基于TSN+GCNet网络的单帧图像特征提取网络模型中提取带有注意力关系权重的特征;
提取视频中的运动光流,将光流信息送入基于TSN+GCNet网络的运动光流特征提取网络模型中提取带有注意力关系权重的特征;
时空特征融合;
将步骤2中获得的两种特征信息进行训练,得到时空特征下的两个网络模型。
经过两个模型后分别给出每个模型下的暴力视频预测得分;
将步骤32中两个模型下给出的预测得分进行平均融合后,输出对暴力视频的分类结果。
实施例2:如图1、图2、图3及图4所示,基于注意力机制的双模态任务学习的暴力视频识别方法,包括以下步骤:
步骤S101、在深度神经网络中添加注意力机制模块捕捉暴力特征之间的相互依赖关系;
步骤S102、利用带有注意力机制的深度神经网络提取暴力视频在单帧图像上的特征;
步骤S103、利用带有注意力机制的深度神经网络提取暴力视频在运动光流上的特征;
步骤S104、基于后融合的多特征平均融合策略,搭建更加合理的暴力识别系统。
首先采用的基础神经卷积网络是TSN网络,该网络是由空间流卷积神经网络和时间流卷积神经网络组成的,分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉,获得注意力关系权重,其中注意力机制模块是GCNet模块,这里具体在网络中添加注意力机制模块的位置设计包括以下步骤:
在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块;
在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块。
步骤S102还具有以下特征,首先对正负样本组成的暴力视频样本库进行分帧处理,保存视频的单帧图像数据,然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练,得到基于空间流的带有注意力关系的特征提取模型,这里深度卷积神经网络设计、注意力关系特征提取情况包括以下步骤:
在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块;
经过带有注意力模块的网络层后,获得带有注意力关系的权重,之后与原特征进行融合得到单帧图像的注意力关系特征。
步骤S103还具有以下特征,首先对正负样本组成的暴力视频样本库做光流提取处理,保存视频的光流数据,然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练,得到基于运动光流的特征提取模型,这里深度卷积神经网络设计、注意力关系特征提取情况包括以下步骤:
在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中添加注意力机制模块;
经过带有注意力模块的网络层后,获得带有注意力关系的权重,之后与原特征进行融合得到运动光流的注意力关系特征。
步骤S104还具有以下特征,首先将步骤S102、步骤S103提取到的两种特征送入对应的神经网络训练,得到基于每个模态下对应的模型,然后经过模型后给出每个模态下的暴力决策得分结果,最后将两个模态下的决策得分进行后融合给出最终的视频决策结果,其中后融合主要是通过平均融合的方法来实现的。
如上所述,对本发明的实施例进行了详细地说明,但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形,这对本领域的技术人员来说是显而易见的。因此,这样的变形例也全部包含在本发明的保护范围之内。
Claims (10)
1.基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于含有以下步骤:首先以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的视频特征;而后以捕捉全局特征信息为原则,为暴力视频特征建立注意力机制模块;最后融合带有全局注意力关系的时空特征从而实现多模态信息互补为出发点,研究基于暴力视频特征的注意力机制和暴力视频分类的多任务学习的暴力视频识别步骤,构成了一个完整的暴力视频识别的检测框架。
2.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于在深度神经网络中添加注意力机制模块,用来捕捉特征之间的相互依赖关系,从而提高有用的特征的表观性;利用带有注意力机制模块的深度神经网络分别提取暴力视频在单帧图像、运动光流上的特征;采用后融合的平均融合策略实现对暴力血腥视频的最终分类决策。
3.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于采用的基础神经卷积网络是TSN网络,该网络是由空间流卷积神经网络和时间流卷积神经网络组成的,分别在两个模态的网络中添加注意力机制模块进行全局特征关系的捕捉,获得注意力关系权重,其中注意力机制模块是GCNet模块,在空间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块,在时间流卷积神经网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b层中添加注意力机制模块。
4.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于对正负样本组成的暴力视频样本库进行分帧处理,保存视频的单帧图像数据,然后将单帧数据送入带有注意力机制的深度神经网络中进行分类训练,得到基于空间流的带有注意力关系的特征提取模型。
5.根据权利要求3所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于对正负样本组成的暴力视频样本库做光流提取处理,保存视频的光流数据,然后将光流数据送入带有注意力机制模块的深度神经网络进行分类训练,得到基于运动光流的特征提取模型。
6.根据权利要求2所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于经过模型后给出每个模态下的暴力决策得分结果,最后将两个模态下的决策得分进行后融合给出最终的视频决策结果,其中后融合主要是通过平均融合的方法来实现的。
7.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于包括以下步骤:
步骤1:在空间流深度神经网络中添加注意力机制模块捕捉静态帧图片的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤2:在时间流深度神经网络中添加注意力机制模块捕捉光流时序图的暴力特征之间的相互依赖关系,形成注意力机制权重;
步骤3:提取暴力视频在单帧图像上的特征信息,建立基于单帧图像的暴力视频识别模型;
步骤4:提取暴力视频在运动光流上的特征信息,建立基于运动光流的暴力视频识别模型;
步骤5:时空特征融合;利用平均融合方法,将基于单帧图像的暴力视频识别模型下的得分策略与基于运动光流的暴力视频识别模型的得分策略进行融合给出最终的暴力分类得分。
8.根据权利要求7所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于在空间流深度神经网络中添加注意力机制模块步骤如下:
步骤11:构建基于空间流的暴力注意力关系捕捉的深度神经网络;利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中,完成基于空间流的暴力注意力关系捕捉的深度神经网络;
步骤12:学习注意力关系权重;利用暴力视频样本数据集在步骤11的基于空间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习,得到基于空间流的暴力注意力关系权重;
步骤13:注意力特征形成;利用原特征与步骤12学习到的基于空间流的暴力注意力关系权重进行特征元素相加融合,得到带有注意力相互依赖关系的空间流上的特征;
具体地,在时间流深度神经网络中添加注意力机制模块步骤如下:
步骤21:构建基于时间流的暴力注意力关系捕捉的深度神经网络;利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中,完成基于时间流的暴力注意力关系捕捉的深度神经网络;
步骤22:学习注意力关系权重;利用暴力视频样本数据集在步骤21的基于时间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习,得到基于时间流的暴力注意力关系权重;
步骤23:注意力特征形成;利用原特征与步骤22学习到的基于时间流的暴力注意力关系权重进行特征元素相加融合,得到带有注意力相互依赖关系的时间流上的特征。
9.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在在时间流深度神经网络中添加注意力机制模块步骤如下:
步骤21:构建基于时间流的暴力注意力关系捕捉的深度神经网络;利用TSN网络作为基础网络,将注意力机制模块GCNet嵌入网络的conv_bn_3c和conv_bn_4e以及conv_bn_5b中,完成基于时间流的暴力注意力关系捕捉的深度神经网络;
步骤22:学习注意力关系权重;利用暴力视频样本数据集在步骤21的基于时间流的暴力注意力关系捕捉的深度神经网络下进行模型训练学习,得到基于时间流的暴力注意力关系权重;
步骤23:注意力特征形成;利用原特征与步骤22学习到的基于时间流的暴力注意力关系权重进行特征元素相加融合,得到带有注意力相互依赖关系的时间流上的特征。
10.根据权利要求1所述的基于注意力机制的双模态任务学习的暴力视频识别方法,其特征在于提取暴力视频在单帧图像上的特征信息步骤如下
步骤31:构建基于带有注意力关系的单帧图像分类的深度神经网络;利用TSN网络与注意力机制模块GCNet相互结合,完成基于带有注意力关系的单帧图像分类的深度神经网络;
步骤32:利用暴力视频样本数据集在步骤31的基于带有注意力关系的单帧图像分类的深度神经网络模型做训练,得到基于单帧图像分类的深度神经网络模型;
步骤33:利用步骤32得到的基于单帧图像分类的深度神经网络模型,对暴力视频样本数据进行预测得分的输出;
提取暴力视频在运动光流上的特征信息步骤如下:
步骤41:构建基于带有注意力关系的运动光流分类的深度神经网络;利用TSN网络与注意力机制模块GCNet相互结合,完成基于带有注意力关系的运动光流分类的深度神经网络;
步骤42:利用暴力视频样本数据集在步骤41的基于带有注意力关系的运动光流分类的深度神经网络模型做训练,得到基于运动光流分类的深度神经网络模型;
步骤43:利用步骤42得到的基于运动光流分类的深度神经网络模型,对暴力视频样本数据对暴力视频样本数据进行预测得分的输出;
时空特征融合包括步骤如下:
步骤51:获取两个模态网络下的暴力预测得分;首先分别得到空间流网络下的单帧图像预测得分和时间流网络下的运动光流预测得分;
步骤52:构建时空特征的后融合;在步骤51之后,将两个模态下的暴力预测得分进行平均融合,给出最终的暴力预测得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645107.7A CN111898458A (zh) | 2020-07-07 | 2020-07-07 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645107.7A CN111898458A (zh) | 2020-07-07 | 2020-07-07 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898458A true CN111898458A (zh) | 2020-11-06 |
Family
ID=73191812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010645107.7A Pending CN111898458A (zh) | 2020-07-07 | 2020-07-07 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221628A (zh) * | 2021-03-15 | 2021-08-06 | 华南理工大学 | 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109740670A (zh) * | 2019-01-02 | 2019-05-10 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN110399934A (zh) * | 2019-07-31 | 2019-11-01 | 北京达佳互联信息技术有限公司 | 一种视频分类方法、装置及电子设备 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
CN111062297A (zh) * | 2019-12-11 | 2020-04-24 | 青岛科技大学 | 基于eann深度学习模型的暴力异常行为检测方法 |
KR20200052418A (ko) * | 2018-10-25 | 2020-05-15 | 주식회사 유캔스타 | 딥러닝 기반의 자동 폭력 감지 시스템 |
-
2020
- 2020-07-07 CN CN202010645107.7A patent/CN111898458A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
KR20200052418A (ko) * | 2018-10-25 | 2020-05-15 | 주식회사 유캔스타 | 딥러닝 기반의 자동 폭력 감지 시스템 |
CN109740670A (zh) * | 2019-01-02 | 2019-05-10 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN110399934A (zh) * | 2019-07-31 | 2019-11-01 | 北京达佳互联信息技术有限公司 | 一种视频分类方法、装置及电子设备 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
CN111062297A (zh) * | 2019-12-11 | 2020-04-24 | 青岛科技大学 | 基于eann深度学习模型的暴力异常行为检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221628A (zh) * | 2021-03-15 | 2021-08-06 | 华南理工大学 | 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质 |
CN113222904A (zh) * | 2021-04-21 | 2021-08-06 | 重庆邮电大学 | 改进PoolNet网络结构的混凝土路面裂缝检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175580B (zh) | 一种基于时序因果卷积网络的视频行为识别方法 | |
CN109886090B (zh) | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 | |
CN109948446B (zh) | 一种视频片段处理方法、装置及计算机可读存储介质 | |
US10410679B2 (en) | Producing video bits for space time video summary | |
CN109948557B (zh) | 多网络模型融合的烟雾检测方法 | |
EP2246807A1 (en) | Information processing apparatus and method, and program | |
CN110647804A (zh) | 一种暴力视频识别方法、计算机系统和存储介质 | |
CN111582122B (zh) | 一种监控视频多维度行人行为智能分析系统及方法 | |
CN107729363B (zh) | 基于GoogLeNet网络模型鸟类种群识别分析方法 | |
CN109492583A (zh) | 一种基于深度学习的车辆重识别方法 | |
Karaman et al. | Human daily activities indexing in videos from wearable cameras for monitoring of patients with dementia diseases | |
CN111382677A (zh) | 基于3d注意力残差模型的人体行为识别方法及系统 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN109583334B (zh) | 一种基于时空关联神经网络的动作识别方法及其系统 | |
CN111898458A (zh) | 基于注意力机制的双模态任务学习的暴力视频识别方法 | |
CN111738218B (zh) | 人体异常行为识别系统及方法 | |
CN109033476A (zh) | 一种基于事件线索网络的智能时空数据事件分析方法 | |
CN111046213B (zh) | 一种基于图像识别的知识库构建方法 | |
CN113553954A (zh) | 行为识别模型的训练方法及装置、设备、介质和程序产品 | |
CN113705384B (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN115272914A (zh) | 一种跳跃识别方法、装置、电子设备及存储介质 | |
CN113689382B (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Chen | Semantic Analysis of Multimodal Sports Video Based on the Support Vector Machine and Mobile Edge Computing. | |
CN111325149A (zh) | 一种基于投票的时序关联模型的视频动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |