CN110647804A - 一种暴力视频识别方法、计算机系统和存储介质 - Google Patents
一种暴力视频识别方法、计算机系统和存储介质 Download PDFInfo
- Publication number
- CN110647804A CN110647804A CN201910736118.3A CN201910736118A CN110647804A CN 110647804 A CN110647804 A CN 110647804A CN 201910736118 A CN201910736118 A CN 201910736118A CN 110647804 A CN110647804 A CN 110647804A
- Authority
- CN
- China
- Prior art keywords
- violent
- video
- audio
- data stream
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种暴力视频识别方法、计算机系统和存储介质。该方法根据暴力视频在单帧图像、运动光流和音频上的特征信息,构建基于多特征融合的暴力视频多任务学习网络,通过在多特征融合过程中,利用构建共享特征子空间的方式,保留各特征之间以及特征向量内部的数据结构,同时在特征映射变换过程中保证多特征之间的语义信息以及同一模态下的各特征点之间的语义信息不变。由于同时考虑到音视频语义一致性问题,增加多特征融合网络中对音视频语义一致性的度量任务,因此进一步了提升暴力视频分类系统的泛化能力。
Description
技术领域
本发明属于图像识别技术领域,尤其涉及一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法、计算机系统和存储介质。
背景技术
互联网技术的快速发展给我们的生活带来了便利,也带来了各种隐患,暴力视频就是其中一个隐患。血腥暴力视频在互联网上肆意的传播严重破坏了健康良好的网络环境,不利于青少年身心的健康发展。因此暴力视频智能化识别水平的提升具有非常重要的意义。其中,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。
从以往的暴力视频检测技术来看,主要还存在以下两种不足。
首先是对暴力场景的描述能力不够,主要表现为没有充分提取暴力特征。在音视频特征提取方面:要么基于传统的手工特征提取方法,要么提取、拼凑众多的手工特征和深度学习获得的特征,而不是针对暴力场景的特点,提取更具有暴力场景描述能力的音视频特征。
其次特征融合策略有待完善:目前大多数研究采用信息有限的决策层后融合方法为主,没有建立起各模态特征之间的交互作用;而且在利用前融合的方案中,多数文献是通过音视频特征的简单拼接实现特征层面的前融合,未从理论上探索合理的特征子空间构建方法,也没有在融合时考虑度量音视频特征的语义一致性(即具有相同的语义概念)。在多模态融合问题上,各模态数据在某些情况下是互补的,但在有些情况下是互相干扰的(如著名的“麦格克效应”-McGurkeffect)。如何度量暴力音视频的语义一致性,采用合理的融合方案降低模态间干扰、提升模态间信息的互补性,从而提高暴力检测识别性能,这仍需要开展进一步的理论方法研究。现有的研究方法基本上只以视频标签为监督信号,构建并训练带有特征融合层的网络结构以得到视频暴力/非暴力的标签,却忽略了融合的特征应具有语义一致性的约束,这使得学习的分类器在有限的暴力视频训练数据库上容易产生过拟合现象,影响了分类器的泛化能力。
发明内容
针对上述问题,本发明提出了一种暴力视频识别方法、计算机系统和存储介质。
根据本发明的第一个方面,本发明的一种基于音视频语义一致性度量及多任务学习的暴力视频识别方法,具体包括以下步骤:
S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;
S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;
S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;
S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;
S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;
S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。
根据本发明的实施例,在所述步骤S200中,将所述单帧图像数据流输入对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络;
利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型;
将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型,以提取描述暴力场景的单帧图像特征。
根据本发明的实施例,在所述步骤S200中,将所述运动光流数据流输入对应的特征提取网络模型,以提取描述暴力场景的运动光流特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络;
利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型;
将运动光流数据流输入针对运动光流数据流的特征提取网络模型,以提取描述暴力场景的运动光流特征。
根据本发明的实施例,在所述步骤S200中,将所述音频数据流输入对应的特征提取网络模型,以提取描述暴力场景的音频信息特征,具体包括以下步骤:
利用VGGish网络构建基于音频分类的深度神经网络;
利用暴力视频样本数据对基于音频分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对音频数据流的特征提取网络模型;
将音频数据流输入针对音频数据流的特征提取网络模型,以提取描述暴力场景的音频信息特征。
根据本发明的实施例,所述P3D网络与LSTM网络拼接,具体包括:
截取P3D网络的最后一个平均池化层;
将所述P3D网络的最后一个平均池化层后面连接LSTM网络。
根据本发明的实施例,所述VGGish网络为,采用全局平均池化层代替原始VGGish网络中最后两个全连接层之后所获得的改进后的VGGish网络。
根据本发明的实施例,所述步骤S300包括以下步骤:
将单帧图像特征和运动光流特征分别送入两个第一全连接层,其中,每个所述第一全连接层后面分别接有一个第一ReLU激活函数,用以实现非线性变换;
将经过非线性变换的单帧图像特征和运动光流特征拼接在一起,以组成一个基于视觉层面的视觉通道特征;
将音频信息特征和视觉通道特征分别送入两个第二全连接层,其中,每个所述第二全连接层后面分别接有一个第二ReLU激活函数,用以实现非线性变换;
将经过非线性变换的音频信息特征和视觉通道特征拼接在一起,以组成最终的特征融合向量。
根据本发明的实施例,在所述步骤S600中,所述联合分类任务模型的总体损失函数为所述暴力视频分类模型的损失函数与所述暴力音视频语义一致性度量分类模型的损失函数之和。
根据本发明的实施例,在所述步骤S600中,所述暴力视频分类模型的损失函数为二值交叉熵损失函数。
根据本发明的实施例,在所述步骤S600中,所述暴力音视频语义一致性度量分类模型的损失函数为余弦相似度损失函数
此外,本发明还提供一种计算机存储介质,其中存储有用于实现上述方法的计算机程序。
此外,本发明还一种计算机设备,其包括存储器和处理器,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序用于实现上述方法。
与现有技术相比,本发明提供的基于音视频语义一致性度量及多任务学习的暴力视频识和系统等具有如下优点或有益效果:
本发明根据暴力视频在单帧图像、运动光流和音频上的特征信息,设计了基于多特征融合的暴力视频多任务学习网络。在多特征融合过程中,利用构建共享特征子空间的方式,既保留了各特征之间及特征向量内部的数据结构,同时在特征映射变换过程中也保证了多特征之间的语义信息及同一模态下各特征点之间的语义信息不变;同时考虑到音视频语义一致性问题,增加多特征融合网络中对音视频语义一致性的度量任务,进一步了提升暴力视频分类系统的泛化能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
从下面描述的实施例并参考附图,本发明的其它优点和细节将变得显而易见。以下是示意图并示出:
图1为本发明基于多特征融合的暴力视频识别方法的工作流程图。
图2为本发明实施例中P3D与LSTM网络拼接的示意图。
图3为本发明实施例中基于改进后的VGGish网络的特征提取模型的示意图。
图4为本发明实施例中多特征融合时的特征融合网络的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明作进一步地详细说明,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
本发明设计整体思路:首先以分析暴力场景视频的特点为出发点,提取适合暴力场景描述的、具有时空相关性的音视频特征;而后以各模态特征空间数据的语义保持为原则,为暴力音视频特征建立共享的特征融合子空间;最后以融合相同语义的音视频特征从而实现多模态信息互补为出发点,研宄基于暴力音视频特征的语义一致性度量和暴力视频分类的多任务学习的暴力视频识别系统。综上,暴力音视频特征提取、暴力音视频特征融合和基于多任务优化的暴力视频检测系统是本项目的主要研宄内容,各研宄内容紧密相邻、层次分明,构成了一个完整的暴力视频识别的检测框架。
如图1所示,本发明主要包括以下步骤:
S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;
S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;
S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;
S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;
S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建音视频语义一致性度量分类模型;
S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。
在本实施例中,步骤S200包括以下三个方面的内容:
1)对单帧图像数据流提取描述暴力场景的单帧图像特征;
2)对运动光流数据流提取描述暴力场景的运动光流特征;
3)对音频数据流提取描述暴力场景的音频信息特征。
具体地,提取暴力视频在单帧图像上的特征信息的过程如下:
步骤211:构建基于单帧图像分类的深度神经网络。通过图2所示的P3D与LSTM拼接的方式,将P3D网络最后一个平均池化层之后连接到1024维的LSTM网络,再加入512维的全连接层,以为分类做降维准备,最后加入2维的分类全连接层(激活函数例如为Softmax),形成基于单帧图像分类的深度神经网络;
步骤212:利用暴力视频样本数据集对步骤11的基于单帧图像分类的深度神经网络进行训练,得到基于单帧图像分类的深度神经网络模型;
步骤213:利用步骤12得到的基于单帧图像分类的深度神经网络模型,对单帧图像数据流做特征提取,特征截取至512维的全连接层,即单帧图像特征为512维的特征向量。
具体地,提取暴力视频在运动光流上的特征信息的过程如下:
步骤221:构建基于运动光流分类的深度神经网络。通过图2所示的P3D与LSTM拼接的方式,将P3D网络最后一个平均池化层之后连接到1024维的LSTM网络,再加入512维的全连接层,以为分类做降维准备,最后加入2维的分类全连接层(激活函数例如为Softmax),形成基于运动光流分类的深度神经网络;
步骤222:利用暴力视频样本数据集对步骤21的基于运动光流分类的深度神经网络进行做训练,得到基于运动光流分类的深度神经网络模型;
步骤223:利用步骤22得到的基于运动光流分类的深度神经网络模型,对运动光流数据流做特征提取,特征截取至512维的全连接层,即运动光流特征为512维的特征向量。
具体地,提取暴力视频在音频上的特征信息的过程如下:
步骤231:构建基于音频分类的深度神经网络。如图3所示,采用全局平均池化层代替原始VGGish网络中最后两个4096维的全连接层,再在全局平均池化层之后加入128维的全连接层,用于分类前的降维,最后加入1维的分类全连接层(激活函数例如为Sigmoid),形成基于音频分类的深度神经网络;
步骤232:利用暴力视频样本数据集对步骤31的基于音频分类的深度神经网络模型进行训练,得到基于音频分类的深度神经网络模型;
步骤233:利用步骤32得到的基于音频分类的深度神经网络模型,对音频数据流做特征提取,特征截取至128维的全连接层,即音频信息特征为128维的特征向量。
在本实施例中,步骤S300,进行多特征融合的过程如下:
步骤300:利用如图4所示特征融合网络,对描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征进行融合。
首先将单帧图像特征的512维特征向量和运动光流特征的512维特征向量分别送入一个全连接层,其中,在每个全连接层后面都接有一个ReLU激活函数,用以非线性变换,之后将经过非线性变换的单帧图像特征向量和运动光流特征向量直接拼接在一起,共同组成一个基于视觉层面的1024维的视觉通道特征向量;接下来,将音频信息特征的128维特征向量与基于视觉层面的1024维的视觉通道特征向量再分别送入一个全连接层,其中,在每个全连接层后面都接有一个ReLU激活函数,用以非线性变换,之后将经过非线性变换的音频特征向量和视觉通道特征向量拼接在一起,得到最终的特征融合向量;
在本实施例中,步骤S400的实施过程如下:
步骤410:构建暴力视频分类网络。在步骤300之后,加入256维的全连接层用于分类全连接层之前的降维,再加入2维的全连接层(激活函数例如为Sigmoid)完成基于多特征融合决策的暴力视频分类网络。
步骤420:构建暴力视频分类网络损失函数。训练步骤42得到的基于多特征融合决策的暴力视频分类网络时,相应的损失函数可以采用例如二值交叉熵损失函数。
在本实施例中,步骤S500的实施过程如下:
步骤510:构建暴力音视频语义一致性度量分类网络(可以与步骤41同步进行)。在步骤300之后,加入256维的全连接层,用于分类全连接层之前的降维,再加入2维的全连接层(激活函数例如为Sigmoid),形成暴力音视频一致性度量分类网络。
步骤520:构建暴力音视频语义一致性度量分类网络损失函数。训练步骤51得到基于多特征融合决策的的暴力音视频语义一致性度量分类网络时,损失函数可以采用例如余弦相似度损失函数。
在本实施例中,步骤S600的实施过程如下:
步骤610:训练由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型。其中,所述联合分类任务模型损失函数可以采用所述暴力视频分类模型损失函数与所述暴力音视频语义一致性度量分类模型之和的形式,进行基于多特征融合的联调训练。
步骤620:将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频,输出判断结果。
在优选的实施例中,所述联合分类任务模型损失函数为:
Loss=Lclassification+λLcorespondence
其中,整个深度神经网络的训练损失函数Loss中,λ取1;暴力视频分类模型损失函数Lclasstficatwn中,j>表示暴力视频分类的预测值,y表示暴力视频分类的真实值;在暴力音视频语义一致性度量分类模型损失函数Lcorrespondence中,表示语义一致性任务的预测值,y'表示语义一致性任务的真实值,margin为阈值。
本发明根据暴力视频在单帧图像、运动光流和音频上的特征信息,设计了基于多特征融合的暴力视频多任务学习网络。在多特征融合过程中,利用构建共享特征子空间的方式,既保留了各特征之间及特征向量内部的数据结构,同时在特征映射变换过程中也保证了多特征之间的语义信息及同一模态下各特征点之间的语义信息不变;同时考虑到音视频语义一致性问题,增加多特征融合网络中对音视频语义一致性的度量任务,进一步了提升暴力视频分类系统的泛化能力。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“实施例”意指结合实施例描述的特定特征、或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“实施例”并不一定均指同一个实施例。
本领域的技术人员应该明白,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域的技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储介质(RAM)、内存、只读存储介质(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM或技术领域内所公知的任意其它形式的存储介质中。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (12)
1.一种暴力视频识别方法,其特征在于,包括以下步骤:
S100,获取样本视频数据流,并从所述样本视频数据流中分离出单帧图像数据流、运动光流数据流以及音频数据流;
S200,将所述单帧图像数据流、运动光流数据流以及音频数据流分别输入各自对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征、运动光流特征以及音频信息特征;
S300,将所述单帧图像特征、运动光流特征以及音频信息特征输入特征融合网络进行特征融合,以构建特征融合向量;
S400,基于所述特征融合向量进行暴力视频分类学习,以构建暴力视频分类模型;
S500,基于所述特征融合向量进行暴力音视频语义一致性度量分类学习,以构建暴力音视频语义一致性度量分类模型;
S600,将待识别的视频数据输入由所述暴力视频分类模型和所述暴力音视频语义一致性度量分类模型共同组成的联合分类任务模型,以判断所述待识别的视频属于暴力视频还是非暴力视频。
2.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述单帧图像数据流输入对应的特征提取网络模型,以提取描述暴力场景的单帧图像特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建用于单帧图像分类的深度神经网络;
利用暴力视频样本数据对用于单帧图像分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对单帧图像数据流的特征提取网络模型;
将单帧图像数据流输入针对单帧图像数据流的特征提取网络模型,以提取描述暴力场景的单帧图像特征。
3.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200 中,将所述运动光流数据流输入对应的特征提取网络模型,以提取描述暴力场景的运动光流特征,具体包括以下步骤:
通过P3D网络与LSTM网络拼接的方式构建基于运动光流分类的深度神经网络;
利用暴力视频样本数据对基于运动光流分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对运动光流数据流的特征提取网络模型;
将运动光流数据流输入针对运动光流数据流的特征提取网络模型,以提取描述暴力场景的运动光流特征。
4.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S200中,将所述音频数据流输入对应的特征提取网络模型,以提取描述暴力场景的音频信息特征,具体包括以下步骤:
利用VGGish网络构建基于音频分类的深度神经网络;
利用暴力视频样本数据对基于音频分类的深度神经网络进行训练,将通过训练获得的深度神经网络模型作为针对音频数据流的特征提取网络模型;
将音频数据流输入针对音频数据流的特征提取网络模型,以提取描述暴力场景的音频信息特征。
5.根据权利要求2或3所述的暴力视频识别方法,其特征在于,所述P3D网络与LSTM网络拼接,具体包括:
截取P3D网络的最后一个平均池化层;
将所述P3D网络的最后一个平均池化层后面连接LSTM网络。
6.根据权利要求4所述的暴力视频识别方法,其特征在于,所述VGGish网络为,采用全局平均池化层代替原始VGGish网络中最后两个全连接层之后所获得的改进后的VGGish网络。
7.根据权利要求1所述的暴力视频识别方法,其特征在于,所述步骤S300包括以下步骤:
将单帧图像特征和运动光流特征分别送入两个第一全连接层,其中,每个所述第一全连接层后面分别接有一个第一ReLU激活函数,用以实现非线性变换;
将经过非线性变换的单帧图像特征和运动光流特征拼接在一起,以组成一个基于视觉层面的视觉通道特征;
将音频信息特征和视觉通道特征分别送入两个第二全连接层,其中,每个所述第二全连接层后面分别接有一个第二ReLU激活函数,用以实现非线性变换;
将经过非线性变换的音频信息特征和视觉通道特征拼接在一起,以组成最终的特征融合向量。
8.根据权利要求1所述的暴力视频识别方法,其特征在于,在所述步骤S600中:
所述联合分类任务模型的总体损失函数为所述暴力视频分类模型的损失函数与所述暴力音视频语义一致性度量分类模型的损失函数之和。
9.根据权利要求8所述的暴力视频识别方法,其特征在于,在所述步骤S600中:
所述暴力视频分类模型的损失函数为二值交叉熵损失函数。
10.根据权利要求8所述的暴力视频识别方法,其特征在于,在所述步骤S600中:
所述暴力音视频语义一致性度量分类模型的损失函数为余弦相似度损失函数。
11.一种计算机存储介质,其特征在于,其中存储有用于实现上述权利要求1至10中任意一项所述方法的计算机程序。
12.一种计算机设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序用于实现上述权利要求1至10中任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910736118.3A CN110647804A (zh) | 2019-08-09 | 2019-08-09 | 一种暴力视频识别方法、计算机系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910736118.3A CN110647804A (zh) | 2019-08-09 | 2019-08-09 | 一种暴力视频识别方法、计算机系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110647804A true CN110647804A (zh) | 2020-01-03 |
Family
ID=68990088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910736118.3A Pending CN110647804A (zh) | 2019-08-09 | 2019-08-09 | 一种暴力视频识别方法、计算机系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647804A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111898458A (zh) * | 2020-07-07 | 2020-11-06 | 中国传媒大学 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
CN112069884A (zh) * | 2020-07-28 | 2020-12-11 | 中国传媒大学 | 一种暴力视频分类方法、系统和存储介质 |
CN112231497A (zh) * | 2020-10-19 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 信息分类方法、装置、存储介质及电子设备 |
CN112633100A (zh) * | 2020-12-14 | 2021-04-09 | 深兰科技(上海)有限公司 | 行为识别方法、装置、电子设备和存储介质 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN113673364A (zh) * | 2021-07-28 | 2021-11-19 | 上海影谱科技有限公司 | 一种基于深度神经网络的视频暴力检测方法及装置 |
CN114519828A (zh) * | 2022-01-17 | 2022-05-20 | 天津大学 | 基于语义分析的视频检测方法和系统 |
CN114519880A (zh) * | 2022-02-09 | 2022-05-20 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN114581749A (zh) * | 2022-05-09 | 2022-06-03 | 城云科技(中国)有限公司 | 视听特征融合的目标行为识别方法、装置及应用 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102187336A (zh) * | 2008-08-27 | 2011-09-14 | 欧洲航空防务和航天公司 | 用于识别视频档案中的对象的方法 |
CN103218608A (zh) * | 2013-04-19 | 2013-07-24 | 中国科学院自动化研究所 | 一种网络暴力视频的识别方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN107563444A (zh) * | 2017-09-05 | 2018-01-09 | 浙江大学 | 一种零样本图像分类方法及系统 |
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN108509651A (zh) * | 2018-04-17 | 2018-09-07 | 胡海峰 | 基于语义一致性的具有隐私保护的分布式近似性搜索方法 |
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN109299216A (zh) * | 2018-10-29 | 2019-02-01 | 山东师范大学 | 一种融合监督信息的跨模态哈希检索方法和系统 |
CN109359636A (zh) * | 2018-12-14 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置及服务器 |
CN109472232A (zh) * | 2018-10-31 | 2019-03-15 | 山东师范大学 | 基于多模态融合机制的视频语义表征方法、系统及介质 |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
-
2019
- 2019-08-09 CN CN201910736118.3A patent/CN110647804A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102187336A (zh) * | 2008-08-27 | 2011-09-14 | 欧洲航空防务和航天公司 | 用于识别视频档案中的对象的方法 |
CN103218608A (zh) * | 2013-04-19 | 2013-07-24 | 中国科学院自动化研究所 | 一种网络暴力视频的识别方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN107563444A (zh) * | 2017-09-05 | 2018-01-09 | 浙江大学 | 一种零样本图像分类方法及系统 |
CN107807919A (zh) * | 2017-11-15 | 2018-03-16 | 浙江大学 | 一种利用循环随机游走网络进行微博情感分类预测的方法 |
CN108509651A (zh) * | 2018-04-17 | 2018-09-07 | 胡海峰 | 基于语义一致性的具有隐私保护的分布式近似性搜索方法 |
CN109189950A (zh) * | 2018-09-03 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN109299216A (zh) * | 2018-10-29 | 2019-02-01 | 山东师范大学 | 一种融合监督信息的跨模态哈希检索方法和系统 |
CN109472232A (zh) * | 2018-10-31 | 2019-03-15 | 山东师范大学 | 基于多模态融合机制的视频语义表征方法、系统及介质 |
CN109359636A (zh) * | 2018-12-14 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置及服务器 |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110096994A (zh) * | 2019-04-28 | 2019-08-06 | 西安电子科技大学 | 一种基于模糊标签语义先验的小样本PolSAR图像分类方法 |
Non-Patent Citations (1)
Title |
---|
XINGYU XU ET AL.: "Violent video classification based on spatial-temporal cues using deep learning", 《2018 11TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274440B (zh) * | 2020-01-19 | 2022-03-25 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111898458A (zh) * | 2020-07-07 | 2020-11-06 | 中国传媒大学 | 基于注意力机制的双模态任务学习的暴力视频识别方法 |
CN112069884A (zh) * | 2020-07-28 | 2020-12-11 | 中国传媒大学 | 一种暴力视频分类方法、系统和存储介质 |
CN112069884B (zh) * | 2020-07-28 | 2024-03-12 | 中国传媒大学 | 一种暴力视频分类方法、系统和存储介质 |
CN112231497A (zh) * | 2020-10-19 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 信息分类方法、装置、存储介质及电子设备 |
CN112231497B (zh) * | 2020-10-19 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 信息分类方法、装置、存储介质及电子设备 |
CN112633100B (zh) * | 2020-12-14 | 2023-08-08 | 深兰人工智能应用研究院(山东)有限公司 | 行为识别方法、装置、电子设备和存储介质 |
CN112633100A (zh) * | 2020-12-14 | 2021-04-09 | 深兰科技(上海)有限公司 | 行为识别方法、装置、电子设备和存储介质 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN113673364A (zh) * | 2021-07-28 | 2021-11-19 | 上海影谱科技有限公司 | 一种基于深度神经网络的视频暴力检测方法及装置 |
CN114519828A (zh) * | 2022-01-17 | 2022-05-20 | 天津大学 | 基于语义分析的视频检测方法和系统 |
CN114519880A (zh) * | 2022-02-09 | 2022-05-20 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN114519880B (zh) * | 2022-02-09 | 2024-04-05 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN114581749A (zh) * | 2022-05-09 | 2022-06-03 | 城云科技(中国)有限公司 | 视听特征融合的目标行为识别方法、装置及应用 |
CN114581749B (zh) * | 2022-05-09 | 2022-07-26 | 城云科技(中国)有限公司 | 视听特征融合的目标行为识别方法、装置及应用 |
WO2023216609A1 (zh) * | 2022-05-09 | 2023-11-16 | 城云科技(中国)有限公司 | 视听特征融合的目标行为识别方法、装置及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647804A (zh) | 一种暴力视频识别方法、计算机系统和存储介质 | |
Zheng et al. | T2net: Synthetic-to-realistic translation for solving single-image depth estimation tasks | |
Michieli et al. | Adversarial learning and self-teaching techniques for domain adaptation in semantic segmentation | |
Zhao et al. | Weather recognition via classification labels and weather-cue maps | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN112069884A (zh) | 一种暴力视频分类方法、系统和存储介质 | |
dos Santos Belo et al. | Summarizing video sequence using a graph-based hierarchical approach | |
CN106599133A (zh) | 一种基于草图交互的监控视频可视分析方法 | |
CN115293170A (zh) | 一种基于协同注意力融合的方面级多模态情感分析方法 | |
CN114330334A (zh) | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 | |
CN114693952A (zh) | 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 | |
Qiu et al. | A survey of recent advances in CNN-based fine-grained visual categorization | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN115131700A (zh) | 弱监督音视频内容解析的双路层次化混合模型的训练方法 | |
Barbato et al. | Road scenes segmentation across different domains by disentangling latent representations | |
Wang et al. | Salient object detection by robust foreground and background seed selection | |
Tian et al. | Domain adaptive object detection with model-agnostic knowledge transferring | |
Hou et al. | M-YOLO: an object detector based on global context information for infrared images | |
CN111898458A (zh) | 基于注意力机制的双模态任务学习的暴力视频识别方法 | |
CN116597267A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Li et al. | Efficient thermal infrared tracking with cross-modal compress distillation | |
Orhei | Urban landmark detection using computer vision | |
Hou et al. | End-to-end bloody video recognition by audio-visual feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200103 |
|
RJ01 | Rejection of invention patent application after publication |