CN113673364A - 一种基于深度神经网络的视频暴力检测方法及装置 - Google Patents
一种基于深度神经网络的视频暴力检测方法及装置 Download PDFInfo
- Publication number
- CN113673364A CN113673364A CN202110859397.XA CN202110859397A CN113673364A CN 113673364 A CN113673364 A CN 113673364A CN 202110859397 A CN202110859397 A CN 202110859397A CN 113673364 A CN113673364 A CN 113673364A
- Authority
- CN
- China
- Prior art keywords
- violence
- sub
- neural network
- video
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 51
- 230000000007 visual effect Effects 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 22
- 206010001488 Aggression Diseases 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 28
- 230000003287 optical effect Effects 0.000 claims description 22
- 230000001133 acceleration Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 9
- 230000004907 flux Effects 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于深度神经网络的视频暴力检测方法及装置,所述方法包括:检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。所述装置包括:暴力概念模块、混合特征模块和融合检测模块。本申请利用两个深度神经网络形成的暴力概念,最终形成一个暴力主题,从而达到了检测视频中普遍存在的暴力行为的目标。
Description
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种基于深度神经网络的视频暴力检测方法及装置。
背景技术
现有的经典的视频暴力检测方法包括语义检测方法,通过对于视频中的一些肢体动作提取与语言提取,根据深度学习方法进行分析处理来实现暴力检测,另外一种是根据对于图像描述生成低级特征,并通过支持向量机对特征向量进行分类分析实现暴力检测。
目前的基于语义分析的暴力视频检测算法以及基于深度神经网络的暴力视频检测算法只是依靠特定暴力的概念(例如战斗,血液等)的评估方法,而没有考虑各种可能的不同暴力的概念,分析不全面且算法复杂度较高。
随着深度神经网络的发展,深度神经网络在视频暴力检测中也有了一定的应用,特别的是近年一些人将深度神经网络框架应用于暴力检测,通过对于暴力一词进行特定的定义,根据框架通过监督学习算法来识别正确的暴力类别标签,从而达到视频暴力的检测。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于深度神经网络的视频暴力检测方法,包括:
检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
优选地,利用已训练的第一神经网络检测目标视频的视觉特征包括:
提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度;
利用所述已训练的第一深度神经网络模型进行视觉特征检测。
优选地,获得所述已训练的第一深度神经网络模型包括:
采用C3D模型,遵循随机梯度下降算法对第一深度神经网络模型进行训练;
对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练;其中,P为正整数。
优选地,利用已训练的第二神经网络检测目标视频的听觉特征包括:
对所述目标视频对应的音频信息进行特征提取,利用至少两种标准音频特征提取器生成特征向量;
对生成的特征向量应用统计方法,对于不同提取器获得的特征向量进行串联,提取区别性的特征向量。
优选地,所述标准音频特征提取器包括:短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。
优选地,将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测包括:
将所述视觉特征和所述听觉特征进行视听融合网络的训练,视听融合网络将子概念训练形成的特征向量作为输入,输出目标视频中存在暴力的可能性结果。
优选地,将所述视觉特征和所述听觉特征进行视听融合网络的训练包括:
利用视觉听觉特征融合网络管道中,并行处理每个子概念对应的所述视觉特征和所述听觉特征,生成视觉特征向量和听觉特征向量;
利用浅层网络每个隐藏层分别针对神经元实现关于网络性能的最佳权衡;
所述浅层网络根据视听特征权重,获得针对每个暴力概念训练的模型的最终特征;通过标准的Min-Max归一化步骤传递特征向量。
优选地,提取目标视频在预测间隔时间内的全部视频帧之后还包括:
对所述全部视频帧进行标准化处理,得到标准化视频帧数据集。
第二方面,本发明还提供一种基于深度神经网络的视频暴力检测装置,包括:
暴力概念模块,设置为检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
混合特征模块,设置为针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
融合检测模块,设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
第三方面,本发明还提供一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的方法。
本申请的基于深度神经网络的暴力视频检测方法和方法,通过两个深度神经网络实现对不同类型暴力概念的学习,并在此基础上训练一个融合网络学习训练形成一个暴力主题,根据最终形成的暴力主题从而实现检测视频中普遍存在的暴力行为的目标。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于深度神经网络的视频暴力检测方法的示意性流程图;
图2是根据本申请一个实施例的检测目标视频的视觉特征的示意性流程图;
图3是根据本申请一个实施例的检测目标视频的听觉特征的示意性流程图;
图4是根据本申请一个实施例的基于深度神经网络的视频暴力检测装置的结构示意图;
图5是根据本申请实施例的第一种计算机可读存储介质的示意性结构框图;
图6是根据本申请实施例的第二种计算机可读存储介质的示意性结构框图。
具体实施方式
图1是根据本申请一个实施例的基于深度神经网络的视频暴力检测方法,一般性的可以包括步骤S101至步骤S103:
S101、检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
S102、针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
S103、将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
本发明实施例的基于深度神经网络的视频暴力检测方法,首先检测传达暴力理念的K个更加客观的子概念(如血液,冷武器,爆炸等)进行分解暴力检测。对于每个子概念,训练特定的神经网络,首先分析其视觉特征,然后分析其听觉特征,最后,将两种功能结合起来,更好的理解该子概念,对于K个子概念重复此步骤。最后,使用融合网络将所有子概念(通过听觉与视觉特征进行描述)组合起来,达到检测更加一般的暴力概念视频的目的。本发明实施例通过两个深度神经网络从目标视频中提取不同类型的暴力概念进行学习训练,最后在两个深度神经网络的基础上训练形成一个特征融合网络,利用以上两个深度神经网络形成的暴力概念,最终形成一个暴力主题,从而达到了检测视频中普遍存在的暴力行为的目标。
本发明实施例中的K个子概念是传统意义上所认为的暴力概念,包括血液,冷武器,爆炸,战斗,火,火器,枪声等,标准为“一个不该让8岁孩子看到的视频”即为暴力视频。
如图2所示,本发明实施例中,步骤S102中利用已训练的第一神经网络检测目标视频的视觉特征包括:
S1021、提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度;
S1022、利用所述已训练的第一深度神经网络模型进行视觉特征检测。
对于视觉的暴力检测,本发明实施例对于每个视频,分别提取所有帧,并通过计算帧之间的光通量以及光学加速度实现三种视觉训练输入:原始帧、光流和光加速度,通过卷积神经网络进行训练。
本发明实施例中的卷积神经网络采用C3D模型,遵循随机梯度下降算法对第一深度神经网络模型进行训练;
对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练;其中,P为正整数。例如,对于原始帧、光流和光加速度采用连续帧和相距5帧的连续光流进行光加速进行模型训练。
如图3所示,本发明实施例中,步骤S102利用已训练的第二神经网络检测目标视频的听觉特征包括:
S1023、对所述目标视频对应的音频信息进行特征提取,利用至少两种标准音频特征提取器生成特征向量;
S1024、对生成的特征向量应用统计方法,对于不同提取器获得的特征向量进行串联,提取区别性的特征向量。
对于音频的暴力检测,本发明实施例对于每个视频,提取对噪声和背景杂波具有鲁棒性的信息,而不是处理原始音频波形。对音频进行特征提取,可以利用如下四种标准音频特征提取器方法生成特征向量。
本发明实施例中,所述标准音频特征提取器包括:短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。
本发明实施例中采用的提取方法分别是短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱四种变换方式,四种方式都是先提取音频波形,不过是做不同函数的变换,采用四种是因为这里针对的是K个暴力子概念,这样做分析结果更加全面。
本发明实施例中,对于提取区别性的特征向量是为了提取对噪声和背景杂波具有鲁棒性的信息。
本发明实施例中,步骤S103中将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测包括:
将所述视觉特征和所述听觉特征进行视听融合网络的训练,视听融合网络将子概念训练形成的特征向量作为输入,输出目标视频中存在暴力的可能性结果。
本发明实施例中,将所述视觉特征和所述听觉特征进行视听融合网络的训练包括:
利用视觉听觉特征融合网络管道中,并行处理每个子概念对应的所述视觉特征和所述听觉特征,生成视觉特征向量和听觉特征向量;
利用浅层网络每个隐藏层分别针对神经元实现关于网络性能的最佳权衡;
所述浅层网络根据视听特征权重,获得针对每个暴力概念训练的模型的最终特征;通过标准的Min-Max归一化步骤传递特征向量。
本发明实施例中,视听融合网络是视觉、听觉特征融合网络的管道,视频是使用dCNN进行描述的,音频功能是在浅层功能进行处理的。在此管道中,并行处理了不同的子概念(C1,...,Ck),生成了视觉特征向量和听觉特征向量,其中浅层网络具有三个隐藏层和一个在网络顶部的softmax层,从第一个隐藏层到最后一个隐藏层,分别针对512、128、32个神经元实现关于网络性能的最佳权衡。网络的输入是从最后一个完全连接的层获得的视听特征权重,从而获得了针对每个暴力概念训练的模型的最终特征,最后,通过标准的Min-Max归一化步骤传递特征向量。输出的目标视频中存在暴力的可能性结果是“是”或者“否”。
本发明实施例对生成的特征向量应用统计方法,再对于不同提取器获得的特征向量进行串联,提取更具区别性的特征向量,即通过统计生成最终特征向量。在对于每个暴力子概念进行视觉与音频处理训练后,进行视听融合网络的训练生成,视听融合网络将子概念训练形成的特征向量作为输入,并输出片段中存在暴力的可能性。最终实现对特定类型的暴力行为进行训练,并将其视听检测器获得的特征向量进行合并,以此检测视频中普遍存在的暴力行为。
本发明实施例中,步骤S102中提取目标视频在预测间隔时间内的全部视频帧之后还包括:
对所述全部视频帧进行标准化处理,得到标准化视频帧数据集。
如图4所示,本发明实施例还提供一种基于深度神经网络的视频暴力检测装置,包括:
暴力概念模块100,设置为检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
混合特征模块200,设置为针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
融合检测模块300,设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
本发明实施例中,所述混合特征模块200利用已训练的第一神经网络检测目标视频的视觉特征包括:
提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度;
利用所述已训练的第一深度神经网络模型进行视觉特征检测。
本发明实施例中,所述混合特征模块200利用已训练的第二神经网络检测目标视频的听觉特征包括:
对所述目标视频对应的音频信息进行特征提取,利用至少两种标准音频特征提取器生成特征向量;
对生成的特征向量应用统计方法,对于不同提取器获得的特征向量进行串联,提取区别性的特征向量。
本发明实施例中,所述融合检测模块300将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测包括:
将所述视觉特征和所述听觉特征进行视听融合网络的训练,视听融合网络将子概念训练形成的特征向量作为输入,输出目标视频中存在暴力的可能性结果。
本发明实施例中,所述混合特征模块200提取目标视频在预测间隔时间内的全部视频帧之后还包括:
对所述全部视频帧进行标准化处理,得到标准化视频帧数据集。
本申请实施例还提供了一种计算设备,参照图5,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图6,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于深度神经网络的视频暴力检测方法,包括:
检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
2.根据权利要求1所述的方法,其特征在于,利用已训练的第一神经网络检测目标视频的视觉特征包括:
提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度;
利用所述已训练的第一深度神经网络模型进行视觉特征检测。
3.根据权利要求1或2所述的方法,其特征在于,获得所述已训练的第一深度神经网络模型包括:
采用C3D模型,遵循随机梯度下降算法对第一深度神经网络模型进行训练;
对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练;其中,P为正整数。
4.根据权利要求1或2所述的方法,其特征在于,利用已训练的第二神经网络检测目标视频的听觉特征包括:
对所述目标视频对应的音频信息进行特征提取,利用至少两种标准音频特征提取器生成特征向量;
对生成的特征向量应用统计方法,对于不同提取器获得的特征向量进行串联,提取区别性的特征向量。
5.根据权利要求4所述的方法,其特征在于,所述标准音频特征提取器包括:短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。
6.根据权利要求4所述的方法,其特征在于,将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测包括:
将所述视觉特征和所述听觉特征进行视听融合网络的训练,视听融合网络将子概念训练形成的特征向量作为输入,输出目标视频中存在暴力的可能性结果。
7.根据权利要求6所述的方法,其特征在于,将所述视觉特征和所述听觉特征进行视听融合网络的训练包括:
利用视觉听觉特征融合网络管道中,并行处理每个子概念对应的所述视觉特征和所述听觉特征,生成视觉特征向量和听觉特征向量;
利用浅层网络每个隐藏层分别针对神经元实现关于网络性能的最佳权衡;
所述浅层网络根据视听特征权重,获得针对每个暴力概念训练的模型的最终特征;通过标准的Min-Max归一化步骤传递特征向量。
8.根据权利要求2所述的方法,其特征在于,提取目标视频在预测间隔时间内的全部视频帧之后还包括:
对所述全部视频帧进行标准化处理,得到标准化视频帧数据集。
9.一种基于深度神经网络的视频暴力检测装置,包括:
暴力概念模块,设置为检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;
混合特征模块,设置为针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;
融合检测模块,设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。
10.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859397.XA CN113673364A (zh) | 2021-07-28 | 2021-07-28 | 一种基于深度神经网络的视频暴力检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110859397.XA CN113673364A (zh) | 2021-07-28 | 2021-07-28 | 一种基于深度神经网络的视频暴力检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673364A true CN113673364A (zh) | 2021-11-19 |
Family
ID=78540567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110859397.XA Pending CN113673364A (zh) | 2021-07-28 | 2021-07-28 | 一种基于深度神经网络的视频暴力检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673364A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
CN111091060A (zh) * | 2019-11-20 | 2020-05-01 | 吉林大学 | 基于深度学习的跌倒和暴力检测方法 |
CN112287175A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 一种视频高亮片段预测方法和系统 |
CN112419364A (zh) * | 2020-11-06 | 2021-02-26 | 江苏禹空间科技有限公司 | 基于图像特征匹配的目标跟踪方法及系统 |
WO2021046957A1 (zh) * | 2019-09-12 | 2021-03-18 | 厦门网宿有限公司 | 一种视频分类方法、设备及系统 |
CN112908307A (zh) * | 2021-01-29 | 2021-06-04 | 云从科技集团股份有限公司 | 一种音频特征提取方法、系统、设备及介质 |
CN112989950A (zh) * | 2021-02-11 | 2021-06-18 | 温州大学 | 一种面向多模态特征语义关联特征的暴力视频识别系统 |
-
2021
- 2021-07-28 CN CN202110859397.XA patent/CN113673364A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
WO2021046957A1 (zh) * | 2019-09-12 | 2021-03-18 | 厦门网宿有限公司 | 一种视频分类方法、设备及系统 |
CN111091060A (zh) * | 2019-11-20 | 2020-05-01 | 吉林大学 | 基于深度学习的跌倒和暴力检测方法 |
CN112287175A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 一种视频高亮片段预测方法和系统 |
CN112419364A (zh) * | 2020-11-06 | 2021-02-26 | 江苏禹空间科技有限公司 | 基于图像特征匹配的目标跟踪方法及系统 |
CN112908307A (zh) * | 2021-01-29 | 2021-06-04 | 云从科技集团股份有限公司 | 一种音频特征提取方法、系统、设备及介质 |
CN112989950A (zh) * | 2021-02-11 | 2021-06-18 | 温州大学 | 一种面向多模态特征语义关联特征的暴力视频识别系统 |
Non-Patent Citations (1)
Title |
---|
宋伟;杨培;于京;姜薇;: "基于视觉语义概念的暴恐视频检测", 信息网络安全, no. 09 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmad et al. | Performance comparison of support vector machine, random forest, and extreme learning machine for intrusion detection | |
US20230041233A1 (en) | Image recognition method and apparatus, computing device, and computer-readable storage medium | |
Tobiyama et al. | Malware detection with deep neural network using process behavior | |
CN106778241B (zh) | 恶意文件的识别方法及装置 | |
CN108111489B (zh) | Url攻击检测方法、装置以及电子设备 | |
Sperl et al. | DLA: dense-layer-analysis for adversarial example detection | |
US11817103B2 (en) | Pattern recognition apparatus, pattern recognition method, and storage medium | |
US11790237B2 (en) | Methods and apparatus to defend against adversarial machine learning | |
CN110929839B (zh) | 训练神经网络的方法和装置、电子设备和计算机存储介质 | |
Fei | The Hybrid Method of VMD‐PSR‐SVD and Improved Binary PSO‐KNN for Fault Diagnosis of Bearing | |
Abbasi et al. | A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics | |
Zhang et al. | Defending adversarial attacks on cloud-aided automatic speech recognition systems | |
US11188798B1 (en) | Detecting artificial multimedia content using deep network response analysis | |
CN114387567A (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN116015703A (zh) | 模型训练方法、攻击检测方法及相关装置 | |
CN110162769B (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
KR20200063067A (ko) | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 | |
Mathur et al. | Analysis of tweets for cyberbullying detection | |
Wang et al. | A new K-means singular value decomposition method based on self-adaptive matching pursuit and its application in fault diagnosis of rolling bearing weak fault | |
CN114168788A (zh) | 音频审核的处理方法、装置、设备及存储介质 | |
Yu et al. | A Deep Domain‐Adversarial Transfer Fault Diagnosis Method for Rolling Bearing Based on Ensemble Empirical Mode Decomposition | |
Yi et al. | Trust but verify: an information-theoretic explanation for the adversarial fragility of machine learning systems, and a general defense against adversarial attacks | |
CN113673364A (zh) | 一种基于深度神经网络的视频暴力检测方法及装置 | |
Bak et al. | A 1d cnn-lstm using wav2vec 2.0 for violent scene discrimination | |
Wang et al. | Intelligent diagnosis of rolling bearing compound faults based on device state dictionary set sparse decomposition feature extraction–hidden Markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |