CN113191278B - 基于视频和声音数据融合的打架行为检测方法 - Google Patents

基于视频和声音数据融合的打架行为检测方法 Download PDF

Info

Publication number
CN113191278B
CN113191278B CN202110491187.XA CN202110491187A CN113191278B CN 113191278 B CN113191278 B CN 113191278B CN 202110491187 A CN202110491187 A CN 202110491187A CN 113191278 B CN113191278 B CN 113191278B
Authority
CN
China
Prior art keywords
video
fcv
fca
sound
neta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110491187.XA
Other languages
English (en)
Other versions
CN113191278A (zh
Inventor
高华
陈胜勇
郑建炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110491187.XA priority Critical patent/CN113191278B/zh
Publication of CN113191278A publication Critical patent/CN113191278A/zh
Application granted granted Critical
Publication of CN113191278B publication Critical patent/CN113191278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

基于视频和声音数据融合的打架行为检测方法,训练步骤包括:(11)选择处理声音片段和视频片段的深度网络结构netA和netV;(12)采集视频片段及时间同步的声音片段构成训练集;(13)将视频片段和语音片段分别预处理后传入netV和netA,各自经过全连接层fcV和fcA;(14)加权拼接fcV和fcA得到FC1;(15)FC1经全连接层FC2、FC3前向传播到达分类层CL;(16)计算分类损失用反向传播法得到深度神经网络层netA、netV、fcA、fcV、FC2和FC3的参数;预测步骤包括:(21)采集视频片段及时间同步的声音片段;(22)与步骤(13)相同;(23)与步骤(14)相同;(24)与步骤(15)相同;(25)根据CL层两个神经元数值的大小关系判定是否有打架行为发生。

Description

基于视频和声音数据融合的打架行为检测方法
技术领域
本发明涉及异常行为识别技术领域,特别是涉及一种基于视频和声音数据融合的打架行为检测方法。
背景技术
现有的人群异常行为分析方法主要是基于单目摄像机视频前后帧的前景的活动范围、图像序列之间光流场的大小、方向来表针运动的剧烈和混乱程度进而进行判断;或者基于双目相机获取深度信息,利用深度信息进行背景建模,进而根据二维光流场的混乱程度和速度指标进行打架行为判断;又或者利用深度信息制定运动剧烈程度的评价策略,根据不同深度信息给出对应的二维光流的分析判断第一阈值,仍然是根据图像的二维光流矢量场对打架行为分析。在有些情况下,如群体舞蹈场景,单纯使用图像或视频信息容易产生误判,基于图像/视频的打架斗殴行为检测方法准确率有待进一步提升。
发明内容
本发明要解决基于单信息源的打架行为检测方法准确度不高的问题,提供一种基于视频和声音数据融合的打架行为检测方法,将两种数据在一个深度神经网络中处理,用以提高打架行为检测的准确度。
本发明的基于视频和声音数据融合的打架行为检测方法,包括如下步骤:
步骤1.训练过程:
步骤11:选择处理声音片段的深度网络结构netA,选择处理视频片段的深度网络结构netV,设置全连接层fcA、fcV、FC2、FC3的神经元数量KA、KV、K2、K3。分类层CL的神经元数量固定为2。设置整个网络的损失函数。设置神经网络的学习参数。
步骤12:采集N段视频片段及时间同步的声音片段构成训练集{(Vi,Ai),yi}i=1,2,…,N,其中Vi是第i段视频片段,Ai是第i段音频片段,yi是第i段数据(Vi,Ai)的打架行为标签(用0表示正常行为,1表示打架行为)。将训练数据集按比例分成互不重叠的训练集T和验证集S,训练集T用来执行反向传播过程学习和更新神经网络的参数,验证集S用来评估神经网络的效果。
步骤13:将视频片段Vi经预处理后传入3D卷积神经网络netV,netV连接全连接层fcV;将音频片段Ai经预处理后传入2D卷积神经网络netA,netA连接全连接层fcA。
步骤14:将fcV和fcA拼接,得到KA+KV维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(S1)当声音片段和视频片段都在时,
(S2)当声音片段缺失时,α=0,
(S3)当视频片段缺失时,β=0;
步骤15:FC1经全连接层FC2、FC3前向传播到达分类层CL,根据CL与真实标签yi计算分类损失;
步骤16:将训练集T中的数据以一定概率P丢弃声音片段或视频片段,同一条数据(Vi,Ai)中声音片段和视频片段不能同时丢弃,分批次执行完步骤13~步骤15后,根据CL与真实标签{yi}计算分类损失,执行反向传播;
步骤17:步骤13~步骤16每执行若干次后在验证集V上执行步骤13~步骤15,记录CL与真实标签{yi}的分类损失,及netA、netV、fcA、fcV、FC2和FC3的参数;
步骤18:重复步骤13~步骤17若干次,直至CL与真实标签yi计算分类损失收敛;训练结束后步骤17记录的分类损失最低对应的netA、netV、fcA、fcV、FC2和FC3的参数作为模型的最终参数。
步骤2.预测过程:
步骤21:采集视频片段及时间同步的声音片段Vi和Ai,并进行时间采样和预处理操作。如果存在缺失,用全零数据填充,以保证算法能运行。
步骤22:将视频片段Vi经预处理后传入卷积神经网络netV,netV连接全连接层fcV;将音频片段Ai经预处理后传入神经网络netA,netA连接全连接层fcA。
步骤23:将fcV和fcA拼接,得到KA+KV维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(T1)当声音片段和视频片段都在时,
(T2)当声音片段缺失时,α=0,
(T3)当视频片段缺失时,β=0。
步骤24:FC1经全连接层FC2、FC3前向传播到达分类层CL。若CL层神经元第一个元素最大,则没有打架发生;若CL层神经元第二个元素最大,则表示有打架行为发生。
与现有技术相比,本发明的有益效果是:本发明将视频与声音数据融合,可以有效提高打架行为检测的准确度。同时考虑到在监控过程中可能存在视频或声音数据的缺失风险,当其中一种数据缺失时算法仍能正常运行,是一种稳定的打架行为检测方法。
附图说明
图1是本发明方法的神经网络结构框图。
具体实施方式
下面将结合本发明实施例中的附图1,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于视频和声音数据融合的打架行为检测方法,包括如下步骤:
步骤1.训练过程:
步骤11:设置netA为Resnet50结构,并将其中的3x3卷积核改为3x1;设置netV为Multi-Fiber 3D CNN标准结构,设置全连接层fcA、fcV、FC2、FC3的神经元数量KA=4096、Kv=4096、K2=4096、K3=4096。CL层的神经元数量固定为2。损失函数设置为二进制交叉熵损失BCE。设置神经网络的学习参数:初始学习率0.01、学习方式SGD、Step=10000、batch_size=32。
步骤12:收集10000段标注正常/打架行为标签的人脸图像作为训练数据集{(Vi,Ai),yi}i=1,2,…,N,其中Vi是第i段视频片段,Ai是第i段音频片段,yi是第i段数据(Vi,Ai)的打架行为标签(用0表示正常行为,1表示打架行为),正常行为数据和打架行为数据数量尽量均衡。按9:1比例分成互不重叠的训练集T(9000段)和验证集V(1000段)。
步骤13:将视频片段Vi按时间采样后传入卷积神经网络netV,netV连接全连接层fcV;计算音频片段Ai的梅尔倒谱系数(MFCC)并传入卷积神经网络netA,netA连接全连接层fcA。
步骤14:将fcV和fcA拼接,得到8192维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(S1)当声音片段和视频片段都在时,α=0.5,β=0.5;
(S2)当声音片段缺失时,α=0,β=2;
(S3)当视频片段缺失时,α=2,β=0。
步骤14:将fcV和fcA拼接,得到KA+KV维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(S1)当声音片段和视频片段都在时,
(S2)当声音片段缺失时,α=0,
(S3)当视频片段缺失时,β=0;
步骤15:FC1经全连接层FC2、FC3前向传播到达分类层CL,CL层经过Softmax归一化,计算CL层与真实标签yi的二进制交叉熵损失BCE;
步骤16:将训练集T中的数据以概率0.3丢弃声音片段或视频片段,同一条数据(Vi,Ai)中声音片段和视频片段不能同时丢弃,分批次执行完步骤13~步骤15后,根据CL与真实标签{yi}计算分类损失,利用反向传播方法得到神经网络层netA、netV、fcA、fcV、FC2和FC3的参数;
步骤17:步骤13~步骤16每执行282次(9000/32)后在验证集V上执行步骤13~步骤15,记录CL与真实标签{yi}的分类损失,及netA、netV、fcA、fcV、FC2和FC3的参数;
步骤18:重复步骤13~步骤17若干次,直至分类损失不再减小;训练结束后步骤17记录的分类损失最低对应的netA、netV、fcA、fcV、FC2和FC3的参数作为模型的最终参数;
步骤2.预测过程:
步骤21:采集视频片段及时间同步的声音片段v和a,并进行时间采样和预处理操作。如果存在缺失,用全零数据填充,以保证算法能运行。
步骤22:将视频片段v按时间采样后传入卷积神经网络netV,netV连接全连接层fcV;计算音频片段a的梅尔倒谱系数(MFCC)并传入卷积神经网络netA,netA连接全连接层fcA。
步骤23:将fcV和fcA拼接,得到8192维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(T1)当声音片段和视频片段都在时,α=0.5,β=0.5;
(T2)当声音片段缺失时,α=0,β=2;
(T3)当视频片段缺失时,α=2,β=0。
步骤24:FC1经全连接层FC2、FC3前向传播到达分类层CL,CL层经过Softmax归一化得到2维向量。若CL层神经元第一个元素最大,则没有打架发生;若CL层神经元第二个元素最大,则表示有打架行为发生。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (1)

1.基于视频和声音数据融合的打架行为检测方法,其特征在于,包括以下步骤:
步骤1.训练过程:
步骤11:选择处理声音片段的深度网络结构netA,选择处理视频片段的深度网络结构netV,设置全连接层fcA、fcV、FC2、FC3的神经元数量KA、KV、K2、K3;分类层CL的神经元数量固定为2;设置整个网络的损失函数;设置神经网络的学习参数;
步骤12:采集N段视频片段及时间同步的声音片段构成训练集{(Vi,Ai),yi}i=1,2,…,N,其中Vi是第i段视频片段,Ai是第i段音频片段,yi是第i段数据(Vi,Ai)的打架行为标签,用0表示正常行为,1表示打架行为;将训练数据集按比例分成互不重叠的训练集T和验证集S,训练集T用来执行反向传播过程学习和更新神经网络的参数,验证集S用来评估神经网络的效果;
步骤13:将视频片段Vi经预处理后传入卷积神经网络netV,netV连接全连接层fcV;将音频片段Ai经预处理后传入卷积神经网络netA,netA连接全连接层fcA;
步骤14:将fcV和fcA拼接,得到KA+KV维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(S1)当声音片段和视频片段都在时,
(S2)当声音片段缺失时,α=0,
(S3)当视频片段缺失时,β=0;
步骤15:FC1经全连接层FC2、FC3前向传播到达分类层CL,根据CL与真实标签yi计算分类损失;
步骤16:将训练集T中的数据以一定概率P丢弃声音片段或视频片段,同一条数据(Vi,Ai)中声音片段和视频片段不能同时丢弃,分批次执行完步骤13~步骤15后,根据CL与真实标签{yi}计算分类损失,执行反向传播;
步骤17:步骤13~步骤16每执行若干次后在验证集V上执行步骤13~步骤15,记录CL与真实标签{yi}的分类损失,及netA、netV、fcA、fcV、FC2和FC3的参数;
步骤18:重复步骤13~步骤17若干次,直至分类损失不再减小;训练结束后步骤17记录的分类损失最低对应的netA、netV、fcA、fcV、FC2和FC3的参数作为模型的最终参数;
步骤2.预测过程:
步骤21:采集视频片段及时间同步的声音片段v和a,并进行时间采样和预处理操作;如果存在缺失,用全零数据填充,以保证算法能运行;
步骤22:将视频片段v经预处理后传入卷积神经网络netV,netV连接全连接层fcV;将音频片段a经预处理后传入神经网络netA,netA连接全连接层fcA;
步骤23:将fcV和fcA拼接,得到KA+KV维向量FC1=[α×fcA,β×fcV],α和β计算如下:
(T1)当声音片段和视频片段都在时,
(T2)当声音片段缺失时,α=0,
(T3)当视频片段缺失时,β=0;
步骤24:FC1经全连接层FC2、FC3前向传播到达分类层CL;若CL层神经元第一个元素最大,则没有打架发生;若CL层神经元第二个元素最大,则表示有打架行为发生。
CN202110491187.XA 2021-05-06 2021-05-06 基于视频和声音数据融合的打架行为检测方法 Active CN113191278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110491187.XA CN113191278B (zh) 2021-05-06 2021-05-06 基于视频和声音数据融合的打架行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110491187.XA CN113191278B (zh) 2021-05-06 2021-05-06 基于视频和声音数据融合的打架行为检测方法

Publications (2)

Publication Number Publication Date
CN113191278A CN113191278A (zh) 2021-07-30
CN113191278B true CN113191278B (zh) 2024-02-20

Family

ID=76983929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110491187.XA Active CN113191278B (zh) 2021-05-06 2021-05-06 基于视频和声音数据融合的打架行为检测方法

Country Status (1)

Country Link
CN (1) CN113191278B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN111354373A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于神经网络中间层特征滤波的音频信号分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201501222XA (en) * 2015-02-17 2016-09-29 Nec Asia Pacific Pte Ltd System for monitoring event related data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN111354373A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于神经网络中间层特征滤波的音频信号分类方法

Also Published As

Publication number Publication date
CN113191278A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN112016500A (zh) 基于多尺度时间信息融合的群体异常行为识别方法及系统
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN108520203B (zh) 基于融合自适应多外围框与十字池化特征的多目标特征提取方法
CN111476771B (zh) 一种基于距离对抗生成网络的领域自适应方法及系统
CN111860691B (zh) 基于注意力和循环神经网络的立体视频视觉舒适度分类法
CN107832716B (zh) 基于主动被动高斯在线学习的异常检测方法
CN112365586B (zh) 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法
Wu et al. Weakly supervised audio-visual violence detection
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN113537027A (zh) 基于面部划分的人脸深度伪造检测方法及系统
CN115393968A (zh) 一种融合自监督多模态特征的视听事件定位方法
Qian et al. Locate before answering: Answer guided question localization for video question answering
CN118197315A (zh) 座舱语音交互方法、系统和计算机可读介质
CN113191278B (zh) 基于视频和声音数据融合的打架行为检测方法
CN112613486A (zh) 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112053386B (zh) 基于深度卷积特征自适应集成的目标跟踪方法
CN114596609B (zh) 一种视听伪造检测方法及装置
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
CN115578768A (zh) 图像检测网络的训练方法、图像检测方法和系统
CN114937300A (zh) 一种遮挡人脸识别方法和系统
CN114511809A (zh) 一种基于特征解耦的时序动作定位方法及系统
CN116824686A (zh) 一种动作识别方法和相关装置
CN114241408A (zh) 基于视听学习的人群异常事件检测方法
CN113762149A (zh) 基于分割注意力的特征融合人体行为识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant