CN113191278B

CN113191278B - 基于视频和声音数据融合的打架行为检测方法

Info

Publication number: CN113191278B
Application number: CN202110491187.XA
Authority: CN
Inventors: 高华; 陈胜勇; 郑建炜
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2024-02-20
Anticipated expiration: 2041-05-06
Also published as: CN113191278A

Abstract

基于视频和声音数据融合的打架行为检测方法，训练步骤包括：(11)选择处理声音片段和视频片段的深度网络结构netA和netV；(12)采集视频片段及时间同步的声音片段构成训练集；(13)将视频片段和语音片段分别预处理后传入netV和netA，各自经过全连接层fcV和fcA；(14)加权拼接fcV和fcA得到FC1；(15)FC1经全连接层FC2、FC3前向传播到达分类层CL；(16)计算分类损失用反向传播法得到深度神经网络层netA、netV、fcA、fcV、FC2和FC3的参数；预测步骤包括：(21)采集视频片段及时间同步的声音片段；(22)与步骤(13)相同；(23)与步骤(14)相同；(24)与步骤(15)相同；(25)根据CL层两个神经元数值的大小关系判定是否有打架行为发生。

Description

基于视频和声音数据融合的打架行为检测方法

技术领域

本发明涉及异常行为识别技术领域，特别是涉及一种基于视频和声音数据融合的打架行为检测方法。

背景技术

现有的人群异常行为分析方法主要是基于单目摄像机视频前后帧的前景的活动范围、图像序列之间光流场的大小、方向来表针运动的剧烈和混乱程度进而进行判断；或者基于双目相机获取深度信息，利用深度信息进行背景建模，进而根据二维光流场的混乱程度和速度指标进行打架行为判断；又或者利用深度信息制定运动剧烈程度的评价策略，根据不同深度信息给出对应的二维光流的分析判断第一阈值，仍然是根据图像的二维光流矢量场对打架行为分析。在有些情况下，如群体舞蹈场景，单纯使用图像或视频信息容易产生误判，基于图像/视频的打架斗殴行为检测方法准确率有待进一步提升。

发明内容

本发明要解决基于单信息源的打架行为检测方法准确度不高的问题，提供一种基于视频和声音数据融合的打架行为检测方法，将两种数据在一个深度神经网络中处理，用以提高打架行为检测的准确度。

本发明的基于视频和声音数据融合的打架行为检测方法，包括如下步骤：

步骤1.训练过程：

步骤11：选择处理声音片段的深度网络结构netA，选择处理视频片段的深度网络结构netV，设置全连接层fcA、fcV、FC2、FC3的神经元数量K_A、K_V、K₂、K₃。分类层CL的神经元数量固定为2。设置整个网络的损失函数。设置神经网络的学习参数。

步骤12：采集N段视频片段及时间同步的声音片段构成训练集{(V_i,A_i),y_i}_{i＝1,2,…,N}，其中V_i是第i段视频片段，A_i是第i段音频片段，y_i是第i段数据(V_i,A_i)的打架行为标签(用0表示正常行为，1表示打架行为)。将训练数据集按比例分成互不重叠的训练集T和验证集S，训练集T用来执行反向传播过程学习和更新神经网络的参数，验证集S用来评估神经网络的效果。

步骤13：将视频片段V_i经预处理后传入3D卷积神经网络netV，netV连接全连接层fcV；将音频片段A_i经预处理后传入2D卷积神经网络netA，netA连接全连接层fcA。

步骤14：将fcV和fcA拼接，得到K_A+K_V维向量FC1＝[α×fcA,β×fcV]，α和β计算如下：

(S1)当声音片段和视频片段都在时，

(S2)当声音片段缺失时，α＝0，

(S3)当视频片段缺失时，β＝0；

步骤15：FC1经全连接层FC2、FC3前向传播到达分类层CL，根据CL与真实标签y_i计算分类损失；

步骤16：将训练集T中的数据以一定概率P丢弃声音片段或视频片段，同一条数据(V_i,A_i)中声音片段和视频片段不能同时丢弃，分批次执行完步骤13～步骤15后，根据CL与真实标签{y_i}计算分类损失，执行反向传播；

步骤17：步骤13～步骤16每执行若干次后在验证集V上执行步骤13～步骤15，记录CL与真实标签{y_i}的分类损失，及netA、netV、fcA、fcV、FC2和FC3的参数；

步骤18：重复步骤13～步骤17若干次，直至CL与真实标签y_i计算分类损失收敛；训练结束后步骤17记录的分类损失最低对应的netA、netV、fcA、fcV、FC2和FC3的参数作为模型的最终参数。

步骤2.预测过程：

步骤21：采集视频片段及时间同步的声音片段V_i和A_i，并进行时间采样和预处理操作。如果存在缺失，用全零数据填充，以保证算法能运行。

步骤22：将视频片段V_i经预处理后传入卷积神经网络netV，netV连接全连接层fcV；将音频片段A_i经预处理后传入神经网络netA，netA连接全连接层fcA。

步骤23：将fcV和fcA拼接，得到K_A+K_V维向量FC1＝[α×fcA,β×fcV]，α和β计算如下：

(T1)当声音片段和视频片段都在时，

(T2)当声音片段缺失时，α＝0，

(T3)当视频片段缺失时，β＝0。

步骤24：FC1经全连接层FC2、FC3前向传播到达分类层CL。若CL层神经元第一个元素最大，则没有打架发生；若CL层神经元第二个元素最大，则表示有打架行为发生。

与现有技术相比，本发明的有益效果是：本发明将视频与声音数据融合，可以有效提高打架行为检测的准确度。同时考虑到在监控过程中可能存在视频或声音数据的缺失风险，当其中一种数据缺失时算法仍能正常运行，是一种稳定的打架行为检测方法。

附图说明

图1是本发明方法的神经网络结构框图。

具体实施方式

下面将结合本发明实施例中的附图1，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供一种基于视频和声音数据融合的打架行为检测方法，包括如下步骤：

步骤1.训练过程：

步骤11：设置netA为Resnet50结构，并将其中的3x3卷积核改为3x1；设置netV为Multi-Fiber 3D CNN标准结构，设置全连接层fcA、fcV、FC2、FC3的神经元数量K_A＝4096、K_v＝4096、K₂＝4096、K₃＝4096。CL层的神经元数量固定为2。损失函数设置为二进制交叉熵损失BCE。设置神经网络的学习参数：初始学习率0.01、学习方式SGD、Step＝10000、batch_size＝32。

步骤12：收集10000段标注正常/打架行为标签的人脸图像作为训练数据集{(V_i,A_i),y_i}_{i＝1,2,…,N}，其中V_i是第i段视频片段，A_i是第i段音频片段，y_i是第i段数据(V_i,A_i)的打架行为标签(用0表示正常行为，1表示打架行为)，正常行为数据和打架行为数据数量尽量均衡。按9：1比例分成互不重叠的训练集T(9000段)和验证集V(1000段)。

步骤13：将视频片段V_i按时间采样后传入卷积神经网络netV，netV连接全连接层fcV；计算音频片段A_i的梅尔倒谱系数(MFCC)并传入卷积神经网络netA，netA连接全连接层fcA。

步骤14：将fcV和fcA拼接，得到8192维向量FC1＝[α×fcA,β×fcV]，α和β计算如下：

(S1)当声音片段和视频片段都在时，α＝0.5，β＝0.5；

(S2)当声音片段缺失时，α＝0，β＝2；

(S3)当视频片段缺失时，α＝2，β＝0。

(S1)当声音片段和视频片段都在时，

(S2)当声音片段缺失时，α＝0，

(S3)当视频片段缺失时，β＝0；

步骤15：FC1经全连接层FC2、FC3前向传播到达分类层CL，CL层经过Softmax归一化，计算CL层与真实标签y_i的二进制交叉熵损失BCE；

步骤16：将训练集T中的数据以概率0.3丢弃声音片段或视频片段，同一条数据(V_i,A_i)中声音片段和视频片段不能同时丢弃，分批次执行完步骤13～步骤15后，根据CL与真实标签{y_i}计算分类损失，利用反向传播方法得到神经网络层netA、netV、fcA、fcV、FC2和FC3的参数；

步骤17：步骤13～步骤16每执行282次(9000/32)后在验证集V上执行步骤13～步骤15，记录CL与真实标签{y_i}的分类损失，及netA、netV、fcA、fcV、FC2和FC3的参数；

步骤18：重复步骤13～步骤17若干次，直至分类损失不再减小；训练结束后步骤17记录的分类损失最低对应的netA、netV、fcA、fcV、FC2和FC3的参数作为模型的最终参数；

步骤2.预测过程：

步骤21：采集视频片段及时间同步的声音片段v和a，并进行时间采样和预处理操作。如果存在缺失，用全零数据填充，以保证算法能运行。

步骤22：将视频片段v按时间采样后传入卷积神经网络netV，netV连接全连接层fcV；计算音频片段a的梅尔倒谱系数(MFCC)并传入卷积神经网络netA，netA连接全连接层fcA。

步骤23：将fcV和fcA拼接，得到8192维向量FC1＝[α×fcA,β×fcV]，α和β计算如下：

(T1)当声音片段和视频片段都在时，α＝0.5，β＝0.5；

(T2)当声音片段缺失时，α＝0，β＝2；

(T3)当视频片段缺失时，α＝2，β＝0。

步骤24：FC1经全连接层FC2、FC3前向传播到达分类层CL，CL层经过Softmax归一化得到2维向量。若CL层神经元第一个元素最大，则没有打架发生；若CL层神经元第二个元素最大，则表示有打架行为发生。

显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.基于视频和声音数据融合的打架行为检测方法，其特征在于，包括以下步骤：

步骤1.训练过程：

步骤11：选择处理声音片段的深度网络结构netA，选择处理视频片段的深度网络结构netV，设置全连接层fcA、fcV、FC2、FC3的神经元数量K_A、K_V、K₂、K₃；分类层CL的神经元数量固定为2；设置整个网络的损失函数；设置神经网络的学习参数；

步骤12：采集N段视频片段及时间同步的声音片段构成训练集{(V_i,A_i),y_i}_{i＝1,2,…,N}，其中V_i是第i段视频片段，A_i是第i段音频片段，y_i是第i段数据(V_i,A_i)的打架行为标签，用0表示正常行为，1表示打架行为；将训练数据集按比例分成互不重叠的训练集T和验证集S，训练集T用来执行反向传播过程学习和更新神经网络的参数，验证集S用来评估神经网络的效果；

步骤13：将视频片段V_i经预处理后传入卷积神经网络netV，netV连接全连接层fcV；将音频片段A_i经预处理后传入卷积神经网络netA，netA连接全连接层fcA；

(S1)当声音片段和视频片段都在时，

(S2)当声音片段缺失时，α＝0，

(S3)当视频片段缺失时，β＝0；

步骤2.预测过程：

步骤21：采集视频片段及时间同步的声音片段v和a，并进行时间采样和预处理操作；如果存在缺失，用全零数据填充，以保证算法能运行；

步骤22：将视频片段v经预处理后传入卷积神经网络netV，netV连接全连接层fcV；将音频片段a经预处理后传入神经网络netA，netA连接全连接层fcA；

(T1)当声音片段和视频片段都在时，

(T2)当声音片段缺失时，α＝0，

(T3)当视频片段缺失时，β＝0；

步骤24：FC1经全连接层FC2、FC3前向传播到达分类层CL；若CL层神经元第一个元素最大，则没有打架发生；若CL层神经元第二个元素最大，则表示有打架行为发生。