CN112580589A

CN112580589A - 基于双流法考虑非均衡数据的行为识别方法、介质及设备

Info

Publication number: CN112580589A
Application number: CN202011589130.5A
Authority: CN
Inventors: 袁志文; 王红青; 卢有龙; 罗莎; 许侃; 张金丽; 陈俊杰
Original assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30

Abstract

本发明涉及一种基于双流法考虑非均衡数据的行为识别方法、介质及设备，所述方法包括以下步骤：获取待处理的原始视频数据，对该原始视频数据进行预处理，形成多个视频片段和对应的；构建改进双流模型，对所述图像集合提取空间特征和光流特征，使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率，对所述第一行为类别概率和第二行为类别概率进行融合处理，获得最终识别结果；所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络，该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。与现有技术相比，本发明能解决由数据分布不均衡导致的过拟合问题，有效提高行为识别的效果。

Description

基于双流法考虑非均衡数据的行为识别方法、介质及设备

技术领域

本发明属于计算机视觉领域，涉及一种人体行为识别方法，尤其是涉及一种基于双流法考虑非均衡数据的行为识别方法、介质及设备。

背景技术

由于监控摄像头数目的急剧增加，海量的监控数据需要处理，而人工处理的代价巨大，通过算法完成视频中行为的识别就显得极为重要，人体行为识别技术可以在一定程度上减少了传统行为识别与监控对人工介入的依赖，可广泛应用于智能视频监控、机器人视觉、人际交互等领域，具有重要的科学研究意义和广阔的市场应用前景。通过人体行为识别技术可以对视频中人的行为进行分类，从而检测出是否出现异常行为。

目前，人体行为识别方法一般分为两类：传统的行为识别方法和基于深度学习的行为识别方法。传统的行为识别方法主要依靠人工提取特征，然后根据这些特征训练模型，进而生成识别结果，但是传统的方法只适用于环境简单、行为类别较少的场景中，很难识别复杂场景中的、时间跨度大的行为。而深度学习作为一种深层次的网络，具有强大的非线性映射能力，能够有效地提取图像和视频中的深度特征，更好地表达图像和视频的内容，在识别一些复杂场景中的、时间跨度大的行为具有一定的优势。例如，3D-CNN可以从视频中提取时空运动信息实现快速识别，该方法通过三维卷积从空间和时间维度提取特征，它对多个相邻的帧中的运动信息进行编码，并生成代表真实环境中人类行为的最终特征。双流法CNN主要是通过空间和时序两个不同的网络结构分别学习人体行为的动作表现和运动特征，由空间CNN和时间CNN组成，空间CNN是对视频图像内容进行学习，时间CNN是对动作特征进行学习，然后将空间CNN与时间CNN的识别结果进行融合。现有的方法表明，在识别图像中的特定物体、确定其位置和行为识别方面，基于深度学习的行为识别方法是有效的。然而，在实际的场景中，不同的行为数据分布会出现不均衡的情况，异常行为的数据样本较少，由于数据分布不均衡可能会造成过拟合问题，导致模型的泛化性能下降，增加了异常行为识别的难度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双流法考虑非均衡数据的行为识别方法、介质及设备，有效缓解由数据分布不均衡造成的影响，从而提高行为识别的效果。

本发明的目的可以通过以下技术方案来实现：

一种基于双流法考虑非均衡数据的行为识别方法，包括以下步骤：

获取待处理的原始视频数据，对该原始视频数据进行预处理，形成多个视频片段和对应的图像集合；

构建改进双流模型，对所述图像集合提取空间特征和光流特征，使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率，对所述第一行为类别概率和第二行为类别概率进行融合处理，获得最终识别结果；

所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络，该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。

进一步地，所述预处理包括：

分割所述原始视频数据，形成多个只包含一个原子行为类别的视频片段；

将每个视频片段的帧率和分辨率调整为固定值，并在每个视频片段中随机抽取一定数量的图像，构成所述多个图像集合。

进一步地，所述空间流网络的输入由多个原始空间特征组成，其中，以图像集合P_m中所有图像的R、G、B分量作为第m个原始空间特征，输出为各图像集合的行为识别结果，形成所述第一行为类别概率。

进一步地，所述时间流网络的输入由多个原始光流特征组成，其中，基于第m个视频片段中的L张连续图像计算相邻的两张图片中光流在水平方向和垂直方向的位置变化，从而得到第m个原始光流特征，输出为各图像集合的行为识别结果，形成所述第二行为类别概率。

进一步地，所述改进双流模型进行训练时，空间流网络和时间流网络的损失函数分别表示为：

其中，FL_spatial为空间流网络的损失函数，FL_temporal为时间流网络的损失函数，α_k为第k个行为类别所占的频率，γ为聚焦参数，

为图像集合P_m中第k个行为类别的概率，

为第m个视频片段中的L张连续图像中第k个行为类别的概率。

进一步地，所述DenseNet网络包括输入模块、特征提取模块和输出模块，所述特征提取模块包括多个特征提取块，各个特征提取块之间通过Transition层连接，每个所述特征提取块由多层Dense Layer组成。

进一步地，所述多层Dense Layer中，每层Dense Layer对之前所有层的输出进行拼接后再处理。

进一步地，所述融合处理采用的公式为：

其中，n_spatial和n_temporal分别为空间流网络和时间流网络识别结果的权重，

为第一行为类别概率中图像集合P_m中第k个行为类别的概率，

为第二行为类别概率中第m个视频片段的L张连续图像中第k个行为类别的概率，

为第m个视频片段中第k个行为类别的最终概率。

本发明还提供一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如上所述基于双流法考虑非均衡数据的行为识别方法的指令。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储器；和

被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述基于双流法考虑非均衡数据的行为识别方法指令。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过空间流网络模型和时间流网络模型提取图片和视频流中的空间特征和时间特征，从而实现了有效的视频中的行为识别，进而可获得较为准确的识别结果。

2、考虑到行为类别的样本数据分布不均衡的问题，本发明通过使用Focal Loss损失函数计算误差，训练空间流网络和时间流网络，以解决因为由数据分布不平衡可能造成的过拟合问题，提高了模型的泛化性能和识别率，提高异常行为识别精度，有助于将该技术应用在更复杂的场景中，代替人工监视、识别和分析，使得行为识别更加科学、高效。

3、本发明设计了改进的空间流网络和时间流网络结构，并对各网络获得的识别概率进行融合处理，能够准确识别视频片段的行为类别。

附图说明

图1为本发明的流程示意图；

图2为本发明所提方法的AUC实验结果图；

图3为本发明所提方法的准确度实验结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本发明提供一种基于双流法考虑非均衡数据的行为识别方法，包括：

步骤S101、获取待处理的原始视频数据，对该原始视频数据进行预处理，形成多个视频片段和对应的图像集合，所述原始视频数据为由RGB图像帧序列组成的、与人的行为相关的视频数据。

所述预处理具体为：

步骤1.1，分割所述原始视频数据，形成多个只包含一个原子行为类别的视频片段，记为V＝{(u₁,v₁),(u₂,v₂),...,(u_m,v_m),...,(u_M,v_M)}，u_m和v_m分别表示第m个视频片段及其对应的原子行为类别，1≤m≤M，M表示视频片段的数量；

步骤1.2，将每个视频片段的帧率和分辨率调整为固定值，本实施例中，帧率调整为25fps，分辨率为480p(640×480)，并在每个视频片段中随机抽取一定数量的图像，构成所述多个图像集合，记为P_m＝{p_m1,p_m2,...,p_mn,...,p_mN}，p_mn表示第m个视频片段中抽取的图像集合P_m中的第n张图像，1≤n≤N，N表示抽取的图片数量。

步骤S102、构建改进双流模型，对所述图像集合提取空间特征和光流特征，使用Softmax网络层分别识别获得第一行为类别概率和第二行为类别概率。

所述改进双流模型包括以DenseNet网络为基础的空间流网络和时间流网络，该改进双流模型以Focal Loss作为损失函数、通过反向传播训练获得。DenseNet网络包括输入模块、特征提取模块和输出模块，所述特征提取模块包括多个特征提取块，各个特征提取块之间通过Transition层连接，每个所述特征提取块由多层Dense Layer组成。

以下分别对本实施例采用的空间流网络和时间流网络进行介绍。

(1)空间流网络

本实施例的空间流网络包含空间输入模块、空间特征提取模块和空间输出模块。所述空间输入模块是将第m个图像集合P_m中所有图像的R、G、B分量作为第m个原始空间特征，记为

其中，R对应各个图像的红色通道，G对应各个图像的绿色通道，B对应各个图像的蓝色通道；所述特征提取模块包含S个空间特征提取块记为{Block₁,Block₂,...,Block_s,...,Block_S}，其中，Block_s表示第s个空间特征提取块，各个空间提取块之间通过Transition层连接，每个空间特征提取块由T层Dense Layer组成，用于提取图像中的空间特征；所述空间输出模块是带有Softmax网络层的两层全连接层；s∈[1,S]，在实验中，可将S＝3，T＝6。

空间流网络获得输出结果的过程具体为：

步骤2.1，初始化s＝1；

步骤2.2，定义变量并初始化t＝1；

步骤2.3，所述特征提取模块的第s个提取块Block_s中第t层Dense Layer对前第t-1层Dense Layer的第m个输出特征进行拼接，得到第t-1层的第m个拼接后的特征

再依次使用批量标准化、ReLU激活函数和卷积操作对所述第t-1层的第m个拼接后的特征

进行处理，得到第t层Dense Layer的第m个输出特征

ReLU激活函数如公式(1)所示；

步骤2.4，将t+1赋值给t后，判断t＞T是否成立，若成立，则表示完成第s个空间提取块Block_s中T层Dense Layer的空间特征提取，并执行步骤2.5，否则，返回步骤2.3执行；

步骤2.5，将s+1赋值给s后，判断s＞S是否成立，若成立，则表示完成S个空间提取块的空间特征提取，并执行步骤2.6；否则，Transition层对第s-1个提取块Block_s中第T层Dense Layer的第m个输出特征

依次使用批量标准化、ReLU激活函数、卷积操作和池化操作，得到的输出特征作为第s个提取块Block_s中第1层Dense Layer的输入，并返回步骤2.2；

步骤2.6，所述空间输出模块利用两层全连接层依次对所述特征提取模块中第S个提取块的第T层Dense Layer的第m个输出特征

进行处理，并输出第m个图像集合P_m提取的最终特征x^m后再通过Softmax网络层进行分类，得到空间分类结果，并选择所述空间分类结果中概率最大的行为类别作为第m个图像集合P_m的行为识别结果，最终输出各图像集合的行为识别结果，形成所述第一行为类别概率。

(2)时间流网络

本实施例的时间流网络包含光流输入模块、光流特征提取模块和光流输出模块。所述光流输入模块以第m个视频片段中L张连续的图像作为光流输入模块的输入，并根据每张图片上光流的位置，计算相邻的两张图片中光流在水平方向和垂直方向的位置变化，从而得到第m个视频的光流特征

所述特征提取模块包含S个光流特征提取块，记为{Block′₁,Block′₂,...,Block′_s,...,Block′_S}，各个光流特征提取块之间通过Transition层连接，每个光流特征提取块由T层Dense Layer组成，用于提取图像中的光流特征；所述光流输出模块是带有Softmax网络层的两层全连接层。

时间流网络获得输出结果的过程与空间流网络类似，将原始光流特征

作为光流特征提取模块的输入，按照步骤2.1-步骤2.5的处理过程，得到光流特征提取模块的中第S个光流提取块的第T层Dense Layer的第m个输出特征；所述光流输出模块利用两层全连接层依次对所述光流特征提取模块中第S个提取块的第T层Dense Layer的第m个输出特征进行处理，并输出第m个视频片段提取的最终特征后再通过Softmax网络层进行分类，得到光流分类结果，并选择所述光流分类结果中概率最大的行为类别作为第m个视频片段的行为识别结果，最终输出为各图像集合的行为识别结果，形成所述第一行为类别概率。

对改进双流模型进行训练时，将Focal Loss作为损失函数，通过反向传播实现训练，具体地：利用式(2)计算空间流网络识别结果与真实类别之间的误差，通过反向传播更新空间流网络中的参数；同理，利用式(3)计算时间流网络识别结果与真实类别之间的误差，通过反向传播更新时间流网络中的参数，直至得到最优的空间流网络和时间流网络。

式(2)中，

为第m个视频片段中抽取的图像集合P_m中第k个行为类别的概率；

式(3)中，α_k为M个视频片段中第k个行为类别所占的频率，γ为聚焦参数，

第m个视频片段中L张连续的图像中第k个行为类别的概率。

步骤S103、对第一行为类别概率和第二行为类别概率进行融合处理，获得最终识别结果。

将步骤3得到的第m个视频片段中抽取的图像集合P_m中第k个行为类别的概率

和第m个视频片段的L张连续的图像中第k个行为类别的概率

进行加权求和，计算公式如式(4)所示，得到第m段视频片段中第k个行为类别的最终概率

从K个行为类别的最终概率中选择最大值作为第m段视频片段的最终识别结果。

其中，n_temporal和n_spatial分别为空间流网络和时间流网络识别结果的权重，n_temporal:n_spatial可取1:1、1:2、2:1、1:5和5:1。

可以通过确定不同的n_temporal和n_spatial，使用AUC和准确度评价指标对训练好的模型进行评估，计算公式分别为(5)、(6)和(7)，确定最优的n₁和n₂，得到最优的模型。

其中，P和Q分别样本中正常行为的样本个数与异常行为的样本个数，将正常样本与异常样本按照识别的概率从小到大进行排序，ins_j代表第j个视频片段的行为类别，

为第j个视频片段的序号；

其中，

代表第j段视频中真实的行为类别，

代表利用第j段视频以及从第j段视频中抽取的图片的行为识别结果。

AUC用来评估模型处理非均衡数据集的能力，AUC越接近于1，证明该模型的识别结果越好。准确度用来评估模型的识别正确率，准确度越接近于1，证明模型的分类准确率越高。

为了验证本发明方法的有效性，本实施例选用3D-卷积神经网络模型(3D-Convolutional Neural Networks，3D-CNN)、光流法模型(Optical Flow Method)、双流法模型(Traditional Two-stream Method，Two-stream)、时间段网络(Temporal SegmentNetworks，TSN)、双流法结合长短期记忆神经网络的方法(Traditional Two-stream andLong Short Term Memory，Two-stream+LSTM)与本发明方法(Proposed Method)进行比较。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，计算出相邻帧之间物体的运动信息，进而行为识别，但是该方法忽略了视频中的空间特征；3D-CNN、双流法可以从视频中提取空间特征和时间特征，TSN和Two-stream+LSTM方法是双流法的改进方法，用来解决长时间视频的行为判断问题，本发明方法设计了一种空间流网络和时间流网络用来提取视频中的空间特征和时间特征，并分别使用了Focal Loss，解决了样本数据分布不均衡的问题。

数据集本发明选用Atomic Visual Actions(AVA)数据集来验证基于双流法考虑非均衡数据的行为识别方法的有效性。选取10个行为类别，将其中8种行为定义为正常行为，余下2种行为定义为异常行为，正常行为类别的视频与异常行为类别的视频的比例可设为5:1、10:1，构建数据分布不平衡数据集。实验过程中，随机选择80％的实验数据集作为训练集，20％作为测试集。同时，为了保证实验结果的可靠性，每次实验进行10次，最终结果取十次实验的平均值。

在AVA数据集上进行实验，并将本发明所提方法与对比方法实验结果与测试集进行比较。实验结果如表1、图2和图3所示。

表1 AUC与Accuracy实验结果

由表1、图2和图3可以看出，本发明所提的方法在AUC和Accuracy(准确度)两个评价指标下，均优于另外五种方法，说明传统的深度学习方法在处理数据分布不均衡的样本时容易出现过拟合问题。从表1、图2和图3还可以看出，在Optical Flow Method、3D-CNN、TSN、Two-stream、TSN和Two-stream+LSTM方法的比较中，TSN和Two-stream+LSTM在两个评价指标下均取得了较优的结果。这一结果表明，利用视频中的空间特征和光流特征要优于只使用光流特征，证明视频中的空间特征对行为识别是有利的，本发明方法在处理数据分布不均衡方面具有优势，证明了本发明的方法是有效的。

实施例2

本实施例提供一种电子设备，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如实施例1所述基于双流法考虑非均衡数据的行为识别方法指令。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双流法考虑非均衡数据的行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法，其特征在于，所述预处理包括：

分割所述原始视频数据，形成多个只包含一个原子行为类别的所述视频片段；

3.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法，其特征在于，所述空间流网络的输入由多个原始空间特征组成，其中，以图像集合P_m中所有图像的R、G、B分量作为第m个原始空间特征，输出为各图像集合的行为识别结果，形成所述第一行为类别概率。

4.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法，其特征在于，所述时间流网络的输入由多个原始光流特征组成，其中，基于第m个视频片段中的L张连续图像计算相邻的两张图片中光流在水平方向和垂直方向的位置变化，从而得到第m个原始光流特征，输出为各图像集合的行为识别结果，形成所述第二行为类别概率。

5.根据权利要求1所述的基于双流法考虑非均衡数据的行为识别方法，其特征在于，所述改进双流模型进行训练时，空间流网络和时间流网络的损失函数分别表示为：