CN112766062A

CN112766062A - 一种基于双流深度神经网络的人体行为识别方法

Info

Publication number: CN112766062A
Application number: CN202011617145.8A
Authority: CN
Inventors: 钱惠敏; 黄敏; 皇甫晓瑛
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-07
Anticipated expiration: 2040-12-30
Also published as: CN112766062B

Abstract

本发明公开了一种基于双流深度神经网络的人体行为识别方法，旨在解决深度学习运用在视频识别中存在的技术问题。其包括：根据原始视频数据集获得多个RGB图像序列；利用训练好的空间域行为识别模型和时间域行为识别模型分别处理RGB图像序列，获得空间域识别类型概率矩阵和时间域识别类型概率矩阵；利用均值融合模型对空间域识别类型概率矩阵和时间域识别类型概率矩阵进行概率融合，获得原始视频数据集对应的人体行为识别结果。本发明能够有效提高人体行为识别精准度，并且具有良好的泛化性能。

Description

一种基于双流深度神经网络的人体行为识别方法

技术领域

本发明涉及一种基于双流深度神经网络的人体行为识别方法，属于计算机视觉技术领域。

背景技术

近年来，随着监控视频、互联网的视频检索处理、人机交互、虚拟现实、医疗保健、智能安防等技术的发展，从视频中识别人体行为受到了越来越多的计算机视觉研究者的关注，由于受到视频遮挡、动态背景、移动摄像头、视角和光照变化等因素的影响，视频人体行为识别较为困难，具有很大的挑战性。

随着CNN对静态图像分类识别的成功应用，计算机性能的不断提升、GPU行业的快速发展、互联网上的视频数据集的激增，越来越多的研究人员开始将深度学习运用在视频领域的识别中，目前最为常用的视频识别网络架构有3D卷积网络和双流网络，但是3D卷积网络普遍存在参数量大，难以训练，且训练数据集小易造成过拟合等问题；而双流网络则存在光流提取耗时长，且整体网络无法做到端到端等不足。

发明内容

针对深度学习运用在视频识别中存在的问题，本发明提出了一种基于双流深度神经网络的人体行为识别方法，通过时间流和空间流的双流深度神经网络进行人体行为识别，并对双流神经网络的识别结果进行融合，从而得到准确率更高的人体识别结果。

为解决上述技术问题，本发明采用了如下技术手段：

本发明提出了一种基于双流深度神经网络的人体行为识别方法，包括如下步骤：

根据原始视频数据集获得多个待识别的RGB图像序列，并对每个待识别的RGB图像序列进行预处理；

利用训练好的空间域行为识别模型和时间域行为识别模型分别处理每个预处理后的RGB图像序列，获得空间域识别类型概率矩阵和时间域识别类型概率矩阵；

利用均值融合模型对空间域识别类型概率矩阵和时间域识别类型概率矩阵进行概率融合，获得原始视频数据集对应的人体行为识别结果。

进一步地，所述空间域行为识别模型利用(2+1)D Resnet构建而成；所述时间域行为识别模型利用基于梯度中心化改进的PWC-Net和(2+1)D Resnet级联构建而成。

进一步地，所述基于梯度中心化改进的PWC-Net包括6级特征金字塔网络层、特征扭曲层、代价容量层、光流提取层和上下文网络层；所述(2+1)D Resnet包括五个卷积层、一个自适应3D全局池化层、一个全连接层和一个Softmax分类器。

进一步地，所述时间域行为识别模型的训练过程如下：

利用第一公共数据集对基于梯度中心化改进的PWC-Net进行网络训练，获得训练好的基于梯度中心化改进的PWC-Net；

利用第一公共数据集对(2+1)D Resnet进行网络预训练，获得预训练后的(2+1)DResnet；

利用训练好的基于梯度中心化改进的PWC-Net处理第二公共数据集，获得含有人体行为运动信息的光流帧序列；

利用光流帧序列对预训练后的(2+1)D Resnet进行网络训练，获得训练好的时间域行为识别模型。

进一步地，基于梯度中心化改进的PWC-Net的网络训练过程中，在每个迭代阶段，基于Adam优化算法计算权值梯度，并利用Adam优化算法计算的权值梯度减去当前阶段的权值梯度的均值，获得网络权值更新的差值。

进一步地，光流帧序列的获取过程如下：

根据第二公共数据集获得多个第二RGB图像序列，针对每一个第二RGB图像序列，按照帧顺序将其中的RGB图像划分为两两一组，获得多组RGB图像；

利用训练好的基于梯度中心化改进的PWC-Net依次处理每组RGB图像，获得每一组RGB图像的光流帧；

利用所有RGB图像的光流帧生成光流帧序列。

进一步地，获得每一组RGB图像的光流帧的具体操作如下：

将一组RGB图像输入6级特征金字塔网络层，获得6级特征图，每一级特征图包括人体在时间流上的运动信息；

将第6级特征图依次输入代价容量层、光流提取层和上下文网络层，获得第6级特征图对应的光流图；

将第n级特征图与第n+1级特征图对应的光流图依次输入特征扭曲层、代价容量层、光流提取层和上下文网络层，获得第n级特征图对应的光流图，n＝1,2,3,4,5；

对第1级特征图对应的光流图进行上采样处理，获得该组RGB图像对应的光流帧。

进一步地，所述第一公共数据集采用视频数量不低于十万级、预定义人体行为类别数量不低于100的视频数据集；所述第二公共数据集采用视频数量不高于万级、预定义人体行为类别数量不高于100的视频数据集。

进一步地，空间域识别类型概率矩阵和时间域识别类型概率矩阵的获取过程如下：

获得多个预定义的人体行为类别；

利用训练好的空间域行为识别模型处理每个预处理后的RGB图像序列，获得每个RGB图像序列对应的人体行为空间特征，利用Softmax分类器计算每个人体行为空间特征相对于每个预定义的人体行为类别的概率值，构建空间域识别类型概率矩阵；

利用训练好的时间域行为识别模型处理每个预处理后的RGB图像序列，获得每个RGB图像序列对应的人体行为运动特征，利用Softmax分类器计算每个人体行为运动特征相对于每个预定义的人体行为类别的概率值，构建时间域识别类型概率矩阵。

进一步地，所述人体行为识别结果的计算公式如下：

其中，P表示人体行为识别结果，即原始视频数据集对应的人体行为类别，P_Spat表示空间域识别类型概率矩阵，P_Temp表示时间域识别类型概率矩阵。

采用以上技术手段后可以获得以下优势：

本发明提出了一种基于双流深度神经网络的人体行为识别方法，通过双流神经网络分别识别图像序列中人体的运动特征信息和空间特征信息，然后采用均值融合模型对时间和空间的识别概率进行融合预测，进而获得视频中人体行为的类别，本发明不依赖手工特征，能够有效提高人体行为识别精准度，并且具有良好的泛化性能。

本发明基于光流估计网络和(2+1)D Resnet分别构建时间域和空间域的人体行为识别模型，实现了端到端的网络架构，可以直接从视频数据中学习人体行为的时空特征并识别出对应的行为类别；此外，本发明使用的光流估计网络具有参数量小、计算快的特点，能够准确的估计出有效表征人体行为时间域上运动信息的光流图；本发明采用的(2+1)DResnet可以有效避免因3D卷积网络参数量大而难以训练的问题，进一步提高人体行为识别的性能的精度。

附图说明

图1为本发明一种基于双流深度神经网络的人体行为识别方法的步骤流程图；

图2为本发明实施例中(2+1)D Resnet的卷积核分解示意图；

图3为本发明实施例中获得每一组RGB图像的光流帧的流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种基于双流深度神经网络的人体行为识别方法，如图1所示，具体包括如下步骤：

步骤1、根据原始视频数据集获得多个待识别的RGB图像序列，并对每个待识别的RGB图像序列进行预处理。

步骤101、获取含有人像的多个待识别的原始视频，组成原始视频数据集，利用OpenCV读取每个原始视频，并按照预先设置的帧间隔从每个原始视频中提取多帧RGB图像，按照帧顺序生成待识别的RGB图像序列，具体的，帧间隔可以设置为1。

步骤102、利用OpenCV将每个待识别的RGB图像序列中的每一幅RGB图像转换成112×112大小的JPEG格式，获得预处理后的RGB图像序列。

步骤2、利用训练好的空间域行为识别模型和时间域行为识别模型分别处理每个预处理后的RGB图像序列，获得空间域识别类型概率矩阵和时间域识别类型概率矩阵。

为了提高人体行为识别精度，本发明构建了两个深度神经网络，分别为空间域行为识别模型和时间域行为识别模型，其中，空间域行为识别模型利用(2+1)D Resnet构建而成，时间域行为识别模型利用基于梯度中心化改进的PWC-Net和(2+1)D Resnet级联构建而成，即将基于梯度中心化改进的PWC-Net的输出直接作为(2+1)D Resnet的输入。

在本发明实施例中，基于梯度中心化改进的PWC-Net的网络结构为：6级特征金字塔网络层、特征扭曲层、代价容量层、光流提取层和上下文网络层；(2+1)D Resnet的网络结构为：五个依次连接的卷积层、一个自适应3D全局池化层、一个全连接层和一个Softmax分类器，其中，每个卷积层后均有一个BatchNorm层来加速学习的同时抑制过拟合，每两个卷积层之间均有一个非线性激活函数ReLU，最后一个卷积层后的非线性激活函数ReLU连接自适应3D全局池化层的输入，3D全局池化层的输出连接全连接层的输入，全连接层的输出连接Softmax分类器。

本发明中的(2+1)D Resnet是在Resnet34网络架构的基础上将3D卷积核(t×d×d)拆分为空间卷积核(1×d×d)和时间卷积核(t×1×1)，同时为了保证拆分前后参数量的一致，在卷积层中添加一个超参数M，如图2所示，其中，每个卷积层的超参数M的计算公式如下：

其中，k表示当前卷积层卷积核的个数，l表示上一个卷积层卷积核的个数，t表示时间参数，d表示空间参数。

构建好空间域行为识别模型和时间域行为识别模型后，需要对两个模型分别进行训练，空间域行为识别模型的训练就是对(2+1)D Resnet的训练，时间域行为识别模型的训练包括(2+1)D Resnet的训练和PWC-Net的训练。

本发明实施例中，为了加快训练速度、提高训练效果，利用两个不同的公共数据集进行模型训练，其中，第一公共数据集需要采用视频数量不低于十万级、预定义人体行为类别数量不低于100的视频数据集，比如Kinetics400视频数据集；第二公共数据集需要采用视频数量不高于万级、预定义人体行为类别数量不高于100的视频数据集，比如UCF101和HMDB51视频数据集。

本发明的时间域行为识别模型的训练过程如下：

(1)利用Kinetics400视频数据集对基于梯度中心化改进的PWC-Net进行网络训练，获得训练好的基于梯度中心化改进的PWC-Net：

初始化网络参数和网络权值，根据Kinetics400视频数据集生成对应的RGB图像序列，然后输入到PWC-Net中，进行网络迭代，在每个迭代阶段，基于Adam优化算法计算网络的权值梯度，并利用Adam优化算法计算的权值梯度减去当前阶段的权值梯度的均值，获得网络权值更新的差值，并基于差值更新网络参数和网络权值。

(2)利用Kinetics400视频数据集对(2+1)D Resnet进行网络预训练，获得预训练后的(2+1)D Resnet：

初始化(2+1)D Resnet的网络参数，具体的，将(2+1)D Resnet的初始学习率设置为0.0001，输入帧长设置为16，批大小设置为5，使用随机梯度下降法更新网络参数，网络动量参数设置为0.9，权重衰减正则项设置为0.0005。根据Kinetics400视频数据集生成对应的RGB图像序列，然后输入(2+1)D Resnet的卷积层，进行网络迭代；利用交叉熵误差作为(2+1)D Resnet的损失函数，根据损失是否下降作为指标对学习率进行更新，学习耐心设置为10；网络训练轮数设置为150。

(3)利用训练好的基于梯度中心化改进的PWC-Net处理UCF101和HMDB51视频数据集，获得含有人体行为运动信息的光流帧序列，具体操作如下：

根据UCF101和HMDB51视频数据集获得多个第二RGB图像序列，针对每一个第二RGB图像序列，按照帧顺序将其中的RGB图像划分为两两一组，即相邻两帧RGB图像为一组，获得多组RGB图像。

利用训练好的基于梯度中心化改进的PWC-Net依次处理每组RGB图像，获得每一组RGB图像的光流帧，光流帧中含有人体行为在时间域上的运动信息。

利用所有RGB图像的光流帧生成光流帧序列。

(4)将光流帧序列作为预训练后的(2+1)D Resnet的输入，对预训练后的(2+1)DResnet进行网络训练，再次更新(2+1)D Resnet的网络参数，完成(2+1)D Resnet的参数微调，获得训练好的时间域行为识别模型。

在时间域行为识别模型的训练过程中，如图3所示，获得每一组RGB图像的光流帧的具体操作如下：

将一组RGB图像(X1，X2)输入6级特征金字塔网络层，获得6级特征图，每一级特征图包括2幅分别对应X1和X2的特征图，且每一级特征图上都包括人体在时间流上的运动信息。

对特征图的级数进行判断，找出第6级特征图，然后将第6级特征图依次输入代价容量层、光流提取层和上下文网络层，获得第6级特征图对应的光流图，然后根据第6级特征图对应的光流图依次计算下一级特征图对应的光流图。

将第n级特征图与第n+1级特征图对应的光流图依次输入特征扭曲层、代价容量层、光流提取层和上下文网络层，获得第n级特征图对应的光流图，n＝1,2,3,4,5；比如将第5级特征图和第6级光流图输入特征扭曲层进行特征扭曲，然后再输入代价容量层、光流提取层和上下文网络层，最终通过上下文网络层输出第5级特征图对应的光流图。

通过上述操作依次计算每一级特征图对应的光流图，并对第1级特征图对应的光流图进行上采样处理，获得该组RGB图像对应的光流帧。

在本发明方法中，空间域行为识别模型的训练过程与时间域行为识别模型中(2+1)D Resnet的训练过程类似，其先利用Kinetics400视频数据集进行网络预训练，然后利用UCF101和HMDB51视频数据集对预训练后的(2+1)D Resnet进行网络训练，完成网络参数微调。

完成两个模型训练后，步骤2的具体操作如下：

步骤201、获得多个预定义的人体行为类别，人体行为类别通常是人为定义的，与原始视频有关，比如梳头、开车、跑步等等。

步骤202、利用训练好的空间域行为识别模型处理每个预处理后的RGB图像序列，获得每个RGB图像序列对应的人体行为空间特征，具体指人体在该RGB图像序列中的外观轮廓特征，然后利用Softmax分类器计算每个人体行为空间特征相对于每个预定义的人体行为类别的概率值，构建空间域识别类型概率矩阵：

其中，P_Spat表示空间域识别类型概率矩阵，

表示第j个RGB图像序列的人体行为空间特征是第i个人体行为类别的概率，i＝1,2,…,m，j＝1,2,…,N，m为预定义的人体行为类别数量，N为原始视频数据集中的原始视频数量。

步骤203、利用训练好的时间域行为识别模型处理每个预处理后的RGB图像序列，获得每个RGB图像序列对应的人体行为运动特征，具体指人体在连续的RGB图像序列中运动的轨迹；利用Softmax分类器计算每个人体行为运动特征相对于每个预定义的人体行为类别的概率值，构建时间域识别类型概率矩阵：

其中，P_Temp表示时间域识别类型概率矩阵，

表示第j个RGB图像序列的人体行为运动特征是第i个人体行为类别的概率。

步骤3、利用均值融合模型对空间域识别类型概率矩阵和时间域识别类型概率矩阵进行概率融合，获得原始视频数据集对应的人体行为识别结果，具体公式如下：

其中，P表示人体行为识别结果，即原始视频数据集对应的人体行为类别。

为了验证本发明方法的效果，本发明实施例给出了以下对比实验：

本发明实施例中的对比实验利用UCF101作为实验样本集，利用经典双流法、C3D、R3D和P3D方法作为对比方法，其中，经典双流法为K.Simonyan等人于2014年在神经信息处理系统大会(NIPS)中提出的，C3D为D.Tran等人于2015年在IEEE国际计算机视觉会议(ICCV)中提出的利用三维卷积网络学习时空特征的方法，R3D为K.Hara等人于2017年在IEEE国际计算机视觉研讨会(ICCVW)中提出的基于三维残差网络的动作识别时空特征学习方法，P3D为Z.Qiu等人于2017年在ICCV中提出的基于伪3D残差网络的时空表示学习方法。

利用对比方法和本发明方法分别处理实验样本集，获得对应的人体行为识别结果，并计算人体行为识别的精度，具体如下表所示：

表1

从表1可以看出，本发明方法的精确度比经典双流法的精确度提高了近8个百分点，与C3D、R3D、P3D这类使用3D卷积核的方法相比人体行为识别的精确度也有显著优势。除此之外，与现有技术相比，本发明方法的网络参数量小，计算速度快，具有良好的泛化性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于双流深度神经网络的人体行为识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，所述空间域行为识别模型利用(2+1)D Resnet构建而成；所述时间域行为识别模型利用基于梯度中心化改进的PWC-Net和(2+1)D Resnet级联构建而成。

3.根据权利要求2所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，所述基于梯度中心化改进的PWC-Net包括6级特征金字塔网络层、特征扭曲层、代价容量层、光流提取层和上下文网络层；所述(2+1)D Resnet包括五个卷积层、一个自适应3D全局池化层、一个全连接层和一个Softmax分类器。

4.根据权利要求2所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，所述时间域行为识别模型的训练过程如下：

5.根据权利要求4所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，基于梯度中心化改进的PWC-Net的网络训练过程中，在每个迭代阶段，基于Adam优化算法计算权值梯度，并利用Adam优化算法计算的权值梯度减去当前阶段的权值梯度的均值，获得网络权值更新的差值。

6.根据权利要求4所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，光流帧序列的获取过程如下：

利用所有RGB图像的光流帧生成光流帧序列。

7.根据权利要求4或6所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，获得每一组RGB图像的光流帧的具体操作如下：

8.根据权利要求4所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，所述第一公共数据集采用视频数量不低于十万级、预定义人体行为类别数量不低于100的视频数据集；所述第二公共数据集采用视频数量不高于万级、预定义人体行为类别数量不高于100的视频数据集。

9.根据权利要求3所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，空间域识别类型概率矩阵和时间域识别类型概率矩阵的获取过程如下：

获得多个预定义的人体行为类别；

10.根据权利要求1所述的一种基于双流深度神经网络的人体行为识别方法，其特征在于，所述人体行为识别结果的计算公式如下：