CN111079655A

CN111079655A - 一种基于融合神经网络的视频中人体行为识别方法

Info

Publication number: CN111079655A
Application number: CN201911310123.4A
Authority: CN
Inventors: 张澍裕; 汪淑梦; 杨霄; 李静; 张晓蓓
Original assignee: Aerospace Internet Of Things Technology Co ltd
Current assignee: Aerospace Internet Of Things Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-28
Anticipated expiration: 2039-12-18
Also published as: CN111079655B

Abstract

本发明公开了一种基于融合神经网络的视频中人体行为识别方法，首先对原始视频的图像帧做预处理，构建训练样本数据集；通过改进的VGG神经网络模型，提取所述训练样本数据集中的图像空间信息特征；利用iDT算法提取预处理后的原始视频序列中人体运动轨迹特征；构建带有门控循环单元GRU网络的seq2seq模型，将VGG的输出向量和iDT算法提取的特征向量分别输入GRU网络中进行特征提取，得到输出预测结果；将输出的两种预测结果加权融合，实现所述原始视频中人体行为的识别。上述方法可实现人体行为的准确识别，且对环境的光照变化适应性较好，能达到高效精确的识别结果。

Description

一种基于融合神经网络的视频中人体行为识别方法

技术领域

本发明涉及视频分析及识别技术领域，尤其涉及一种基于融合神经网络的视频中人体行为识别方法。

背景技术

随着社会的发展与人民生活水平的提高，人们越来越关注公众安全话题，对视频监控系统的需求呈现出爆发式地增长，常见的监控设备只是记录了一段时间内的影像信息，想要及时发现异常情况就需要安保人员24小时值守监控，因此业界需要一种监视系统，能够实现人体行为的自主识别，当发生异常时，系统能够及时报警告知安保人员，这样不仅可以替代监控人员繁重的工作，提高监控系统的自动化智能化水平，同时也避免了人为监控疲劳导致的严重后果。

在视频中行为识别研究领域的主流算法大致分为三类：传统算法，深度学习算法，融合算法。在深度学习算法兴起之前，最好的传统行为识别算法是基于离散轨迹(DenseTrajectories，DT)产生的iDT算法，该算法由INRIA的IEAR实验室于2013年发表于ICCV，该算法框架主要包含：特征点密集采样，特征轨迹跟踪和基于轨迹的特征提取三个部分。目前基于深度学习的行为识别算法效果已经超过了iDT算法，但与iDT集成的算法可提高识别精度，在深度学习领域，双流(Two-Stream)方法是一大主流方向，最早是VGG团队在NIPS上提出来的，Two-Stream CNN网络分为两个部分：一部分处理RGB图像，一部分处理光流图像，最终联合训练并分类。TSN(Temporal Segments Networks)是在双流CNN上改进的网络，它解决了双流法不能对长时间的视频进行建模的弊端，C3D(3-Dimensional Convolution)是除双流法的另一大主流方法，虽然目前来看C3D的方法得到的效果普遍比双流方法低好几个百分点，但是该法比双流方法快很多，而且基本上都是端到端的训练，网络结构更加简洁。除了上述两大类方法以外，另外还有一大批的研究学者使用RNN网络模型来解决这个问题，因为视频除了空间维度外，最大的痛点是时间序列问题，总之行为识别目前还是视频理解方向的研究热点，但由于视频中目标与场景复杂，至今为止也没有得到很好的解决。

发明内容

本发明的目的是提供一种基于融合神经网络的视频中人体行为识别方法，该方法可实现人体行为的准确识别，且对环境的光照变化适应性较好，能达到高效精确的识别结果。

本发明的目的是通过以下技术方案实现的：

一种基于融合神经网络的视频中人体行为识别方法，所述方法包括：

步骤1、对原始视频的图像帧做预处理，构建训练样本数据集；

步骤2、通过改进的VGG神经网络模型，提取所述训练样本数据集中的图像空间信息特征；

步骤3、利用改进的密集轨迹iDT算法提取预处理后的原始视频序列中人体运动轨迹特征，具体通过密集采样特征点、特征点轨迹跟踪和轨迹特征提取来实现；

步骤4、构建带有门控循环单元GRU网络的seq2seq模型，从所构建的seq2seq模型的encoder端将步骤2得到的VGG的输出向量和步骤3得到的iDT算法提取的特征向量依照时间序列分别输入GRU网络中进行特征提取，并从seq2seq模型的decoder端分别输出预测结果；

步骤5、将输出的两种预测结果加权融合，实现所述原始视频中人体行为的识别。

由上述本发明提供的技术方案可以看出，上述方法可实现人体行为的准确识别，且对环境的光照变化适应性较好，能达到高效精确的识别结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于融合神经网络的视频中人体行为识别方法流程示意图；

图2为本发明实施例所提供seq2seq模型的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例提供的基于融合神经网络的视频中人体行为识别方法流程示意图，所述方法包括：

在该步骤中，首先在原始视频的图像上，标注出目标检测感兴趣区域；

对所述感兴趣区域进行预处理，包括旋转、镜像操作、光照微调，以此构建训练样本数据集。

步骤2、通过改进的VGG(Visual Geometry Group)神经网络模型，提取所述训练样本数据集中的图像空间信息特征；

在该步骤中，所述改进的VGG神经网络模型一共有13个卷积层，3个池化层，每个卷积层后有一层BatchNorm(Batch Normalization)用以加速训练并获得更加稳定的输出，所述卷积层均为1×1或3×3的小卷积核，池化为最大池化层，且为了保证模型具有非线性性质，每两个卷积层之间均有一个非线性激活函数Relu；

为了加速VGG16的训练过程，提高模型泛化能力，减少模型过拟合，在前四个最大池化层后均加了一个dropout层，并将经过BatchNorm层的浅层特征图与深层特征图通过Concat层进行特征融合，再经过最大池化层进行降维；

另外，为了减少参数量，加快模型训练，抑制过拟合，删去原始模型末尾的三个全连接层，用大小为H×W，步长为1的卷积层代替，所述改进的VGG神经网络模型的输出特征维度变为1×1×C，这样可以减少整个网络的参数量，有效抑制网络模型的过拟合。

步骤3、利用改进的密集轨迹iDT(improved dense trajectories)算法提取预处理后的原始视频序列中人体运动轨迹特征，具体通过密集采样特征点、特征点轨迹跟踪和轨迹特征提取来实现；

在该步骤中，首先将经过预处理的图片通过上采样和下采样生成8个空间尺度；在每个空间尺度的图片上通过网格划分的方式密集采样特征点，网格大小W＝5；通过计算像素点自相关矩阵的特征值，去除低于某个阈值的特征点；

针对某个特征点在连续15帧图像上的位置构成一段轨迹，后续特征提取即沿着各个轨迹进行，具体提取到的轨迹描述是15帧图片分别在x，y方向的位移矢量共30维；

所提取的特征向量包括：光流(包括方向和幅度信息)直方图HOF特征、光流图像梯度直方图MBH特征，其中：

原有iDT算法的结构描述包括三种特征：HOG、HOF和MBH，本实例去掉HOG特征，即灰度图像梯度直方图，因为这个特征与VGG网络提取的特征有重复，保留HOF特征和MBH特征；HOF特征即光流直方图，直方图bin数目为8+1，前8个bin和HOG相同，最后一个bin用于统计光流幅度小于某个阈值的像素，HOF的特征长度为108(223*9)；MBH特征，即光流图像梯度直方图，也可以理解为在光流图像上计算的HOG特征，由于光流图像包括x方向和y方向，故分别计算MBH_x和MBH_y，MBH总的特征长度为192(2*96)，最终用于训练的iDT特征长度为trajectory+HOF+MBH＝30+108+192＝330维。

在该步骤中，所述门控循环单元GRU网络融合了改进的密集轨迹iDT特征与卷积神经网络CNN(Convolutional Neural Networks)特征，如图2所示为本发明实施例所提供seq2seq模型的结构示意图，参考图2：所构建的seq2seq模型包括encoder端和decoder端，encoder端用于输入向量的特征提取工作，decoder端用于重构特征向量输出预测值，其中：

在decoder端连接全连接层，softmax分类层输出结果，将上一时刻的softmax层输出的三个最大概率及其对应结果给到下一时刻GRU输入，使得模型增加参考信息，以此降低对上一时刻预测结果的单一依赖。

另外，所述seq2seq模型输出采取softmax函数与交叉墒损失(Cross Entropyloss)相结合的方式，损失函数Loss表示如下：

式中，x是特征值，i和j表示类别编号；

因为数据集存在不平衡性，为了提升识别结果的准确率，本实施例进一步引入Focal损失函数做不平衡校正，其表达式如下：

Focalloss(p_t)＝-(1-p_t)γ_lg(p_t)

式中，p_t是特征值属于某一类的概率，γ是调节变化幅度的参数，结合损失函数Loss公式，改进后的损失函数表示为：

通过改进后的损失函数能解决训练数据的不平衡性，并提升最终分类(识别)精度。

上述seq2seq模型训练采用自适应性梯度下降算法最小化损失函数Loss。在训练过程中，一个batch的数据做一次梯度下降，训练一定的epoch之后，最后通过均方根误差大小来评估网络模型的预测准确率。

在该步骤中，首先将步骤4输出的两种预测结果加权融合，最终输出[0,1]内任一数字，0代表无危险行为；1代表有暴力，老人摔跤等危险行为；

当连续m帧出现非0结果时，则发出告警提醒管理人员注意监控视频区域内的人员动态。

另外，具体实现中，在步骤5进行加权融合的过程中，当VGG输入与iDT输入的权重比为0.41：0.59时，所述seq2seq模型达到最好的识别效果。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

综上所述，本发明所述方法致力于从视频的各个维度特性去提取特征，完成了一个特征构建较为全面的模型，提升了识别准确率，可有效监控视频中人体危险行为；该方法具有较高的商业实用价值，实现了视频中人体危险行为识别，这在新型社会综合治理、公交、车站、工厂等公共安全视频监控市场具有较高的推广价值，为管理者提供高效智能的管理手段。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于融合神经网络的视频中人体行为识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，所述步骤1的过程具体为：

首先在原始视频的图像上，标注出目标检测感兴趣区域；

3.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，在步骤2中，所述改进的VGG神经网络模型一共有13个卷积层，3个池化层，每个卷积层后有一层BatchNorm用以加速训练并获得更加稳定的输出；所述卷积层均为1×1或3×3的小卷积核，池化为最大池化层，且为了保证模型具有非线性性质，每两个卷积层之间均有一个非线性激活函数Relu；

在前四个最大池化层后均加了一个dropout层，并将经过BatchNorm层的浅层特征图与深层特征图通过Concat层进行特征融合，再经过最大池化层进行降维；

然后删去原始模型末尾的三个全连接层，用大小为H×W，步长为1的卷积层代替，所述改进的VGG神经网络模型的输出特征维度变为1×1×C。

4.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，所述步骤3的过程具体为：

首先将经过预处理的图片通过上采样和下采样生成8个空间尺度，在每个空间尺度的图片上通过网格划分的方式密集采样特征点，网格大小W＝5，通过计算像素点自相关矩阵的特征值，去除低于某个阈值的特征点；

所提取的特征向量包括：光流直方图HOF特征、光流图像梯度直方图MBH特征。

5.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，在步骤4中，所构建的seq2seq模型包括encoder端和decoder端，encoder端用于输入向量的特征提取工作，decoder端用于重构特征向量输出预测值，其中：

6.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，在步骤4中，所述seq2seq模型输出采取softmax函数与交叉墒损失相结合的方式，损失函数Loss表示如下：

式中，x是特征值，i和j表示类别编号；

并进一步引入Focal损失函数做不平衡校正，其表达式如下：

Focalloss(p_t)＝-(1-p_t)^γlg(p_t)

式中，p_t是特征值属于某一类的概率，γ是调节变化幅度的参数；

结合上述损失函数Loss公式，改进后的损失函数表示为：

通过上述改进后的损失函数能解决训练数据的不平衡性，并提升最终识别精度。

7.根据权利要求1所述基于融合神经网络的视频中人体行为识别方法，其特征在于，所述步骤5的过程为：

将步骤4输出的两种预测结果加权融合，最终输出[0,1]内任一数字，0代表无危险行为；1代表有危险行为；

8.根据权利要求7所述基于融合神经网络的视频中人体行为识别方法，其特征在于，在步骤5进行加权融合的过程中，当VGG输入与iDT输入的权重比为0.41：0.59时，所述seq2seq模型达到最好的识别效果。