CN109858407B

CN109858407B - 一种基于多种信息流特征和异步融合的视频行为识别方法

Info

Publication number: CN109858407B
Application number: CN201910043963.2A
Authority: CN
Inventors: 高岭; 赵悦蓉; 何丹; 郭红波; 王海; 郑杰; 张侃; 郑勇
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-11-10
Anticipated expiration: 2039-01-17
Also published as: CN109858407A

Abstract

一种基于多种信息流特征和异步融合的视频行为识别方法，通提取外观流、动作流与关节点信息流三种不同的视频信息流；利用粗到细网络对三种信息流分别进行特征提取和特征细化；提取后的特征利用五单元LSTM进行异步融合；通过本发明，用户可以以较高的准确率来识别视频中的行为，另一方面，本发明提出的识别方法也可以结合行为识别的其他领域，为基于视频的人体行为识别方面提供帮助。

Description

一种基于多种信息流特征和异步融合的视频行为识别方法

技术领域

本发明属于视频信息处理技术领域，具体涉及一种基于多种信息流特征和异步融合的视频行为识别方法。

背景技术

行为识别技术一直是计算机视觉领域的研究热点，它在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着越来越重要的角色。尽管近几年国内外在基于视频的人体行为识别方面已经取得了重大进展，但由于而视频中的行为识别技术受到遮挡，动态背景，移动摄像头，视角和光照变化等因素的影响而具有很大的挑战性。

目前行为识别的方法主要分为传统方法和深度学习算法两种。随着大规模数据量的出现，传统算法已经很难完成大量视频行为识别的要求，深度学习方法成为近几年视频行为识别的热门方法。深度学习是机器学习领域的重点研究问题，它模拟人脑认知机制的多层次模型结构，通过组合低层特征形成更为抽象的高层特征来获得数据更有效的特征表示，相比于传统的人工提取特征更适合目标的检测和识别。

卷积神经网络是深度学习模型的典型代表，应用最为广泛，已经成为目前图像识别和语音分析等领域的一个应用热点。在人体行为识别方面，基于卷积神经网络的研究也有很多新进展。但是由于视频数据的高度复杂性，目前的行为识别研究仍存在许多问题。许多研究主要侧重于学习特征，主要描述动作的单个类，忽略了动作类内部的巨大变化和联系；其次许多动作在不同的信息流中存在异步性，而目前多数研究仅仅是将同一个时间节点的不同信息流简单地融合再一起，忽略了同一个动作的不同信息流在不同时间节点的异步性，那么在不同时间出现的指示性模式就不能得到充分利用，性能就会受到限制。影响了行为识别的准确率。

发明内容

为了克服上述现有技术的不足，本发明的目的是提供一种基于多种信息流特征和异步融合的视频行为识别方法，采用用视频数据的外观流和动作流代替传统的双流模型中的时间流和空间流，并结合关节点信息流，形成多特征信息流，并利用卷积神经网络进行特征提取、细化及融合，最终形成一种准确率高的视频行为识别方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于多种信息流特征和异步融合的视频行为识别方法，其特征在于，包括以下步骤：

1)对视频数据进行信息流提取，分别提取出视频外观流、视频动作流和人体关节点信息流三种信息流；

a、在各个数据集分别提取外观流、动作流与关节点信息流；

b、外观流即视频原始图像帧，通过OpenCV工具将视频进行分帧处理，得到视频的图像帧；

c、动作流即视频中人物的光流信息，通过denseflow提取到视频的光流的灰度图像；

d、关节点信息流即视频中人物的关节点信息，通过openpose姿态提取库提取到视频中人物的关节点信息，得到包含18个关节点的坐标位置序列；

2)利用粗到细网络对三种信息流分别进行特征提取和特征细化；

a、将提取出的视频外观流信息输入到VGG-16网络中，从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组，其中每个侧图组对应于一个动作类粒度，为了确保来自不同阶段的输出映射具有相同的大小，在映射连接之前将上采样层应用于侧输出映射。最后，将尺度特定的侧图组分别输入到完全连接的(FC)层，以获得三个动作类粒度的特征，实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作；

b、使用CNN M 2048卷积神经网络预测输入视频外观信息流的动作类标签，然后使用预测结果中的前5个，前3个和前1个动作类来形成动作类组，分别在三个动作类粒度中，形成的动作类标签用于通过交叉熵损失引导特征提取过程，其迫使特征提取模块创建共享特征，用多个粒度描述构造的动作类组，公式如下：

其中，W是多粒度特征提取模块的参数集。N是动作类的总数。G_k是第k个动作类粒度的构造动作类组，而α_k是衡量第k个动作类粒度的相对重要性的权重，是第k个动作类粒度的特征预测的第n个动作类的概率；

c、长短期记忆LSTM网络能够进行网络整合，因为它有效地融合了连续输入。利用具有三个单元的LSTM模型进行粗到细的整合，其中每个单元从一个动作类粒度中获取特征x_t并创建隐藏状态输出以影响下一个单元，最后一个单元的隐藏状态输出将是外观信息流的最终集成功能，过程如下式：

其中，x_t和h_t(t＝1，2，3)是第t个LSTM单元的输入特征和隐藏状态结果。Φ_t＝{M_t，b_t}是第t个单位的参数集，是第t个单位创建隐藏状态输出的操作；

d、在训练阶段照损失函数训练LSTM模型，使得损失最小，确定粗到细网络的最终参数见下式：

其中Φ₁，Φ₂，Φ₃是LSTM中三个单元的参数集，β是衡量LSTM模型相对重要性的权重，n_g是输入样本的基本事件动作类标签，N是动作类的总数.是来自第t个单元的groundtruth类的预测概率；

3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理，利用卷积神经网络融合来自不同流的特征，将它们视为三个1维特征映射，并应用单层ConvNet与1×1内核来创建融合输出，在获得具有不同时间间隔的流式融合结果之后，异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果；利用具有五个单元的LSTM进行积分，通过以下方式训练整个异步融合网络：

其中，N是动作类的总数，n_g是输入视频的真实类标签。T是LSTM单元和1层ConvNets的总数，其值等于5，Φ_t和K_t分别是第t个LSTM单元和第t个1层ConvNet的参数集，Ψ_A＝{Φ₁，...，Φ_T，K_l，...，K_T}和γ分别是整个异步融合网络的参数集和权重。是来自第t个LSTM单元的ground-truth类的预测概率。

本发明的有益效果是：

1、用户可以以较高的准确率来识别视频中的行为，高准确率能使用户识别后的工作达到更好的效果。

2、本发明提出的识别方法也可以为研究视频行为识别提供一定的思路。

3、同时本发明也能结合其他需要用到行为识别的领域，比如监控视频、互联网的视频检索处理、人机交互等非常多领域产生新应用。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的粗到细网络结构示意图；

图3为异步融合网络结构示意图。

具体实施方式

以下结合附图对本发明进一步叙述，但本发明不局限以下实施例。

如图1所示系统，实现步骤如下：

步骤1：对原始视频数据进行信息流提取，具体包括以下步骤：

a、在本实施例中采用两种不同类型的数据集：UCF101数据集和HMDB51数据集。UCF101数据集是通常用于动作识别的数据集。它包含101个动作类中的13320个视频片段。HMDB51数据集是一系列逼真的视频，包含51个动作类中的6766个视频片段。

b、提取信息流：在各个数据集分别提取外观流、动作流与关节点信息流。外观流即视频原始图像帧，通过OpenCV工具将视频进行分帧处理，得到视频的图像帧；动作流即视频中人物的光流信息，通过denseflow提取到视频的光流的灰度图像；关节点信息流即视频中人物的关节点信息，通过openpose姿态提取库提取到视频中人物的关节点信息，得到包含18个关节点的坐标位置序列；

如图2所示，步骤2：将提取出的视频外观流信息输入到VGG-16网络中，从VGG-16ConvNet的第3、4和5级的最后一个卷积层得到侧输出图。然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组，其中每个侧图组对应于一个动作类粒度。为了确保来自不同阶段的输出映射具有相同的大小，在映射连接之前将上采样层应用于侧输出映射。最后，将尺度特定的侧图组分别输入到完全连接的(FC)层，以获得三个动作类粒度的特征。

步骤3：使用CNN M 2048 ConvNet预测外观流的动作类标签，然后使用预测结果中的前5个，前3个和前1个动作类来形成动作类组，分别对应于三个动作类粒度。形成的动作类标签用于通过交叉熵损失引导特征提取过程，其迫使特征提取模块创建共享特征。

步骤4：在从多个动作类粒度获得特征之后，利用长期短期记忆(LSTM)网络进行粗到细的整合。具体来说，利用具有三个单元的LSTM模型，其中每个单元从一个动作类粒度中获取特征x_t并创建隐藏状态输出以影响下一个单元。最后一个单元的隐藏状态输出将是输入外观流的最终集成功能。

步骤5：按照损失函数训练LSTM模型，使得损失最小，确定粗到细网络的最终参数。

步骤6：由于输入要素只是一维向量，只需将它们视为三个1维特征映射，并应用单层ConvNet与1×1内核来创建融合输出。首先将一个流中的输入特征与另外两个流的5个输入特征融合在一起。因此，使用五个1层的ConvNets来实现流式特征。此外，要融合的五个输入特征也具有彼此的Δ(Δ＝5)个时间间隔，这样能够捕获流之间的长期同步模式。

如图3所示，步骤7：利用五单元LSTM进行积分，因为它具有良好的整合顺序输入的能力。

步骤8：按照损失函数训练异步融合网络，使得损失最小，确定异步融合网络的最终参数。

步骤9：最后使用该模型进行预测，分类器的输出结果即为最后的行为识别结果。

Claims

1.一种基于多种信息流特征和异步融合的视频行为识别方法，其特征在于，包括以下步骤：

a、在各个数据集分别提取外观流、动作流与关节点信息流；

a、将提取出的视频外观流信息输入到VGG-16网络中，从VGG-16 ConvNet的第3、4和5级的最后一个卷积层得到侧输出图；然后将来自不同阶段的侧输出图切片并连接成三个特定于比例的侧图组，其中每个侧图组对应于一个动作类粒度，为了确保来自不同阶段的输出映射具有相同的大小，在映射连接之前将上采样层应用于侧输出映射；最后，将尺度特定的侧图组分别输入到完全连接的(FC)层，以获得三个动作类粒度的特征，实现从VGG-16卷积神经网络中获得外观流的三个动作类粒度的特征来描述动作；

其中，W是多粒度特征提取模块的参数集；N是动作类的总数；G_k是第k个动作类粒度的构造动作类组，而α_k是衡量第k个动作类粒度的相对重要性的权重，是第k个动作类粒度的特征预测的第n个动作类的概率；

c、长短期记忆LSTM网络能够进行网络整合，因为它有效地融合了连续输入,利用具有三个单元的LSTM模型进行粗到细的整合，其中每个单元从一个动作类粒度中获取特征x_t并创建隐藏状态输出以影响下一个单元，最后一个单元的隐藏状态输出将是外观信息流的最终集成功能，过程如下式：

其中，x_t和h_t(t＝1，2，3)是第t个LSTM单元的输入特征和隐藏状态结果；Φ_t＝{M_t，b_t}是第t个单位的参数集，是第t个单位创建隐藏状态输出的操作；

3)以同样的方式对视频运动流和关节点流进行(2)-(4)的处理，利用卷积神经网络融合来自不同流的特征，将它们视为三个1维特征映射，并应用单层ConvNet与1×1内核来创建融合输出，在获得具有不同时间间隔的流式融合结果之后，异步集成模块将顺序地集成它们并为输入特征的周期创建动作预测结果；利用三个单元的LSTM进行积分，通过以下方式训练整个异步融合网络：

其中，N是动作类的总数，n_g是输入视频的真实类标签；T是LSTM单元和1层ConvNets的总数，其值等于5，Φ_t和K_t分别是第t个LSTM单元和第t个1层ConvNet的参数集，Ψ_A＝{Φ₁，...，Φ_T，K₁，...，K_T}和γ分别是整个异步融合网络的参数集和权重；是来自第t个LSTM单元的ground-truth类的预测概率。