CN111709410A

CN111709410A - 一种强动态视频的行为识别方法

Info

Publication number: CN111709410A
Application number: CN202010840934.1A
Authority: CN
Inventors: 陈海波
Original assignee: DeepBlue AI Chips Research Institute Jiangsu Co Ltd
Current assignee: Shenlan Artificial Intelligence Application Research Institute Shandong Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-09-25
Anticipated expiration: 2040-08-20
Also published as: CN111709410B

Abstract

本发明公开了一种强动态视频的行为识别方法，包括如下步骤：根据数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支；RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到；进行RGB分支和光流分支联合推断，实现视频中行为的识别。本发明中，分别以不同配置训练RGB分支及光流分支，相对于传统的双流算法，配置动态识别，可适应性强。本发明通过强化光流特征学习，考虑了强动态行为视频的性质，多阶段传递光流信息，获取充分的运动特征，提高了识别准确度。

Description

一种强动态视频的行为识别方法

技术领域

本发明涉及人工智能，视觉智能算法领域，更具体地涉及一种强动态视频的行为识别方法。

背景技术

在自主驾驶领域，驾驶决策的重要前提在于对路面情况的准确识别。在以安全为首要标准中，行人的行为识别尤其关键，相关的识别算法准确率将直接影响到车辆的行驶安全。同时，在真实驾驶环境中，行人动作的反馈是即时变化的，这要求行为识别的算法能提供实时性的判断。

现有技术中，主要存在两种主流的行为识别方式，分别为采用3D的双流卷积网络和运动增强迁移网络。

一、膨胀3D双流卷积网络模型，基于2维卷积网络，将深度图像分类卷积网络的卷积核和池化核扩展到3维，利用已相当准确的图像分类模型结构甚至参数来学习视频中的时空特征。整个模型对应RGB图像支和光流分支，分别对视频的RGB图像帧和光流图像帧进行独立训练，得到两个对应的预测概率，并通过平均得到最终的行为类别，整体准确率较高。

二、运动增强迁移网络，在模型训练阶段，首先由传统的光流法提取光流图像，并通过常规网络提取表示运动信息的光流特征信息，然后通过冻结权重和蒸馏的方式传递给表示图像信息的表观特征，即通过训练，输入RGB图像帧得到同时体现表观信息和运动信息的特征，最后将该特征通过分类器得到最终的行为类别；在模型推断阶段，直接输入视频的RGB图像帧，获得行为类别，计算轻量，减缓时延。

人类的行为动作是多样的，包括人体自身动作，如鼓掌等；人与人互动动作，如握手等；人与物互动动作，如打球等。不同类型的动作需要有相对应的主次特征去识别，且符合应用的实际需求。当前的技术方案依然存在以下不足：

1、膨胀3D双流卷积网络的RGB分支与光流分支的性能差异明显，仅平均两个分支的预测概率作为最终概率判断，准确率低。

2、膨胀3D双流卷积网络的两个分支单独训练，缺少表观信息与运动信息之间的必然联系。

3、运动增强迁移网络在训练阶段，在网络的倒数第二层进行光流特征蒸馏传递，只利用高度抽象的特征易忽略源视频的大多数动态信息。

发明内容

1、本发明的目的

本发明结合3D双流算法和迁移学习算法，提出一种强动态视频的行为识别方法；首先根据特定数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支，然后进行双分支联合推断，实现视频中行为的识别。

2、本发明所采用的技术方案

本发明提出了一种强动态视频的行为识别方法，包括以下步骤：

根据数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支；RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到；然后进行RGB分支和光流分支联合推断，实现视频中行为的识别；

所述辅助训练RGB分支具体包括光流分支训练、光流特征传递、RGB训练；

所述光流分支训练包括：

提取光流图像利用全变分1范式算法对源视频的RGB图像帧进行计算，从相邻两帧中分别得到水平方向和竖直方向的光流图；

对预训练好的光流图像分类模型，按照膨胀3D的运算操作进行3维卷积和池化拓展；把对应的水平方向和竖直方向的光流图输入光流图像分类模型进行训练，采用交叉熵作为损失函数获得训练好的光流分支；

所述损失函数，具体为：

所述损失函数包括三项，第一项代表第一条传递线路的部分，L1是这个阶段RGB特征和光流特征差异的2范数，

是L1对应权重；第二项代表第二条传递线路部分，L2是这阶段两个特征差异的2范数，

是L2对应权重；第三项L3是最终分类的交叉熵，

是L3对应权重；

为第一条

信息；

为第一条光流信息；

为第二条

信息，

为第二条光流信息。

更进一步，所述根据数据集上的数据分布特征具体为：

定义行为类别，搜索源视频并采集数据，分类保存；

确定视频关键行为区间；

确定帧率、图像位置和图像分辨率，对修剪后的视频提取图像帧并保存。

更进一步，以不同配置训练所述RGB分支及光流分支：

首先训练光流分支，并固定光流分支权重，得到训练好的光流分支；

然后将同一视频通过光流分支得到的中间层特征，即光流特征，通过蒸馏计算的方式，加入RGB分支的中间层特征拼接，得到增加了维度的中间层特征，再按照正常路径训练；

通过对加权损失函数进行梯度下降，多轮优化训练参数，得到训练好的RGB分支；

通过全连接层整合光流分支和RGB分支得到最后输出。

更进一步，所述光流特征传递包括：

固定已训练好的光流分支权重参数；

建立光流分支与RGB分支的桥接，实现光流特征信息的传递；包含两条桥接线路，第一条桥接线路在3D卷积层过程中的传递，桥接线路根据具体视频集的实验结果中选择；第二条桥接线路位于网络最后一个池化层前。

更进一步，所述RGB训练包括：

选择预训练的RGB图像分类模型，按照膨胀3D的运算操作进行3维卷积和池化拓展，输入RGB图像帧；

连接光流分支，选用全连接分类器计算RGB分支及光流分支的特征，输出分类概率；

构造损失函数，由三部分组成，分别为第一个传递线路的2范数、第二个传递线路的2范数和最终分类的交叉熵。

更进一步，还包括推断阶段，将RGB图像和光流图像分别输入已训练好的RGB分支和光流分支，得到行为分类。

3、本发明所采用的有益效果

（1）本发明的RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到；通过上述步骤提高视频动作识别的准确率；

（2）本发明中，分别以不同配置训练RGB分支及光流分支，相对于传统的双流算法，配置动态识别，可适应性强；

（3）本发明通过强化光流特征学习，考虑了强动态行为视频的性质，多阶段传递光流信息，获取充分的运动特征，提高了识别准确度；

（4）本发明利用迁移学习的思想，通过蒸馏计算的方式将视频的表观信息和运动信息相关联，减少传统双流模型由于独立训练产生的系统误差；

（5）本发明通过全连接层自主学习两个分支的权重，符合视频特征，减少由于主观定义造成的人为误差；

（6）本发明通过将光流特征与图像特征的范数以及分类交叉熵线性组合构成损失函数，增加了模型的准确度。

附图说明

图1为光流分支训练获得交叉损失熵的流程图；

图2为行为识别网络拓扑图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

本发明结合3D双流算法和迁移学习算法，提出一种针对强动态视频的行为识别方法，即光流传递增强双流模型。该模型首先根据特定数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支，然后进行双分支联合推断，实现视频中行为的识别。

1.数据预处理

本发明识别目标是强动态视频，即选择的视频为行为运动频繁或幅度大的视频。

首先定义行为类别，搜索源视频并采集数据，分类保存；

确定视频关键行为区间；

2.训练阶段

包括光流分支训练、光流特征传递、RGB训练。

2.1光流分支训练

提取光流图像具体为:利用全变分1范式算法对源视频的RGB图像帧进行计算，从相邻两帧中分别得到水平方向和竖直方向的光流图像帧。

对预训练好的光流图像分类模型，按照膨胀3D的运算操作进行3维卷积和池化拓展。把相对应的水平光流图和竖直光流图输入模型进行训练，采用交叉熵作为损失函数获得训练好的光流分支，如图1所示。

2.2光流特征传递

1、固定已训练好的光流分支权重参数。

2、建立光流分支与RGB分支的桥接，实现光流特征信息的传递。参考图2, 其中包含两条桥接线路，第一条桥接线路在3D卷积层过程中的传递，桥接线路根据具体视频集的实验结果从a至i的9条线路中选择,表示为

向

传递；第二条桥接线路位于网络最后一个池化层前，表示为

向

传递。

2.3 RGB训练

1、选择预训练的RGB图像分类模型，按照膨胀3D的运算操作进行3维卷积和池化拓展，输入RGB图像帧。

2、连接光流分支，选用全连接分类器计算RGB分支及光流分支的特征，输出分类概率。

3、构造损失函数，由三部分组成，分别为第一个传递线路的2范数、第二个传递线路的2范数和最终分类的交叉熵。

这里设计的损失函数包括三项，第一项代表第一条传递线路的部分，L1是这个阶段RGB 特征和光流特征差异的2范数，

是L2对应权重；第三项L3是最终分类的交叉熵，

是L3对应权重；

为第一条

信息；

为第一条光流信息；

为第二条

信息，

为第二条光流信息。

3.推断阶段

在推断阶段，无需进行光流特征的传递，将RGB图像和光流图像分别输入已训练好的RGB分支和光流分支，得到行为分类。

本发明提出的一种强动态行为视频的行为识别方法；

1、利用迁移学习思想，将训练好的光流模型特征按照蒸馏计算方式传递给图像支模型；

2、在膨胀3D的双流结构中利用全连接层分类器自主学习图像分支和光流分支的权重；

3、损失函数由多阶段的光流特征与图像特征差异，以及分类交叉损失熵加权组合得到。

实施例

本发明在视频数据集HMDB-51和UCF-101 分割1上进行测试。其中HMDB-51是包含51类动作数据，UCF-101是包含101类动作的数据，训练集和测试集的数量如表1所示，测试结果如表2所示。

表1测试数据集详情

表2测试结果详情

相较于现有技术借助传统双流算法提高虚拟现实的评价标准本发明通过改进传统的双流算法提高视频动作识别的准确率。

本发明，RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到。现有技术中，一般通过对VR视频的左右视图求差分视频，一个分支输入差分视频局部的RGB图像区域，另一个分支输入差分视频全局的光流图像帧。

本发明中，分别以不同配置训练RGB分支及光流分支：

a.首先训练光流分支，并固定光流分支权重，得到训练好的光流分支；

b.然后将同一视频通过光流分支得到的中间层特征，即光流特征，通过蒸馏计算的方式，加入RGB分支的中间层特征拼接，得到增加了维度的中间层特征，再按照正常路径训练；

c.通过对加权损失函数进行梯度下降，多轮优化训练参数，得到训练好的RGB分支；

d.通过全连接层整合光流分支和RGB分支得到最后输出。

现有技术一般通过相同的配置训练两个卷积网络分支，并通过简单平均得到最后输出结果。

Claims

1.一种强动态视频的行为识别方法，其特征在于：包括如下步骤，根据数据集上的数据分布特征，将传统双流模型中的光流分支作为教导模型，辅助训练RGB分支；RGB分支输入源视频全局的RGB图像帧，光流分支输入源视频全局的光流图像帧，其中光流图像帧由RGB图像帧通过光流计算得到；然后进行RGB分支和光流分支联合推断，实现视频中行为的识别；

所述光流分支训练包括：

所述损失函数，具体为：