CN112446348A

CN112446348A - 一种基于特征谱流的行为识别方法

Info

Publication number: CN112446348A
Application number: CN202011443338.6A
Authority: CN
Inventors: 李宏亮; 钟子涵; 李泊琦; 戚耀
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-05
Anticipated expiration: 2040-12-08
Also published as: CN112446348B

Abstract

本发明针对目前双流网络由于时序分支中光流计算开销的限制，训练时间过长的问题，以及，由于多光源、阴影、遮挡等原因，计算出来的光流场并不一定是可靠；时空域特征建模完全分离，在网络最后的融合可能不充分的问题，提供一种基于特征谱流的行为识别方法，使用特征谱流替代光流作为时间3D卷积网络的输入。对行为视频流进行1x1卷积生成每帧的特征谱，再依次对各帧的特征谱进行3x3卷积，依次将相邻两帧中前一帧特征谱3x3卷积结果与后一帧特征谱在像素维度上相减，根据相减结果生成特征谱流中的一个谱。特征谱流具有更强的鲁棒性，使得本发明在显著减小存储和计算开销的情况下取得更佳的识别效果。

Description

一种基于特征谱流的行为识别方法

技术领域

本发明涉及深度学习技术，特别涉及基于特征谱流的行为识别技术。

背景技术

随着社会的进步，人们对智能生活的需求逐日增长。Google眼镜、大疆相机的出现，使得可穿戴设备成为人们拍摄视频的日常用品，视频流在许多应用场景中变得流行，例如公务执勤、日常记录、运动拍摄。这些大量的视频数据有着宽阔的应用前景以及不可估量的经济与社会价值，可被应用于各种不同的研究领域。行为识别作为计算机视觉研究中的一个热点，是视频流应用中一种重要的研究方法，不仅可以帮助判断操作者的行为类别，还可以基于识别结果进行视频检索，具有挑战性。

目前，基于深度学习的行为识别模型已经应用到了各大领域，而双流网络是目前采用深度学习方法进行行为识别的一个重要分支。

双流卷积神经网络可以看作对人体视觉过程的模仿，对视频信息进行理解。在处理视频帧图像中环境空间信息的基础上，对视频帧序列中的时序信息进行提取。为了更好地实现这一点，双流卷积神经网络将视频分类任务分为两个不同的部分，第一部分是单独的视频单帧作为表述空间信息的载体，输入卷积神经网络中，其中包含环境、视频中的物体等空间信息，称为空域识别网络；第二部分是将光流信息作为时序信息的载体，输入到另外一个卷积神经网络中，用来理解动作的动态特征，称为时域识别网络。为了融合时空特征，获得更好的特征表达结果，将单帧RGB图像以及叠加后的光流图像作为网络输入，利用卷积神经网络对数据样本进行特征提取，再在网络最后进行特征融合。

在目前的双流网络中，时域识别网络流主要采用的是连续视频帧的光流位移场，光流信息可以有几种变体选择。相较于单一的RGB视频流，光流可以提供额外的时域信息，作为帧间运动信息的补充，有助于行为识别性能的提高，因此光流在行为识别中具有广泛的应用。然而基于光流的双流网络方法也存在存储和计算开销大，时空信息建模分离等问题。

发明内容

本发明所要解决的技术问题是，针对目前双流网络由于时序分支中光流计算开销的限制，训练时间过长的问题，以及，由于多光源、阴影、遮挡等原因，计算出来的光流场并不一定是可靠；时空域特征建模完全分离，在网络最后的融合可能不充分的问题，提供一种提升双流网络的计算效率以及识别的可靠性的行为识别方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于特征谱流的行为识别方法，包括以下步骤：

步骤1：对输入的行为视频流同时进行步骤2和步骤3的处理；

步骤2：对行为视频流进行1x1卷积生成每帧的特征谱，再依次对各帧的特征谱进行3x3卷积，依次将相邻两帧中前一帧特征谱3x3卷积结果与后一帧特征谱在像素维度上相减，根据相减结果生成特征谱流中的一个谱，进入步骤4；

步骤3：将行为视频流中每一帧作为空域信息来源，送入空间2D卷积网络，进入步骤5；

步骤4：将特征谱流作为时域信息来源，送入时间3D卷积网络，进入步骤5；

步骤5：将时间3D卷积网络输出的时域特征和空间2D卷积网络输出的空域特征通过拼接的方式进行融合，得到融合特征；

步骤6：基于融合特征进行行为识别。

本发明的有益效果是，使用特征谱流替代光流作为时间3D卷积网络的输入，特征谱流具有更强的鲁棒性，显著减小存储和计算开销的情况下取得更佳的识别效果。

附图说明

图1为本发明流程图。

图2为特征谱流计算模块示意图。

具体实施方式

实施例主要在TX2嵌入式平台上进行实现，首先构建行为识别视频数据集，目前没有一个较大的包含比较全面的日常行为类别的视频数据集，只有一些短时动作或是身体局部动作，因此首先自行拍摄符合日常行为要求的视频流，随后通过合理的剪辑构建噪声较少的行为视频数据集。

现有的双流网络架构对单帧输入采用7x7、5x5和三个3x3大小的卷积核进行特征提取，随后连接两个全连接层，以堆叠的L2标准化的Softmax函数作为该分支的输出。将连续多个相邻两帧的位移矢量场的集合作为密集光流输入时域识别网络。密集光流可以看作是连续帧t和t+1之间的一组位移矢量场d_t。d_t(u,v)表示帧t中点(u,v)的位移矢量，表示它将点移动到下一帧t+1中的相应点。矢量场的水平分量

和垂直分量

可以看作图像通道。为了表示一系列帧的运动，将L个连续帧的流通道

叠加在一起，形成总共2L个输入通道。

网络输入光流堆叠特征的计算方式为：

式中第一个参数u和第二个参数v为像素点的坐标，第三个参数为输入光流特征的通道数，其中2k-1表示输入光流特征的第2k-1个通道(水平分量)，2k表示输入光流特征的第2k个通道(垂直分量)，I_τ(u,v,2k-1)表示输入的第2k-1个通道，坐标为(u,v)的像素点的光流特征。

除了光流堆叠，部分网络中也会使用轨迹堆叠作为输入特征，其位移矢量描述公式是：

其中p_k是轨迹上的第k个点，从第τ帧的(u,v)开始，由以下递归关系定义：

p₁＝(u,v)，p_k＝p_k-1+d_τ+k-2(p_k-1)，k>1

基于特征谱流的双流行为识别网络在训练时包括特征谱流计算模块、2D卷积网络、深度分离的3D卷积网络、Concat层、FC层、SoftmaxLoss模块；在测试时包括特征谱流计算模块、2D卷积网络、深度分离的3D卷积网络、Concat层、FC层、Softmax模块。

由于双流网络光流分支存在存储和计算开销大，时空信息建模分离等问题，本发明的行为识别采用特征谱流作为时域特征提取来源。如图1所示，主要包括步骤：单帧图像输入2D卷积神经网络获得行为视频流中的空间特征谱。视频流通过特征谱流计算模块获得特征谱流，将特征谱流输入3D卷积神经网络获得行为视频流中的时空特征谱，其中3D卷积神经网络的输出通道数与2D卷积神经网络的宽高尺寸匹配，采用拼接的方式将同尺寸的空间特征谱和时空特征谱进行融合，将融合后的特征谱作为后续行为识别的依据，得到分类结果。

特征谱流计算模块的具体步骤如图2所示：

第1步：对输入视频流进行1x1的卷积，得到特征谱T0,T1,……；

第2步：将特征谱T₁的3x3卷积结果并与特征谱T0在像素级别相减，通过ReLU层进行激活操作，得到特征谱流中的一个谱T’₀＝[(Conv3*3)*T₁]-T₀；第3步：对T₂，T₃，……，T_n依次进行第2步中的操作，得到完整的特征谱流，T’n＝[(Conv3*3)*T_n+1]-T_n。可以看出相比于光流计算模块，特征谱流计算模块的计算量大大降低。

在基于特征谱流的双流网络结构中，2D卷积神经网络可以采用常见的ResNet，VGG等网络，也可以单纯使用3～5个卷积层；3D卷积神经网络可以采用ResNet-3D，Inception等形式，也可以使用3～5个卷积层，同时利用深度分离卷积的方法，降低所需计算量，提高计算效率。

基于特征谱流的双流网络结构来实现行为识别的步骤包括：

1)训练步骤：

1-1)输入单帧样本经过五个卷积层的2D ConvNet得到空间特征谱，样本标签输入至损失层Loss；

1-2)输入连续帧样本，通过特征谱流计算模块得到特征谱流，经过深度分离的3DConvNet卷积层得到时空特征谱，样本标签同样输入至损失层Loss；

1-3)将步骤1-1)与步骤1-2)两个分支进行拼接融合，整体训练的损失计算为各分支损失之和，通过反向传播更新网络参数，完成时域识别网络3DConvNet与空域识别网络2DConvNet的训练。

2)测试步骤：

2-1)对一个视频均匀地采样48帧，选取中间帧作为单帧，对所有帧进行缩放和裁剪，使其尺寸和网络输入匹配；

2-2)将单帧输入空域识别网络得到空间特征谱，将48帧输入时域识别网络；在特征谱流的基础上得到时空特征谱，将空间特征谱与时空特征谱融合后输入Softmax层，对每个分支Softmax层的分数求平均来获得整个行为视频的类别分数。

在网络配置和训练细节方面，所有的激活函数用的都是ReLU，最大池化所用池化核的大小为3x3，步长为2。使用动量梯度下降法，参数为0.9，每次迭代对4个训练视频进行均匀采样48帧来构建样本，从每个样本中选取中间帧作为单帧输入，48帧作为视频流输入。对于单帧，先缩放成256x256大小，再随机裁剪224x224的子图像，施加随机水平移动和RGB抖动。对于视频，同样经过缩放和裁剪，输入是固定尺寸的224x224x48的一系列图片。网络的初始学习率设置为0.01，使用固定衰减的策略。

Claims

1.一种基于特征谱流的行为识别方法，其特征在于，包括以下步骤：

步骤1：对输入的行为视频流同时进行步骤2和步骤3的处理；

步骤6：基于融合特征进行行为识别。