CN110097000A

CN110097000A - 基于局部特征聚合描述符和时序关系网络的视频行为识别方法

Info

Publication number: CN110097000A
Application number: CN201910357466.XA
Authority: CN
Inventors: 李春国; 常颖; 徐煜耀; 赵清玄; 徐琴珍; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-06

Abstract

本发明基于局部特征聚合描述符和时序关系网络的视频行为识别方法包括如下步骤：（1）视频采样获得多尺度有序视频帧序列；（2）使用卷积神经网络提取图片特征；（3）将得到的特征映射输入到VLAD层，将特征融合；（4）使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值；（5）融合多个尺度的时序关系，得到视频行为识别结果；（6）在UCF101和something‑something数据集上对网络进行训练和测试，优化网络参数。本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法，在网络结构中加入局部特征聚合（VLAD）层将卷积层提取的特征映射进行融合来学习时序关系，并通过融合多尺度的时序关系来判别视频中人体动作的类别。

Description

基于局部特征聚合描述符和时序关系网络的视频行为识别方法

技术领域

本发明涉及属于计算机视觉与人工智能、多媒体信号处理领域，特别是涉及基于局部特征聚合描述符和时序关系网络的视频行为识别方法。

背景技术

人类作为社会活动的主体，人类活动也成为视频数据中的主要有效信息，因此对视频中人体行为的分析识别，是视频内容分析的重要组成部分。视频行为识别是从给定的未知的视频或者图像序列中自动分析其中正在进行的行为。该技术由于其巨大的应用前景和潜在的经济价值备受学业界以及工业界的关注，可以满足智能视频监控、医疗视频监护，视频内容检索与分析以及人机交互和虚拟现实等领域的自动分析和智能化需求，极大程度地改善人们的生活。

基于计算机视觉的识别方法大多遵循以下的统一处理过程：输入视频，提取特征对行为进行表征，对行为进行分类。基于传统机器学习的行为识别算法，一般先提取底层特征，而提取的特征通常无法直接用于最终的行为分类判别，需要对底层特征进行编码后得到视频的全局描述，最后将得到的全局描述子输入SVM、Adaboost、决策树等分类器得到分类结果。而随着GPU等硬件设施的发展，愈来愈多的学者尝试将深度学习应用于行为识别，通过深度神经网络来学习视频高级特征，并采用Softmax等全连接网络分类层来得到分类结果。

在行为识别领域，基于深度神经网络学习的特征获得了广泛的应用，并取得了良好的行为识别效果，但是这些方法还存在许多问题。从目前的研究情况的一大难点就是更有效的特征编码或融合策略的研究。在非时序特征方面，研究包括如何更有效的对多种特征编码/融合这些特征来获得更好的结果，而在时序特征方面，由于由于视频很重要的一个特性就是其时序信息，一些动作看单帧的图像是无法判断的，只能通过时序上的变化判断，所以需要研究如何将时序上的特征进行编码或者融合，获得对于视频整体的描述。

针对以上的难点，本发明提供了基于局部特征聚合描述符和时序关系网络的视频行为识别方法，通过将传统的局部特征聚合描述符用神经网络进行训练并扩展时间维特征来融合时空特征，学习帧间时序关系，最后通过融合多尺度时序关系获得行为识别结果。

发明内容

为了有效地将时序上的特征进行编码或者融合，获得对于视频整体的描述，本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法，在网络结构中加入局部特征聚合(VLAD)层将卷积层提取的特征映射进行融合来学习时序关系，并通过融合多尺度的时序关系来判别视频中人体动作的类别，为达此目的，本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法，方法包括如下步骤：

(1)视频采样获得多尺度有序视频帧序列；

(2)使用卷积神经网络提取图片特征；

(3)将得到的特征映射输入到VLAD层，将特征融合；

(4)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值；

(5)融合多个尺度的时序关系；

(6)在UCF101和something-something数据集上进行网络的训练与测试。

作为本发明进一步改进，所述步骤(1)中对视频多尺度采样，对于给定的，视频V，将视频均匀分为N段，从每段中分别随机采样得到N帧图像序列，再从N帧图像序列中下采样得到不同长度的图像序列，不同长度的有序帧序列用于学习不同尺度的时序关系。

作为本发明进一步改进，所述步骤(2)中使用BN-Inception网络中的部分层进行图像特征提取，BN层的加入使得网络中任意一层都可以进行归一化处理，经过归一化处理使得新的分布更符合数据的真实分布，保证模型的非线性表达能力。

作为本发明进一步改进，所述步骤(3)中将传统的VLAD算法引入卷积神经网络，首先对局部特征属于聚类的权重采用软分配的方式使得VLAD变为可微的函数，参数可以通过误差逆传播算法反馈学习，再将特征维度增加一维，扩展了时间维特征，在时间和空间上进行特征聚合。在网络中加入VLAD层生成既优于VLAD图像描述子又优于神经网络的原始feature-map层特征向量的描述子，有效减少了神经网络中的参数，降低了计算量。

作为本发明进一步改进，所述步骤(4)中使用一层全连接层和softmax层得到当前输入视频中的动作行为属于数据集中各个类别的概率值：全连接层将权重矩阵与输入特征向量相乘再加上偏置项，将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数，softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率)，同时保证它们之和为1。

作为本发明进一步改进，所述步骤(5)中多个尺度时序关系的融合：在softmax分类前，将每个尺度对应的全连接层得到的向量元素相加，最后再使用softmax层进行分类预测。

作为本发明进一步改进，所述步骤(6)中在UCF101和something-something数据集上的训练和测试，训练中使用Adam优化器，优化器中参数ε＝10^-4。整个训练过程分为两步，首先，初始化并固定VLAD的聚类中心，只训练步骤3中的全连接层和softmax层，学习率设为0.01。第二步，同时微调分类层参数和VLAD层聚类中心，学习率设为10^-4。

本申请基于局部特征聚合描述符和时序关系网络的视频行为识别方法，有益效果如下；

本发明使用局部特征聚合(VLAD)层代替部分全连接层进行时空特征的聚合，在保留经典VLAD算法优点的同时又可以利用神经网络可以反馈学习参数的优点，从而生成既优于VLAD图像描述子又优于神经网络的原始feature-map层特征向量的描述子并有效减少了神经网络中的参数，降低了计算量。同时，本发明通过融合不同长度有序视频帧序列的特征来学习不同尺度的时序关系，并通过融合多个尺度的时序关系为最终的预测结果增加可靠性。本发明基于局部特征聚合描述子和多尺度时序关系网络，有效地提高了视频中人体行为分类的准确度，在UCF101以及something-something等公开数据集上的测试结果也验证了本发明的应用价值。

附图说明

图1为本发明部分行为视频尺度为4的采样图片示意图；

图2为本发明所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法网络结构示意图；

图3为本发明中采用的VLAD聚合方法示意图；

图4为本发明中分类层网络示意图；

图5为本发明在视频行为识别公开数据集UCF101和something-something上测试结果。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法，在网络结构中加入局部特征聚合(VLAD)层将卷积层提取的特征映射进行融合来学习时序关系，并通过融合多尺度的时序关系来判别视频中人体动作的类别。

技术方案：基于局部特征聚合描述符和时序关系网络的视频行为识别方法流程如附录图1所示，网络结构如附录图2所示，包括如下步骤：

1)视频采样获得多尺度图片序列：

步骤1.1：给定视频V，将视频均匀分为N段，从每段中分别随机采样得到N帧图像序列，得到的长度为N的图像序列被用于学习N帧之间(即尺度为N)的时序关系T_N{V}；

步骤1.2：从步骤1.1采样得到的N帧图像序列中下采样得到k个不同长度的图像序列，用于学习不同尺度的帧间时序关系；

2)将不同尺度的图片序列输入到对应的时序关系网络，使用卷积神经网络提取图片特征，具体实现为：以尺度为d的时序关系推理网络为例，将d帧图片分别输入卷积神经网络中，每帧图片得到96个大小为28×28的特征映射图，此处卷积神经网络使用的是BN-Inception网络中的一部分。

3)将步骤2中得到的d个图片的96个特征映射输入到VLAD层，将特征融合，具体融合方法如下:

对于单帧图像的特征融合，给定N个D维图像描述子x_i作为输入，K个聚类中心c_k作为VLAD的参数，VLAD的输出是一个K×D维的图像描述向量，该矩阵被转换为向量表示，并进行归一化，计算公式如下：

其中，x_i(j)和c_k(j)是第i个局部描述子和第k个聚类中心的第j个特征值，a_k(x_i)为第i个局部特征属于第k个聚类的权重，a_k(x_i)是一个不连续的值，取值为1或0，并且满足直观上看，V表征着所有局部特征在每一个聚类簇上的残差和。

而如果要把VLAD加入到卷积神经网络中，那么VLAD必须写成可微的函数，于是采用对a_k(x_i)做软分配的方式得到近似的结果，公式如下：

这个权重的分配可以把它当作一个模糊聚类的分配方式，根据每个局部特征到聚类中心的距离来生成一个概率函数权重。对于一个局部特征描述x_i在每个聚类簇下的权重的范围在0～1之间，权重最高的可以理解为该特征离聚类簇中心的聚类最近，权重低说明其离簇中心较远。可以注意到，当α→+∞时，这个式子就表示着原始的VLAD结构。进一步地，可以将上式的平方展开，得到最终的VLAD特征向量为：

其中，w_k＝2αc_k，b_k＝-α||c_k||²。

为了融合d帧图像的卷积特征图，需要将特征维度增加一维，在时间和空间上进行特征聚合，对上式做出如下改进：

其中，T＝d，N＝96，c_k参数均可以通过训练来学习得到，更加灵活地聚合时空特征。

4)由步骤3中的聚合特征计算得到尺度为d的时序关系网络对于当前输入视频中的动作行为属于数据集中各个类别的概率值，计算方法为使用全连接层对特征做加权和，将学到的分布式特征表示映射到样本标记空间，最后通过softmax层进行类别预测，将预测结果映射到(0,1)之间。网络结构示意图如附图4所示，全连接层将权重矩阵与输入特征向量相乘再加上偏置项，将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数；softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率)，同时保证它们之和为1。具体如下：

其中，x为全连接层的输入，W_n×m为权重因子，b为偏置项，为softmax输出的概率，softmax的计算方式如下：

5)通过步骤2、3、4，不同尺度的的时序关系T_d{V}可以被学习得到，通过以下方式融合多个尺度的时序关系：

MT_N(V)＝T₂(V)+T₃(V)+…+T_N(V)

通过简单的相加融合得到最终的分类结果，具体实现方式为：将每个尺度对应的全连接层得到的向量元素相加，最后再使用softmax层进行分类预测。

6)将基于局部特征聚合描述符和时序关系网络的视频行为识别方法在数据集上进行训练和测试，在UCF101和something-something数据集上的准确率结果如附录图5所示，训练过程中，取聚类数K＝64，α＝1000.0，由于特征维数过大，在全连接层中更实用dropout＝0.5,来避免过拟合。由于VLAD层使用了L2归一化并且为了模型快速收敛，训练中使用Adam优化器，优化器中参数ε＝10^-4。整个训练过程分为两步，首先，初始化并固定VLAD的聚类中心，只训练步骤3中的全连接层和softmax层，学习率设为0.01。第二步，同时微调分类层参数和VLAD层聚类中心，学习率设为10^-4。

下面以公开数据集UCF101和something-something为例，结合附图对本发明基于局部特征聚合描述符和时序关系网络的视频行为识别方法的具体实施方式作进一步详细说明。

步骤1：视频采样获得多尺度图片序列：

步骤1.1：给定视频V，将视频均匀分为8段，从每段中分别随机采样一帧，得到的长度为8的图像序列；

步骤1.2：从步骤1.1采样得到的8帧图像序列中下采样得到长度为2,3,…,7的图像序列，用于学习不同尺度的帧间时序关系；

步骤2：将不同尺度的图片序列输入到对应的时序关系网络，使用卷积神经网络提取图片特征，具体实现为：以尺度为d的时序关系推理网络为例，将d帧图片分别输入卷积神经网络中，每帧图片得到96个大小为28×28的特征映射图，此处卷积神经网络使用的是BN-Inception网络中的一部分。

步骤3：将步骤2中得到的d个图片的96个特征映射输入到VLAD层，将特征融合，具体VLAD融合方法如下:

这个权重的分配可以把它当作一个模糊聚类的分配方式，根据每个局部特征到聚类中心的距离来生成一个概率函数权重。对于一个局部特征描述x_i在每个聚类簇下的权重的范围在0～1之间，权重最高的可以理解为该特征离聚类簇中心的聚类最近，权重低说明其离簇中心较远。可以注意到，当α→+∞时，这个式子就表示着原始的VLAD结构。

而为了融合d帧图像的卷积特征图，需要将特征维度增加一维，在时间和空间上进行特征聚合，所以得到最终融合时空特征的VLAD向量为：

步骤4：由步骤3中的聚合特征计算得到尺度为d的时序关系网络对于当前输入视频中的动作行为属于数据集中各个类别的概率值，计算方法为使用全连接层对特征做加权和，将学到的分布式特征表示映射到样本标记空间，最后通过softmax层进行类别预测，将预测结果映射到(0,1)之间。

步骤5：通过步骤2、3、4，不同尺度的的时序关系T_d{V}可以被学习得到，通过以下方式融合多个尺度的时序关系：

MT_N(V)＝T₂(V)+T₃(V)+…+T_N(V)

具体实现方式为：将每个尺度对应的全连接层得到的向量元素相加，最后再使用softmax层进行分类预测。

步骤6：将基于局部特征聚合描述符和时序关系网络的视频行为识别方法在数据集上进行训练和测试，训练过程中，取聚类数K＝64，α＝1000.0，由于特征维数过大，在全连接层中使用dropout＝0.5,来避免过拟合。由于VLAD层使用了L2归一化并且为了模型快速收敛，训练中使用Adam优化器，优化器中参数ε＝10^-4。整个训练过程分为两步，首先，初始化并固定VLAD的聚类中心，只训练步骤3中的全连接层和softmax层，学习率设为0.01。第二步，同时微调分类层参数和VLAD层聚类中心，学习率设为10^-4。

本发明所建立模型的实验平台如下：centos 7系统，配置E5处理器，一块NVIDIATesla P100显卡。本发明中模型训练的超参数为：

至此完成了基于局部特征聚合描述符和时序关系网络的视频行为识别方法的训练和推理流程。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：方法包括如下步骤：

(1)视频采样获得多尺度有序视频帧序列；

(2)使用卷积神经网络提取图片特征；

(3)将得到的特征映射输入到VLAD层，将特征融合；

(5)融合多个尺度的时序关系；

(6)在UCF101和something-something数据集上进行网络的训练与测试。

2.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(1)中对视频多尺度采样，对于给定的，视频V，将视频均匀分为N段，从每段中分别随机采样得到N帧图像序列，再从N帧图像序列中下采样得到不同长度的图像序列，不同长度的有序帧序列用于学习不同尺度的时序关系。

3.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(2)中使用BN-Inception网络中的部分层进行图像特征提取。

4.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(3)中将传统的VLAD算法引入卷积神经网络，首先对局部特征属于聚类的权重采用软分配的方式使得VLAD变为可微的函数，参数可以通过误差逆传播算法反馈学习，再将特征维度增加一维，扩展了时间维特征，在时间和空间上进行特征聚合。

5.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(4)中使用一层全连接层和softmax层得到当前输入视频中的动作行为属于数据集中各个类别的概率值：全连接层将权重矩阵与输入特征向量相乘再加上偏置项，将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数，softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率)，同时保证它们之和为1。

6.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(5)中多个尺度时序关系的融合：在softmax分类前，将每个尺度对应的全连接层得到的向量元素相加，最后再使用softmax层进行分类预测。

7.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法，其特征在于：所述步骤(6)中在UCF101和something-something数据集上的训练和测试，训练中使用Adam优化器，优化器中参数ε＝10^-4。整个训练过程分为两步，首先，初始化并固定VLAD的聚类中心，只训练全连接层和softmax层，学习率设为0.01。第二步，同时微调分类层参数和VLAD层聚类中心，学习率设为10^-4。