CN113014923A

CN113014923A - 一种基于压缩域表征运动向量的行为识别方法

Info

Publication number: CN113014923A
Application number: CN202110232921.0A
Authority: CN
Inventors: 张冠文; 周铖辉; 周巍
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-22
Anticipated expiration: 2041-03-03
Also published as: CN113014923B

Abstract

本发明提供了一种基于压缩域表征运动向量的行为识别方法，首先，使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列，并在子序列中进行稀疏采样，降低整体的计算复杂度。其次，利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。本发明极大程度降低了整体方法的计算复杂度，有效地提高视频端到端行为识别的实时性；提高了网络模型对视频有效信息的利用，在不增加计算复杂度的前提下有效地提高了行为识别准确率；克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。

Description

一种基于压缩域表征运动向量的行为识别方法

技术领域

本发明涉及深度学习、计算机视觉和视频编码技术领域，尤其是一种人体行为识别方法。

背景技术

视频行为识别已经成为人工智能的活跃领域，并被广泛的应用于人机交互、智慧交通、智慧安防等各个领域。随着智能终端的快速发展，视频已经逐渐取代文字和图片成为人们日常信息的主要获取方式。视频行为识别任务不同于传统的静态图片分类任务在于它包含了丰富的运动信息，然而视频的有效信息密度稀疏，关键信息定位不准确，传统时序特征提取计算复杂度高等问题仍然使得快速有效地识别视频动作具有挑战性。目前，面向视频行为识别的方法中与本发明相关的领域主要有两个：(1)如何利用视频的时序特征；(2)如何实现高效的视频有效信息采样策略；

深度神经网络的快速发展对视频行为识别任务产生了深远的影响。大量研究者们提出了有效的卷积神经网络提取视频内的深度特征用于行为识别任务。Zisserman提出了经典的Two-stream网络结构，文献名“Two-stream convolutional networks for actionrecognition in videos”，通过在空域和时域上分别训练各自的卷积神经网络(convolution neural network,CNN)来提取视频中RGB图像信息和时域运动信息，最后使用加权融合两个网络的分类结果获得最终的识别结果。这些网络结构虽然在识别准确度上达到了优秀的结果，但在利用视频的时序特征上依旧依赖传统的光流特征，这也导致了这些方法无法实现实时性的终端部署。

由于视频内有效信息密度非常稀疏，研究者们对如何高效地提取视频有效信息进行了大量的研究。Shi在文献“Sequential deep trajectory descriptor for actionrecognition with three-stream cnn”中提出了视频序列深度轨迹描述符(sequentialDeep Trajectory Descriptor,sDTD),并将其引入三流(Three Stream)网络中进行视频序列行为识别。Song在文献“Temporalspatial mapping for action recognition”中提出了一种简单但非常有效的时空域映射方法(spatial-temporal mapping,STM)，用于获取视频内图像帧的时域信息辨识度。这些方法都需要在一定时间范围内进行密集采样，从而增加了网络模型的计算复杂度。

发明内容

为了克服现有技术的不足，本发明提供一种基于压缩域表征运动向量的行为识别方法。首先，使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列，并在子序列中进行稀疏采样，降低整体的计算复杂度。其次，利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。

本发明的主要目的在于提出了一种基于压缩域表征运动向量的行为识别方法(Compressed Video Action Recognition using Motion Vector Representation)，使用运动向量替换光流作为视频的时序特征，设计了关键信息序列提取方法，更好地获取视频内有效信息，以进行高效准确地行为识别。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息

和运动向量信息

其中T为总帧数，f_{m_i}表示第i帧图像的运动向量信息，f_{r_i}表示第i帧图像的RGB信息；

步骤2、通过视频运动向量分布特征切分出源视频内运动信息密度最大的3段序列作为视频关键信息序列

其中k表示第k段视频关键信息序列；

步骤3、利用相邻运动向量间的相互依赖性，通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息

其中

是当前采样帧像素点t所代表的位置信息，

是像素点t在当前图像组第一帧参考帧处的相对位置，

表示解耦合后的当前采样帧的运动向量信息；向量表示从终点到起点的位移信息；

步骤4、利用角度投票算法，估算出视频内由于相机移动带来的背景移动运动信息，并通过目标区域的运动补偿减少由于相机移动带来的影响，具体形式如下max hist(U_x，yA(M_x，y))，其中A((M_x，y)表示位于(x,y)位置上的运动向量的方向角，hist(·)表示运动向量方向角的直方图，即选择选择含有最大直方图的角度作为相机运动的估计方向，并对中心目标进行运动补偿；

步骤5、在步骤二所得的视频关键信息序列

中随机采样得到的空域图像帧

经过行为识别基础网络模型ResNet获得相应的特征向量

并通过求V_S平均值得到空域模型最终的特征向量

步骤6、利用通过步骤四后获得的增强运动向量

经过时域行为识别基础网络模型ResNet获得相应的特征向量

并通过求V_T平均值得到时域模型最终的特征向量

步骤7、对空域模型的输出

和时域模型的输出

进行加权求和得到最终的双模态特征向量

所述步骤2具体步骤为：

步骤2.1、利用整段视频每一帧图像的运动向量信息计算第i帧图像的相对运动向量

通过计算相对运动向量减少相机运动对整体运动信息的影响；

步骤2.2、计算前后帧图像的相对运动向量残差

步骤2.3、MV_residual越大表示该区域的运动信息越丰富，将MV_residual小于所设置的阈值的区域作为关键信息区域的划分边界，而前后边界之间的区域为运动信息关键区域，其中阈值为整段视频中运动向量的平均值；

步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界；弱连续运动向量残差评价标准为当MV_residual小于预先设定的阈值的连续图像帧数超过长度阈值L时，代表当前区域的运动状态变化不明显，即有效运动信息密度较低，可将其作为关键信息序列的边界，其中阈值设定为整段视频的平均运动向量强度。

所述步骤2.4中，由于数据集中视频的帧率通常为35帧每秒，通过实验设定L为10最合适，即当MV_residual小于该视频的平均运动向量强度的连续帧数超过10帧时则表明该区域为边界区域。

所述其中步骤4具体包括：

步骤4.1、根据编码单元的划分深度确认图像的背景区域。通常而言，背景区域的划分深度通常而言比运动目标的划分深度更小，通过编码单元的划分深度来确定图像中的背景区域

其中x,y为像素坐标，D表示坐标为(x,y)的划分深度，N为总的编码单元数目；

步骤4.2、通过三角函数来计算运动向量在笛卡尔坐标系中的角度

其中A(M_x，y)表示运动向量的方向角，hist(*)表示运动向量方向角的角度直方图；

步骤4.3、根据M_c确定相机运动角度，将360°平均划分为12份，每份30°，将各个A(M_x，y)划分到各自的角度范围内，划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(M_x，y)；

步骤4.4、由A(M_x，y)和r(M_x，y)确定出每一帧图像所包含的相机运动角度和运动强度；

步骤4.5、确定相机运动角度和运动强度对中心区域在相机运动角度的相反方向进行运动强度的补偿。

所述步骤7中，空域和时域的默认加权值为1：1.5。

本发明的有益效果为：第一，本发明利用运动向量替换光流作为视频时序特征，极大程度降低了整体方法的计算复杂度，有效地提高视频端到端行为识别的实时性；第二，本发明利用运动向量提取关键信息序列，提高了网络模型对视频有效信息的利用，在不增加计算复杂度的前提下有效地提高了行为识别准确率；第三，本发明利用视频编码解耦合方法和相机运动角度估计方法克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。

附图说明

图1是本发明方法处理流程示意图。

图2是本发明的算法模型图。

图3是运动向量和光流信息结构对比示意图。

图4是相机移动所引起的背景移动示意图，图4(a)为相机相对静止的背景移动示意图图4(b)为相机从右往左移动的背景移动示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

图2为本发明的整体模型图。模型以关键信息序列检测，增强运动向量，空域网络，时域网络，多段单一模态特征融合，多模态特征融合六个关键部分组成。其中空域网络和时域网络都是以ResNet50为基础构建的多输入网络模型。算法以三段RGB图像和运动向量图分别作为空域模型和时域模型的输入，随后分别对多段单一模态输出特征向量进行全局平均融合获得单一模态特征向量，最后通过加权融合将两段单一模态特征向量获得最终的多模态特征向量。

该方法包括下列顺序的步骤：

步骤1：获取相应的视频行为识别数据集：下载UCF101和HMDB51数据集，UCF101数据集包括13320个视频、101类动作，有三种不同的训练集测试集划分方法有split、split2和split3，其中split1是最常用的训练接测试集划分方法，UCF101是一个大型多环境人类行为动作视频数据集，所包含的动作视频有着非常大的多样性，包含角度变换，光线变换，物体比例变换，相机运动等。HMDB51数据集包含6849个视频样本，由51个类组成，其中每个类别至少包含101个视频样本。大多数视频样本来自电影，背景混乱和光线变化使识别视频所代表的的行为动作具有非常大的挑战性。

步骤2：基于运动向量提取视频关键信息序列：通过计算每一帧图像的相对运动强度和运动残差，结合弱连续原则，确定关键信息序列边界，从源视频内提取出3段子序列。具体是指：计算整个视频的运动向量信息：MV_i。相对运动强度为

通过求取相对运动向量强度可以在一定程度上降低背景移动带来的影响。为了更好的检测关键信息序列边界，本发明引入了运动残差

考虑到运动向量类似于物理学中的‘速度’，长时间的高速运动并不代表运动状态发生变化，而运动残差相似于‘运动加速度’，可以更好地体现运动状态的变化。考虑到视频内容的持续性，本发明采用了弱连续的评价方法，当运动残差绝对值小于所预先设定的阈值的连续帧数超过某一数量时，代表当前区域的运动状态变化不明显，有效信息密度较低。

步骤3：利用相邻运动向量间的相互依赖性，具体是指通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息，

其中

是当前采样帧像素点t所代表的位置信息，

是像素点t在当前图像组第一帧参考帧处的相对位置，

表示解耦合后的当前采样帧的运动向量信息。

步骤4：利用角度投票算法，估算出视频内由于相机移动带来的背景移动运动信息，相机运动所引起的背景移动如图4所示，通过目标区域的运动补偿来减少由于相机移动带来的影响。具体形式如下max hist(∪_x，yA(M_x，y))，其中A((M_x，y)表示位于(x,y)位置上的运动向量的方向角，hist(·)表示运动向量方向角的直方图，即选择含有最大直方图的角度作为相机运动的估计方向，并对中心目标进行运动补偿。

步骤5：利用在关键信息序列中采样得到的空域图像帧

经过行为识别网络模型获得相应的单一模态多段特征向量

并通过平均求值求得空域模型最终的特征向量

具体计算过程如下公式：

其中，

是指从关键信息序列中提取的样本，

是指卷积神经网络中的卷积操作，而

代表平均池化操作，

指的是Softmax函数。

步骤6：利用在关键信息序列中采样得到的时域图像帧

经过时域行为识别网络模型获得相应的单一模态多段特征向量

并通过平均求值求得时域模型最终的特征向量

特别的是，时间网络模型的输入为在x和y方向上分别选取连续10帧运动向量图像堆叠而成的20通道图像堆。在Resnet50的基础上在第一个卷积层的卷积核沿通道数求平均，并进行复制叠加成20通道数，作为新的第一层卷积层的参数。

步骤7：对空域模型的输出

和时域模型的输出

进行加权求和得到最终的双模态特征向量

空域和时域的默认加权值为1：1.5，可根据实际应用调整融合权重。将双模态特征向量

与标签数据进行损失计算，损失函数为交叉熵损失函数，将损失值进行反向传播，进行多轮的训练优化，获得最终的行为识别网络模型。交叉熵损失函数如下公式：

其中，C是视频样本类别总数，y_i是当前样本的真实标签，p_i是指预测向量中每一类别的预测分数。

实施例

为了验证本发明的有效性，本发明在公开的UCF101数据集和HMDB51数据集上进行试验。UCF101和HMDB51有三种不同的训练集测试集划分方法：split、split2和split3，其中split1是最常用的训练集测试集划分方法。

表1是实验过程中的各个参数设置(以UCF101为例)：

表1是实验过程中的各个参数设置(以UCF101为例)

模型	输入尺寸	初始学习率	Epoch数	训练时长
					空域	224*224	0.001	60	1.5h
时域	224*224	0.001	300	4h

表2是本发明运动向量提取速度和传统光流提取速度的比较：

表2运动向量提取速度和传统光流提取速度的比较

表2是本发明提出的增强运动向量方法在UCF101和HMDB51两种相同分辨率的数据集条件下和光流特征提取速度对比，可以看出本发明在特征提取过程中具有非常大的优势，即使在强计算能力GPU的加持下，在320*240低清晰度的视频中提取光流特征的速度依旧非常缓慢，而运动向量仅仅在CPU条件下就可以实现特征提取速度约为光流的20倍，因此利用运动向量可以充分满足行为识别算法的实时性部署。

表3是本发明和其他经典算法的表现比较：

表3本发明和其他经典算法的表现比较(以UCF101为例)

UCF101	准确度	处理速度(FPS)
			Two-stream	88.0％	14.3
Two-stream+I3D	93.4％	<14
			Ours	92.1％	461.5

经试验对比，相较于现有借助传统时序特征光流的算法，本发明通过改进压缩视频内运动向量表征信息提高视频行为识别的准确率和识别速度，说明了本发明方法的有效性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于压缩域表征运动向量的行为识别方法，其特征在于包括下述步骤：

步骤1、通过视频解码提取压缩视频的RGB原始图像帧信息

和运动向量信息

其中k表示第k段视频关键信息序列；

其中

是当前采样帧像素点t所代表的位置信息，

是像素点t在当前图像组第一帧参考帧处的相对位置，

步骤4、利用角度投票算法，估算出视频内由于相机移动带来的背景移动运动信息，并通过目标区域的运动补偿减少由于相机移动带来的影响，具体形式如下max hist(∪_x，yA(M_x，y))，其中A((M_x，y)表示位于(x，y)位置上的运动向量的方向角，hist(·)表示运动向量方向角的直方图，即选择选择含有最大直方图的角度作为相机运动的估计方向，并对中心目标进行运动补偿；

步骤5、在步骤二所得的视频关键信息序列

中随机采样得到的空域图像帧

经过行为识别基础网络模型ResNet获得相应的特征向量

并通过求V_S平均值得到空域模型最终的特征向量

步骤6、利用通过步骤四后获得的增强运动向量

经过时域行为识别基础网络模型ResNet获得相应的特征向量

并通过求V_T平均值得到时域模型最终的特征向量

步骤7、对空域模型的输出

和时域模型的输出

进行加权求和得到最终的双模态特征向量

2.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法，其特征在于：

所述步骤2具体步骤为：

步骤2.2、计算前后帧图像的相对运动向量残差

步骤2.3、将MV_residual小于所设置的阈值的区域作为关键信息区域的划分边界，而前后边界之间的区域为运动信息关键区域，其中阈值为整段视频中运动向量的平均值；

步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界；弱连续运动向量残差评价标准为当MV_residual小于预先设定的阈值的连续图像帧数超过长度阈值L时，代表当前区域的运动状态变化不明显，即有效运动信息密度较低，将其作为关键信息序列的边界，其中阈值设定为整段视频的平均运动向量强度。

3.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法，其特征在于：

所述步骤2.4中，阈值L为整段视频的平均运动向量强度，L取值为10。

4.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法，其特征在于：

所述其中步骤4具体步骤为：

步骤4.1、根据编码单元的划分深度确认图像的背景区域；通过编码单元的划分深度来确定图像中的背景区域

其中x，y为像素坐标，D表示坐标为(x，y)的划分深度，N为总的编码单元数目；

5.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法，其特征在于：

所述步骤7中，空域和时域的默认加权值为1∶1.5。