CN110378194A

CN110378194A - 基于精细空间网络的人体动作识别方法

Info

Publication number: CN110378194A
Application number: CN201910386926.1A
Authority: CN
Inventors: 吴春雷; 曹海文; 王雷全; 魏燚伟; 张卫山
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-10-25

Abstract

本发明公开了基于精细空间网络的人体动作识别方法，它属于基于视频的人体动作识别技术领域，解决了传统的动作识别方法存在局部细节空间信息丢失的问题。本发明由空间网络和堆叠空间网络构成，以多个视频帧作为输入，空间网络选用BN‑Inception网络结构提取高级语义标签信息进行动作识别。堆叠空间网络以端到端的方式融合多层特征，选用BN‑Inception网络结构作为编码器，在高级语义标签的监督下提取多层次、高分辨率的空间特征，选用反卷积层和残差连接层作为解码层提取局部细节空间特征，并通过堆叠空间融合层进行聚合产生局部细节空间特征信息和多层次、高分辨率的空间特征进行动作识别。最后将两个空间网络得到的分数进行融合，产生最终的动作识别准确率。

Description

基于精细空间网络的人体动作识别方法

技术领域

本发明涉及计算机视觉领域的大数据处理与分析技术，特别是涉及到基于深度学习的基于视频的人体动作识别方法，属于动作识别领域。

背景技术

基于视频的人体动作识别是在一段视频中对动作发起者的动作进行分类。此类研究在计算机视觉领域引起极大的关注，并成为该领域的研究热点之一。它在人机交互、运动分析和人物追踪等领域有广泛的应用，例如对重大事故的预警及监控，实现机器和人进行智能化的互动等。除了相关应用之外，动作识别技术对计算机视觉领域和动作检测技术的发展起到了巨大的推动作用。不同于单一图像分类技术，动作识别不仅需要考虑到视频帧的外观背景，还要顾及到动作时序等细节信息。

现有基于视频的人体动作识别方法主要分为两大方向，分别是：基于2D卷积网络的双流模型的方法和基于3D卷积网络的动作识别模型的方法。基于2D卷积网络的双流模型的方法以不同模态(RGB、Optical Flow)作为输入，分别以空间网络和时间网络计算静态和动态信息，通过相关融合技术来提高识别的准确率。但是传统的双流模型没有考虑到时序问题，很难判别相似动作。基于3D卷积网络的动作识别模型的方法是通过对连续帧进行三维卷积等操作，从而提取时空高级语义信息。

近年来，基于视频的人体动作识别技术在计算机视觉领域的研究进展中主要集中在视频静态和动态信息的提取与融合，由于卷积神经网络在图像分类领域取得的巨大成功，自然的将卷积神经网络应用于动作识别的空间特征提取。然后，仅仅捕捉复杂的动作静态信息是不够的。光流作为互补，作为时间网络的输入去捕捉动作的动态信息。空间网络和时间网络的结合从而形成了基于2D卷积网络的双流模型，它以不同模态(RGB和OpticalFlow)作为输入，分别以空间网络和时间网络计算静态和动态信息，通过相关融合技术来提高识别的准确率。但是光流的计算量庞大，并且传统的双流模型没有考虑到时序问题，导致很难判别相似动作。基于3D卷积网络的动作识别模型的方法是通过对连续帧进行三维卷积等操作，从而提取时空高级语义信息，因此可以捕捉视频中的运动信息，但是动作识别的准确率较低。这两种主流方法同样的存在只利用单层特征信息进行动作识别，往往忽视了卷积等操作时局部细节空间信息的丢失。

发明内容

本发明的目的是为解决传统的动作识别方法存在局部空间动作信息丢失而导致动作识别准确率低的问题。

本发明为解决上述技术问题采取的技术方案是：

S1.将原始视频V平均分为T段S₁,S₂,…,S_T(T为经验值T＝3)，从每个子段中随机采样一帧作为精细空间网络的输入，所述原始视频为原始视频训练样本或待识别原始视频。

S2.构建空间网络和堆叠空间网络组成精细空间网络。

S3.将步骤S1中采集的图片输入至精细空间网络中对精细空间网络进行训练，使得损失函数最小。

S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试，再进行组间融合，最后完成基于视频的人体动作识别。

具体地，构建精细空间网络包括以下步骤：

(1)在构建空间网络中，选用BN-Inception作为基础的网络结构，每个网络输入一张图片，并行T个网络模型最后进行组间的识别分数融合，融合方法为平均求值。

(2)在构建堆叠空间网络中，选用BN-Inception作为编码器的基础网络结构，为了学习动作的局部细节空间信息，利用三层反卷积层和三层残差连接层作为解码器的基础网络结构，并使用堆叠空间融合层将多层特征进行聚合，最后利用堆叠空间融合层输出的特征进行动作识别。与空间网络相同，堆叠空间网络也是并行T个网络模型最后进行组内的识别得分融合。

(3)将构建完成的空间网络和堆叠空间网络组合成精细空间网络。

其中，所述的堆叠空间融合层利用融合函数H(Q_f＝H(f₁,f₂,…,f_L))聚集多层特征获得动作的局部细节空间特征Q_f，其融合函数包括：

(1)加权平均融合函数：

(2)最大化融合函数：

Q_f＝MAX(f₁,f₂,…,f_L) (2)

(3)级联融合函数：

Q_f＝Concat(f₁,f₂,…,f_L) (3)

其中，F_L∈f_e5,f_d1,f_d2,f_d3,L＝1,2,…,4，其中的f_e5，f_d1，f_d2和f_d3分别是堆叠空间网络中编码器最后一个卷积层(e₅层)以及解码器的前三层网络层(d₁、d₂和d₃层)输出的特征图，W_L是加权平均融合函数的中的超参。

具体的,在堆叠空间网络中视频预测函数为：

Y_F＝G(g(F₁；W),g(F₂；w),…,g(F_T；w)) (4)

其中F＝{Q_f,f_e5,f_d1,f_d2,f_d3}，F_T对应原始视频中每个片段S_T取样帧作为堆叠空间网络的输入而得到的最后的特征表示。预测函数g预测输入帧的所有类别分数，这里使用Softmax函数应用于g，G函数是平均操作，w是预测函数中的超参。

具体的说，堆叠空间网络利用端到端的训练方式优化卷积神经网络中的参数来获得高级语义特征Q_f，其损失函数为：

其中，j,c＝1,…,n，n是动作类别个数，i＝1,…,m，m是上述提到的预测层的个数。同时采用了随机梯度下降优化算法对模型参数进行学习，在反向传播过程中，网络参数w的联合优化可推导为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明采用了时间片段网络，利用稀疏采样作为并行网络的输入，从而获得时间维度信息，使动作识别精度大幅度提高。

(2)本发明仅利用图片作为输入，避免了计算光流，节省大量计算时间，使得动作识别的效率更高，更容易在移动硬件平台上部署和实施。

(3)本发明首次提出堆叠空间网络，并利用编码器和解码器以及堆叠空间融合层融合多层特征进行动作识别，在高级语义特征的基础上提取了局部细节空间特征，解决了传统动作识别方法中动作细节丢失问题。

(4)本发明将传统的空间网络和堆叠空间网络进一步的融合，保证了高级语义特征以及局部细节空间特征都得以利用，达到了互补作用，进一步的提高了动作识别的准确性。

附图说明

图1为本发明实施例使用的精细空间网络结构示意图；

图2为本发明实施例使用的空间网络结构示意图；

图3为本发明实施例使用的堆叠空间网络结构示意图；

图4为本发明实施例提供的堆叠空间网络结构方法与时间分割网络中的空间网络在 UCF101数据集上可视化指定层可视化特征图的对比图；

图5为本发明实施提供的精细空间网络和时间分割网络中的空间网络在UCF101数据集上不同的四个类别的图片的前五个预测分数的比较图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

一下结合附图和实施例对本发明做进一步的阐述。

图1为本发明实施例使用的精细空间网络结构示意图。如图1所示，该方法包括以下步骤：

S1.将原始视频V平均分为T段S₁,S₂,…,S_T(T为经验值T＝3)，从每个子段中随机采样一帧作为空间网络和堆叠空间网络的输入，所述原始视频为原始视频训练样本或待识别原始视频。

S2.构建空间网络和堆叠空间网络组成精细空间网络。

S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试，再进行组间融合入，最后完成基于视频的人体动作识别，融合方法为平均求值。

本发明的原始视频为UCF101数据集，它包括13320段视频，101个动作类，总时长约为 27个小时。

图2为本发明实施例使用的空间网络结构示意图。如图2所示，本发明中的空间网络与传统的时间分割网络中的空间网络相同并且训练方式一致，它选用BN-Inception作为基础的网络结构，每个网络结构输入一张图片，并行T个网络模型最后进行组间的识别分数融合。

图3为本发明实施例使用的堆叠空间网络结构示意图。如图3所示，在构建堆叠空间网络中，选用BN-Inception作为编码器的基础网络结构，为了学习动作的局部细节空间信息，利用三层反卷积层和三层残差连接层作为解码器的基础网络结构，并使用堆叠空间融合层将多层特征进行聚合，最后利用堆叠空间融合层输出的特征进行动作识别。与空间网络相同，堆叠空间网络也是并行T个网络模型最后进行组内的识别得分融合。其训练细节包括以下部分：

所述的堆叠空间融合层利用融合函数H(Q_f＝H(f₁,f₂,…,f_L))聚集多层特征获得动作的局部细节空间特征Q_f，其融合函数包括：

(1)加权平均融合函数：

(2)最大化融合入函数：

Q_f＝MAX(f₁,f₂,…,f_L) (2)

(3)级联融合函数：

Q_f＝Concat(f₁,f₂,…,f_L) (3)

具体的,在堆叠空间网络中视频预测函数为：

Y_F＝G(g(F₁；W),g(F₂；w),…,g(F_T；w)) (4)

图4为本发明实施例提供的堆叠空间网络结构方法与时间分割网络中的空间网络在 UCF101数据集上可视化指定层可视化特征图的对比图。如图4所示，分别可视化时间分割网络的空间网络和本发明提供的堆叠空间网络中指定层的特征图，与时间分割网络中的空间网络相比，堆叠空间网络中的特征映射对目标边缘、动作细节以及运动区域非常敏感，并且具有较强的鲁棒性和准确性。

图5为本发明实施提供的精细空间网络和时间分割网络中的空间网络在UCF101数据集上不同的四个类别的图片的前五个预测分数的比较图。如图5所示，黄色条框表示真实标签，并且整个长度代表了100％的准确度，绿色条框代表对视频的正确预测的分数，橘色的条框代表错误预测分数。这表明了本发明提出的精细空间网络在视频表达方面优于传统的空间网络，并且精细空间网络包含了丰富的高级语义信息和局部细节空间信息。

实验结果如下表所示：

在这项工作中，本发明提出了一种新的方法来完成基于视频的动作识别，在不同的现有方法中表现出较好的效果。与之前的方法不同，本发明第一次提出了利用编码器-解码器用于动作识别，并第一次提出了堆叠空间融合层融合多层特征进行动作识别，在获得高级语义信息的基础上提取局部细节空间信息，但又没有完全摒弃传统方法，结合了传统的空间网络与堆叠空间网络组成精细空间网络，同时实现了高级语义信息和局部细节空间在动作识别上的应用，使得动作识别精度大幅度提高。

最后，本发明的上述实施例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于精细空间网络的人体动作识别方法，其特征在于，所述方法包括以下步骤：

S2.构建空间网络和堆叠空间网络组成精细空间网络。

S4.将测试样本中的图片输入到上述已训练完成的精细空间网络中进行测试，再进行组间融合入，最后完成基于视频的人体动作识别。

2.根据权利要求1所述的基于精细空间网络的人体动作识别方法，其特征在于，所述S1的具体过程为：

将UCF101数据集作为待识别的视频序列，在训练集中将每个视频段平均分为T部分，并从每个部分中随机选择一帧图片作为网络的输入。

3.根据权利要求1所述的基于精细空间网络的人体动作识别方法，其特征在于，所述S2中构建精细空间网络的具体过程为：

4.根据权利要求1所述的基于精细空间网络的人体动作识别方法，其特征在于，所述S3中训练空间网络和堆叠空间网络的具体过程为：

迁移在ImageNet数据集上预训练好的BN-Inception基础网络结构模型的全连接层前所有层的参数至S2构建的空间网络和堆叠空间网络，且空间网络与传统的时间分割网络中的空间网络的训练方式相同。

堆叠空间网络的训练方式如下：

堆叠空间融合层利用融合函数H(Q_f＝H(f₁,f₂,…,f_L))聚集多层特征获得动作的局部细节空间特征Q_f，其融合函数包括：

(1)加权平均融合函数：

(2)最大化融合函数：

Q_f＝MAX(f₁,f₂,…,f_L) (2)

(3)级联融合函数：

Q_f＝Concat(f₁,f₂,…,f_L) (3)

具体的,在堆叠空间网络中视频预测函数为：

Y_F＝G(g(F₁；W),g(F₂；w),…,g(F_T；w)) (4)

5.根据权利要求1所述的基于精细空间网络的人体动作识别方法，其特征在于，所述S4中测试训练完成的精细空间网络，每个视频采用一张图片作为模型的输入来预测动作识别的分数，最后取空间网络和堆叠空间网络得出的分数平均作为精细空间网络的最终得分。