CN108280436A

CN108280436A - 一种基于堆叠递归单元的多级残差网络的动作识别方法

Info

Publication number: CN108280436A
Application number: CN201810081796.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2018-07-13

Abstract

本发明中提出的一种基于堆叠递归单元的多级残差网络的动作识别方法，其主要内容包括：残差网络、堆叠递归单元、数据集，其过程为，利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描述另一映射，选择最后三组残差块的输出激活作为低中高级三个表示，将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示，接着平均激活张量，使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池进行最终的动作预测，最后把网络中的不同层次的信息结合起来，并计算出最终的预测结果。本发明提出的基于堆叠递归单元的多级残差网络，减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响，提高了识别的准确性和整体效率。

Description

一种基于堆叠递归单元的多级残差网络的动作识别方法

技术领域

本发明涉及动作识别领域，尤其是涉及了一种基于堆叠递归单元的多级残差网络的动作识别方法。

背景技术

人体动作识别作为当前计算机视觉领域的研究热点，涉及了图像处理、模式识别、人工智能等多个学科。基于视频和图像的人体动作识别技术包括人体区域检测、动作和姿态分割、基于动作识别的目标分析和行为理解等。对人体动作进行自动识别和分析将会带来一种全新的交互方式，在高级人机交互、视频监控分析、体育运动分析、基于内容的检索等方面都具有广阔的应用前景。具体地，在高级人机交互领域，计算机通过视频采集设备收集人体动作视频信息，通过动作识别技术来分析和理解人体动作所表达的内容，从而达到人与机器顺利交互的目的。在视频监控分析中，通过对公共场合的人群进行动作识别，可以在一定程度上保障公共安全。在体育运动分析中，通过对体育运动进行客观和量化的分析、统计运动数据，可以作为一种科学直观的辅助识别手段，用于创建个性化的体育训练和分析系统，如指导运动员进行科学有效的训练，也可以辅助赛事直播评论员进行评论和讲解。在基于内容的检索中，通过对视频和图像中的人体运动和动作信息进行识别，可以对不同类型的视频和图像进行标识，帮助人们在海量的视频和图像信息数据中快速找到所需内容，从而实现高效地管理和查询视频或图像数据库。然而，现有的动作识别技术主要受快速移动、光照变化、遮挡和视点变化的影响，特别是如何充分利用时域信息一直是亟待解决的问题。

本发明提出了一种基于堆叠递归单元的多级残差网络的动作识别方法，利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描述另一映射，选择最后三组残差块的输出激活作为低中高级三个表示，将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示，接着平均激活张量，使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池进行最终的动作预测，最后把网络中的不同层次的信息结合起来，并计算出最终的预测结果。本发明提出的基于堆叠递归单元的多级残差网络，减少了快速移动、光照变化、遮挡和视点变化对动作识别的影响，提高了识别的准确性和整体效率。

发明内容

针对受快速移动、光照变化、遮挡和视点变化影响的问题，本发明的目的在于提供一种基于堆叠递归单元的多级残差网络的动作识别方法，利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描述另一映射，选择最后三组残差块的输出激活作为低中高级三个表示，将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示，接着平均激活张量，使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池进行最终的动作预测，最后把网络中的不同层次的信息结合起来，并计算出最终的预测结果。

为解决上述问题，本发明提供一种基于堆叠递归单元的多级残差网络的动作识别方法，其主要内容包括：

(一)残差网络；

(二)堆叠递归单元；

(三)数据集。

其中，所述的残差网络，残差网络(ResNet)将所需的残差映射表示为Φ(x)，并且针对每个被称为构建块的堆叠层描述F(x)＝Φ(x)-x的另一映射；每个块根据深度的要求包含两层或三层，其中两层为3×3和3×3卷积核，三层分别为1×1，3×3和1×1的卷积核；修正线性单元(ReLU)激活层之间用于引入非线性；采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度；通过参照层的输入，学习残差函数可以解决随深度增加而引起的退化问题，且易于优化；一般情况下，ResNet由多个残留块组成，每个块从下到上执行短连接，其信息从浅层流向深层；使用ResNet-34来构建不同级别的表示。

进一步地，所述的ResNet-34，选择最后三组残差块的输出激活作为A_l，A_m，A_h的低、中、高级表示，并分别命名ResNet-34的不同层的低、中、高级；然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示；

考虑ResNet-34层，输出激活张量A∈R^C×H×W可以表示为：

A_level＝[A_l1，A_l2，…，A_lN]，A^l，i∈R^C (1)

其中，level∈[低，中，高]，N＝H×W；特别地，A_l∈R^128×28×28，A_m∈R^256×14×14，A_l∈R⁵¹² ^×7×7；平均这些激活张量A∈R^C×H×W，并产生描述符x_feature∈R^C，馈入SRU。

其中，所述的堆叠递归单元，递归过程中门状态的计算依赖于前一个时间隐藏状态h_t-1，这大大缓解了计算速度；门状态的计算如下所示：

State_i，t＝σ(W_xix_t+W_hih_t-1+b_i) (2)

其中，在时刻t，State_i，t表示输入门状态、隐藏门状态和忘记门状态；显然，最后一步的隐藏h_t-1被用于确定门状态；基于此，使用SRU来处理帧的时间信息；SRU架构如下所示：

f_t＝σ(W_fx_t+b_f) (4)

r_t＝σ(W_rx_t+b_r) (5)

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t (7)

其中，f_t和r_t是S型函数门，称为遗忘门和复位门；g(·)是双曲正切函数；SRU通过在递归过程中舍弃h_t-1，简化状态计算；内部状态c_t的更新仍然取决于之前的状态c_t-1；输入向量x_t被传递到SRU模块，f_t，R_t可以同时计算出来；公式(6)和公式(7)的操作是元素级别的；之后进行平均激活张量。

进一步地，所述的平均激活张量，如公式(1)，平均激活张量如下式所示：

作为frame_t的定长矢量表示，并在时间步t将其放入SRU中；使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池来进行最终的动作预测。

进一步地，所述的动作预测，模型由两部分组成，将属于视频的N个连续视频帧编码为向量序列X_t＝(x_t1，…，x_tN)，其中x_ti∈R^C，C∈[128，256，512]，在SRU中，每个动作类别的概率分布由下式计算：

其中，W_jt表示在时间t到动作j的映射SRU输出向量的权重参数；公式(9)和公式(10)分别表示均值预测和最大流量预测；最后，用下式把网络中的不同层次的信息结合起来，并计算出最终的预测结果。

进一步地，所述的预测结果，得出的预测结果如下式所示：

P_final＝a×P_H+b×P_M+c×P_L (11)

其中，P(·)参考不同层次模型的预测，P_final是组合模型产生的最终预测；其中，a＝0.7，b＝0.2，c＝0.1。

其中，所述的数据集，对UCF-101数据集和HMDB-51数据集进行大量的评估；UCF-101数据集有从YouTuBe收集的13320个视频，共101个动作类别；每种动作都是由25人进行的，每个人都做过一次以上；动作类别可以分为五类：人物交互、肢体动作、人与人交互、演奏乐器和体育；

HMDB数据集从各种来源收集，大部分来自电影；该数据集包含3570个训练剪辑和1530个测试剪辑，属于51个不同的类别；使用HMDB-51数据集来确定SRU和两个数据集的更好的超参数设置，接着进行训练。

进一步地，所述的训练，SRU的输入单元数量与ResNet产生的激活张量的形状一致；对于低、中、高级帧表示，SRU的输入大小分别为128、256和512个单元；将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元；相似的，堆叠SRU的层数设置为3、4、5层；反复计算中的线性变换是S形激活函数，但是在每个时间步长的预测中，在叠加的SRU上添加双曲正切激活层；最大池和平均池在每个时间步输出执行；在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器，并且没有调整ResNet-34中的任何细节；使用正交权重初始化SRU并从头开始训练。

进一步地，所述的正交权重初始化SRU，Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期；初始学习率在前八个时期设定为10^-5，其余时间则变为10^-6；初步尝试设置学习速率10^-4；在SRU中采用线性变换的归一化比率为0.5，递归神经网络(RNN)层间连接为0，提高了该模型的泛化能力；重新训练ResNet-34网络，整个网络都是端到端的训练。

附图说明

图1是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的系统框架图。

图2是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的流程示意图。

图3是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的动作预测。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的系统框架图。主要包括残差网络，堆叠递归单元和数据集。

残差网络(ResNet)将所需的残差映射表示为Φ(x)，并且针对每个被称为构建块的堆叠层描述F(x)＝Φ(x)-x的另一映射；每个块根据深度的要求包含两层或三层，其中两层为3×3和3×3卷积核，三层分别为1×1，3×3和1×1的卷积核；修正线性单元(ReLU)激活层之间用于引入非线性；采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度；通过参照层的输入，学习残差函数可以解决随深度增加而引起的退化问题，且易于优化；一般情况下，ResNet由多个残留块组成，每个块从下到上执行短连接，其信息从浅层流向深层；使用ResNet-34来构建不同级别的表示。

选择最后三组残差块的输出激活作为A_l，A_m，A_h的低、中、高级表示，并分别命名ResNet-34的不同层的低、中、高级；然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示；

考虑ResNet-34层，输出激活张量A∈R^C×H×W可以表示为：

A_level＝[A_l1，A_l2，…，A_lN]，A^l，i∈R^C (1)

堆叠递归单元，递归过程中门状态的计算依赖于前一个时间隐藏状态h_t-1，这大大缓解了计算速度；门状态的计算如下所示：

State_i，t＝σ(W_xix_t+W_hih_t-1+b_i) (2)

f_t＝σ(W_fx_t+b_f) (4)

r_t＝σ(W_rx_t+b_r) (5)

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t (7)

如公式(1)，平均激活张量如下式所示：

数据集，对UCF-101数据集和HMDB-51数据集进行大量的评估；UCF-101数据集有从YouTuBe收集的13320个视频，共101个动作类别；每种动作都是由25人进行的，每个人都做过一次以上；动作类别可以分为五类：人物交互、肢体动作、人与人交互、演奏乐器和体育；

SRU的输入单元数量与ResNet产生的激活张量的形状一致；对于低、中、高级帧表示，SRU的输入大小分别为128、256和512个单元；将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元；相似的，堆叠SRU的层数设置为3、4、5层；反复计算中的线性变换是S形激活函数，但是在每个时间步长的预测中，在叠加的SRU上添加双曲正切激活层；最大池和平均池在每个时间步输出执行；在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器，并且没有调整ResNet-34中的任何细节；使用正交权重初始化SRU并从头开始训练。

Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期；初始学习率在前八个时期设定为10^-5，其余时间则变为10^-6；初步尝试设置学习速率10^-4；在SRU中采用线性变换的归一化比率为0.5，递归神经网络(RNN)层间连接为0，提高了该模型的泛化能力；重新训练ResNet-34网络，整个网络都是端到端的训练。

图2是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的流程示意图。利用残差网络表示所需的残差映射，针对每个构建块的堆叠层描述另一映射，选择最后三组残差块的输出激活作为低中高级三个表示，将这些外观表示推入堆叠递归单元中以获得时间和深度上的视频表示，接着平均激活张量，使用不同方法来融合每个时间步骤的所有预测，采用平均池和最大池进行最终的动作预测，最后把网络中的不同层次的信息结合起来，并计算出最终的预测结果。

图3是本发明一种基于堆叠递归单元的多级残差网络的动作识别方法的动作预测。模型由两部分组成，将属于视频的N个连续视频帧编码为向量序列X_t＝(x_t1,…,x_tN)，其中x_ti∈R^C,C∈[128,256,512]，在SRU中，每个动作类别的概率分布由下式计算：

得出的预测结果如下式所示：

P_final＝a×P_H+b×P_M+c×P_L (11)

其中，P(·)参考不同层次模型的预测，P_final是组合模型产生的最终预测；其中，a＝0.7,b＝0.2,c＝0.1。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于堆叠递归单元的多级残差网络的动作识别方法，其特征在于，主要包括残差网络(一)；堆叠递归单元(二)；数据集(三)。

2.基于权利要求书1所述的残差网络(一)，其特征在于，残差网络(ResNet)将所需的残差映射表示为Φ(x)，并且针对每个被称为构建块的堆叠层描述F(x)＝Φ(x)-x的另一映射；每个块根据深度的要求包含两层或三层，其中两层为3×3和3×3卷积核，三层分别为1×1，3×3和1×1的卷积核；修正线性单元(ReLU)激活层之间用于引入非线性；采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度；通过参照层的输入，学习残差函数可以解决随深度增加而引起的退化问题，且易于优化；一般情况下，ResNet由多个残留块组成，每个块从下到上执行短连接，其信息从浅层流向深层；使用ResNet-34来构建不同级别的表示。

3.基于权利要求书2所述的ResNet-34，其特征在于，选择最后三组残差块的输出激活作为A_l，A_m，A_h的低、中、高级表示，并分别命名ResNet-34的不同层的低、中、高级；然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示；

考虑ResNet-34层，输出激活张量A∈R^C×H×W可以表示为：

A_level＝[A_l1，A_l2，…，A_tN]，A^l，i∈R^C (1)

其中，level∈[低，中，高]，N＝H×W；特别地，A_l∈R^128×28×28，A_m∈R^256×14×14，A_l∈R^512×7×7；平均这些激活张量A∈R^C×H×W，并产生描述符x_feature∈R^C，馈入SRU。

4.基于权利要求书1所述的堆叠递归单元(二)，其特征在于，递归过程中门状态的计算依赖于前一个时间隐藏状态h_t-1，这大大缓解了计算速度；门状态的计算如下所示：

State_i，t＝σ(W_xix_t+W_hih_t-1+b_i) (2)

f_t＝σ(W_fx_t+b_f) (4)

r_t＝σ(W_rx_t+b_r) (5)

5.基于权利要求书4所述的平均激活张量，其特征在于，如公式(1)，平均激活张量如下式所示：

6.基于权利要求书5所述的动作预测，其特征在于，模型由两部分组成，将属于视频的N个连续视频帧编码为向量序列X_t＝(x_t1，…，x_tN)，其中x_ti∈R^C，C∈[128，256，512]，在SRU中，每个动作类别的概率分布由下式计算：

7.基于权利要求书6所述的预测结果，其特征在于，得出的预测结果如下式所示：

P_final＝a×P_H+b×P_M+c×P_L (11)

8.基于权利要求书1所述的数据集(三)，其特征在于，对UCF-101数据集和HMDB-51数据集进行大量的评估；UCF-101数据集有从YouTuBe收集的13320个视频，共101个动作类别；每种动作都是由25人进行的，每个人都做过一次以上；动作类别可以分为五类：人物交互、肢体动作、人与人交互、演奏乐器和体育；

9.基于权利要求书8所述的训练，其特征在于，SRU的输入单元数量与ResNet产生的激活张量的形状一致；对于低、中、高级帧表示，SRU的输入大小分别为128、256和512个单元；将HMDB-51数据集的隐藏状态数量设置为256、512、1024个单元；相似的，堆叠SRU的层数设置为3、4、5层；反复计算中的线性变换是S形激活函数，但是在每个时间步长的预测中，在叠加的SRU上添加双曲正切激活层；最大池和平均池在每个时间步输出执行；在ImageNet数据集上预训练的原始ResNet-34被用作特征表示提取器，并且没有调整ResNet-34中的任何细节；使用正交权重初始化SRU并从头开始训练。

10.基于权利要求书9所述的正交权重初始化SRU，其特征在于，Adam优化算法和交叉熵损失函数被用于在整个数据集上优化所有具有小批量大小28的网络的12个时期；初始学习率在前八个时期设定为10^-5，其余时间则变为10^-6；初步尝试设置学习速率10^-4；在SRU中采用线性变换的归一化比率为0.5，递归神经网络(RNN)层间连接为0，提高了该模型的泛化能力；重新训练ResNet-34网络，整个网络都是端到端的训练。