CN110070041A

CN110070041A - 一种时空压缩激励残差乘法网络的视频动作识别方法

Info

Publication number: CN110070041A
Application number: CN201910326815.1A
Authority: CN
Inventors: 罗会兰; 童康; 袁璞; 黎宵
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-30

Abstract

本发明公开了一种时空压缩激励残差乘法网络的视频动作识别方法，针对浅层网络和一般深度模型学习空间信息和时间信息的不足，本发明将压缩激励块和残差网络结合的压缩激励残差网络用于空间流和时间流的动作识别，在双流网络特征级别融合阶段，采用时空特征相乘融合，进一步加强时间压缩激励残差网络和空间压缩激励残差网络间的时空信息交互。本发明使用三种不同的策略生成多个模型，并对这些模型进行直接平均与加权平均集成得到最终的识别结果，本发明还通过一系列的消融实验研究了空间流和时间流乘法融合方式、次数以及位置对动作识别性能的影响，在HMDB51和UCF101数据集上的实验结果表明了本发明算法具有较高的识别准确率。

Description

一种时空压缩激励残差乘法网络的视频动作识别方法

技术领域

本发明涉及计算机视觉领域，具体为一种时空压缩激励残差乘法网络的视频动作识别方法。

背景技术

视频作为信息的主要载体之一，已越来越多的被人类共享。如何理解和分析这些海量涌现的视频数据显得至关重要。传统的动作识别方法是将特征的提取与后续动作识别的训练分成两个独立的过程，在获得动作视频的特征表示后输入机器学习算法进行训练，实现最终的分类与识别。不同于传统的动作识别方法，深度学习的方法旨在自动从视频中学习到有效特征用于动作识别。视频中的人体动作识别一直广受研究者的青睐，在日常生活安全、视频信息检索、公共视频监控、人机交互等领域都有广泛的应用。视频动作识别已经成为计算机视觉领域中的研究热点之一。

本发明提出了一种时空压缩激励残差乘法网络的视频动作识别方法：针对浅层网络和一般深度模型学习空间信息和时间信息的不足，本发明将压缩激励块和残差网络结合的压缩激励残差网络用于空间流和时间流的动作识别；通过将恒等映射核作为时间滤波器注入到网络模型中，以捕获长期的时间依赖性；在双流网络特征级别融合阶段，采用时空特征相乘融合，进一步加强时间压缩激励残差网络和空间压缩激励残差网络间的时空信息交互。本发明使用三种不同的策略生成多个模型，并对这些模型进行直接平均与加权平均集成得到最终的识别结果。

发明内容

针对现有技术的不足，本发明提供了一种时空压缩激励残差乘法网络的视频动作识别方法，解决了上述背景技术提出的问题。

本发明提供如下技术方案：一种时空压缩激励残差乘法网络的视频动作识别方法，该视频动作识别方法包括以下步骤：

步骤一：将压缩激励操作运用于残差网络中的每一个残差块，构建一个50层的压缩激励残差网络模型；

步骤二：将步骤一中得到的压缩激励残差网络模型分别用RGB视频帧和光流数据进行单独训练，获得空间流网络模型和时间流网络模型；

步骤三：将恒等映射核作为时间滤波器注入到步骤二中得到的空间流网络模型和时间流网络模型；

步骤四：将步骤三中得到的注入时间滤波器的空间压缩激励残差网络模型和注入时间滤波器的时间压缩激励残差网络模型进行乘法融合交互；

步骤五：对步骤四中空间流和时间流乘法融合方式、次数以及位置对动作识别性能的影响展开详细研究；

步骤六：由于空间流和时间流乘法融合方式、次数和位置可以变化以及受集成学习思想的启发，对提出的注入时间滤波器的压缩激励残差乘法网络架构，采用不同的乘法融合策略，在不同的训练数据划分子集上学习，获得多个动作分类模型；

步骤七：在测试阶段对步骤六中得到的多个动作分类模型结果做集成以获得最终的动作识别结果。

本发明具备以下有益效果：通过模型整合与改进、特征级别乘法融合以及多模型集成来更好的学习视频时空特征信息，在UCF101和HMDB51数据集上的实验结果表明本发明算法具有较好的识别效果。

附图说明

图1为本发明整体框架结构图。

图2为本发明压缩激励块的原理图。

图3为本发明构建的50层压缩激励残差网络结构图。

图4为本发明从时间流到空间流乘法融合示意图。

图5为本发明注入时间滤波器的压缩激励残差乘法网络结构图。

图6为本发明使用的多模型生成策略一结构图。

图7为本发明使用的多模型生成策略二结构图。

图8为本发明使用的多模型生成策略三结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-8，本发明所述的时空压缩激励残差乘法网络的视频动作识别方法具体实施步骤为：

(S1)：构建压缩激励残差网络

任何一个卷积层的输出都可以通过压缩激励块实现跨通道全局信息依赖关系的学习，每个通道得到一个尺度系数。如图2所示，对于一个输出维度为W×H×C的卷积层，首先通过全局平均池化获得维度为1×1×C的输出，得到每个特征通道的全局信息；然后通过两个全连接层来学习不同特征通道间的依赖关系，两个全连接层后面分别采用了ReLU和Sigmoid激活函数对全连接层的输出激活；最后将压缩激励块得到的输出1×1×C和最初卷积层的输出W×H×C相乘，即每个特征通道乘一个学习得到的尺度系数。一个输出维度为W×H×C的卷积层通过压缩激励块操作之后，特征维度没有发生改变，但充分学习了C个通道间的全局依赖关系。残差网络对学习深度表征十分有效，而压缩激励块具有学习跨通道全局依赖的能力，它可以嵌入任何的卷积层后，故本发明将压缩激励块集成到残差网络中构建压缩激励残差网络。图3为本发明构建的一个50层的压缩激励残差网络结构图，图中省略了跳跃连接。

(S2)：时间流和空间流的乘法融合

通过使用RGB视频帧和光流数据分别对构建好的50层压缩激励残差网络进行训练，获得空间压缩激励残差网络(空间流)和时间压缩激励残差网络(时间流)。为了更好的学习时空流网络特征，本发明采用特征级别的融合方法，即对空间压缩激励残差网络和时间压缩激励残差网络进行乘法交互。图4为两个压缩激励残差块从时间流到空间流乘法融合示意图，通过空间流残差单元的信息被时间信号所调整。类似地，也可以使用空间流到时间流的乘法融合，时间流的信息被空间信号所调整。通过时间流与空间流的乘法融合，学习到特征级别的时空信息，有助于区分外观上相似的动作。

(S3)：注入时间滤波器的压缩激励残差乘法网络。

一维卷积可以有效捕捉时间依赖性。为了能够提供更大间隔的时间支持，本发明使用一维时间卷积，它结合了初始化为恒等映射的特征空间变换。可以将时间滤波加入到残差层中，从而产生局部影响，也可以加入到跳跃连接层，产生全局影响。第l层后的时间滤波操作如式(1)所示，跨越C_l个特征通道实现时间滤波。

偏置b_l初始化为0；是跨越时间为t＝1...T的时间滤波器权值，它由特征通道间堆叠的恒等映射来初始化。时间滤波器权值公式如式(2)所示，

其中，表示张量外积，f是一个长度为T的一维时间滤波器。在时间滤波的基础上，同时引入全局时间池化，用于捕获全局时间信息，在时间范围1≤t≤T内，给定x(i,j,t,c)，全局最大时间池化公式如式(3)所示，

图5为本发明提出的注入时间滤波器的压缩激励残差乘法网络结构。图5中的⊙表示乘法融合交互点，inject表示注入时间滤波器。从图5可知，空间流与时间流的乘法融合交互分别在conv2_x、conv3_x、conv4_x、conv5_x中的第一个压缩激励残差块后进行，inject除了在conv5_x的最后一个压缩激励残差块后进行，还分别在conv2_x、conv3_x、conv4_x、conv5_x的第二个压缩激励残差块中的3×3卷积后进行。

(S4)：多模型集成

由于空间流与时间流的乘法融合方式(空间流到时间流、时间流到空间流)、次数和位置可以变化，以及受集成学习思想的启发，对本发明提出的注入时间滤波器的压缩激励残差乘法网络架构，采用不同的乘法融合策略，在不同的训练数据划分子集上学习，获得多个动作分类模型，并在测试阶段对这些分类模型结果做集成以进一步提升识别效果。

本发明使用三种不同的生成多个模型的策略。使用的策略一是：固定融合方式为“时间流到空间流”，分别使用“三次融合”和“两次融合”两种融合模式，在相应数据集三个划分上训练获得6个模型进行集成，结构图如图6所示。使用的策略二是：固定使用“两次融合”，分别使用“时间流到空间流”和“空间流到时间流”两种融合方式，在数据集三个划分上训练获得6个模型进行集成，结构图如图7所示。使用的策略三是：固定融合方式为“时间流到空间流”以及使用“两次”融合，在数据集三个划分上训练，分别取每个划分上训练得到的最后2轮模型共获得6个模型进行集成，结构图如图8所示。最后，针对本发明使用的策略一、策略二和策略三生成的6个模型，采用直接平均法和加权平均法进行集成。直接平均法就是对不同模型产生的类别置信度求均值而得到最终的测试结果。而加权平均法则是在直接平均方法基础上，通过加入权重来调节不同模型输出间的重要程度。假设共有N个模型待集成，对测试样本D，其测试结果为N个C维(C为数据的标记空间大小)向量q₁,q₂,...,q_N。直接平均法和加权平均法对应的公式分别如下：

其中w_i对应第i个模型的权重，w_i≥0并且

对于加权平均法中权值的设置，根据不同模型在验证集上各自单独的准确率而定，高准确率的模型权值较高，低准确率模型的权值较小。对于策略一训练获得的6个模型，先将其按验证集上的准确率进行排序，然后将准确率第一和第二的分为一组，准确率第三和第四的分为一组，准确率第五和第六的分为一组。这三组分别称为高准确率组、次高准确率组和低准确率组，权值分别为0.3、0.15和0.05，策略二和策略三以此类推。

实施例

以下通过一系列消融实验对本发明性能效果进行剖析。本发明实验了使用相同乘法融合方式情况下，即采用从时间流到空间流乘法融合方式，融合次数和位置对识别性能的影响，如表1所示，结果报告了在HMDB51数据集第一划分下训练后获得的测试识别准确率。表1中“conv2_1_relu和conv2_1”表示从时间流的conv2_1层连接到空间流的conv2_1_relu层进行乘法融合，其他以此类推。从表1可以看出，“conv4_1_relu和conv4_1&conv5_1_relu和conv5_1”两次融合取得了69.7％的最高识别准确率。

表1 HMDB51数据集上从时间流到空间流在不同次数和位置下融合的识别准确率

同样地，本发明还探究不同融合方式对识别性能的具体影响，进一步实验了在不同融合次数及位置情况下，将融合方式设置成从空间流到时间流的乘法融合，在HMDB51训练集第一划分下训练，在HMDB51测试集上的识别准确率，如表2所示。从表2的实验结果可以看出，采用“时间流到空间流”比采用“空间流到时间流”融合的效果更优。从表2还可以看出，在采用“空间流到时间流”的融合方式时，“conv5_1_relu和conv5_1”单次融合取得了最好的识别效果，识别准确率达到65.0％。

表2 HMDB51数据集上不同融合方式下的识别准确率

表3为不同策略下产生的多模型采用直接平均和加权平均集成后，在HMDB51数据集上的识别准确率。从表3可以看出，采用加权平均法比采用直接平均法在策略一、策略二和策略三上分别高0.7％、2.0％和0.5％。由此可见，采用加权平均法比采用直接平均法更有利于识别准确率的提升，特别的，策略三生成的6个模型进行加权平均集成后在HMDB51数据集上获得69.3％的识别准确率。

表3不同策略下产生的多模型集成在HMDB51数据集上的识别准确率

方法	HMDB51
		策略一(直接平均)	68.5％
策略一(加权平均)	69.2％
		策略二(直接平均)	65.6％
策略二(加权平均)	67.6％
		策略三(直接平均)	68.8％
策略三(加权平均)	69.3％

表4为本发明算法与当前其他动作识别算法在UCF101和HMDB51数据集上识别准确率的对比。表4中报导的本发明算法的结果，是使用生成多个模型的策略三以及加权平均的集成方法获得的结果。本发明算法在HMDB51和UCF101数据集上分别获得了69.3％和92.4％的识别准确率。从表4可以看出，虽然在UCF101数据集上本发明算法较时空乘法网络、时空金字塔网络识别率要分别低1.8％和0.8％，但是相较于改进稠密轨迹方法、三维残差卷积网络、二流卷积网络以及三流卷积神经网络，本发明算法分别获得了6.0％、6.6％、4.4％和0.3％准确率的提升。相较于UCF101数据集，本发明算法在HMDB51数据集上获得了更高程度的性能提升，特别地，相比较于识别率较低的三维残差卷积网络和二流卷积网络，本发明算法分别获得了14.4％和9.9％准确率的提升；相较于识别率较高的时空乘法网络和三流卷积神经网络，本发明算法也分别获得了0.4％和2.1％准确率的提升。由此可见，本发明算法在HMDB51和UCF101这两个数据集上都获得了极具竞争力的识别效果。

表4 HMDB51和UCF101数据集上平均识别准确率

方法	UCF101	HMDB51
			改进的稠密轨迹	86.4％	61.7％
三维残差卷积网络	85.8％	54.9％
			二流卷积网络	88.0％	59.4％
卷积二流网络融合	91.8％	64.6％
			时空金字塔网络	93.2％	66.1％
时空乘法网络	94.2％	68.9％
			三流卷积神经网络	92.1％	67.2％
本发明算法(策略三+加权平均)	92.4％	69.3％

本发明提出的时空压缩激励残差乘法网络的视频动作识别方法，将图像领域的压缩激励网络和残差网络相结合得到的压缩激励残差网络，迁移到时空网络的双流动作识别中。通过将恒等映射核作为时间滤波器注入到网络模型中来学习长期时间依赖关系。并对空间压缩激励残差网络和时间压缩激励残差网络进行特征相乘融合，以便更好的学习视频时空特征。此外通过三种不同的策略生成多个模型，并在测试阶段对这些模型结果进行均值以及加权平均法集成以得到最终识别结果。在HMDB51和UCF101数据集上的识别准确率表明本发明算法对动作识别具有良好的性能。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种时空压缩激励残差乘法网络的视频动作识别方法，其特征在于，该视频动作识别方法包括以下步骤：