CN107273800B

CN107273800B - 一种基于注意机制的卷积递归神经网络的动作识别方法

Info

Publication number: CN107273800B
Application number: CN201710337015.0A
Authority: CN
Inventors: 葛宏伟; 宇文浩; 闫泽航
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2020-08-14
Anticipated expiration: 2037-05-17
Also published as: CN107273800A

Abstract

本发明属于计算机视觉动作识别领域，提出了一种基于注意机制的的卷积递归神经网络的动作识别方法，用以解决在动作识别中无法有效的提取显著性区域的问题，提高了分类的准确性。本方法首先利用卷积神经网络自动地对动作视频进行特征提取；然后利用空间转换网络在特征图的基础上实现了注意机制，利用注意机制操作提取特征图中的显著区域，生成目标特征图；最后将目标特征图输入卷积递归神经网络中，产生最后的动作识别结果。实验证明所提方法在UCF‑11和HMDB‑51等基准动作视频测试集上取得了很好的效果，提高了动作识别的准确性。

Description

一种基于注意机制的卷积递归神经网络的动作识别方法

技术领域

本发明属于计算机视觉动作识别领域，涉及一种基于注意机制的卷积递归神经网络的动作识别方法。

背景技术

随着互联网的发展，视频已经成为了今天大数据中不可缺少的一部分，这促进了在视频分类方面的研究，产生了大量新颖的技术。视频与图像相比较来说拥有更为丰富且前后相关联的大量信息，这就需要能够建立好的模型去捕获其中包含的特征。当前，视频内容的理解已经成为视频处理中需要解决的问题。而深度学习的方法颠覆了传统算法在语音识别、图像分类、文本理解等众多领域的设计思路，渐渐形成了一种从训练数据出发，经过一个端到端(end-to-end)的模型，最后输出结果的新模式。这不仅让视频分类变得更加简单，而且可以大大提高了分类的准确率。这是由于深度学习能够产生更好的特征表示，而这些特征表示是通过各层之间的相互合作来实现的。在视频分类中，深度学习模型可以分为两类：基于卷积神经网络的模型和基于递归神经网络的模型。

基于卷积神经网络的模型是鉴于卷积神经网络(CNN)在图像中的成功提出来的。当前有很多的工作将CNN模型应用于视频领域中,学习视频中隐藏的时空模式。(Ji S,YangM,Yu K.3D convolutional neural networks for human action recognition[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2013,35(1):221-231.)将传统的CNN的2D结构拓展到3D结构上，利用3DCNN学习视频中的时空特征,捕获多个相邻帧中编码的运动信息。(Karpathy A,Toderici G,Shetty S,et al.Large-Scale VideoClassification with Convolutional Neural Networks[C]//IEEE Conference onComputer Vision and Pattern Recognition.IEEE Computer Society,2014:1725-1732)研究了几种能够拓展CNN模型时间连通性的方法，如单帧融合、早期融合、晚期融合，同时提出了CNN的混合分辨率的架构，由低分辨率的上下文和高分辨率的流组成。这种架构可以加快训练的速度。(Annane D,Chevrolet J C,Chevret S,et al.Two-Stream ConvolutionalNetworks for ActionRecognition in Videos[J].Advances in Neural InformationProcessing Systems,2014,1(4):568-576)提出了一个双流方法，以原始的RGB帧和光流图像分别作为两个CNN的输入，利用这两个CNN模型分别提取视频中的空间特征和时间特征。

基于递归神经网络的模型能够更好的探索中视频帧序列中的时间信息。(DonahueJ,Hendricks L A,Rohrbach M,et al.Long-term Recurrent Convolutional Networksfor Visual Recognition and Description.[M]//AB initto calculation of thestructures and properties of molecules/.Elsevier,2014:85-91)提出了两个两层LSTM网络框架，用于动作识别。他们利用了来自双流方法的特征作为输入，原始的RGB图像和光流图像。(Wu Z,Wang X,Jiang Y G,et al.Modeling Spatial-Temporal Clues in aHybrid Deep Learning Framework for Video Classification[J].2015:461-470)将LSTM模型与CNN模型进行了结合，提出了一个混合深度学习框架来进行视频分类，这个模型能够对视频中的静态空间信息，短期运动以及长期的时间线索进行建模。(Ng Y H,Hausknecht M,Vijayanarasimhan S,et al.Beyond short snippets:Deep networks forvideo classification[J].2015,16(4):4694-4702)提出和评估几种深层神经网络架构，与之前的方法比较，这些网络架构能够整合视频中更长时间段的图像信息。这些网络架构可以分为两类，第一类是在卷积神经网络中分别采用几种不同时间特征池化方法，如ConvPooling，Late Pooling:，Slow Pooling等；第二类方法是通过利用递归卷积神经网络对视频的时间特征进行建模，在这类方法上训练了5层的LSTM模型。

传统的深度学习方法往往没有区别地对待视频帧中的显著性区域跟非显著性区域，而是同等的考虑视频帧的所有空间位置，然而视频帧中非显著区域可能会影响到最终的分类结果，降低分类的准确率。注意机制的提出可以很好的解决这个问题，它能够有效提取视频中显著性的区域，同时减少非显著性区域对分类的影响。

注意机制模型是最近被提出用于动作识别中的，视频在动作识别上还有很大的研究空间。(Sharma S,Kiros R,Salakhutdinov R.Action Recognition using VisualAttention[J].Computer Science,2016)提出了第一个注意机制的LSTM的动作识别模型。这是一种基于软注意力的模型，用于视频中的动作识别任务。他们使用具有长短期记忆(LSTM)单元的多层递归神经网络进行建模。(Jaderberg M,Simonyan K,Zisserman A,etal.Spatial Transformer Networks[J].Computer Science,2015)在图像分类中提出了空间转换网络实现图像转换，他们将这个模型加入到卷积神经网络中，消除池化操作局部感受和固定大小带来的影响。这个模型是可微的，同时可以根据输入特征图的不同进行不同的空间转换。(

S K,

C K,

L,et al.Recurrent SpatialTransformer Networks[J].Computer Science,2015)将传统的空间转换网络模型改变为递归空间转换网络，这个模型主要是考虑到图像中有多个目标，他们将图像重复多次形成序列，利用递归空间转换网络对图像序列进行分类，每一步产生一个类别，最后产生图像的多个类别。(Kuen J,Wang Z,Wang G.Recurrent Attentional Networks for SaliencyDetection[J].2016:3668-3677)利用空间转换网络实现了递归注意机制的卷积-反卷积网络(RACDNN)，他们将这一模型应用于图像的显著性检测上，消除了传统的卷积-反卷积网络不能很好的处理多规模目标的问题。传统的注意机制就是在特征图上进行加权操作，可以分为软注意机制和硬注意机制；软注意机制模型需要考虑到视频特征图中的所有部分，特征图中的每个位置都有一个权重，显著性区域的权重较大，而那些非显著区域的权重比较小，这种机制无法有效的消除非显著性区域的影响；硬注意机制比软注意机制更加严格，然而如果视频帧中显著性区域比较大，这种机制只提取了显著性区域的局部信息，就会造成了有用信息的丢失。空间转换网络实现的注意机制是属于这两者之间，它是一种采样操作，能够完整的提取到显著区域的信息，并有效的降低非显著性区域的影响。本发明基于空间转换网络提出一种基于注意机制的卷积递归神经网络模型用于动作识别，这种模型主要是在动作识别的过程中利用空间转换网络实现注意机制，提取出视频中对于分类显著的那部分区域，同时降低非显著部分的影响，解决了在动作识别中无法有效的提取显著性区域的问题。

发明内容

针对动作识别过程中无法有效的提取显著性区域的问题，本发明提出了一种基于注意机制的卷积递归神经网络的动作识别方法，它充分考虑了在动作识别的过程中显著性区域对于分类的重要性和非显著性区域对于分类的不利影响。首先利用GoogleNet神经网络自动地对视频帧图像进行特征提取，自动地提取该网络最后一个卷积层的特征图。然后利用空间转换网络(SpatialTransformerNetworks)对提取到的特征图进行转换,提取其中显著部分。最后利用卷积递归神经网络对转换后的特征图进行类别预测，得到最终动作的类别。

本发明的具体技术方案为：一种基于注意机制的卷积递归神经网络的动作识别方法，包括如下步骤：

步骤1：对原始视频帧图像进行均值规整化处理，同时裁剪为统一的大小；利用卷积神经网络自动地对视频帧图像进行特征提取，提取最后一个卷积层的特征图U作为后续操作的输入；

步骤2：利用空间转换网络对视频的特征图进行转换处理；

1)对步骤1产生的输入特征图U进行池化操作，得到1维的特征向量；将多帧特征向量输入到递归神经网络中，产生后续所需要的转换参数θ；

2)对步骤1产生的输入特征图U的空间坐标位置进行归一化，同时限定输出特征图的空间坐标位置也在[-1,1]之间，利用1)中产生的转换参数θ构建可微分的空间变换T_θ，利用空间变换T_θ和输出特征图V的坐标产生在输入特征图U中的采样点的坐标，如下式所示：

其中

是输出特征图的目标坐标，

是输入特征图中采样点的坐标，T_θ是仿射变换矩阵；

3)利用采样内核在2)中提取到的采样点坐标上进行采样操作，得到输出特征图V中每一个坐标位置的值，产生输出特征图V；采样操作如下：

其中Ф_x和Ф_y是定义采样内核k()参数，

是输入通道c中坐标位置(n，m)的值，V_i ^c是通道c中坐标位置

处的像素i的输出值；

对输入特征图的每个通道进行相同的采样，继而每个通道以相同的方式进行转换，保持了通道之间的空间一致性；

步骤3：将步骤2中产生的输出特征图V输入到卷积递归神经网络中，卷积递归神经网络是一种循环的结构，每一次循环产生一个对于当前帧的类别预测，最后得到所有帧的预测结果；卷积递归神经网络的操作如下：

其中“*”表示卷积运算符和“ο”表示Hadamard积,W_x～和W_h～表示的是卷积核，输入门i^(t)，忘记门f^(t)，输出门o^(t)，记忆单元c^(t)和c^(t-1)，隐藏状态h^(t)和h^(t-1)都是3D张量；

步骤4：统计步骤3中所有时刻得到的关于帧类别的预测，利用这些预测进行动作的分类；对视频的所有帧的类别进行投票，然后把投票得分最多的类别作为该视频最后的分类结果。

本发明的有益效果为，提供了一种基于注意机制的卷积递归神经网络的动作识别方法，该方法能够有效的将视频帧中有利于分类的那部分区域提取出来，解决了动作识别中无法有效提取显著性区域的问题，提高动作识别的准确率，

附图说明

附图1是基于注意机制的卷积递归神经网络的动作识别方法示意图；

附图2是利用GoogleNet神经网络进行特征提取示意图；

附图3是空间转换网络模型示意图；

附图4是递归定位网络模型示意图；

附图5是利用卷积递归神经网络进行特征图序列建模示意图；

附图6是基于注意机制的卷积递归神经网络的动作识别算法流程图。

具体实施方式

本发明实施例提供一种基于注意机制的动作识别方法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。下面结合附图对本发明的实施方式进行详细说明，具体包括以下步骤：

1数据的预处理。原始的视频帧的RGB图像的大小是不统一的，不适合后续的处理，本发明对原始的图像进行裁剪，使其大小能够相统一。同时为了加快后续处理的速度，本发明对图像进行进行了规整化处理。

2特征的提取。鉴于GoogleNet神经网络在图像特征表示方面取得的成功，本发明将视频看作是多个帧组成的图像集合，然后利用卷积神经网络进行帧特征的提取。本发明选取GoogleNet作为提取特征的模型，首先在ImageNet数据集上对GoogleNet进行预训练，然后将训练好的模型用于视频帧特征的提取。本发明提取来自GoogleNet模型最后一个卷积层的特征。图2给出了一个利用GoogleNet提取视频特征图的例子。

3利用注意机制处理特征向量。本发明利用空间转换网络(SpatialTransformerNetwork)来实现注意机制。空间转换网络是一个可微的模块，在前向传播的过程中对视频特征图进行空间变换操作，根据不同的输入进行不同的变换操作。空间转换网络空间转换(SpatialTransformer)可以分为定位网络，网格生成器和采样器三部分，图3给出了空间转换网络的模型结构图。

(1)定位网络

本发明利用递归神经网络实现定位网络，如图4所示。基于第2步所生成的特征图U∈R^H×W×C，H，W和C分别表示特征图的高度，宽度和通道，这是从GoogleNet最后一个卷积层提取到的。本发明利用定位网络对特征图进行处理得到转换参数，θ＝f_loc(U)，θ为转换参数。首先对输入的特征图进行平均池化操作(Mean Pooling)，使其变为1维的特征向量；然后将多帧的特征向量输入长短期记忆模型(LSTM)中，最后通过一个带有线性激活函数的全连接层(FC)生成每一帧对应的转换参数θ。

(2)网格生成器

本发明利用2D仿射变换A_θ来实现网格生成器，如公式所示：

其中

是输出特征图中规则网格的目标坐标，

是输入特征图中采样点的坐标，A_θ是仿射变换矩阵。本发明首先对高度和宽度进行归一化处理，这样使得

然后基于定位网络生成的转换参数θ，加上目标坐标值生成采样器所需要的采样坐标。

(3)采样器进行采样

本发明采用双线性内核对网格生成器产生的采样点进行采样，双线性内核如下：

H，W和C分别表示输入特征图的高度，宽度和通道。

是输入特征图在通道c中坐标位置(n，m)的值，V_i ^c是输出特征图在通道c中坐标位置

处的像素值。本发明对输入特征图的每个通道进行相同的采样，因此每个通道以相同的方式进行转换，保持了通道之间的空间一致性。这个采样内核是可微的，可以简单的通过反向传播进行优化。

(4)对视频特征序列进行建模。如图5所示，本发明采用卷积递归神经网络(ConvLSTM)对序列进行建模，这种网络模型利用卷积操作替换原有的全连接操作，在输入到状态和状态到状态之间的转换中都采用卷积结构，通过堆叠多个ConvLSTM层并形成序列分类结构。ConvLSTM的关键方程如下式所示，其中“*”表示卷积运算符和“ο”表示Hadamard积：

W_x～和W_h～表示的是卷积核，输入门i^(t)，忘记门f^(t)，输出门o^(t)，记忆单元c^(t)和c^(t ^-1)，隐藏状态h^(t)和h^(t-1)都是3D张量。

卷积操作会导致状态的大小跟输入不一致，本发明在应用卷积运算之前对ConvLSTM的状态进行填充，使得ConvLSTM的状态与输入有相同的大小。本发明利用卷积递归神经网络产生视频中每一帧的类别。

(5)动作分类。本发明在第(4)步可以得到关于视频帧的类别预测，本发明利用这些预测进行动作的分类。对于一个动作视频，本发明统计这个视频的所有帧中最多的那个类别，然后把这个类别作为该视频最后的分类结果。图6为本发明实施例提供的基于注意机制的卷积递归神经网络的动作识别算法流程图。

Claims

1.一种基于注意机制的卷积递归神经网络的动作识别方法，其特征在于，包括如下步骤：

步骤1：利用卷积神经网络自动地对视频帧图像进行特征提取，提取最后一个卷积层的特征图U作为后续操作的输入；

步骤2：利用空间转换网络对视频的特征图进行转换处理；

其中

是输出特征图的目标坐标，

是输入特征图中采样点的坐标，T_θ是仿射变换矩阵；

其中Ф_x和Ф_y是定义采样内核k()参数，

是输入通道c中坐标位置(n，m)的值，

是通道c中坐标位置

处的像素i的输出值；

其中“*”表示卷积运算符和

表示Hadamard积,W_x～和W_h～表示的是卷积核，输入门i^(t)，忘记门f^(t)，输出门o^(t)，记忆单元c^(t)和c^(t-1)，隐藏状态h^(t)和h^(t-1)都是3D张量；

2.根据权利要求1所述的一种基于注意机制的卷积递归神经网络的动作识别方法，其特征在于，步骤1所述的卷积神经网络包括GoogleNet神经网络、VGGNet神经网络、ResNet神经网络。

3.根据权利要求1或2所述的一种基于注意机制的卷积递归神经网络的动作识别方法，其特征在于，步骤2中3)所述的采样内核包括整数采样内核、双线性采样内核。