CN109740419A

CN109740419A - 一种基于Attention-LSTM网络的视频行为识别方法

Info

Publication number: CN109740419A
Application number: CN201811397129.5A
Authority: CN
Inventors: 陆生礼; 庞伟; 向丽苹; 范雪梅; 舒程昊; 吴成路; 阮小千; 梁彪; 邹涛
Original assignee: Sanbao Sci & Tech Co Ltd Nanjing; Southeast University - Wuxi Institute Of Technology Integrated Circuits; Southeast University
Current assignee: Sanbao Sci & Tech Co Ltd Nanjing; Southeast University - Wuxi Institute Of Technology Integrated Circuits; Southeast University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-05-10
Anticipated expiration: 2038-11-22
Also published as: CN109740419B

Abstract

本发明公开了一种基于Attention‑LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；将光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。本发明不仅能实现从视频中识别行为的功能，且能提高识别的准确率。

Description

一种基于Attention-LSTM网络的视频行为识别方法

技术领域

本发明属于计算机视觉领域，特别涉及了一种基于Attention-LSTM网络的视频行为识别方法。

背景技术

智能视频分析是目前计算机视觉领域非常热，也是极具挑战的一个方向。智能视频分析方向包含众多的子研究方向，其中主要的两个研究方向为行为识别和行为检测。行为识别类似与图像的分类，主要解决“视频中的行为是什么”问题，给出一段只包含一个行为动作的修剪视频，要求给视频分类。行为检测(或定位)和目标检测一致，主要解决“视频中是否有相应的行为发生，如果有，则发生在视频帧序列的哪一段和在每一帧的什么位置”问题，这主要分两步完成，一是类似于目标检测中的候选区域提取，这步主要是从视频中找出可能含有动作的视频段；二是对该视频段进行分类。

行为分类研究在深度学习出现之前，表现最好的算法是iDT算法，其思路是利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory4中的特征，其中HOF是基于灰度图计算，另外几个均基于密集光流计算；再利用Fisher Vector方法对特征进行编码；最后基于编码训练结果训练SVM，随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习问世后，实现了从特征提取到分类的端到端解决方案。Du Tran等人在二维的卷积核中引入时间维度，用三维的卷积核处理视频，实现端到端的训练，网络结构简单且速度快。因为视频除了空间维度外，最大的痛点是时间序列问题，基于RNN网络能很好处理序列问题，Du Wenbin等人提出的基于RNN的网络算法引入姿态监督的机制，提高了视频分类的效果。行为检测中最大的难点是定位存在行为动作的视频段。过去的行为检测方法多采用滑动窗口法，然而基于滑动窗口法的动作定位非常耗时，时间效率低。

发明内容

为了解决上述背景技术提出的技术问题，本发明提供一种基于Attention-LSTM网络的视频行为识别方法，实现对视频中目标行为的准确识别。

为了实现上述技术目的，本发明的技术方案为：

一种基于Attention-LSTM网络的视频行为识别方法，首先，通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；其次，将得到的光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；然后，将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，同时，在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。

进一步地，所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。

进一步地，所述时域注意力取帧模块采用注意力机制，计算序列图片之间的矢量距离，将距离小于设定阈值的帧图去除，则保留的帧图构成关键帧序列。

进一步地，所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层，图片先经过前5层卷积层进行特征提取，再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重，将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。

进一步地，将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块，特征分权加强模块实现对两个特征矢量距离的计算，获得送入AlexNet网络全连接层输入的权重系数，将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层，得到帧图的高维特征。

进一步地，所述特征分权加强模块利用一个神经网络实现，该神经网络的损失函数loss如下：

上式中，t为当前时刻帧图，T为一个行为的总时刻帧图，K为每个特征图上的特征值总数量，l_t,i为该神经网络训练得到的权重系数值，是对一个行为的序列帧在一个像素点的值累加，是对所有像素点的值累加。

进一步地，在LSTM网络行为识别模块中，1个LSTM单元的输入是当前时刻帧图特征信息x_t与上一时刻特征信息h_t-1，利用输入门、遗忘门和输出门控制LSTM单元的输出；

所述输入门控制当前候选记忆单元特征的输入，输入门i_t如下：

i_t＝f(W_ix_t+U_ih_t-1+b_i)

上式中，f为激活函数，W_i、U_i、b_i分别为输入门中x_t、h_t-1的权值系数和偏置；

所述遗忘门控制上一时刻记忆单元特征的输入，遗忘门f_t如下：

f_t＝f(W_fx_t+U_fh_t-1+b_f)

上式中，W_f、U_f、b_f分别为遗忘门中x_t、h_t-1的权值系数和偏置；

所述输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入，输出门如下：

o_t＝f(W_ox_t+U_oh_t-1+b_o)

上式中，W_o、U_o、b_o分别为输出门中x_t、h_t-1的权值系数和偏置；

当前候选记忆单元特征

上式中，W_c、U_c、b_c分别为输出门中x_t、h_t-1的权值系数和偏置；

当前记忆单元特征c_t：

根据c_t得到经过该LSTM单元的隐藏层信息h_t：

h_t＝o_t·tanh(c_t)

选择不同的卷积核信息得到多个LSTM隐藏单元，再经过全连接层和Softmax层送入融合模块。

采用上述技术方案带来的有益效果：

本发明通过运用基于深度学习的高效模型AlexNet和经典循环神经网络LSTM，结合注意力Attention机制得到Attention-LSTM网络，实现从视频中识别行为的功能，且能提高识别的准确率；此外，相较于卷积神经网络，循环神经网路LSTM加入了对时序信息的记录，可实现对动态行为的识别。本发明可应用在如检测出有人翻墙触发报警系统等安防场景下，或察觉并记录运动员等犯规操作等体育竞技场景下，或车辆行为异常检测抓拍，司机驾驶行为异常等交通管理场景下。

附图说明

图1是本发明的整体流程框图；

图2是本发明中AlexNet网络结构图；

图3是本发明中特征分权加强模块结构图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

一种基于Attention-LSTM网络的视频行为识别方法，如图1所示。首先，通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；其次，将得到的光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；然后，将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，同时，在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块(Fsusion模块)按比例融合，得到最终的视频行为识别结果。

1、光流图序列生成模块

光流图片序列生成模块的核心算法是光流法。在空间中，运动可以用运动场描述。而在一个图像平面上，物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。空间中的运动场转移到图像上就表示为光流场，光流场反映了图像上每一点灰度的变化趋势。光流可以看作像素点在图像平面运动产生的瞬时速度场。光流场是图片中每个像素都有一个X方向和Y方向的位移，所以在光流计算结束后得到的光流是个和原来图像大小相等的双通道图像。

将视频以“一帧一图“的形式进行分解和保存，且每张图的输入尺寸一致。保存的图片为RGB图片，利用光流图片序列生成模块得到具有时间属性的光流图，一帧RGB图生成两帧光流图，融合两帧图片信息生成最终的光流图。分别整理保存RGB图和光流图，作为接下来的双通道输入。

2、时域注意力取帧模块

行为视频由连续帧图片序列组成，图片序列中存在许多描述动作变化的冗余图片，采用Attention注意力机制，计算此序列图片之间的矢量距离，将距离小于阈值的帧图去除，保留保持一定距离的图帧构成进入网络的关键帧序列。该序列的图帧能很好的保持动作的差异性、连续性和完整性。

3、AlexNet特征提取模块

传统AlexNet卷积神经网络是一个由5个卷积层和3个全连接层组成，该网络在ImageNet数据集上的分类效果较于传统的机器学习网络有很大的提高。在本发明中，如图2所示，Attention-LSTM网络采用AlexNet网络的前六层(Conv1～Conv5，FC6)，将最后两层的全连接层删除，并改变全连接层的通道数，获得适应于行为识别的特殊的特征提取网络。图片输入该网络通过前5层的卷积层进行特征提取，得到代表原始图片信息的高维特征图，再在第5层特征图上实现空时注意力模块加大与动作相关部位的权重，将特征分布变化的特征图进行最后的全连接操作，获得代表图片高维特征送入LSTM网络。

4、特征分权加强模块

因为帧图中不同部位对行为实现的贡献不同，利用特有的特征分权加强机制实现对空间重要部位的关注。将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块，特征分权加强模块实现对两个特征矢量距离的计算，获得送入AlexNet网络全连接层输入的权重系数，将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层，得到帧图的高维特征，如图3所示。

特征分权加强模块利用一个神经网络实现，该神经网络的损失函数loss如下：

上式中，t为当前时刻帧图，T为一个行为的总时刻帧图，K为每个特征图上的特征值总数量，l_t,i为该神经网络训练得到的权重系数值，是对一个行为的序列帧在一个像素点的值累加，是对所有像素点的值累加。只有当网络训练效果不错，即分权加权作用显著，在每个像素点的T时刻累加值越接近1，最终损失函数值也就会越小。该网络可以成功地实现对特征图和动作有关的重要位置加强关注，而不重要的位置弱化关注，从而实现网络准确率的提高。

5、LSTM行为识别模块

图片进行特征提取后，如果简单的加入分类层，最终的分类结果因为没有记录连续帧之间时序维度的连续性信息，将会在一定程度上降低最终的分类结果。所以，Attention-LSTM网络利用循环神经网络在时序上对上一帧信息的记录作用，将当前时刻的帧图特征和上一时刻帧图的特征一起送入LSTM网络，联合生成具有之前动作信息和当前动作信息的特征并实现最终的分类。LSTM网络是循环神经网络中的经典网络，1个LSTM单元的输入是当前时刻帧图特征信息x_t与上一时刻特征信息h_t-1，利用输入门、遗忘门和输出门控制LSTM单元的输出。输入门控制当前候选记忆单元特征的输入，输入门i_t如下：

i_t＝f(W_ix_t+U_ih_t-1+b_i)

上式中，f为激活函数，W_i、U_i、b_i分别为输入门中x_t、h_t-1的权值系数和偏置。遗忘门控制上一时刻记忆单元特征的输入，遗忘门f_t如下：

f_t＝f(W_fx_t+U_fh_t-1+b_f)

上式中，W_f、U_f、b_f分别为遗忘门中x_t、h_t-1的权值系数和偏置。

输出门控制融合了当前候选记忆单元特征与上一时刻记忆单元特征的当前记忆单元特征的输入，输出门如下：

o_t＝f(W_ox_t+U_oh_t-1+b_o)

上式中，W_o、U_o、b_o分别为输出门中x_t、h_t-1的权值系数和偏置。

当前候选记忆单元特征

当前记忆单元特征c_t：

根据c_t得到经过该LSTM单元的隐藏层信息h_t：

h_t＝o_t·tanh(c_t)

6、融合模块

Attention-LSTM网络只是分别形成了帧图的时间和空间上的识别。而Fusion模块则根据一定的机制，融合光流图和RGB图的结果。根据单独训练帧图的RGB图片和光流图片结果的对比，在Softmax层后，分配识别效果好的形式更高的融合权重，加权得到最终分类结果，也即该段视频中目标的行为判断结果。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于Attention-LSTM网络的视频行为识别方法，其特征在于，首先，通过光流图序列生成模块对输入的RGB图序列进行变换，得到光流图序列；其次，将得到的光流图序列与原RGB图序列输入时域注意力取帧模块，分别选取两种图序列中非冗余的关键帧；然后，将两种图的关键帧序列输入AlexNet网络特征提取模块，分别提取出两种帧图的时序特征和空间特征，同时，在AlexNet网络的最后一层卷积层与全连接层之间通过特征分权加强模块，对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作；将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块，分别对两种图片进行识别，并将两种识别结果通过融合模块按比例融合，得到最终的视频行为识别结果。

2.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述光流图片序列生成模块生成的光流图与原RGB图的尺寸相同。

3.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述时域注意力取帧模块采用注意力机制，计算序列图片之间的矢量距离，将距离小于设定阈值的帧图去除，则保留的帧图构成关键帧序列。

4.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述AlexNet网络特征提取模块依次包括5层卷积层和1层全连接层，图片先经过前5层卷积层进行特征提取，再在第5层特征图上通过特征分权加强模块加大与动作相关部位的权重，将特征分布变化的特征图进行最后的全连接操作得到输出的高维特征图。

5.根据权利要求4所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，将当前时刻帧图在经过AlexNet网络第5层卷积后的特征与上一时刻在经过LSTM网络的隐藏层特征共同作为输入送入特征分权加强模块，特征分权加强模块实现对两个特征矢量距离的计算，获得送入AlexNet网络全连接层输入的权重系数，将该权重系数与第5层卷积后的特征相乘得到的与动作有关的关键部位信息的特征送入AlexNet网络的全连接层，得到帧图的高维特征。

6.根据权利要求5所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，所述特征分权加强模块利用一个神经网络实现，该神经网络的损失函数loss如下：

7.根据权利要求1所述基于Attention-LSTM网络的视频行为识别方法，其特征在于，在LSTM网络行为识别模块中，1个LSTM单元的输入是当前时刻帧图特征信息x_t与上一时刻特征信息h_t-1，利用输入门、遗忘门和输出门控制LSTM单元的输出；

i_t＝f(W_ix_t+U_ih_t-1+b_i)

f_t＝f(W_fx_t+U_fh_t-1+b_f)

o_t＝f(W_ox_t+U_oh_t-1+b_o)

当前候选记忆单元特征

当前记忆单元特征c_t：

根据c_t得到经过该LSTM单元的隐藏层信息h_t：

h_t＝o_t·tanh(c_t)