CN113283298A

CN113283298A - 基于时间注意力机制和双流网络的实时行为识别方法

Info

Publication number: CN113283298A
Application number: CN202110454762.9A
Authority: CN
Inventors: 杨静; 张坤; 张栋; 陈跃海; 李�杰; 杜少毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-08-20
Anticipated expiration: 2041-04-26
Also published as: CN113283298B

Abstract

本发明提供了一种基于时间注意力机制和双流网络的实时行为识别方法，包括：1)将视频拆分成图像帧，并按高帧率采样；2)使用卷积神经网络对抽取的图片进行特征提取；3)使用通道注意力机制对通道数据加权；4)使用时间注意力机制对图片帧加权；5)按时间注意力加权结果在低帧率路径采样；6)在卷积层中通过多次侧向连接将高帧率路径特征融合到低帧率路径；7)融合两条路径最终的特征向量；8)对UCF‑101数据集的行为识别数据进行训练建模，对测试集进行识别得到准确率结果。从实验结果可以看到，本发明针对行为识别在主流数据集上提高了测试结果的精度。

Description

基于时间注意力机制和双流网络的实时行为识别方法

技术领域

本发明属于计算机视觉、视频分类、深度学习领域，具体涉及一种基于时间注意力机制和双流网络的实时行为识别方法。

背景技术

行为识别是通过运用计算机等科学技术手段，对视频中人的仪表、手势、体态、动作、活动等行为模式进行分析归类，是借鉴并融合了认知科学、数据挖掘、机器学习、模式识别等诸多方面成果的综合性研究。

目前基于深度学习的行为识别研究方法有双流网络、骨骼点提取、光流法、循环神经网络等。

双流CNN通过效仿人体视觉过程，对视频信息理解，在处理视频图像中的环境空间信息的基础上，对视频帧序列中的时序信息进行理解，为了更好地对这些信息进行理解，双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体，其中包含环境、视频中的物体等空间信息，称为空间信息网络；另外，光流信息作为时序信息的载体输入到另外一个卷积神经网络中，用来理解动作的动态特征，称为时间信息网络。

SlowFast网络方法是一种受生物机制启发的双流识别模型。其设计思想是通过“分解架构”，即分别处理空间结构和时间事件。视觉内容的类别空间语义(及其颜色、纹理、光照等)变化缓慢，因此识别可以相对缓慢地刷新。相比之下，正在执行的动作(拍手、挥手、摇晃、走路、跳跃等)比其主体识别变化速度快得多，因此应用快速刷新帧(高时间分辨率)来对快速变化的动作进行有效建模。

当前已经存在很多基于双流网络架构的行为识别方法，但很多效果并不理想，主要是由于以下几个方面：视频中的信息是较为冗余的，面向视频的行为识别一般所需的硬件要求很高。对于行为识别任务，对任务做出实际贡献的图片帧在视频中的分布十分稀疏，因此在行为识别中如何找出含有关键信息的图片帧和特征通道是亟待解决的问题。

发明内容

本发明的目的在于解决上述问题，提供一种基于时间注意力机制和双流网络的实时行为识别方法，旨在与解决视频中空间和时序信息的处理以及长时动作的关键帧选择问题。

为了实现上述的目的，本发明采用如下技术方案：

基于时间注意力机制和双流网络的实时行为识别方法，包括以下步骤：

步骤一：将输入的视频拆分成图像帧，并按高帧率均匀的抽取所需数量的图片；

步骤二：采用完成的卷积神经网络对抽取的图片进行特征提取，从而得到对应的特征向量为了方便后续计算，将输入特征向量的维度表示为：

X＝[C1,C2,ωT,W,H]

其中X为输入的特征向量维度，C1为输出的特征通道数，C2为输入的特征通道数，T为序列长度，ω为一次3D卷积中所取的片段长度，W和H为特征的宽和高。

步骤三：利用提取特征向量作为输入，通过通道注意力机制计算通道权重对通道加权；

步骤四：对于通道加权后的特征向量，选取其中权值最大的通道作为时间注意力机制的输入计算权重对图片帧加权；

步骤五：基于高帧率路径生成的图片帧权重，按权值从大到小以低帧率在视频对应位置抽取图片；

步骤六：在多个卷积层中将高帧率路径提取的特征变换后通过侧向连接融合到低帧率路径；

步骤七：将两条路径经过卷积神经网络最终提取出的特征融合；

步骤八：对UCF-101数据集的行为识别数据进行训练建模，通过反向传播，当损失较大时，不断更新模型参数，直到损失收敛，测试模型的准确率。

步骤二中，使用3D卷积网络进行特征提取，在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。

步骤三中，在3D卷积中引入通道注意力机制，将提取特征向量作为输入，通过计算通道权重对通道加权。通道注意力的计算公式为：

a＝Sigmoid(Y₂ReLU(Y₁z_C))

其中ω为一次3D卷积中所取的片段长度，T为序列长度，u_C为时间维度的卷积结果，v_C为卷积核，

为第i帧图片对应的卷积核，xⁱ为第i帧图片对应的特征向量，通过第一步卷积操作,特征向量维度变化为X＝[C1,C2,1,W,H]。z_C为池化操作的结果，W和H为特征的宽和高，通过在特征的宽和高进行池化，特征向量的维度变化为X＝[C1,C2,1,1,1]。a为通道注意力计算出的权重值，Y₁和Y₂为权重参数，在训练中得到，Sigmoid为S型激活函数，ReLU为线性激活函数。

步骤四中，由于每帧图片的重要性不同，对于通道加权后的特征向量，选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权，时间注意力的计算公式为：

u_T＝x[C1，a_Max，ωT，W，H]

s＝Sigmoid(W₂ReLU(W₁z_T))

其中a_Max为上一步通道注意力机制中提取出的权重最大值对应的通道坐标。u_T为通道注意力提取出的权重最大通道对应的特征向量。通过第一步提取操作,特征向量维度变化为X＝[C1,1,ωT,W,H]。z_T为池化操作的结果，W和H为特征的宽和高，通过在特征的宽和高进行池化，特征向量的维度变化为X＝[C1,1,ωT,1,1]。s为时间注意力计算出的权重值，W₁和W₂为权重参数，在训练中得到，Sigmoid为S型激活函数，ReLU为线性激活函数。

步骤五中，基于高帧率路径中通过时间注意力加权生成的图片帧权重，按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片。

步骤六中，在残差网络的Res1、Res2、Res3、Res4特征提取之后，将高帧率路径的特征通过侧向连接传输到低帧率路径，将高帧率路径提取时序信息与低帧率路径共享，保证了整个网络提取的特征既关注空间信息也关注时间信息。

与现有技术相比，本发明的优势如下：

本发明使用双流架构，在不同的时间分辨率上对视频进行特征提取，相比于只使用固定帧率提取的网络，对长时动作能够更好地关注其时序信息；在通道维度上加入通道注意力加权，在时间维度上加入时间注意力加权，能够给不同的通道和图片帧赋予对应的权重，相比于目前的双流网络模型，对网络贡献率较大的通道和图片帧能够得到更大的权重，从而提高了识别的效率和准确率；在低帧率路径，基于时间注意力的生成图片帧权重进行采样，相比于现有模型的均匀抽取方法，能够提取到信息量更多，对识别贡献更大的图片帧，提高了网络的准确率。

附图说明

图1为本发明的流程图；

图2为本发明的模型结构图；

具体实施方式

下面结合附图对本发明做进一步说明。

参见图1，本发明包括以下步骤：

步骤一：从摄像头或者本地获取视频数据，将输入的视频拆分成每秒32个图像帧，并按每秒T帧的帧率均匀地抽取的图片，在UCF-101数据集上，T＝16。UCF101拥有来自101个动作类别的13320个视频，在动作方面具有多样性，并且在摄像机运动，人物外观和姿态，人体比例，视角，背景，照明条件等方面存在很大的差异，是行为识别领域十分具有挑战性的数据集；

步骤二：采用在Kinetics-400数据集上经过预训练的卷积神经网络ResNet3D对抽取的图片进行特征提取，获得对应的特征向量。ResNet采用了残差结构，很大程度上解决了随着网络的加深造成的梯度爆炸和梯度消失的问题。残差学习模块由主干的几个卷积层和分支的一条捷径(shortcut)组成。将残差学习模块的期望基础映射表示为

其中

为叠加的非线性层拟合的映射，x为捷径上的恒等映射。

在前向传播过程中，当浅层网络的x代表的特征已经足够成熟，若任何对于特征x的改变都会让loss值变大，

会自动趋向于学习成为0，x则从恒等映射的路径继续传递。这样就在不增加计算成本的情况下解决了退化问题。即在网络的前向传播过程中，如果当浅层的输出已经足够成熟，则让其层数后面的层执行支路的映射，以此等效恒等映射。

在反向传播过程中，设第i层的残差结构的表达式为

其中y为第i层反向传播输出，

为残差函数，x为捷径上的恒等映射，W_i代表第i层的参数矩阵。

那么残差网络最终迭代输出表达式为：

其中L代表网络总层数，x_l为第1层捷径上的恒等映射，x_i为第i层捷径上的恒等映射，W_i代表第i层的参数矩阵。x_L为最终的反向传播输出。在反向传播的过程中，根据链式法则，有

其中ε为损失函数，L代表网络总层数，x_l为第1层捷径上的恒等映射，x_i为第i层捷径上的恒等映射，W_i代表第i层的参数矩阵。x_L为最终的反向传播输出。

可见，由于加入了捷径的恒等映射x，返回的梯度分为两部分，其中

保证了信息可以直接传递回任何浅层单元，而另一部分

中，无论W_i为何值，

不会持续为-1，因此返回的梯度值也就不会持续为0。这样就解决了梯度消失问题。

ResNet3D在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。为了方便后续计算，将输入特征向量的维度表示为：

X＝[C1,C2,ωT,W,H]

步骤三：由于输入特征向量在通道维度有较大差异，有的通道对识别任务有较大贡献，而有的通道贡献较小，所以在3D卷积中引入通道注意力机制，将提取特征向量作为输入，通过计算通道权重对通道加权，通道注意力的计算公式为：

a＝Sigmoid(Y₂ReLU(Y₁z_C))

步骤四：由于每帧图片的重要性不同，对于通道加权后的特征向量，选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权，时间注意力的计算公式为：

u_T＝x[C1，a_Max，ωT，W，H]

s＝Sigmoid(W₂ReLU(W₁z_T))

步骤五：基于高帧率路径中通过时间注意力加权生成的图片帧权重，按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片，假设时间注意力计算出的权重值s中最大的两个值为s_α和s_β，则在视频中按α和β所在位置抽取图片；

步骤六：在ResNet3D的Res2、Res3、Res4卷积层中将高帧率路径提取的特征变换后通过侧向连接融合到低帧率路径。

步骤七：将两条路径经过卷积神经网络最终提取出的特征融合。

步骤八：使用若干已标记的视频数据对模型进行训练；训练过程中使用反向传播，当损失较大时，不断更新模型参数，直到损失收敛到较小的值，保存为模型；

参见图2，本发明的模型具体结构包括以下部分：

模型使用双流结构，高帧率路径提取的图片数较多但通道数较少，低帧率路径提取的图片数较少但通道数较多。高帧率路径提取的图片数为低帧率路径的p倍，高帧率路径特征的通道数为低帧率路径的q倍，在UCF-101数据集上，p＝16，

Res1、Res2、Res3、Res4是ResNet3D的残差结构。选择在Kinetics-400数据集预训练的ResNet3D-50用来作为特征提取的骨干网络。

SE为通道注意力加权部分，对图片的特征向量进行通道注意力加权。

TA为时间注意力加权部分，根据通道注意力筛选出的通道特征对图片帧加权，α和β为时间注意力筛选出的权重最大的两帧，输入到低帧率路径作为图片提取的位置坐标依据。

Fuse为特征融合部分，高帧率路径提取的特征通过维度变换后与低帧率路径连接。

softmax函数将融合后的特征向量转换为类别概率向量，并选取其中最大值对应的类别为输出结果。

参见表1，使用在Kinetics-400上的预训练模型对UCF-101的行为识别数据进行训练建模，对UCF-101的split1分组进行测试，与同样使用3D卷积的C3D算法和同样使用了双流网络结构的TSN-RGB、Two-stream I3D以及TSN进行了准确率的对比，从实验结果可以看到，相比于主流的行为识别算法，本发明在同样的数据集上取得了更高的测试精度。

表1

Claims

1.基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，包括以下步骤：

X＝[C1，C2，ωT，W，H]

其中X为输入的特征向量维度，C1为输出的特征通道数，C2为输入的特征通道数，T为序列长度，ω为一次3D卷积中所取的片段长度，W和H为特征的宽和高；

2.根据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，步骤二中，使用3D卷积网络进行特征提取，在保留ResNet残差结构的基础上，在卷积核增加了时间维度，卷积核不止在2D空间的滑动，还在时间维度上移动，从而提取帧间的关联特征。

3.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，步骤三中，在3D卷积中引入通道注意力机制，将提取特征向量作为输入，通过计算通道权重对通道加权，通道注意力的计算公式为：

a＝Sigmoid(Y₂ReLU(Y₁z_C))

为第i帧图片对应的卷积核，xⁱ为第i帧图片对应的特征向量，通过第一步卷积操作，特征向量维度变化为X＝[C1，C2，1，W，H]，z_C为池化操作的结果，W和H为特征的宽和高，通过在特征的宽和高进行池化，特征向量的维度变化为X＝[C1，C2，1，1，1]，a为通道注意力计算出的权重值，Y₁和Y₂为权重参数，在训练中得到，Sigmoid为S型激活函数，ReLU为线性激活函数。

4.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，步骤四中，由于每帧图片的重要性不同，对于通道加权后的特征向量，选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权，时间注意力的计算公式为：

u_T＝x[C1，a_Max，ωT，W，H]

s＝Sigmoid(W₂ReLU(W₁z_T))

其中a_Max为上一步通道注意力机制中提取出的权重最大值对应的通道坐标。u_T为通道注意力提取出的权重最大通道对应的特征向量，通过第一步提取操作，特征向量维度变化为X＝[C1，1，ωT，W，H]，z_T为池化操作的结果，W和H为特征的宽和高，通过在特征的宽和高进行池化，特征向量的维度变化为X＝[C1，1，ωT，1，1]，s为时间注意力计算出的权重值，W₁和W₂为权重参数，在训练中得到，Sigmoid为S型激活函数，ReLU为线性激活函数。

5.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，步骤五中，基于高帧率路径中通过时间注意力加权生成的图片帧权重，按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片。

6.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法，其特征在于，步骤六中，在残差网络的Res1、Res2、Res3、Res4特征提取之后，将高帧率路径的特征通过侧向连接传输到低帧率路径，将高帧率路径提取时序信息与低帧率路径共享，保证了整个网络提取的特征既关注空间信息也关注时间信息。