CN113705345B

CN113705345B - 一种基于sta-tsn的人类行为识别方法及系统

Info

Publication number: CN113705345B
Application number: CN202110827413.7A
Authority: CN
Inventors: 杨国安; 杨勇; 陆正之; 杨竣杰; 刘德阳; 周传波; 樊子恩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-09-12
Anticipated expiration: 2041-07-21
Also published as: CN113705345A

Abstract

一种基于STA‑TSN的人类行为识别方法及系统，包括以下步骤：将视频分为N段，从每一段中提取k帧；根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征；在TSN中建立关键帧探索模块探索在每一段视频中的关键帧；增加正则项引导关键帧探索模块进行有目的性的探索关键帧。本发明不仅具备了捕捉视频中长期信息的能力，同时还引入了注意力机制，使模型具有了空间和时间上聚焦的能力，极大地提高了行为识别的精度。

Description

一种基于STA-TSN的人类行为识别方法及系统

技术领域

本发明属于视频识别技术领域，特别涉及一种基于STA-TSN的人类行为识别方法及系统。

背景技术

随着多媒体的发展和移动设备的普及，视频逐渐成为了最为广泛的传播媒介之一。这种趋势也推动了计算机视觉领域对视频理解技术的发展。人类行为识别就是在这一领域的重要分支。人类行为识别任务是给一个视频片段分类，类别通常为各类人的动作。这项技术被广泛应用在视频检索、人机交互、安防监控等领域[1]。相较于图片，视频虽然包含了更多的信息，但视频中摄像机的动作、人物动作尺度和姿态的不同、光照条件的突变等同样也大大增大了行为识别的难度[2]。同时，一段视频中往往还包含一些对行为识别贡献不大的背景信息和视频帧，这些无用的信息往往也会对识别过程造成较大的干扰[3]。因此寻求一种空间上能聚焦于人的行为动作，时间上能聚焦于较为关键的帧一直以来都是行为识别领域的一个热门问题。

最初，研究者采用手工提取特征的方式来进行行为识别，这些方法主要依赖于视频帧的中低层特征，利用这些特征可以对一些区分度较大的行为具有较好的效果，但对一些复杂行为或相似度较高的行为，分类器很难利用它们的中低层特征进行正确地分类。深度学习的快速发展让提取视频帧中的深层特征成为可能，相关的方法主要依赖于卷积神经网络(CNN)提取RGB图像和堆叠的光流图像的深层特征或采用长短期记忆神经网络LSTM[6]提取连续多帧的深层特征序列的动态特征。

Wang等人提出的时间切割网络(TSN)是基于卷积神经网络提取深层特征的方法中的典型代表，已经在人类行为识别上取得了较好的效果，其将一段视频分成若干段，然后在每一段中抽取一帧用卷积神经网络进行识别，最后融合每段的识别结果得到最终的识别结果。这种结构让模型具有捕捉视频长期信息的能力，并在行为识别的精度上具有明显的提升，但是TSN中采用的卷积神经网络如ResNet、BN-Inception等都是最后通过一个的全局平均池化层(GAP)来获取全局特征表示，然而这样做使网络对空间中各个位置的特征的关注程度相同，与此同时，在每一段中随机抽取视频帧的方式也无法保证所抽取的视频帧都是对行为识别有贡献的帧。这些缺点都会对行为识别造成较大的干扰。

发明内容

本发明的目的在于提供一种基于STA-TSN的人类行为识别方法及系统，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于STA-TSN的人类行为识别方法，包括以下步骤：

将视频分为N段，从每一段中提取k帧；

根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征；

在TSN中建立关键帧探索模块探索在每一段视频中的关键帧；

增加正则项引导关键帧探索模块进行有目的性的探索关键帧。

进一步的，使用空间金字塔池化SPP去探索多尺度空间焦点特征：

对于第n段第t帧图像，从CNN的最后一层卷积层中获得维度为H×H×C的特征图A_n,t，其中H×H为一个特征图中的像素个数，C为特征图的通道数；将A_n,t复制了三份，分别命名为A¹ _n,t,

对于A¹ _n,t，用来获得多尺度空间注意力权重α_n,t；

接着，通过求α_n,t和之间的内积来获得多尺度空间焦点特征/>

最后，将与原始特征的副本/>相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示F_n,t：

进一步的，获得多尺度空间注意力权重α_n,t具体的处理过程如下：首先，让A¹ _n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征；然后，采用软注意力机制的形式，利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重α_n,t：

其中，W，b和分别为1×1卷积层的权重，偏置和输出；SPP(·)含义为SPP层的输出。

进一步的，在TSN中建立基于LSTM的关键帧探索模块：

利用LSTM提取的时间动态特征来探索关键帧，具体的，在第n段视频，首先用这一段中的所有采样帧的全局特征表示F_n,1,F_n,2,…,F_n,k作为LSTM的输入；然后，采用软注意力机制的形式将LSTM所有时间步的输出h_n,1,h_n,2,…,h_n,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重β_n；

接着，利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示F_n；

接着，利用一个全连接层来获得所有类别的得分；同时，对于所有的段，LSTM，卷积层，全连接层都贡献参数；

最终，利用一个平均池化融合所有段的得分来作为视频的最终得分。

进一步的，时间注意力权重β_n：

β_n＝{β_n,1,β_n,2,…,β_n,t,…,β_n,k}

其中，W，b和分别为1×1的1-D卷积层的权重，偏置和输出；β_n,t为第n段中第t帧对该段的贡献程度。

进一步的，正则项为时间注意力正则化：

在训练时间注意力模块之前首先用一个双流结构来训练CNN；利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器，这些二分类器用来判断从视频中抽取的某一帧是否属于这个视频对应的类别；如果被二分类器判为false，认为这一帧不是视频中的关键帧，对于被判定为false的帧，计算它对应的时间注意力权重β_n,m与0的均方误差l_MSE作为交叉熵损失函数l_CE的正则项。

进一步的，最终的损失函数写为：

l_final＝l_CE+l_MSE

其中，M是被二分类器判为false的帧的个数；y是二分类器的结果，β_n,m是第n段第m帧对应的时间注意力权重，是β_n,m的一个函数；基于这个时间注意力正则化，时间注意力模块能更有目的性地实现关键帧的探索。

进一步的，一种基于STA-TSN的人类行为识别系统，包括：

视频分段模块，用于将视频分为N段，从每一段中提取k帧；

融合空间焦点特征模块，用于根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征；

关键帧探索模块，用于在TSN中建立关键帧探索模块探索在每一段视频中的关键帧；增加正则项引导关键帧探索模块进行有目的性的探索关键帧。

与现有技术相比，本发明有以下技术效果：

首先，本发明改变了典型的CNN中直接通过GAP层来获取全局特征的方式，提出了一种多尺度空间焦点特征增强策略，具体来说，将CNN得到的原始特征图复制三份，它们的作用分别是：

1.利用空间金字塔池化方法融合原始特征图中多尺度的特征信息，再利用软注意力机制将其映射为一个与原特征图大小相同的权重矩阵。该权重矩阵中不同位置值的大小就反映了特征图中相应位置的重要程度。

2.将原始特征图与1中得到的权重矩阵做內积，从而将原始特征图中的信息以软注意力机制的形式进行滤波，最终的结果即可作为多尺度空间焦点特征图。

3.将原始特征图与2中结果进行融合作为最终的特征表示，实现了在原特征图的基础上对2中得到的多尺度空间焦点特征进行增强，从而让最终的特征表示既能突出关键特征，也不会损失过多的对行为识别有用的信息。

其次，在TSN中设计了一个关键帧探索模块，克服了TSN网络中无法保证所抽取的帧是否为对行为识别有用的帧的问题。具体来说，TSN网络在提取视频帧时只是将视频等分为若干段落然后再从中随机抽取一帧，这样可能会出现抽取的帧并不是对行为识别有用的帧。在此基础之上再从分割的每一段落中等间隔地抽取若干帧并对这些帧的重要程度进行判断，其中主要是利用软注意力机制将各个帧的特征表示映射为一个0到1之间的时间注意力权重，该权重的大小就代表了该视频帧的重要程度。其次，在各个视频段中利用时间注意力权重对该段落中抽取帧的特征表示进行加权平均，然后将结果来作为该段落最终的特征表示，从而使得每一段落中的特征表示成为一个突出关键帧的特征表示。

最后，为了让时间注意力模块更有目的性地探索时间注意力，设计了一种时间注意力正则化方法。它是通过在原有的交叉熵损失函数上加上一个与时间注意力权重相关的正则项作为最终的误差，使得在误差反向传播过程中，可以引导的时间注意力模块朝着误差减小的方向靠近。

因此，本发明不仅具备了TSN网络所具有的捕捉视频中、长期信息的能力，同时还引入了注意力机制，使得的模型具有了空间和时间上聚焦的能力，从而极大地提高了人类行为识别的精度。

附图说明

图1为本发明提出的STA-TSN整体的框架。

图2为本发明提出的多尺度空间焦点特征增强策略的模型图。

图3为本发明提出的关键帧探索模块的模型图。

图4为本发明提出的STA-TSN在投篮这一行为视频中的时空注意力可视化。

具体实施方式

以下结合附图对本发明进一步说明：应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先，将视频分为N段：

{S₁,S₂,…,S_n,…,S_N}。

与TSN不同，采用全局采样从每一段中提取k帧：

{T₁₁,T₁₂,…,T_1k,…,T_n1,…,T_nt,…,T_nk,…,T_N1,T_N2,…,T_Nk}。

然后，设计了一种多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征。接着，为TSN设计了一个关键帧探索模块去探索在每一段中的关键帧。最后，为最后的交叉熵损失函数增加了一个正则项去引导的关键帧探索模块更好地探索关键帧。整体的模型结构如图1所示。

(1)多尺度空间焦点特征增强策略：

Li等人最近的工作[8]中指出采用全局特征进行行为识别会从空间中不相关的区域中引入噪

声。因此他们设计了一种空间注意力模块来提取视频帧中的空间注意力特征。然而这种方式又很难确保空间注意力模块可以提取到所有的有用特征。因此提出一种名为多尺度空间焦点特征增强的折中策略，在原有特征的基础上融合空间焦点特征。与此同时，为了得到更丰富的特征信息，使用了一个空间金字塔池化(SPP)去探索多尺度空间焦点特征。

如图2所示，对于第n段第t帧图像，从CNN的最后一层卷积层中获得维度为H×H×C的特征图A_n,t，其中H×H为一个特征图中的像素个数，C为特征图的通道数。为了能更清楚地描述的模型，将A_n,t复制了三份，分别命名为A¹ _n,t,

对于A¹ _n,t，用它来获得多尺度空间注意力权重。具体的处理过程如下：首先，让A¹ _n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征。然后，采用软注意力机制的形式，利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重α_n,t：

其中，W，b和分别为1×1卷积层的权重，偏置和输出。SPP(·)含义为SPP层的输出。接着，通过求α_n,t和/>之间的内积来获得多尺度空间焦点特征/>

(2)在TSN中的关键帧探索

在采样过程中，TSN随机从每一段中抽取一帧来作为这一段的特征表示。然而采用这种采样策略经常会抽取到与行为识别不相关的帧。受到Zhu等人[9]利用深度学习来探索关键帧的启发，在TSN中设计了一个基于LSTM的关键帧探索模块。

众所周知，LSTM在提取时间动态特征方面具有卓越的能力。然而，大多数方法都直接利用LSTM提取的时间动态特征来进行行为识别。不同于这些方法，利用LSTM提取的时间动态特征来探索关键帧。具体来说，如图3所示，例如在第n段，首先用这一段中的所有采样帧的全局特征表示F_n,1,F_n,2,…,F_n,k作为LSTM的输入。然后，同样采用软注意力机制的形式将LSTM所有时间步的输出h_n,1,h_n,2,…,h_n,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重β_n：

β_n＝{β_n,1,β_n,2,…,β_n,t,…,β_n,k}

其中，W，b和分别为1×1的1-D卷积层的权重，偏置和输出。β_n,t为第n段中第t帧对该段的贡献程度。接着，利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示F_n。

接着，利用一个全连接层来获得所有类别的得分。同时，对于所有的段，LSTM，卷积层，全连接层都贡献参数。最终，利用一个平均池化融合所有段的得分来作为视频的最终得分。

(3)时间注意力正则化

与此同时，为了能让的时间注意力模块更好地探索关键帧。为交叉熵损失函数l_CE设计了一个时间注意力正则化。然而，如果要引导的模块去实现关键帧的探索，就必须预先知道哪一帧是关键帧，但无法提前知道哪一帧是关键帧。不过，幸运的是，在训练阶段，在训练时间注意力模块之前首先用一个双流结构来训练的CNN。所以，如图1所示，可以利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器，这些二分类器可以用来判断从视频中抽取的某一帧是否属于这个视频对应的类别。如果被二分类器判为false，就认为这一帧不是视频中的关键帧。对于被判定为false的帧，计算它对应的时间注意力权重β_n,m与0的均方误差l_MSE作为交叉熵损失函数l_CE的正则项，则最终的损失函数可以写为：

l_final＝l_CE+l_MSE

其中，M是被二分类器判为false的帧的个数。y是二分类器的结果，β_n,m是第n段第m帧对应的时间注意力权重，是β_n,m的一个函数。基于这个时间注意力正则化，的时间注意力模块能更有目的性地实现关键帧的探索。

举实例如下：

图4以“投篮”这一动作为例，可视化地展示了的STA-TSN在空间注意力和时间注意力上的结果。将视频分成三段，每一段中等间隔地抽取十帧。图中每一段的第一行表示经过中心裁剪成大小为224×224的RGB图像，第二行为空间注意力权重经过上采样成224×224大小后与原图进行叠加后的结果，其中，图片中各区域的明亮程度代表该区域在空间上的重要程度。第三行为每一段中采样帧在该段的重要程度。

从图中可以发现在空间上，当人物还没有做投篮动作时，的模型更关注篮筐区域，当人物开始做投篮动作时，的模型将注意力转移到人投篮的姿态上，而这也与用肉眼在观察这一动作时关注的区域类似。因此，的模块可以准确地定位图像中的空间焦点区域。

在时间注意力方面，segment1中，随着人物在的出现，的模型输出的时间注意力权重总体上也在不断上升，segment2中，29-37帧是整个投篮动作中最核心的部分，的模型同样在这一段时间内有着更高的注意力，segment3中由于投篮动作已经结束，这一部分的帧对应的注意力权重基本趋于平稳。因此，的模型能有效地在TSN中实现关键帧的探索。

Claims

1.一种基于STA-TSN的人类行为识别方法，其特征在于，包括以下步骤：

将视频分为N段，从每一段中提取k帧；

在TSN中建立关键帧探索模块探索在每一段视频中的关键帧；

增加正则项引导关键帧探索模块进行有目的性的探索关键帧；

使用空间金字塔池化SPP去探索多尺度空间焦点特征：

对于第n段第t帧图像，从CNN的最后一层卷积层中获得维度为H×H×C的特征图A_n,t，其中H×H为一个特征图中的像素个数，C为特征图的通道数；将A_n,t复制了三份，分别命名为

对于用来获得多尺度空间注意力权重α_n,t；

在TSN中建立基于LSTM的关键帧探索模块：

最终，利用一个平均池化融合所有段的得分来作为视频的最终得分；

正则项为时间注意力正则化：

2.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法，其特征在于，获得多尺度空间注意力权重α_n,t具体的处理过程如下：首先，让A¹ _n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征；然后，采用软注意力机制的形式，利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重α_n,t：

3.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法，其特征在于，时间注意力权重β_n：

β_n＝{β_n,1,β_n,2,…,β_n,t,…,β_n,k}

4.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法，其特征在于，最终的损失函数写为：

l_final＝l_CE+l_MSE

5.一种基于STA-TSN的人类行为识别系统，其特征在于，包括：

视频分段模块，用于将视频分为N段，从每一段中提取k帧；

关键帧探索模块，用于在TSN中建立关键帧探索模块探索在每一段视频中的关键帧；增加正则项引导关键帧探索模块进行有目的性的探索关键帧；

对于A¹ _n,t，用来获得多尺度空间注意力权重α_n,t；

在TSN中建立基于LSTM的关键帧探索模块：

正则项为时间注意力正则化：