CN111401177B

CN111401177B - 基于自适应时空注意力机制的端到端行为识别方法及系统

Info

Publication number: CN111401177B
Application number: CN202010157492.0A
Authority: CN
Inventors: 马昕; 刘少参; 宋锐; 荣学文; 田国会; 田新诚; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-04-07
Anticipated expiration: 2040-03-09
Also published as: CN111401177A

Abstract

本发明属于行为识别领域，提供了一种基于自适应时空注意力机制的端到端行为识别方法及系统。为解决行为识别精度差的问题，该行为识别方法包括接收视频的图像序列；利用行为识别模型对视频的图像序列进行处理并输出行为识别结果；行为识别模型包括时间注意力模块和主卷积神经网络，主卷积神经网络中嵌入了空间注意力模块；利用时间注意力模块按照每帧图像的关键性为视频的图像序列中的每一帧图像自适应分配一个权重，将时间注意力模块的输出结果输入至主卷积神经网络中进行行为识别；在主卷积神经网络识别行为的过程中，利用空间注意力模块将主卷积神经网络对行为的识别聚焦于运动相关区域，以快速准确地获取行为识别结果。

Description

基于自适应时空注意力机制的端到端行为识别方法及系统

技术领域

本发明属于行为识别领域，尤其涉及一种自适应时空注意力机制的端到端行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，人体行为识别在视频内容分析、视频监控、人机交互等领域得到了广泛应用并且受到了学术界和产业界的关注。然而，由于复杂的背景、类内变化、低分辨率和高维度等原因，人体行为识别仍然是棘手的难题。准确识别各类行为的关键在于提取具有区分性的特征并进行精确建模。强大的图像表征能力使得卷积神经网络在图像分类、目标检测、图像分割等领域得到了广泛应用。毫无疑问，对于人体行为识别问题，卷积神经网络也是一种强有力工具。为了增强了卷积神经网络对人体行为的建模能力，研究人员提出了许多适用于行为识别问题的新型卷积网络结构，同时有学者利用卷积神经网络对视频中的时间信息进行了挖掘。

发明人发现，上述行为识别工作都基于一个假设，即视频中不同的帧以及同一帧的不同区域对于行为识别同等重要。然而，在同一帧中，与动作无关的背景和与动作相关的运动区域包含的动作信息是不相等的；此外，由于不同帧内动作的变化程度不同，连续帧具有高度的冗余性，所以视频中不同的帧对于动作识别的重要性也不同。因此，上述假设与实际情况是不相符的，这导致基于上述假设来识别行为的识别结果精度差。

发明内容

为了解决上述问题，本发明的第一个方面提供一种自适应时空注意力机制的端到端行为识别方法，其利用时间注意力模块按照每帧图像的关键性为每一帧图像分配权重，更接近视频图像序列实际对识别结果的贡献，有利于提高行为识别速度，还将时间注意力模块的输出结果输入至主卷积神经网络中进行行为识别，利用嵌入至主卷积神经网络的空间注意力模块对行为的识别聚焦于运动相关区域，实现快速准确地获取行为识别结果。

为了实现上述目的，本发明采用如下技术方案：

一种自适应时空注意力机制的端到端行为识别方法，包括：

接收视频的图像序列；

利用行为识别模型对视频的图像序列进行处理并输出行为识别结果；

其中，行为识别模型包括时间注意力模块和主卷积神经网络，主卷积神经网络中嵌入了空间注意力模块；行为识别模型处理图像序列的过程为：

利用时间注意力模块自适应区分每帧图像的关键性，并为每一帧图像分配相应权重，将时间注意力模块的输出结果输入至主卷积神经网络中识别行为；

在主卷积神经网络识别行为的过程中，利用空间注意力模块将主卷积神经网络对行为的识别聚焦于运动相关区域，以快速准确地获取行为识别结果。

为了解决上述问题，本发明的第二个方面提供一种自适应时空注意力机制的端到端行为识别系统，其利用时间注意力模块按照每帧图像的关键性为每一帧图像分配权重，更接近视频图像序列实际对识别结果的贡献，有利于提高行为识别速度，还将时间注意力模块的输出结果输入至主卷积神经网络中进行行为识别，利用嵌入至主卷积神经网络的空间注意力模块对行为的识别聚焦于运动相关区域，实现快速准确地获取行为识别结果。

为了实现上述目的，本发明采用如下技术方案：

一种基于自适应时空注意力机制的端到端行为识别系统，包括：

图像序列接收模块，其用于接收视频的图像序列；

行为识别模块，其用于利用行为识别模型对视频的图像序列进行处理并输出行为识别结果；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的自适应时空注意力机制的端到端行为识别方法中的步骤。

本发明的第四方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的自适应时空注意力机制的端到端行为识别方法中的步骤。

本发明的有益效果是：

由于实际视频中，视频中不同的帧对于动作识别的重要性不同，而且在同一帧中与动作无关的背景和与动作相关的运动区域包含的动作信息是不相等的，为了避免识别行为过程中计算量过大，提高行为识别速度以及识别精度，本发明利用时间注意力模块按照每帧图像的关键性为每一帧图像分配权重，更接近视频图像序列实际对识别结果的贡献，提高了行为识别速度；进而，将时间注意力模块的输出结果输入至主卷积神经网络中进行行为识别，利用嵌入至主卷积神经网络的空间注意力模块对行为的识别聚焦于运动相关区域，实现了快速准确地获取行为识别结果的目的。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于自适应时空注意力机制的端到端行为识别方法流程图；

图2是本发明实施例的STACNet示意图；

图3是本发明实施例的SE-Block示意图；

图4是本发明实施例的TAM示意图；

图5是本发明实施例的SAM示意图；

图6(a)本发明实施例的ResNet示意图；

图6(b)本发明实施例的SAM嵌入ResNet示意图；

图6(c)本发明实施例的SE-Block嵌入ResNet示意图；

图6(d)本发明实施例的TAM嵌入ResNet示意图；

图7是本发明实施例的利用MATLAB实现的STACNet(ResNet50)空间注意力权重的可视化；

图8是本发明实施例的利用MATLAB实现的STACNet(ResNet50)时间注意力权重的可视化。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决背景技术中所述的目前行为识别工作都基于视频中不同的帧以及同一帧的不同区域对于行为识别同等重要假设的情况，而且上述假设与实际情况是不相符的，这导致基于上述假设来识别行为的识别结果精度差的问题，本发明提供了种自适应时空注意力机制的端到端行为识别方法及系统。

下面结合具体实施例来详细说明本发明的技术方案。

实施例一

图1给出了本实施例的一种基于自适应时空注意力机制的端到端行为识别方法流程图。

下面结合图1来说明本实施例的基于自适应时空注意力机制的端到端行为识别方法的具体实施过程。

如图1所示，本实施例基于自适应时空注意力机制的端到端行为识别方法，其包括：

步骤S101：接收视频的图像序列。

在具体实施中，获取不同监控场景下的视频，并得到连续帧的图像序列。

比如：对于居家监控视频来检测老人的行为，判断是否发生跌倒；

对于商场监控视频来检测识别消费者购物行为等等。

步骤S102：利用行为识别模型对视频的图像序列进行处理并输出行为识别结果；其中，行为识别模型包括时间注意力模块和主卷积神经网络，主卷积神经网络中嵌入了空间注意力模块；行为识别模型处理图像序列的过程为：

如图2所示，行为识别模型STACNet由时间注意力模块TAM和主卷积神经网络构成，主卷积神经网络中嵌入了空间注意力模块SAM。行为识别模型STACNet可以使卷积神经网络对视频动作的建模集中在关键帧的运动相关区域，同时计算成本的增加几乎可以忽略。

在本实施例中，卷积神经网络可采用任一现有的卷积神经网络结构来实现，比如LeNet-5网络等。

卷积神经网络相比于循环神经网络的优点：循环神经网络利用现代硬件上的效率较低，因为这类网络只能在批处理维度下并行运算，而卷积神经网络可以在批处理维度和时间/空间维度下并行运算；循环神经网络在训练过程中更容易遇到梯度爆炸或梯度消失的问题，而卷积神经网络由于在输入和输出之间具有恒定的路径长度，训练过程更为简单。

在具体实施中，时间注意力模块采用与SE-Block相似的结构来自适应地区分视频中的关键帧与非关键帧，并赋予关键帧图像较大的权重，赋予非关键帧图像较小的权重。

如图3所示，SE-Block包括转换，压缩和激活三个操作，其能够有效区分神经网络不同通道相对于识别结果的重要性。具体为：

转换F_tr是一个卷积操作。F_tr:X→U，X∈R^{C′×H′×W′}，U∈R^C×H×W。转换操作F_tr的输出用U＝[u₁,u₂,...,u_C]来表示。具体为

其中，X表示SE-Block的输入，C′、W′和H′分别表示输入在转换前的通道数、特征图的宽和高，C、W和H分别表示转换后的通道数、特征图的宽和高。*表示卷积操作，v_c表示第c个滤波器的参数。

X＝[x¹,x²,...,x^C′]。

表示作用于X的s通道的二维空间卷积核。

转换操作之后是压缩操作，具体为

其中，u_c是第c个通道，z_c是z∈R^C的第c个元素。公式(2)实际上是全局平均池化函数，用于收集全局空间信息。

压缩操作之后是激活操作，具体为

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂(δ(W₁z))) (3)

其中，δ表示ReLU函数，σ表示sigmoid函数。

r指缩减率，等于SE-Block中第一层全连接层中的输入通道数除以输出通道数。

公式(3)保证了激活操作的灵活性，同时可以保证学习到的通道之间的关系非互斥。为了增强模型的泛化性并降低复杂性，这里采用了两个全连接层来实现维度的降升，即参数为W₁、缩减率为r的降维层和参数为W₂的升维层。

最终，SE-Block的输出为

其中，

F_scale(u_c,s_c)函数表示标量s_c和特征图u_c∈R^H×W二者相乘。

如图4所示，时间注意力模块采用与SE-Block类似的结构来自适应地区分视频中的关键帧与非关键帧。

本实施例首先，在不丢失信息的前提下，我们将每一帧图像的3通道矩阵转换为单通道矩阵。这样，研究视频中不同帧之间的相对重要性就转换为了研究单通道矩阵之间的相对重要性。

在SE-Block中，空间信息的收集只用到了全局平均池化操作。然而，平均池化导致前向和后向传递过程中特征逐渐、持续地衰减，且不能反映局部结构的重要性。与平均池化相比，最大池化提高了可辨别性，特别是对于低激活概率的特征。因此我们提出在TAM中同时使用最大池化和平均池化。我们的目标是找到“介于”平均池化和最大池化之间的用于压缩操作的最佳池化方式，以收集更全面的信息来实现更精细的帧间差异的区分。具体计算细节如下。

对于一个给定的包含N帧图像的序列，首先我们将第n帧图像的矩阵

转换为

其中，

分别表示第n帧图像的R通道、G通道和B通道。μ₁，μ₂和μ₃是三个可训练的参数，分别初始化为0.299，0.587，0.114。

我们采用特定的卷积层对公式(17)进行计算。我们定义了以下的卷积核：

ω_r＝[0.299],ω_g＝[0.587],ω_b＝[0.114] (6)

那么，公式(5)可以重新写为

将公式(7)中卷积核参数可训练化，这样可以通过端到端的训练对上述参数进一步微调，以改善F_T函数的性能。

在转换操作之后，将

输入到以下两个描述子中：

然后，我们用两个超参数α₁和α₂来平衡公式(9)和公式(10)：

这里我们把

和

的系数限制在(0,1)范围内。α₁和α₂分别设置为0.8和0.2。

最后，采用SE-Block中的激活操作来保证模型的灵活性，以及学习到的不同帧之间的关系的非互斥性，具体为：

W^T＝F_ex(I^TW)＝σ(W₂(δ(W₁I^TW))) (11)

其中，δ和σ分别表示ReLU函数和sigmoid函数。

W^T∈R^N×1×1×1。

表示第n帧图像I_n的时间注意力权重。

在观察现实世界时，人们会对不同的区域给予不同程度的关注，目光通常聚集在其感兴趣的信息所在的位置。根据这一认知，本实施例空间注意力模块(SAM)根据特征图中不同位置对识别结果的贡献，赋予其相应的权重，使得神经网络更多地关注与动作关系密切的区域。

特征图上某一位置对动作识别重要性由两个方面体现。第一，值特征是一个方面。值特征的刻画可以采用许多复杂的策略，这里我们选择最简单的值差。这种选择背后的基本直觉是，我们认为光流图可以看作是一种特殊的特征图，二者具有一些相似的性质。光流图上动作相关位置处的值与其他位置有很大的差异。由此，我们认为特征图上与其他位置具有较大值差的位置，与动作联系更为紧密。具体来说，某一位置的值与特征图的平均值的差值越大，这个位置就包含更多与运动相关的信息，应该赋予其一个大的权重。

第二，梯度特征是另一方面。根据CAM算法，对于一个带有全局平均池化操作的卷积神经网络，最后一层卷积层的特征图F_n，在经过全局平均池化操作后，第c类行为的最终分类分数Y^c可以写为

那么，第c类行为的显著图中(i,j)处的值可通过下式计算

与位置(i,j)对于第c类行为的重要性直接相关。

根据Grad-CAM算法，对于第c类行为的第n个特征图F_n，其权重

定义为

其中，Z表示F_n中的像素数量。对于任意一种卷积神经网络，若Y^c是特征图F_n的可微函数，则Grad-CAM算法适用于该网络。

在Z＝1的情况下，公式(14)可以简化为：

公式(14)和公式(15)，特别是后者，说明Y^c每个维度相对于Y^c的重要性可以表示为Y^c沿该维度的偏导数。我们认为，特征图中的每一个特定位置F_n(i,j)都可以看作是一种特殊的Y^c，那么x维度和y维度相对于F_n(i,j)的重要性可以由下式计算

根据公式(16)和公式(17)，x维度和y维度对于特征图F_n中的不同位置具有不同的重要性，我们认为这种不同反映了不同位置相对于识别结果重要性的差异。因此，F_n(i,j)的空间注意力权重可以由

和

即

和

来刻画。我们把

和

的融合结果定义为F_n(i,j)处的梯度特征。

如图5所示，将值特征与梯度特征结合，得到空间注意力模块SAM。采用值差来刻画某一位置的值特征。若某一位置与其他位置具有一个大的值差，则赋予其一个大的权重，否则，赋予其一个小的权重。为了实现这个目标，我们设计了如下的计算公式。

对于特征图序列中的第n个特征图F_n∈R^H×W，首先计算F_n的平均值

然后，我们用F_n(i,j)和

差的绝对值来表示F_n(i,j)的值特征

这里，F_n(i,j)表示特征图F_n在(i,j)处的值。

梯度特征由

和

的融合结果来表示。为了得到F_n的梯度特征，首先我们分别沿i维度和j维度计算

和

具体为

然后，将

和

结合得到F_n(i,j)的梯度

最后，为了计算方便，对公式(21)进行了如下近似

用于刻画前面提到的梯度特征。

基于公式(18)和公式(22)，我们得到F_n的空间注意力权重

具体为

其中，σ表示sigmoid函数，λ是初始化为1的可训练参数。根据公式(23),如果特征图上的某个位置的值特征和梯度特征较大，则会赋予其一个大的空间注意力权重，否则，赋予其一个小的空间注意力权重。

将空间注意力模块和时间注意力模块嵌入到卷积神经网络中，即可得到STACNet。如图2所示，在STACNet中，首先，我们将视频的图像序列输入至TAM。TAM为每一帧图像分配一个权重，关键帧的权重较大而非关键帧的权重较小。然后，将TAM的输出作为主卷积神经网络的输入进行识别。这里的主卷积神经网络中嵌入了SAM，使得网络对动作的建模聚焦于运动相关区域。

本实施例的空间注意力模块和时间注意力模块都没有涉及循环神经网络，而是自适应地从卷积特征中挖掘视频的时空信息，更加直观且易于实现。其次，由于避免在SAM和TAM中引入复杂的网络结构，因此该注意力机制几乎不会带来参数量的增加，最后，基于循环神经网络构建的注意力机制使网络的训练变得困难，然而，SAM和TAM可以方便地嵌入到现有的卷积神经网络中，并形成一个端到端的结构。

下面介绍了实验涉及的两个数据集以及执行细节。然后，我们分别证明了空间注意力模块和时间注意力模块的有效性。最后，我们将STACNet的性能与当前最先进方法的性能进行了比较。

HMDB51数据集包含51类动作，共有6766个视频片段，每类动作至少包含100个片段。我们采用THUMOS13的评估方案，将所有视频分为三份，每份包含3570个训练视频和1530个测试视频。

UCF101数据集包含101类动作，共13320个视频片段，每类动作至少包含100个片段。我们将所有视频分为三份，每一份包括训练视频和测试视频两部分。最后用三份的平均精度来表示识别精度。

用在ImageNet数据集上预训练的模型初始化网络参数。我们从每个视频中随机选择4帧图像作为网络的输入，在训练过程中采用随机梯度下降算法和部分BN策略。批大小和动量分别设置为4和0.9，TAM中的缩减率r设置为2。初始学习率设置为0.001，在测试损失没有变化时将其乘以0.1。输入图像的大小固定为256×340。我们从{256,224,192,168}随机选择裁剪区域的宽度和高度，然后将这些裁剪区域调整为224×224。为了防止过拟合，本实施例采用了dropout策略，并将其参数设置为0.5。

测试时，我们使用TV-L1算法分别从视频图像的中心和四个边角提取光流。RGB图像和光流图像的堆叠数量均设置为4。在空间流和时间流融合时，我们赋予空间流一个小的权重(即1)，赋予时间流一个大的权重(即2)。实验中使用了单个GeForce RTX 2080GPU。所有实验均在PyTorch框架下进行。

所有实验均在UCF101数据集(split 1)上进行，共用到三个基准网络，即VGG16、ResNet50和ResNet101。实验中所有网络的输入均为RGB图像。

首先，我们比较了三种不同的空间注意力模块：(1)仅使用值特征(2)仅使用梯度特征(3)同时使用值特征和梯度特征。其次，我们比较了三个基准网络嵌入SAM后性能的变化。SAM的嵌入位置对于网络性能的提高至关重要。在本文中，经过多次实验，我们决定按照图6(a)和图6(b)中的方式将SAM嵌入到卷积神经网络中，以获得最佳效果。实验结果见表1和表2。

表1 UCF101数据集(split 1)上不同空间注意力模块的性能比较

表2 UCF101数据集(split 1)上带有SAM的不同卷积神经网络性能比较

根据表1，我们可以得出结论，同时使用值特征和梯度特征的空间注意力模块，相比于仅使用值特征或仅使用梯度特征的空间注意力模块，可以更好地实现聚焦运动区域的目标，从表2可以看出，SAM不会增加网络参数，且嵌入SAM后三个基准网络的性能都得到了提高。以上结果表明，SAM能够有效地使卷积神经网络的动作建模聚焦于运动相关区域，同时具有良好的泛化能力。

比较了三种不同的时间注意力模块：(1)仅使用平均池化操作(2)仅使用最大池化操作(3)同时使用平均池化操作和最大池化操作。其次，我们比较了三个基准网络嵌入TAM后性能的变化。TAM嵌入卷积神经网络的位置如图6(d)所示。实验结果见表3和表4。

表3 UCF101数据集(split 1)上不同时间注意力模块的性能比较

表4 UCF101数据集(split 1)上带有TAM的不同卷积神经网络性能比较

根据表3，我们发现平均池化操作和最大池化操作对于区分视频中的关键帧都有意义，这证明了我们设计的有效性。由表4可知，针对不同的基准网络，TAM均能够实现关键帧的区分，并提高其识别行为的能力。同时由TAM带来的时间和参数的增加几乎可以忽略不计。

对STACNet的性能进行了评估。我们选择了三种不同的结构，即VGG16、ResNet101和BN-Inception，分别作为STACNet的主卷积神经网络，在UCF101数据集(split 1)上进行了性能比较。本节实验仅使用RGB图像作为STACNet的输入。注意，其他类型的输入(如光流图像)也适用于STACNet。实验结果见表5。

表5 UCF101数据集(split 1)上基于不同卷积神经网络的STACNet的性能比较

根据表5，我们可以发现，STACNet能够有效提升三个基准网络的性能。与仅嵌入SAM或仅嵌入TAM相比，同时嵌入SAM和TAM的网络性能更有优势。这说明了SAM与TAM结合的合理性。当主卷积神经网络是BN-Inception时，取得了最好的识别结果。

从UCF101数据集中随机选取了六类动作，分别是Applyemapping、BabyCrawling、Basketball、CleanAndJerk、CricketShot、Handstandbuphups，用于空间注意力权重的可视化。我们从主卷积神经网络为ResNet50的STACNet中提取空间注意力权重，并采用MATLAB对其进行可视化。注意，这里我们移除了STACNet的TAM仅保留SAM。可视化结果见图7。空间注意力权重的大小由不同的颜色表示，红色区域表示较大的权重。从图7可以看出，SAM能够有效地使卷积神经网络的动作建模过程聚焦于动作相关区域。学习到的重要空间区域与人类的认知和前述分析一致。同时，如图7的最后一列所示，我们也注意到本文空间注意力方法的结果中存在许多噪声，并且一些通道的空间注意权重意义不明显。我们认为，如果在SAM中沿通道维度加入一个平均池化操作，可以获得更好的效果。

从UCF101数据集中随机选取了四类动作，分别是CleanAndJerk，BabyCrawling，BandMarching，MoppingFloor用于时间注意力权重的可视化。我们从主卷积神经网络为ResNet50的STACNet中提取时间注意力权重，并采用MATLAB对其进行可视化。注意，这里我们移除了STACNet的SAM仅保留TAM。可视化结果见图8。从图8可以看出，TAM能够区分视频中不同的帧对于动作识别的重要性，但是区分性不明显。我们认为造成这种现象的原因有两个。第一，视频中不同的帧在较短时间范围内趋于相似，本身差异性不大。第二，在训练过程中，由于计算资源的限制，我们只从每个视频中选取了4帧进行训练。我们认为，如果从视频中选择图像的数量更多，TAM的性能可能会更好。

为了与最先进的方法进行比较，我们在STACNet的训练测试过程中应用了以下技巧。第一，根据双流融合的方法，我们用光流图像额外训练了一个网络。在测试时，我们采用固定的权重(即1:2)来融合空间流和时间流的识别结果。第二，将每个视频分割为3个片段，将这3个片段识别结果的平均值作为最终的识别结果。根据表6的结果，我们选择BN-Inception作为STACNet中的主卷积神经网络。

表6 STACNet(BN-Inception)与当前先进方法的性能比较

比较STACNet和其他行为识别方法的性能，包括ARTNet、OFF、I3D等。结果表明，在HMDB51数据集和UCF101数据集上，STACNet取得了优越的性能。这说明了注意力机制的重要性，同时证明了STACNet的有效性。另外，我们可以发现，STACNet(BN-Inception)与当前最先进的方法的之间存在明显的性能差距。这种现象的出现有两个原因。第一，SAM和TAM的算法有改进的空间。根据可视化结果，我们发现一些通道的空间注意力权重存在明显的噪声，且不同的帧之间的时间注意力权重差异太小。第二，STACNet的主卷积神经网络(即BN-Inception)与其他方法的网络结构不同。如果我们选择一种更先进的网络作为STACNet的主卷积神经网络，可能获得更好的结果。

实施例二

一种基于自适应时空注意力机制的端到端行为识别系统，其特征在于，包括：

(1)图像序列接收模块，其用于接收视频的图像序列；

(2)行为识别模块，其用于利用行为识别模型对视频的图像序列进行处理并输出行为识别结果；

在具体实施中，关键帧图像的权重大于非关键帧图像的权重。

时间注意力模块采用SE-Block结构来自适应地区分视频中的关键帧与非关键帧，其过程包括转换操作、压缩操作和激活操作。

其中，在转换操作的过程中，将每帧图像的三通道矩阵转换为单通道矩阵。

在压缩操的过程中，同时使用最大池化和平均池化，找到介于平均池化和最大池化之间的用于压缩操作的最佳池化方式，以收集更全面的信息来实现更精细的帧间差异的区分。

在具体实施中，在空间注意力模块中，将主卷积神经网络提取的特征图中的值特征和梯度特征融合，得到像素级的空间位置权重图；权重图中每个位置的值表示特征图中相应位置的空间权重，进而使得主卷积神经网络对行为的识别聚焦于运动相关区域。

实施例三

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一所述的基于自适应时空注意力机制的端到端行为识别方法中的步骤。

实施例四

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一所述的基于自适应时空注意力机制的端到端行为识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应时空注意力机制的端到端行为识别方法，其特征在于，包括：

接收视频的图像序列；

2.如权利要求1所述的基于自适应时空注意力机制的端到端行为识别方法，其特征在于，关键帧图像的权重大于非关键帧图像的权重。

3.如权利要求1所述的基于自适应时空注意力机制的端到端行为识别方法，其特征在于，时间注意力模块采用SE-Block结构来自适应地区分视频中的关键帧与非关键帧，其过程包括转换操作、压缩操作和激活操作。

4.如权利要求3所述的基于自适应时空注意力机制的端到端行为识别方法，其特征在于，在转换操作的过程中，将每帧图像的三通道矩阵转换为单通道矩阵。

5.如权利要求3所述的基于自适应时空注意力机制的端到端行为识别方法，其特征在于，在压缩操的过程中，同时使用最大池化和平均池化，找到介于平均池化和最大池化之间的用于压缩操作的最佳池化方式，以收集更全面的信息来实现更精细的帧间差异的区分。

6.如权利要求1所述的基于自适应时空注意力机制的端到端行为识别方法，其特征在于，在空间注意力模块中，将主卷积神经网络提取的特征图中的值特征和梯度特征融合，得到像素级的空间位置权重图；权重图中每个位置的值表示特征图中相应位置的空间权重，进而使得主卷积神经网络对行为的识别聚焦于运动相关区域。

7.一种基于自适应时空注意力机制的端到端行为识别系统，其特征在于，包括：

图像序列接收模块，其用于接收视频的图像序列；

8.如权利要求7所述的基于自适应时空注意力机制的端到端行为识别系统，其特征在于，在所述行为识别模块中，时间注意力模块采用SE-Block结构来自适应地区分视频中的关键帧与非关键帧，其过程包括转换操作、压缩操作和激活操作；

或

在所述行为识别模块中，在空间注意力模块中，将主卷积神经网络提取的特征图中的值特征和梯度特征融合，得到像素级的空间位置权重图；权重图中每个位置的值表示特征图中相应位置的空间权重，进而使得主卷积神经网络对行为的识别聚焦于运动相关区域。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于自适应时空注意力机制的端到端行为识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于自适应时空注意力机制的端到端行为识别方法中的步骤。