CN110059662A

CN110059662A - 一种深度视频行为识别方法及系统

Info

Publication number: CN110059662A
Application number: CN201910346049.5A
Authority: CN
Inventors: 马昕; 武寒波; 宋锐; 荣学文; 田国会; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-26
Anticipated expiration: 2039-04-26
Also published as: CN110059662B

Abstract

本发明公开了一种深度视频行为识别方法及系统，包括：把深度视频的动态图像序列表示作为CNNs的输入，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整。最后，将全局平均池化应用于输入深度视频的被调整后的卷积特征图中，生成行为视频的特征表示，并将其输入到LSTM网络中，捕获人体行为的时间信息并进行分类。在三个具有挑战性的公共人体行为数据集上进行评估，实验结果表明，本发明方法能够提取具有辨识力的时空信息，显著地提升视频人体行为识别的性能。与其他现有方法相比，该方法有效地提高了行为识别率。

Description

一种深度视频行为识别方法及系统

技术领域

本发明属于基于视频的人体行为识别技术领域，具体涉及一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

基于视频的人体行为识别由于其广泛的应用，如智能视频监控、视频检索和老年人监护等，近年来在计算机视觉领域引起了越来越多的关注。尽管对视频中人体行为的理解与分类已经开展了大量的研究工作来提高动作识别的性能，但由于复杂的背景环境、丰富的行为类间变化以及微小的行为类内差异等问题造成的干扰，基于视频的人体行为识别仍然是一个极具挑战性的研究领域。低成本深度传感器Microsoft Kinect的出现使得基于深度数据的行为识别成为了非常活跃的研究课题，与RGB模态相比，深度数据对光照变化的敏感度较低，能够提供人体三维的运动信息，从而更好地进行行为的识别。此外，深度图像很好地掩盖了被检测人的身份信息，在实际应用中有效地保护了人的隐私。

最近，由于计算能力的显著进步和大量标注数据集的可用性，深度学习引起了广泛的关注，并被用于解决各种各样的计算机视觉挑战。得益于深度网络在目标检测、人脸检测、图像检索和图像分类等方面取得的成功，许多研究人员将深度网络模型应用于基于视频的行为识别任务中。深度网络可以自动学习具有辨识力的图像特征，有效地提升视频理解的性能。一些早期的方法利用卷积神经网络(convolutional neural networks，CNNs)进行视频中的行为识别，有两种常用的基于CNNs的网络框架，一个是Simonyan等人提出的双流CNNs，通过将来自RGB图像的外观信息和来自光流的运动信息分别输入两个CNNs来获得更好的识别性能。另一种是3D卷积网络(3D convolutional networks，C3D)，它可以利用3D卷积核在小范围内同时捕获视频的时空信息。然而，从整体上来看，基于CNNs的方法并不善于处理行为视频中的时间信息。为了解决这一问题，循环神经网络(recurrent neuralnetworks，RNNs)应运而生，它在处理序列数据方面具有很大的优势，其中长短时记忆网络(long short-term memory，LSTM)尤其适用于建模长视频的序列信息。

发明人发现，虽然基于CNNs的方法在行为识别方面取得了巨大的成功，但仍然存在两个问题。首先，CNNs缺乏对整个视频的长时间依赖性建模的能力。

其次，CNNs模型没有能力去聚焦输入图像中的信息区域，而对于视频中的行为识别来说，图像帧中与行为相关的显著运动区域非常重要。注意力机制在自然语言处理和图像标注等各种预测任务中展现出了显著的效果，它的出现是受到了人类注意力机制的启发，人们通常会有选择性地聚焦于视觉场景的目标区域以获取更详细的信息，而不是一次性同时处理整个场景的信息。由于注意力机制有助于聚焦视频中人体前景的运动细节，因此被广泛与深度网络模型相结合来进行行为的识别。大多数现有的注意力模型通常考虑的是行为视频的空间或时间特征。空间层次的注意力模型集中在图像帧中的突出运动区域，而时间层次的注意力模型集中于视频序列中的关键帧。CNNs的卷积层特征包含了丰富的结构、角点、边缘和纹理等空间信息，对行为识别具有重要的价值。此外，卷积特征是多通道的，不同的通道对应不同的特征检测子，忽略特征通道之间的不同学习能力，并对其进行同等处理，可能会降低CNNs卷积特征的强大表达能力。

发明内容

为了解决上述问题，本发明提出一种深度视频的行为识别方法及系统，该方法提出了通道与时空兴趣点注意力模型，用于探索卷积神经网络中不同特征通道的辨识能力以及聚焦行为视频中的显著运动区域，能够充分利用CNNs卷积特征的特点来提升人体行为识别的性能。具体地，将深度视频的动态图像序列表示作为CNNs的输入，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整。最后，将全局平均池化应用于输入深度视频的被调整后的卷积特征图中，生成行为视频的特征表示，并将其输入到LSTM网络中，捕获人体行为的时间信息并进行分类。

在一些实施方式中，采用如下技术方案：

一种深度视频行为识别方法，包括：

获取深度视频信息，得到该深度视频的动态图像序列表示；

将深度视频的动态图像序列表示作为CNNs的输入；

在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整；

将全局平均池化应用于所述深度视频的被调整后的卷积特征图中，生成行为视频的特征表示；

将行为视频的特征表示输入到LSTM网络中，捕获人体行为的时间信息并进行分类。

进一步地，得到该深度视频的动态图像序列表示，具体为：

假设一个包含N帧的视频V被等分为T个不重叠的片段，表示为其中S_t是第t个视频片段，基于视频分割后的每一个短时片段，应用分级池化对其所包含的连续帧进行聚合，生成对应的动态图像，以描述行为视频局部的时空动态；依次对每一个短时片段进行处理，最后得到对应的T帧动态图像序列。

进一步地，将深度视频的动态图像序列表示作为CNNs的输入，具体为：

对于视频动态图像序列中的第i帧(i＝1，...，T)，将其输入CNNs，得到最后一个卷积层的特征，表示为ConvF_i∈R^C×H×W，即包含C个通道尺寸大小为H×W的特征图；

对于由T帧动态图像表示的行为视频，最终得到其卷积特征表示：ConvF＝{ConvF₁，...，ConvF_i，...，ConvF_T}∈R^T×C×H×W。

进一步地，所述通道与时空兴趣点注意力模型包括：通道注意力模块和时空兴趣点注意力模块，所述通道注意力模块用于发现CNNs卷积特征中更具辨识力的通道；所述时空兴趣点注意力模块用于聚焦显著的运动区域，以实现有效的行为识别。

进一步地，所述通道注意力模块对卷积特征图进行优化调整，具体为：

假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈R^C×H×W；

对卷积特征图应用全局平均池化，将通道全局空间信息压缩成通道描述向量；

生成通道注意力模块的权值表示；

卷积特征图与通道注意力模块的权值表示按通道进行乘积运算，得到通道注意力加权特征图。

进一步地，所述生成通道注意力模块的权值表示，具体为：

α＝f(W_uδ(W_aU))

其中，W_a是缩减比例为r的通道下采样卷积层的权重参数，δ(·)是ReLu激活函数，W_u是放大比例为r的通道上采样卷积层的权重参数，f(·)是sigmoid激活函数。

进一步地，所述时空兴趣点注意力模块对卷积特征图进行优化调整，具体为：

假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈R^C×H×W，从该帧动态图像检测的时空兴趣点被映射在卷积特征图的空间维度H×W上来生成相应的映射点；

基于n个STIPs在特征图空间中的映射点，计算空间维度H×W上每一个像素位置处映射点的数量；

将上述每一个像素位置处映射点的数量编码为空间权值；保留H×W的空间权值中的前k个最大权值，其余权值均设置为0，得到调整后的时空兴趣点注意力权值；

卷积特征图与调整后的时空兴趣点注意力权值进行加权运算后，再与原始的输入卷积特征图求和，得到时空兴趣点注意力加权特征图。

进一步地，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整，具体为：

将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入，通过初始卷积特征图与通道注意力模块的权值相乘，将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整，生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图。

在另外一些实施方式中，采用如下技术方案：

一种深度视频行为识别系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的深度视频行为识别方法。

在另外一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述的深度视频行为识别方法。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了动态图像序列作为一种新的视频表示方法，通过建模视频中局部短时片段的时空信息将整个视频压缩表达为几帧动态图像。深度CNNs能够对动态图像序列进行有效的学习，从而捕获长时视频的行为时空动态变化信息。

(2)本发明设计了一个行为识别框架，将通道与时空兴趣点注意力模型嵌入到CNNs中，两个注意力模块融合可以更好地聚焦行为的空间动态；应用LSTM网络捕获视频的时序信息并进行行为分类。对于深度视频中的人体行为，该框架可以描述行为视频中具有辨识力的时空信息，以实现有效的行为识别。

(3)本发明应用了通道注意力机制，考虑了卷积特征通道的不同辨识能力，以便更有效地进行特征学习；首次尝试把通道注意力引入到基于深度视频的行为识别领域。

(4)本发明提出了一种新的空间注意力方法—时空兴趣点注意力，它可以聚焦于人体行为的显著运动区域，并丢弃视频帧中不相关的部分。

(5)本发明在三个具有挑战性的人体行为数据集上进行了全面的实验，实验仅基于深度数据由于它具有更好的几何信息和隐私性。实验结果表明，本发明方法在所有被评估的数据集上都取得了良好的性能。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是实施例一中基于通道与时空兴趣点注意力模型的行为识别框架示意图；

图2是实施例一中T帧动态图像序列示意图；

图3是实施例一中NTU RGB+D数据集中十类行为动态图上的STIPs检测示意图；

图4是实施例一中通道和时空兴趣点注意力模型的流程图；

图5是实施例一中LSTM单元的结构图；

图6是实施例一中LSTM网络分类流程图；

图7是本实施例方法在SDUFall数据集上的混淆矩阵；

图8是本实施例方法在SBU Kinect交互数据集上的混淆矩阵；

图9是交叉人评估标准下所提方法在NTU RGB+D数据集中的混淆矩阵；

图10是NTU RGB+D数据集中六类行为的时空兴趣点注意力权值β′(k＝3)的可视化；

图11是本实施例方法在SDUFall数据集和SBU Kinect交互数据集中的识别率随LSTM隐层节点数的变化趋势。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法，如图1所示，将深度视频的动态图像序列表示作为CNNs的输入，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整。最后，将全局平均池化应用于输入深度视频的被调整后的卷积特征图中，生成行为视频的特征表示，并将其输入到LSTM网络中，捕获人体行为的时间信息并进行分类。

本实施例对视频提出了动态图像序列表示(dynamic image sequence，DIS)，将整个视频沿着时间轴分割成一组短时片段，然后将包含多个连续图像帧的每个短时片段分别编码为动态图像，以描述视频的局部时空运动信息。作为视频的一种新的表示方法，动态图像序列将原始视频压缩表达为几帧动态图像，通过建模局部短时时空结构信息来有效地提取整个视频的行为时空动态变化。动态图像序列表示有效地增强了深层CNNs对长时行为视频时空动态建模的能力。

本实施例提出的通道与空间注意力模型，能够充分利用CNNs卷积特征的特点来提升视频人体行为识别的性能。通道注意力模块可以自动学习不同通道的卷积特征，并为其分配不同的权重，以自适应地对关键通道特征进行强化。空间注意力模块，称为时空兴趣点(spatial-temporal interest points，STIPs)注意力(STIPs attention，SA)，以聚焦图像帧中行为的显著运动区域。时空兴趣点注意力模块首先将从动态图像上检测到的兴趣点投影到相应的卷积特征空间中得到映射点，卷积特征映射空间中每个像素位置的映射点数量被编码为权值表示。所提出的通道与时空兴趣点注意力模型不仅考虑了不同特征通道对提高网络识别能力的重要性，而且能够聚焦对行为分类有重要意义的显著运动区域。

下面对本发明方法做详细的说明。

图1给出了本实施例基于通道与时空兴趣点注意力的人体行为识别框架，以深度视频的动态图像序列表示作为输入，不仅能够有效地建模长时行为视频中的时空动态，并且可以进一步聚焦于显著的运动区域，更准确地进行行为的识别。该框架由四个部分组成：动态图像序列的构造、CNNs卷积特征提取、通道与时空兴趣点注意力模型、LSTM行为分类。下面我们将分别描述这些部分。

1.1动态图像序列

CNNs没有能力去捕获整个行为视频中的长时时空依赖性。为了整合时域中的语义信息，存在两种常用的采样策略。第一种是密集采样，它生成覆盖整个视频的连续帧，该方案会导致采样序列包含冗余以及无关的行为信息。另一种是稀疏采样，即在整个视频中每隔几帧采样一帧。对于复杂的行为或较长的行为视频来说，稀疏采样方案可能会丢失一些重要的动作细节。

在这一部分，为了使CNNs能够有效地学习行为视频的时空特征，本实施例提出了动态图像序列表示作为视频的一种新的表达方式。

假设一个包含N帧的视频V被等分为T个不重叠的片段，表示为其中S_t是第t个视频片段。引入动态图像的概念，通过应用分级池化将每一个视频片段压缩为一张动态图像。分级池化利用成对线性排序机学习一个线性函数，其参数可以对视频帧的时序进行编码用作视频新的表示。作为一种新的时间池化方法，分级池化不仅可以很好地捕捉视频的时序变化，而且易于实现。基于视频分割后的每一个短时片段，应用分级池化对其所包含的连续帧进行聚合，生成对应的动态图像，以描述局部的时空动态。

令其中，表示视频第t个片段中的第j张图像，k表示视频第t个片段中所有连续帧的数量。时变平均向量运算用于捕获第t个视频片段中连续帧之间的时序信息，见式(1)。

平滑向量序列d＝{d₁，...，d_i，...，d_k}仍然能够保留第t个视频片段中k帧连续图像之间的时序信息。一个线性排序函数被定义为α是排序函数的参数向量，可以保留视频帧之间的相对时序信息，即如果那么排序函数值满足使用结构风险最小化来定义分级池化的目标函数，见式(2)。

ε_ij是一个松弛变量，α^*是最优参数向量，随后被转换为二维矩阵表示生成的动态图像，该动态图像能够同时描述视频短时片段的空间运动和时间结构信息。

利用上述方法对视频的每一个片段进行处理，最后得到对应的T帧动态图像序列，如图2所示。所提出的动态图像序列表示的一个显著优点是，对于任意长度的视频，将其压缩为T帧动态图像，具有非常轻便的结构。作为一种紧凑且有效的视频表示方法，动态图像序列不仅可以通过建模局部时空结构信息来很好地描述长时行为视频的运动变化，而且可以降低运行整个视频的计算量。

1.2CNNs卷积特征

深度CNNs可以提取具有辨识力的图像特征，其中低层特征主要关注颜色、纹理、边角等视觉信息，而高层特征主要关注语义模式等更加抽象的信息。为了充分利用CNNs卷积层丰富的空间信息进行行为识别，采用卷积层的输出作为所提通道与时空兴趣点注意力模型的输入。考虑到CNNs最后一组卷积层输出的特征具有更多的通道，在一定程度上可以更好地保留视频帧的空间结构，对输入视频的动态图像序列表示分别提取每一帧在最后一组卷积层的特征。具体来说，对于视频动态图像序列中的第i帧(i＝1，...，T)，将其输入CNNs，得到最后一个卷积层的特征，表示为ConvF_i∈R^C×H×W，即包含C个通道尺寸大小为H×W的特征图，因此对于由T帧动态图像表示的行为视频，最终得到其卷积特征表示：ConvF＝{ConvF₁，...，ConvF_i，...，ConvF_T}∈R^T×C×H×W。

1.3通道与时空兴趣点注意力模型

基于CNNs的卷积特征，提出了一个通道与时空兴趣点注意力模型(CSAM)，以提升CNNs的特征学习能力。该模型包括两个注意力模块：一个是通道注意力(CA)模块，用于发现CNNs卷积特征中更具辨识力的通道；另一个是时空兴趣点注意力(SA)模块，用于聚焦显著的运动区域，以实现有效的行为识别。

1.3.1通道注意力模块

以往大多数基于CNNs的行为识别方法都是同等地处理卷积特征的通道关系，这是不合理的，因为忽视了特征通道之间的不同重要性。本实施例将通道注意力应用在CNNs中，以实现基于视频的行为识别。引入通道注意力模块的目的是通过显式地建模卷积特征通道之间的相互依赖性来提高网络的识别能力。

动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈R^C×H×W，首先在卷积特征图的空间维度上H×W应用全局平均池化，将通道全局空间信息压缩成通道描述向量。全局平均池化被定义为：

X_c，i，j表示第C个通道的卷积特征图中位置(i，j)处的响应值，U_c是通道描述向量的第C个元素。随后应用了一组卷积操作，以充分利用通过全局平均池化聚合的空间信息，见式(4)。

α＝f(W_uδ(W_dU)) (4)

W_a是缩减比例为r的通道下采样卷积层的权重参数，δ(·)是ReLu激活函数，W_u是放大比例为r的通道上采样卷积层的权重参数，f(·)是sigmoid激活函数。最后生成通道注意力模块的权值表示α∈R^C，用于调整CNNs卷积层输出的特征图：

表示每一个通道的卷积特征图与对应通道权值之间的乘积运算。是被校准后的卷积特征图，命名为通道注意力加权特征图。使用通道注意力模块，CNNs能够学习不同特征通道之间的依赖关系，增强特征的辨识度，进而提升网络的识别性能。

1.3.2时空兴趣点注意力模块

关注具有辨别力的人体空间运动区域对视频中的行为识别具有非常重要的价值。本实施例提出了一种新的空间注意力方法，利用从动态图像序列中检测到的时空兴趣点(spatial-temporal interest points，STIPs)来生成空间权重，将注意力集中在人体行为的显著运动区域。

对于视频的动态图像序列，首先使用选择性STIP检测方法从动态图像帧中检测密集STIPs。由于存在大量的STIPs位于背景环境中，因此从视频中提取的STIPs不能直接被使用。为了获得更加有效的STIPs，应用了背景抑制以及局部和时间约束来排除在背景纹理或非人体前景对象上检测到的点。图3展示了从NTU RGB+D数据集中的一些行为的动态帧中检测到的有效STIPs。假设一张输入动态图像的尺寸大小是H_D×W_D，则被检测到的有效STIPs表示为P＝{P₁(x₁，y₁)，...，P_k(x_k，y_k)，...，P_n(x_n，y_n)}，n是STIPs的数量，P_k(x_k，y_k)表示第k个时空兴趣点的坐标(x_k，y_k)。被检测到的STIPs是稳定的、鲁棒的和具有辨识力的，有助于聚焦人体行为的显著运动区域。

在所提出的时空兴趣点注意力模块中，假设动态图像序列中某一帧在CNNs最后一个卷积层的特征表示为X∈R^C×H×W，从该帧动态图像检测的STIPs被映射在卷积特征图的空间维度上(H×W)来生成相应的映射点，见式(6)。

表示特征图空间中第k个映射点的坐标位置。基于n个STIPs在特征图空间中的映射点，计算空间维度H×W上每一个像素位置处映射点的数量，即N＝{N_i，j}∈R^H×W，i∈1...H，j∈1...W。N_i，j表示其中位于第i行第j列位置处的映射点的数量。映射点数量的多少可以反映特征图上对应像素位置的活跃程度，即在一个像素位置上映射点越多，其感受野能够获取的信息量就越大。最终，映射点数目N被编码为空间权值：

β＝N/max(N) (7)

β∈R^H×W表示生成的时空兴趣点注意力分布，如图3所示，大多数被检测到的STIPs都围绕在显著运动区域周围。但仍然存在一些多余的点分布在人体轮廓或其他与目标前景无关的物体周围，这些冗余点在特征图空间H×W上的映射点可能会对关键运动区域的注意造成干扰。因此，只保留β中的前k个最大权值，而其余均设置为0。k值的选取与特征图空间H×W的大小相关，如果时空兴趣点注意力是基于CNNs的最后一组卷积层特征，由于其感受野较大，因此我们在实验中证明，使用β中的前3个最大权重足以聚焦人体行为的显著运动区域。

调整后的时空兴趣点注意力分布被表示为β′，则时空兴趣点注意力加权特征定义为：

表示每个通道的卷积特征图与调整后的时空兴趣点注意力权值的加权运算。此外，为了同时利用原始卷积特征中的空间信息，我们还增加了原始的输入卷积特征X。表示最终生成的时空兴趣点注意力加权特征图。时空兴趣点注意力可以发现动态图像序列帧中显著的时空运动区域，有助于大大提高行为识别的性能。

1.3.3视频特征表示

为了自适应地探索网络中具有辨识力的特征通道和人体行为中的显著运动区域，将通道注意力模块和时空兴趣点注意力模块整合在一起，时空兴趣点注意力模块串接在通道注意力模块之后。具体来说，首先将输入图像在CNNs最后一组卷积层生成的特征图作为通道注意力模块的输入，通过初始卷积特征图与通道注意力权值α相乘，将输出的通道注意力加权特征图作为时空兴趣点注意力模块的输入对卷积特征图继续进行优化调整，将通道注意力加权特征图与时空兴趣点注意力权值β′进行元素级相乘，生成的时空兴趣点注意力加权特征图作为图像最终调整后的卷积特征图。图4给出了通道和时空兴趣点注意力模型的实现流程图。

基于通道和时空兴趣点注意力模型，可以获得行为视频有区分度的特征表示。首先将视频的动态图像序列输入CNNs，将所提出的通道和时空兴趣点注意力模型嵌入网络最后一组卷积层后，以优化调整输出的卷积特征图。其次，全局平均池化替代了传统的全连接层，应用于被调整后的卷积特征图。最后得到行为视频的特征表示T×C，其中T是视频的动态图像序列中所包含的帧数，C是卷积特征图的通道数。与全连接层相比，全局平均池化更适用于卷积结构，可以显式地将特征图转化为类别置信图。全局平均池化的另一个优点是没有需要优化的参数，这避免了全连接层容易造成的过拟合问题。此外，全局平均池化聚合了局部空间信息，以获得更具鲁棒性的特征表示。

1.4LSTM行为分类

与图像相比，视频具有独特的性质，即它们是由连续帧组成的三维数据。因此，视频中的时间动态可以为行为识别提供非常有价值的参考信息。RNN模型具有较强的序列数据建模能力，在基于视频的行为识别中得到了广泛的应用。LSTM是一种先进的RNN体系结构，可以解决RNN中的梯度消失和爆炸问题。如图5所示，LSTM单元包含输入门i_t、输出门o_t、遗忘门f_t和存储单元c_t。存储单元的状态由输入门和遗忘门控制，最终用于决定LSTM的输出。t时刻的输出可以通过一个softmax函数来生成预测分布y_t。

由于LSTM在其内部的存储单元中引入了一种门机制，因此更适合于对长时输入序列中的时间动态进行建模。如图6所示，统一了所有视频的动态图像序列为T帧，生成的视频特征表示(T×C)输入LSTM模型来捕捉时间动态。将LSTM在中间时刻和最后时刻的输出连接在一起，作为softmax层的输入，以实现更好的行为识别。

2.实验

该部分在三个具有挑战性的RGB-D人体行为数据集中评估了所提方法的有效性，即SDUFall数据集、SBU Kinect交互数据集和NTU RGB+D数据集。首先介绍了实验的评估方案、数据集和实现细节；然后对不同评估方案下的实验结果进行分析；最后通过与三个数据集中先进算法的结果进行比较，以验证所提方法的优越性能。此外，还对所提出的时空兴趣点注意力进行了可视化，来验证其定位视频帧中的显著运动区域的准确性。

2.1评估方案

所提出的行为识别框架主要包括：1)视频动态图像序列表示(DIS)。2)通道与时空兴趣点注意力模型(CSAM)。3)LSTM行为分类。深度数据提供的场景三维结构信息能够简化类内运动变化以及去除杂乱的背景噪声，为识别任务提供了很大的方便；此外使用深度数据还可以消除光照和颜色变化的影响，因此所提方法基于三个数据集的深度视频进行评估。

为了充分证明所提方法的优越性，另外设计了以下三种评估方案以进行比较实验：

无注意力(no attention，NA)。在这一评估方案中，去除了行为识别框架中的通道与时空兴趣点注意力模型。换言之，动态图像序列在最后一组卷积层输出的特征图直接用全局平均池化进行处理，生成视频特征表示，然后送入LSTM进行分类。该方案用于验证所提出的动态图像序列表示的性能，以及注意力模型的有效性。

通道注意力(CA)。在这一方案中，移除了所提出框架中的时空兴趣点注意力模块，以评估通道注意力模块的效果。识别框架中的其余部分保持不变，即仍采用视频的动态图像序列作为输入，采用LSTM捕获视频的时间动态并进行行为分类。

时空兴趣点注意力(SA)。在这个方案中，去掉了通道注意力模块来展示时空兴趣点注意力对行为识别的影响。与通道注意力评估方案相同，行为识别框架的其余部分保持不变。

2.2实验数据集

SDUFall数据集。该数据集由山东大学控制科学与工程学院机器人研究中心建立。数据集由安装在实验室环境中1.5米高的Kinect摄像机所采集，包含六类人体行为：弯腰、摔倒、躺、坐、蹲和行走。每个动作由20名志愿者执行，每人每个动作进行10次，总共有1200个样本。SDUFall数据集包含丰富的类内变化，如照明、方向和位置等的变化。

SBU Kinect交互数据集。此数据集由纽约州立大学石溪分校使用MicrosoftKinect传感器采集。它包含八种人与人的互动动作：接近、离开、推、踢、拳击、交换物体、拥抱和握手。在数据集中，七个参与者组成共21个集合，其中每个集合包含一对不同的人。每个交互动作在每个集合中被执行一到两次，整个数据集大约有300个交互视频。由于数据集中的人体行为具有非常相似的运动形态，因此该数据集也极具挑战性。

NTU RGB+D数据集。该数据集由南洋理工大学的Rose实验室建立，同时使用3台Microsoft Kinect V.2相机进行采集。据我们所知，它是目前最大的RGB-D人体行为数据集，由56880个行为样本组成。该数据集包含60个不同的行为类别，由40名志愿者完成。60类行为分别是：喝酒、吃饭、刷牙、梳头发、丢东西、捡东西、扔东西、坐下、站起来(从坐姿开始)、拍手、看书、写字、撕纸、穿夹克、脱夹克、穿鞋、脱鞋、戴眼镜、摘眼镜、戴帽子、脱帽子，喝彩，挥手，踢东西，伸进自己的口袋，跳跃，跳起来，打/接电话，玩手机，打字，指向某物，自拍，看时间，搓两只手，鞠躬，摇头，擦脸，敬礼，把手掌放在一起，双手交叉在前面，打喷嚏/咳嗽、蹒跚、摔倒、摸头(头痛)、摸胸口(胃痛/心痛)、摸背(背痛)、摸脖子(脖子痛)、呕吐、扇风，拳击对方，踢对方，推对方，拍对方的背，指着对方，拥抱，给对方东西，摸对方的口袋，握手，走向对方，离开对方。NTU RGB+D数据集中由于存在大量的行为样本和行为类别以及丰富的类内变化，因此非常具有挑战性。

2.3实验参数设置

在行为识别框架中，不同数据集中视频动态图像序列的帧数T分别被固定为：T＝8(SDUFall数据集、NTU RGB+D数据集)；T＝4(SBU Kinect交互数据集)。为了验证所提出的CSAM的有效性，首先采用了被广泛使用的VGG16网络作为卷积特征提取的基本CNNs模型，由于它的高效性和准确性。该基本网络模型也可以被其他任何CNNs结构所取代。本实施例选择在ImageNet上预先训练好的模型参数作为VGG16的初始化，以便更快的训练。对于VGG16，最后一组卷积层代表第5组卷积层，输出512个通道的空间尺寸为7×7的特征图。CSAM被嵌入在VGG16的最后一组卷积层后，生成通道注意力权值α∈R⁵¹²和时空兴趣点注意力权值β′∈R^7×7，对原始卷积特征图进行调整，其中β′仅保留原时空兴趣点注意力分布β中的前3个最大权重。在CSAM之后添加了一个全局平均池化层和一个512维的全连接层，替换VGG16中原来的3个全连接层，以减少网络的参数数量并防止过拟合。该网络被命名为特征生成网络，全局平均池化层输出维度为T×512的视频特征。视频的特征随后被输入到一个单层的LSTM结构中进行行为的分类。LSTM隐层状态维度为128，SDUFall数据集和NTU RGB+D数据集中视频的中间时刻被定义为动态图像序列的第五帧，在SBU Kinect交互数据集中被定义为第二帧。

对于网络的训练，视频的动态图像序列作为特征生成网络的输入，对网络参数进行微调。训练后的网络用于视频特征的提取，LSTM用作分类网络。使用反向传播并通过最小化交叉熵损失来训练所有的模型，采用小批量随机梯度下降算法学习网络的权值。初始学习率、衰减速率和动量分别被设置为1×10^-2、0.9和0.9。SDUFall和SBU Kinect数据集中每次迭代的最小批量为32个样本，NTU RGB+D数据集为128个样本。训练将在100次迭代后停止，应用早停以避免过拟合。使用pytorch工具箱来进行实验。

2.4CSAM性能评估

基于SDUFall,SBU Kinect和NTU RGB+D数据集对四种评估方案(CSAM、NA、CA、SA)进行实验，旨在验证所提方法的优越性能，实验结果见表I。在该节所有实验中，特征生成网络均以VGG16为基本CNNs模型。首先对每个数据集的实验结果进行单独的描述，然后对四种评估方案进行比较分析。

表I不同评估方案在三个数据集中的识别结果

2.4.1SDUFall数据集

该数据集有1200个行为视频，其中包含丰富的类内变化。在实验中，随机选取SDUFall数据集中3/5参与者的视频样本作为训练集，其余参与者的样本作为测试集。考虑到该数据集中样本数量相对较少，采用随机水平翻转和旋转的方式进行数据扩充，以增加样本数量。

如表I所示，SDUFall数据集上NA评估方案的识别精度为94.17％，将CA模块应用于行为识别，准确度提高到97.71％。仅应用SA模块时，精度为96.88％，略低于单独使用CA模块的结果。所提出的CSAM在该数据集上取得了最高识别精度98.54％，比无注意力高出约4.37％，比仅用CA模块高出0.83％，比仅用SA模块高出1.66％。本实施例所提方法在SDUFall数据集上的混淆矩阵如图7所示，可以看到，本实施例方法在“弯腰、“坐”、“蹲”和“行走”四种行为上都获得了100％的识别率。对于“跌倒”和“躺”这两类行为，由于它们相似的运动变化模式导致出现了极少数的误分类。

2.4.2SBU Kinect交互数据集

按照该数据集的标准评估准则，对数据集进行5折交叉验证。同样地，使用数据增强来增加样本的数量。从表I可以看出，在没有注意力的情况下，SBU Kinect交互数据集上的识别精度为94.20％。分别应用CA模块和SA模块后，结果均提高了1.45％左右。同样地，本实施例的CSAM具有最佳的识别性能，准确率达到了98.55％。所提方法在SBU Kinect交互数据集上的混淆矩阵如图8所示，可以看到，大多数行为都能够被准确地识别，证明了所提方法可以通过聚焦显著运动变化区域来更好地捕捉人体行为的时空信息。对于“踢”这类行为，11％被误识别为“拳击”，这是因为部分参与者在完成“踢”的动作时会同时加入类似于“拳击”的上肢动作，可能会导致行为的混淆。

2.4.3NTU RGB+D数据集

作为目前最大的行为识别数据集，NTU RGB+D数据集包含了丰富的类内以及视角变化。该数据集有两种评估准则：交叉人评估和交叉视角评估。在交叉人评估中，20名参与者的视频样本用于训练，其他20名参与者的样本用于测试。对于交叉视角评估，相机2和相机3捕获的视频样本用于训练，而相机1捕获的样本用于测试。为了排除该数据集深度视频中杂乱背景的影响，从动态图像序列中将人体前景区域剪切出来，然后保持与原始动态图像相同的长宽比，将其大小调整为265×320。被裁剪后的深度视频动态图像序列作为网络的输入对所提方法进行评估。

两种评估准则下的实验结果如表I所示，可以看出，所提出的方法在交叉人和交叉视角中的识别率分别为87.76％和89.38％，均优于其他三种评估方案。图9展示了交叉人评估标准下所提方法在NTU RGB+D数据集中的混淆矩阵。可以看出，所提方法对大多数行为都表现出良好的分类性能，其中包括一些仅时序相反的相似行为，如“穿夹克”和“脱夹克”、“戴帽子”和“脱帽子”等。然而，对于一些包含微小运动变化的行为(如“读”和“写”)，所提出的方法并没有展现出足够的辨识力。最可能的原因是这些行为的动态图像序列中几乎没有突出的空间运动变化，因此检测到的时空兴趣点可能并不主要分布在具有区分度的区域上，这将削弱时空兴趣点注意力的性能。

2.4.4评估方案的比较与分析

如表I所示，在三个人体行为数据集上，NA评估方案也能获得较高的识别率，这说明所提出的动态图像序列表示是有效的，能够通过建模局部时空信息来描述整个行为视频的运动变化。对于三个数据集，CA和SA的准确度均略高于NA，这表明CA和SA有助于提高行为识别的性能。将CA和SA结合在一起后的CSAM在三个数据集上都取得了最好的实验结果，这表明它可以有效地探索CNNs中具有辨识力的特征通道和人体行为中显著的空间运动区域，以获得更好的行为识别效果。此外，与NA的结果相比，所提方法在SDUFall数据集和SBUKinect交互数据集中的识别率分别有4.4％和4.3％的显著提升。但是，在NTU RGB+D数据集的交叉人和交叉视角评估标准中，识别率的提高并不明显，约为1.6％和2.8％。主要原因可能是SDUFall数据集和SBU Kinect数据集相对较小，仅包含具有显著空间运动的简单人体行为。而NTU RGB+D数据集中的行为更丰富、更复杂，尤其是一些具有细微变化的人体行为非常相似且容易混淆，这增加了行为被错误分类的可能性。此外，部分深度样本所包含的背景噪声也会影响STIPs的检测，进而对时空兴趣点注意力的准确性造成干扰。

2.5不同CNNs网络架构的评估

为了进一步验证所提出的CSAM的高性能和泛化能力，将其应用于ResNet50。对于特征生成网络，将VGG16替换为ResNet50作为基本CNNs模型。CSAM同样被嵌入在ResNet50的最后一组卷积层之后(res5c层)，res5c层输出2048个通道的空间尺寸为7×7的卷积特征图。表II是两种CNNs架构下的实验结果，可以看出，所提方法对于ResNet50仍然具有很好的性能，这证明了所提方法具有很好的泛化能力，可以整合到其他任何CNNs中。此外，与VGG16网络的结果相比，ResNet50的性能在所有数据集中都得到了提高，这是由于相比VGG16，ResNet50具有更深的网络架构和更强的先进性，卷积特征包含更多的通道数(2048)，有助于提高通道注意力模块的性能。具体来说，对于SDUFall数据集和SBU Kinect交互数据集，ResNet50的识别率比VGG16分别提升了0.21％和0.27％；NTU RGB+D数据集中交叉人和交叉视角两种评估标准下识别率的提升分别为0.57％和0.65％。

表II所提方法基于不同CNNs架构在三个数据集上的实验结果

2.6与其他先进算法的比较

为了证明所提方法的优越性能，将其与SDUFall、SBU Kinect和NTU RGB+D数据集中的先进算法进行了比较。由于所提方法基于ResNet50的识别性能优于VGG16，因此使用ResNet50下的实验结果与不同数据集的优秀方法进行比较。表III是SDUFall数据集上所提方法与其他几种方法的比较，之前的算法都是基于传统特征(人体轮廓)进行行为识别，并没有引入深度学习。从表III可以看出，所提方法获得了最高的识别结果98.75％，证明了方法的有效性。

对于SBU Kinect交互数据集，所提方法与其他方法的比较如表IV所示，可以看出，之前的大多数工作都是基于骨骼数据，然而，骨骼数据是有限的，当人体姿势非直立时，骨骼数据可能并不可靠。相比之下，所提出的基于深度数据的方法达到了98.82％的最高识别精度，优于其他所有方法。实验结果表明，所提方法具有较强的识别能力，能够将通道注意力和空间注意力有效地应用于CNN卷积特征，提高行为识别的性能。

在NTU RGB+D数据集中，忽略了不同算法中输入数据的模态，将所提出的方法与其他先进方法进行了比较。如表V所示，所提方法在交叉人设置和交叉视角设置下的识别率分别为88.33％和90.03％，均优于该数据集上的大多数方法，证明了方法的高效性。具体来说，对于基于深度数据的所有方法，所提方法在两种评价标准下都实现了最高的识别性能，与当前基于深度数据的最佳算法(Depth Pooling)相比，交叉人设置下的性能被提高了1.25％；当使用交叉视角设置进行测试时，所提方法取得了5.81％的显著改进。此外，所提方法甚至优于同时使用RGB和深度数据作为输入的深度共享特定组件分析-结构稀疏学习机(DSSCA-SSLM)。与基于骨骼数据的方法相比，虽然所提方法仅使用深度数据，但是在两种评价标准中始终都能够获得最佳的性能，并且显著优于所有基于骨骼数据的方法。视觉云(Glimpse Clouds)利用视觉注意力模型，仅使用RGB图像数据来识别人体行为，交叉视角设置中的识别率比我们的方法提高了3.17％。但是，对于交叉人设置，实验结果略低于所提方法。姿势图(Pose Map)是目前NTU RGB+D数据集中不同输入数据模态下的最优方法，交叉人设置下它的准确率为91.7％，比所提方法高出3％左右；对于交叉视角设置，它的精确度达到了95.2％，比所提方法高出5％。我们推测，这是因为姿势估计图的变化生成的人体轮廓图像和人体姿势图像可以排除杂乱背景的干扰，有效地捕捉人体运动。与姿势图相比，所提方法缺乏能够为身体部位的运动提供更丰富准确信息的姿势估计，因此识别性能上可能会被减弱。

总体而言，所提方法在SDUFall数据集和SBU Kinect交互数据集上都获得了最佳性能，同时优于NTU RGB+D数据集上的绝大多数方法。实验结果有力地证明了所提方法的有效性，下面总结了其实现优越性能的可能原因：(1)动态图像序列表示作为网络的输入，能够通过对视频局部的时空结构信息进行建模，从而较好地描述长时深度视频的运动变化。同时，它具有轻便的结构，减少了运行整个视频的计算量以及消耗的时间。(2)CSAM能有效地聚焦于网络中具有区分度的特征通道和人体行为中的显著运动区域。(3)利用具有强大的序列数据建模能力的LSTM网络，捕获视频动态帧的时间相关性并进行分类，有效地利用了深度视频的全局时空信息来提高行为识别的性能。

表III SDUFALL数据集中与其他算法的比较

表IV SBU Kinect交互数据集中与其他算法的比较

表V NTU RGB+D数据集中与其他算法的比较

2.7实验讨论

2.7.1时空兴趣点注意力分析

将从动态图像帧中检测到的时空兴趣点映射到VGG16最后一组卷积层的7×7特征图空间上，生成相应的时空兴趣点注意力权值β。为了减少在人体轮廓或其他与目标前景不相关物体周围检测的冗余点对关键运动区域注意造成的干扰，仅保留β中的前k个最大权值，而其余权值被设置为0。在NTU RGB+D数据集上用SA方案对k分别取1,2,3,4时产生的不同调整后的时空兴趣点注意力权值β′进行评估，此外还同时测试了原始的时空兴趣点注意力权值β。不同情况下时空兴趣点注意力权值的实验结果如表VI所示，可以看到，k＝3所得到的空间权值β′在NTU RGB+D数据集的交叉人设置和交叉视角设置中均取得了最高的识别率，分别为87.27％和88.58％。原始时空兴趣点注意力权值β的识别率分别为82.32％和83.21％，低于不同k值下β′的实验结果。这可能是由于β包含了少量冗余映射点所产生的权重，从而降低了识别性能。在所有的实验中均使用k＝3时的空间注意力权值β′，以便更好地聚焦人体行为的显著运动区域。

如图10所示，对NTU RGB+D数据集中一些深度行为样本的时空兴趣点注意力权值β′(k＝3)进行可视化。对于每一类行为，上面一行表示深度视频中的动态图像，下面一行表示对应的时空兴趣点注意力图。注意力图中的明亮区域代表人体行为较为显著的空间运动区域，其中亮度的大小表示注意力的强度。从图10可以看出，时空兴趣点注意力模块可以准确地聚焦人体行为中具有辨识力以及信息量丰富的空间区域，表明了所提出的时空兴趣点注意力学习的有效性。

表VI SA评估方案下不同时空兴趣点注意力权值在NTU RGB+D数据集的实验结果

2.7.2LSTM隐层节点数

基于所提出的方法，在SDUFall数据集和SBU Kinect交互数据集中评估了LSTM隐层节点数对行为识别性能的影响。图11给出了识别精度随隐层节点数的变化曲线，可以看到，尽管隐层神经元数量的变化范围很大，但识别精度的变化却很小，这说明隐层节点的数目对识别性能的影响很小。因此，在所有实验中LSTM隐层节点数均被设置为128。

综上所述，本实施例提出了一种基于CNNs的通道与时空兴趣点注意力模型，通过关注网络中具有区分度的特征通道以及人体行为中信息量丰富的显著运动区域来提高深度视频中行为识别的性能。此外，对长时行为视频提出了动态图像序列表示方法，不仅能够通过对局部时空结构信息进行建模来很好地捕捉整个视频序列的运动变化信息，而且提供了一种轻便的结构来描述行为视频，可以减少运行整个视频所消耗的时间和计算量。

实施例二

在一个或多个实施方式中，公开了一种融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别系统，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中所述的深度视频行为识别方法。

实施例三

在一个或多个实施方式中，公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行实施例一中所述的融合卷积神经网络和通道与时空兴趣点注意力模型的深度视频行为识别方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种深度视频行为识别方法，其特征在于，包括：

获取深度视频信息，得到该深度视频的动态图像序列表示；

将深度视频的动态图像序列表示作为CNNs的输入；

2.如权利要求1所述的一种深度视频行为识别方法，其特征在于，得到该深度视频的动态图像序列表示，具体为：

3.如权利要求1所述的一种深度视频行为识别方法，其特征在于，将深度视频的动态图像序列表示作为CNNs的输入，具体为：

对于视频动态图像序列中的第i帧(i＝1，…，T)，将其输入CNNs，得到最后一个卷积层的特征，表示为ConvF_i∈R^C×H×W，即包含C个通道尺寸大小为H×W的特征图；

对于由T帧动态图像表示的行为视频，最终得到其卷积特征表示：ConvF＝{ConvF₁,…,ConvF_i,…,ConvF_T}∈R^T×C×H×W。

4.如权利要求1所述的一种深度视频行为识别方法，其特征在于，所述通道与时空兴趣点注意力模型包括：通道注意力模块和时空兴趣点注意力模块，所述通道注意力模块用于发现CNNs卷积特征中更具辨识力的通道；所述时空兴趣点注意力模块用于聚焦显著的运动区域，以实现有效的行为识别。

5.如权利要求4所述的一种深度视频行为识别方法，其特征在于，所述通道注意力模块对卷积特征图进行优化调整，具体为：

生成通道注意力模块的权值表示；

6.如权利要求5所述的一种深度视频行为识别方法，其特征在于，所述生成通道注意力模块的权值表示，具体为：

α＝f(W_uδ(W_dU))

其中，W_d是缩减比例为r的通道下采样卷积层的权重参数，δ(·)是ReLu激活函数，W_u是放大比例为r的通道上采样卷积层的权重参数，f(·)是sigmoid激活函数。

7.如权利要求4所述的一种深度视频行为识别方法，其特征在于，所述时空兴趣点注意力模块对卷积特征图进行优化调整，具体为：

8.如权利要求4所述的一种深度视频行为识别方法，其特征在于，在CNNs卷积层后嵌入通道与时空兴趣点注意力模型，对卷积特征图进行优化调整，具体为：

9.一种深度视频行为识别系统，其特征在于，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-8任一项所述的深度视频行为识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行权利要求1-8任一项所述的深度视频行为识别方法。