CN116092185A

CN116092185A - 基于多视角特征交互融合的深度视频行为识别方法及系统

Info

Publication number: CN116092185A
Application number: CN202211655604.0A
Authority: CN
Inventors: 马昕; 武寒波; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-05-09

Abstract

本发明提出了基于多视角特征交互融合的深度视频行为识别方法及系统，涉及隐私计算领域，利用深度投影和次序池化技术，从原始深度视频中构建多视角深度动态卷；对多视角深度动态卷进行时空特征提取，得到多视角特征图；学习多视角特征图内部的长距离时空相关性，生成每个单独视角的时空聚合特征表示；进行不同视角之间时空聚合特征表示的交互与融合,生成视频行为的全局多视角特征表示；将全局多视角特征表示输入到全连接层中，完成行为识别；本发明使用不同视角的3D CNN特征图作为基于Transformer的多视角特征交互融合框架的输入，来学习视角内部和视角之间的特征相关性，从而生成能够表征人体行为3D运动模式的全局特征，以提升深度视频行为识别的性能。

Description

基于多视角特征交互融合的深度视频行为识别方法及系统

技术领域

本发明属于隐私计算领域，尤其涉及基于多视角特征交互融合的深度视频行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

视频人体行为识别是计算机视觉领域中一个热门且极具价值的研究课题，由于其广泛的实际应用场景，如人机交互、智能视频监控及自动驾驶等；最近，随着低成本可靠深度传感器(如Microsoft Ki nect)的出现，基于深度视频的行为识别吸引了越来越多的兴趣，从过去基于手工特征的传统方法到如今的深度学习方法，与RGB视频相比，深度数据对颜色和光照变化不敏感，可以提供与人体行为密切相关的丰富高级的视觉线索，如身体轮廓和场景3D结构信息等；此外，深度数据模态可以有效地保护人的隐私，这在一些对保密性要求较高的真实应用场景中非常重要。

时空特征提取是视频行为识别任务中最关键和最核心的问题，在过去几年中，深度学习以端到端的方式自动学习视频中具有辨识力的时空特征，极大地提高了识别性能，在视频行为识别领域取得了显著的成功；由于从互联网获取RGB动作视频的便利性，数据驱动的深度学习方法最初致力于RGB视频中的行为识别任务；后来，大规模RGBD基准数据集(NTU RGB+D60&120数据集)的发布极大地促进了基于深度学习的深度视频行为识别的发展；基于深度学习的视频行为识别方法多数依赖于卷积神经网络(CNN)，其中卷积操作能够从视频序列中提取多层次的局部特征信息；从时空特征建模的角度出发，常用典型的深度网络通常可以分为2D CNN和3D CNN；2DCNN从单张视频帧中学习空间特征，无法直接建模视频时间结构，因此需要额外捕获时序信息以实现有效的视频行为识别，如光流法或LSTM网络；3DCNN通过引入1D时间卷积，可以同时建模空间和时间特征，克服了2D CNN的弱点，实现了优越的识别性能；尽管卷积神经网络在视频行为识别任务中取得了巨大进展，但它们很难对长距离或全局时空相关信息进行建模，对于进一步提升行为识别性能具有一定的局限性。

最近，Transformer因其在自然语言处理领域的巨大成功而吸引了大量关注；由于Transformer架构在捕获数据中的长距离依赖性方面具有显著优势，研究人员将其扩展到各种计算机视觉任务中，如图像分类、目标检测和视频行为识别等；对于行为识别任务，大多数现有方法使用图像块、图像序列的2D卷积特征或骨架数据作为Transformer的输入标记来建模长时时空上下文信息；然而，这些现有的Transformer方法特定于RGB和骨架数据，没有适用于深度数据的研究工作；此外，在目前存在的CNN+Transformer的混合网络中，通常使用2D CNN特征图作为Transformer的输入来建模全局信息，但很少用到3D CNN卷积特征；而且现有的基于Transformer的行为识别方法通常从空间和时间维度对长距离信息进行建模，很少有工作聚焦于探索Transformer结构来处理不同视角特征交互与融合的能力。

因此，针对现有的基于Transformer的方法都仅使用了单一视角下的RGB视频数据，限制了Transformer模型的泛化性能的问题，如何将Transformer架构扩展到深度视频数据，进行多视角特征学习的深度视频行为识别，是一个值得研究的课题。

发明内容

为克服上述现有技术的不足，本发明提供了基于多视角特征交互融合的深度视频行为识别方法及系统，使用不同视角的3D CNN特征图作为Transformer的输入，来学习视角内部和视角之间的特征相关性，从而生成能够表征人体行为3D运动模式的全局特征，以提升深度视频行为识别的性能。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于多视角特征交互融合的深度视频行为识别方法；

基于多视角特征交互融合的深度视频行为识别方法，包括：

利用深度投影和次序池化技术，从原始深度视频中构建多视角深度动态卷；

对多视角深度动态卷进行时空特征提取，得到多视角特征图；

基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示；

不同视角的时空聚合特征表示之间进行交互与融合,生成视频行为的全局多视角特征表示；

将全局多视角特征表示输入到全连接层中，完成行为识别。

进一步的，所述构建多视角深度动态卷，具体为：

将原始深度视频投影到三个正交的平面中，生成三个视角下的深度投影图序列；

对三个视角下的深度投影图序列分别进行次序池化处理，得到多视角深度动态卷。

进一步的，所述对三个视角下的深度投影图序列分别进行次序池化处理，具体为：

使用稀疏采样策略将单个视角下的深度投影图序列均匀分割成多个无重叠的短片段；

应用次序池化来聚合每个短片段中的短时时空信息，生成对应的动态图像；

所有短片段的动态图像构成单视角下的深度动态卷；

所有视角下的深度动态卷构成多视角深度动态卷。

进一步的，采用3D CNN模型，对多视角深度动态卷进行时空特征提取。

进一步的，基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示，具体为：

对多视角特征图进行维度处理，得到视角内自注意力编码器模块的输入序列；

视角内自注意力编码器模块由多层Transformer编码器架构组成，通过自注意力机制学习每个视角下特征图中的时空依赖性，得到时空聚合特征表示。

进一步的，通过交叉视角特征融合模块将自注意力机制扩展为互注意力机制，进行不同视角的时空聚合特征表示之间的交互与融合,生成视频行为的全局多视角特征表示。

进一步的，所述交叉视角特征融合模块，包括交叉视角特征交互和多视角特征融合；

所述交叉视角特征交互，在每两个视角之间执行特征交互，计算视角之间的多头互注意力，随后通过多层感知机得到任意两个视角的交互特征序列；

所述多视角特征融合，对任意两个视角的交互特征序列取平均值，得到交叉视角特征表示，连接每两个视角的交叉视角特征表示以融合多视角动作信息，得到最终的全局多视角特征表示。

本发明第二方面提供了基于多视角特征交互融合的深度视频行为识别系统。

基于多视角特征交互融合的深度视频行为识别系统，包括多视角深度动态卷构建模块、卷积特征提取模块、视角内自注意力编码器模块、交叉视角特征融合模块和行为识别模块；

多视角深度动态卷构建模块，被配置为：利用深度投影和次序池化技术，从原始深度视频中构建多视角深度动态卷；

卷积特征提取模块，被配置为：对多视角深度动态卷进行时空特征提取，得到多视角特征图；

视角内自注意力编码器模块，被配置为：基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示；

交叉视角特征融合模块，被配置为：不同视角的时空聚合特征表示之间进行交互与融合,生成视频行为的全局多视角特征表示；

行为识别模块，被配置为：将全局多视角特征表示输入到全连接层中，完成行为识别。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明提出了多视角深度动态卷来表达深度视频行为，可以从不同的角度有效地描述人体行为的三维时空运动模式。

本发明将Transformer编码器架构扩展到深度数据模态，提出了基于Transformer多视角特征交互融合的算法框架，所提方法在三个视角的3DCNN特征图上对视角内的特征相关性和视角间的特征交互进行建模，以获得更具判别性和更丰富全面的全局视频特征表示。

本发明在两个具有挑战性的RGBD大规模行为数据集上进行的大量实验表明，所提出的基于Transformer多视角特征交互融合的行为识别方法充分学习了来自不同视角的互补特征信息，能够实现优越的深度视频行为识别性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的基于Transformer多视角特征交互融合的深度视频行为识别框架。

图2为第一个实施例的NTU RGB+D 60数据集中两类行为的多视角深度动态卷示意图。

图3为第一个实施例的ISEM流程图。

图4为第一个实施例的CFFM流程图。

图5为第二个实施例的系统结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

实施例一

Transformer架构近年来在视频行为识别领域引起了越来越多的关注，并取得了显著的成功；然而，几乎所有现有的基于Transformer的方法都仅使用了单一视角下的RGB视频数据，限制了Transformer模型的泛化性能；深度视频行为识别是一个重要的研究方向，由于深度数据不仅对光照和颜色的变化具有不变性，而且能够提供身体轮廓的可靠三维几何信息。

本实施例将Transformer架构扩展应用于深度视频行为识别，并提出了一种基于Transformer的多视角深度特征交互融合框架，它主要由视角内自注意力编码器模块(Intra-view Self-attention Encoder Module,ISEM)、交叉视角特征融合模块(Cross-view Feature Fusion Module,CFFM)两部分组成；具体地，首先将原始深度视频投影到三个正交的平面中，使用次序池化来构建多视角深度动态卷以描述人体行为的3D时空演化；随后将多视角深度动态卷输入到3D CNN中，进行时空特征建模；基于三个视角的深度卷积特征图，ISEM学习每个视角中的长距离时空相关性，而CFFM执行跨视角特征交互，并将交叉视角特征集成在一起得到视频行为的全局多视角特征表示，最终用于行为识别。

本实施例公开了基于多视角特征交互融合的深度视频行为识别方法，如图1所示，包括：

步骤S1：利用深度投影和次序池化技术，从原始深度视频中构建多视角深度动态卷，以从不同角度描述人体动作的3D时空运动动态；

人体行为从不同的角度观察，将会表现出不同的特征形态，多视角的动作描述可以提供互补的特征信息，有助于提高视频行为识别的鲁棒性和准确性；由于深度视频能够提供3D数据结构信息，本实施例将深度视频投影到三个正交的视角平面中，以获得更加丰富全面的多视角行为动作描述；为了显著地捕捉视频行为的3D时空运动变化，进一步对每个视角下的深度投影图序列应用次序池化来构建动态卷表示。

深度视频投影

根据深度运动投影图(Depth Motion Maps,DMM)方法，将深度视频投影到三个2D正交的笛卡尔平面中，以生成三个视角下的深度投影图序列，其中，X-Y平面表示前向，Y-Z平面表示侧向，X-Z平面表示俯向；多视角深度投影图序列可以从不同视角提供更多的行为特征信息，将其表示为

其中，

表示第v个投影视角下的第i张深度图像，N表示深度视频的总帧数。

动态卷构造

为了有效地捕捉每个投影视角中人体行为的显著时空运动，使用次序池化(RankPooling)方法基于多视角深度投影图序列构造动态卷表示；具体来说，以前向视角为例：

首先使用稀疏采样策略将深度投影图序列

均匀分割成T个无重叠的短片段，f表示前向视角；

然后，应用次序池化来聚合每个片段中的短时时空信息，生成对应的动态图像；次序池化方法学习一个线性排序函数，其参数可以编码视频帧的时间顺序，通常能够被转换为2D图像表示来描述一段时间内的空间运动动态。

所有短片段的动态图像构成了前向视角的深度动态卷表示。

类似地，可以获得侧向和俯向的深度动态卷表示，所有视角下的深度动态卷构成多视角深度动态卷。

多视角深度动态卷描述了人体行为的3D时空演化，可以提供强判别性的特征信息以提升行为识别的性能。图2给出了NTU RGB+D 60数据集中两类行为的多视角深度动态卷中的一部分代表性图像。

步骤S2：采用3D CNN模型对多视角深度动态卷进行时空特征提取，提取最后一个卷积层的输出特征图，作为多视角特征图；

卷积神经网络(Convolutional Neural Networks,CNN)具有深度结构，善于利用卷积操作从浅到深地逐步提取具有高级语义信息的特征，其层级化的局部特征模式对于行为识别更具辨识力。因此，基于CNN架构的上述特性，考虑到3D CNN能够同时学习空间和时间特征信息的优越性能，本实施例将多视角深度动态卷输入到3D CNN模型中进行时空特征提取。

具体的，选择Res3D-50作为3D骨干网络，由于它在准确性和效率之间具有良好的平衡能力；更具体来说，每个投影视角下的深度动态卷被送入Res3D-50网络中，提取第4层的输出卷积特征图，将其表示为ConvF_v∈R^T×C×H×w，其中，v表示投影视角正向/侧向/俯向，T是时间长度，C是通道数，H×W是特征图的空间大小；三个视角的卷积特征映射ConvF_v被用作下一个步骤中Transformer多视角特征交互与融合部分的输入特征嵌入。

步骤S3：基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示；

为了学习每个视角的卷积特征图内的时空相关性，本实施例设计了视角内自注意力编码器模块(Intra-view Self-attention Encoder Module，ISEM)，充分利用Transformer编码器中的自注意力机制，学习每个视角下特征图中的时空依赖性，得到时空聚合特征表示，下面以正向投影视角为例，详细介绍ISEM的具体结构，如图3所示。

步骤S2输出的多视角特征图被表示为ConvF_f∈R^T×C×H×W，其中，f表示前向，T＝1，C＝2048，H＝W＝4，具体步骤为：

步骤S301：对多视角特征图进行维度处理，得到Transformer编码器的输入序列；

首先，将时间维度T＝1进行压缩；然后将卷积特征图沿着空间维度展开，并通过线性变换将其映射为空间嵌入X_f∈R^HW×d，这里d表示嵌入向量的维度，在后续实验中被设置为512。类似于BERT，在嵌入向量序列X_f前面同样添加了一个可学习标记X_cls∈R^d，来生成ISEM的最终输入序列，被表示为：

考虑到卷积特征具有多通道和多层次的特点，其感受野能够反映视频空间位置处的特征信息，本实施例在这里没有再使用位置嵌入向量。

步骤S302：Transformer编码器利用自注意力机制，学习每个视角下特征图中的时空依赖性，得到时空聚合特征表示。

序列X输入深度为L₁层的Transformer编码器架构中，其中每一层l由多头自注意力(Multi-head Self-attention,MSA)、层归一化(Layernorm,LN)和多层感知机(Multilayer Perceptron,MLP)组成；MSA使用多头机制来扩展模型聚焦输入数据中不同位置的能力；对于每个头h_i的自注意力计算，首先使用不同的线性变换将输入X映射为查询矩阵

键矩阵

和值矩阵

第i个头h_i的自注意力计算过程如下：

随后所有头的输出被串接在一起，并通过一个线性映射来得到MSA的输出：

MSA(X)＝Concat[h_i(X)]W^O (3)

其中，

是参数矩阵；实验中，多头数量h＝8，d_k＝d_v＝d/h＝64；对MSA的输出添加残差连接后，输入MLP中以得到Transformer编码器第l层的输出：

Y^l＝MSA(LN(X^l))+X^l (4)

X^l+1＝MLP(LN(Y^l))+Y^l (5)

MLP包含由GELU非线性激活函数分隔的两个线性层；经过L₁层的信息传递后，取Transformer编码器输出的第一个可学习标记位置处的最终状态作为前向视角的时空聚合特征表示。

以同样的方式，可以获得侧向和俯向视角的时空聚合特征表示；三个视角的时空聚合特征表示作为ISEM的输出，被分别表示为F_f∈R^d、F_s∈R^d和F_t∈R^d，其中f、s和t表示前向/侧向/俯向。ISEM利用MSA对卷积特征图中的时空相关性进行建模，生成每个视角下的强判别性时空特征表示。

步骤S4：不同视角的时空聚合特征表示之间进行交互与融合,生成视频行为的全局多视角特征表示；

三个独立视角的时空聚合特征表示提供了不同方向上视频行为的时空运动信息，为了进一步学习三个视角特征的内在关联性，本实施例设计了一个交叉视角特征融合模块(Cross-view Feature Fusion Module,CFFM)，通过将自注意力机制扩展为互注意力机制，CFFM可以有效地交互不同视角的特征，并最终生成视频行为的全局多视角特征表示。图4展示了CFFM的实现流程，详细介绍如下。

CFFM包含两个部分：交叉视角特征交互和多视角特征融合。

交叉视角特征交互由L₂个编码器层构成，其中每个编码器层由多头互注意力(Multi-head Cross-attention,MCA)、层归一化(Layernorm,LN)和多层感知机(MLP)组成；基于ISEM输出的三个视角的时空聚合特征表示(F_f、F_s和F_t)，交叉视角特征交互部分实现如下：

首先在每两个投影视角之间执行特征交互；以前向和侧向为例，与MSA的计算过程类似，对于MCA的第i个头，输入序列[F_f,Fs]被映射为

和

d_k＝d_v＝64。

然后，前向视角的查询向量

侧向视角的键向量

和值向量

被输入到MCA，来计算前向相对于侧向的互注意力输出；类似地，侧向视角的查询向量

前向视角的键向量

和值向量

被输入到MCA，来计算侧向相对于前向的互注意力输出；具体计算过程如下：

其中，h_i(F_f)是前向相对于侧向的互注意力输出，h_i(F_s)是侧向相对于前向的互注意力输出。

所有头的输出[h_i(F_f),h_i(F_s)仍然被串接在一起，通过一个线性映射来得到MCA的输出；MCA的输出作为MLP的输入从而生成第l个编码器层的输出：

[Y_f,Y_s]^l＝MCA(LN([F_f,F_s]^l))+[F_f,F_s]^l (8)

[F_f,F_s]^l+1＝MLP(LN([Y_f,Y_s]^l))+[Y_f,Y_s]^l (9)

经过交叉视角特征交互的L₂层之后，得到前向和侧向视角之间的交互特征输出序列

使用上述方法，可以获得任意两个视角之间的交互特征输出。

在多视角特征融合部分，对交叉视角特征交互输出的任意两个视角的交互特征序列取平均值(Avg)，得到交叉视角特征表示，连接每两个视角的交叉视角特征表示以融合多视角动作信息，得到深度视频行为的全局多视角特征表示F_fusion，整个过程被表示为：

CFFM利用MCA机制探索不同视角之间的特征交互，并通过融合多视角交互信息进一步生成具有强辨识力的深度视频特征表示。

步骤S5：将全局多视角特征表示输入到全连接层中，完成行为识别。

将深度视频行为的全局多视角特征表示F_fusion，输入到全连接层(FC)中完成行为识别与分类。

实施例二

本实施例公开了基于多视角特征交互融合的深度视频行为识别系统；

如图5所示，基于多视角特征交互融合的深度视频行为识别系统，包括多视角深度动态卷构建模块、卷积特征提取模块、视角内自注意力编码器模块、交叉视角特征融合模块和行为识别模块；

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多视角特征交互融合的深度视频行为识别方法，其特征在于，包括：

将全局多视角特征表示输入到全连接层中，完成行为识别。

2.如权利要求1所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，所述构建多视角深度动态卷，具体为：

3.如权利要求1所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，所述对三个视角下的深度投影图序列分别进行次序池化处理，具体为：

所有短片段的动态图像构成单视角下的深度动态卷；

所有视角下的深度动态卷构成多视角深度动态卷。

4.如权利要求1所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，采用3D CNN模型，对多视角深度动态卷进行时空特征提取。

5.如权利要求1所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，所述基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示，具体为：

6.如权利要求1所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，通过交叉视角特征融合模块将自注意力机制扩展为互注意力机制，进行不同视角的时空聚合特征表示之间的交互与融合,生成视频行为的全局多视角特征表示。

7.如权利要求6所述的基于多视角特征交互融合的深度视频行为识别方法，其特征在于，所述交叉视角特征融合模块，包括交叉视角特征交互和多视角特征融合；

8.基于多视角特征交互融合的深度视频行为识别系统，其特征在于，包括多视角深度动态卷构建模块、卷积特征提取模块、视角内自注意力编码器模块、交叉视角特征融合模块和行为识别模块；

所述多视角深度动态卷构建模块，被配置为：利用深度投影和次序池化技术，从原始深度视频中构建多视角深度动态卷；

所述卷积特征提取模块，被配置为：对多视角深度动态卷进行时空特征提取，得到多视角特征图；

所述视角内自注意力编码器模块，被配置为：基于多视角特征图，学习每个单独视角下特征图中的长距离时空相关性，生成每个视角的时空聚合特征表示；

所述交叉视角特征融合模块，被配置为：不同视角的时空聚合特征表示之间进行交互与融合,生成视频行为的全局多视角特征表示；

所述行为识别模块，被配置为：将全局多视角特征表示输入到全连接层中，完成行为识别。

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多视角特征交互融合的深度视频行为识别方法中的步骤。