CN116434343A

CN116434343A - 基于高低频双支路的视频动作识别方法

Info

Publication number: CN116434343A
Application number: CN202310452019.9A
Authority: CN
Inventors: 杨敬钰; 邢博浩; 刘鑫; 岳焕景
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-14
Anticipated expiration: 2043-04-25
Also published as: CN116434343B

Abstract

本发明公开了基于高低频双支路的视频动作识别方法，属于视频理解方法技术领域；本发明不同于使用窗口注意力或仅对键值降采样的方法，打破了现有技术中等价考虑时间和空间的思维。通过利用视频中的时空信息冗余在时间和空间上的特异性，构建了高效处理低频信息的自注意力机制。本发明还并利用人类注意力机制，构建了由低频支路引导的高频支路，并考虑时空信息在时间和空间上的特异性和整体性与局部性，高效利用高频与低频分支，从而解决基于视频的动作识别的问题。

Description

基于高低频双支路的视频动作识别方法

技术领域

本发明涉及视频理解方法技术领域，特别是涉及基于高低频双支路的视频动作识别方法。

背景技术

基于视频的动作识别是识别人类活动的任务，来源于静态图像或视频序列。基于视觉的人类动作识别是计算机视觉领域中一个古老的领域，现有方法采用了不同的数据模态进行识别，包括RGB图像、深度图像、骨骼、红外、点云等，其中前三种模态主要用于人类动作识别。RGB数据更有助于提供场景的细节（包括形状、颜色和纹理），有助于描述动作的语义。

在过去的几年中，人类动作识别方法主要是通过深度神经网络（DNN）建立的。这主要是因为卷积神经网络（CNN）在对图像的空间信息编码并进行目标和识别时编码图像的成功。各种研究发现了CNN从图像中自动提取有用且有区别性特征的能力，这些特征非常通用。编码时间信息在识别不同子活动中至关重要。每个活动被划分为不同的子活动。这些子活动的顺序在不同的活动之间有所差别。然而，时间维度通常使行动识别变得具有挑战性。基于CNN的的深层架构通常仅以有限的解决方案编码时间信息（如三维卷积神经网络（3DCNN）、循环神经网络（RNN）和长期和短期记忆（LSTM）），这些模型通常在同时获取时间特征的局部和全局变化方面受到限制。

随后，大量基于Transformer的方法被提出，广泛应用于视频的动作识别。Transformer是一种新的编码器-解码器（Encoder-Decoder）架构，使用注意机制差异地加权输入数据的每个部分。由于注意机制可以有效建模长依赖关系，因此此类方法在时空关系建模上相对于CNN的方法有着明显的优势。这样就可以学习更有效的时空特征，从而获得更好的识别性能，但相应得有着更大得计算代价。

目前，在基于视频的动作识别方面已经有了大量的研究工作被提出，并取得了良好的效果。Transformer借助自注意力机制建模长依赖关系，取得了显著的性能。然而，自注意力机制的计算复杂度随着输入Token数量的平方级增加，视频输入会大大增加Token数量，带来极大的训练和推断负担。

为了解决上述问题，本发明提出了一种基于高低频双支路的视频动作识别方法。

发明内容

本发明的目的在于提出一种基于高低频双支路的视频动作识别方法以解决现有技术中存在的如下问题：

（1）将时间和空间作为等价维度处理，缺乏对整体时空特征的关注；

（2）对局部时空特征的过度依赖；

（3）缺乏对时间信息的直接观察。

为了实现上述目的，本发明采用了如下技术方案：

基于高低频双支路的视频动作识别方法，利用人类视觉系统，考虑时空信息在时间和空间上的特异性和整体性与局部性，高效利用高频与低频分支，实现视频动作识别，具体包括以下内容：

步骤1、对视频数据进行预处理，通过密集采样或均匀采样对视频数据进行帧抽取，得到一个帧的数量确定的帧序列；

步骤2、对采样后的帧序列进行数据增广，提高模型的泛化能力；

步骤3、将步骤2中增广后的帧序列分别输入到块（Patch）编码器，将得到的每个Patch作为Token的编码；

步骤4、将步骤3中所得的Token进行隐式位置编码；

步骤5、将进行位置编码后的Token输入到低频支路和高频支路中，提取相对应支路下每个样本的特征向量，将低频支路和高频支路的特征向量融合；将融合后的特征向量输入到多层感知机（MLP）模块得到整个双路Transformer模块的输出；

步骤6、将低频支路和高频支路融合后的特征向量输入到Patch融合模块以及隐式位置编码模块，实现特征向量的空间维度下采样和隐式位置编码；

步骤7、重复步骤5-6，得到最终的特征向量；

步骤8、将步骤7中获得的特征向量输入到动作分类模块，得到分类损失函数；

步骤9、对步骤8中所得的分类损失函数进行反向传播训练，完成视频动作识别训练工作。

优选地，步骤1所述的密集采样具体包括以下内容：对于一个给定帧数T’的原始视频序列

，若采样间隔为/>

，需要采样的帧数为T，那么密集采样的帧序列对应的原视频序列索引为/>

；这种采样方式的优点是能够保证在原始视频序列中的绝对位置信息；

所述均匀采样具体包括以下内容：对于一个给定帧数T’的原始视频序列

，通过指定抽帧数目T可以计算出采样分割段/>

，对应每个分割点索引为

；然后在每个分割区间/>

中随机抽取一帧/>

；在每个分割区间内都抽取一帧，一共抽取T帧；这种采样方式的优点是能够保证在原始视频序列中的相对位置信息，可以看到整个视频段的信息。

优选地，步骤2所述的数据增广的方法包括图像缩放、图像缩减和图像翻转。

优选地，步骤3所述的块（Patch）编码器由堆叠的3维卷积神经层构建；所述3维卷积神经网络层包含3层，其具体计算公式如下：

y=Wx+b

其中，W表示3维卷积核权重；b表示加性偏置；x表示输入视频序列或者特征。

优选地，所述步骤4具体包括以下内容：

使用跨步为1并带补丁的3D卷积层实现对特征向量的时空位置信息隐式编码，将每一帧图像中每个像素的信息映射到一个向量表示；所述编码允许网络捕捉特征向量中对象在特征向量中的时空位置关系，从而提高识别精度。

优选地，步骤5中所述低频支路采取自注意力机制动态提取每个样本的整体低频特征，首先上一层的输入特征向量Z _l-1进行仅空间维度上的降采样，并进行自注意力机制计算，并将V和

上采样后相加得到低频支路的特征向量输出，具体计算公式如下：

其中，SR、UR代表空间下/上采样操作，实现在空间分辨率的下采样或下采样；s代表对应的比例；W ^Q、W ^K、W ^V代表获得Q、K、V的线性映射权重；d代表自注意力层中的隐藏特征维度。

所述高频支路在低频引导的引带下提取每个样本的局部高频特征，首先将低频支路获得Token相似性矩阵转化为卷积核调制系数，用其调制2维卷积核和3维卷积核。并用调制后的卷积核对输入特征向量Z _l-1提取特征，最后将两个支路的特征向量相加，并输入到多层感知机模块得到整个双路transformer模块的输出，，具体计算公式如下：

其中，A代表低频支路中获得的注意力矩阵；

为所需要学习的2D和3D卷积核参数；π_2d、π_3d为通过A学到的调制系数，Attention（·）为学习所用注意力机制。

优选地，步骤6中所述的Patch融合模块由3D卷积层实现；所述隐式位置编码模块与步骤4中的相同。

优选地，步骤8中所述的分类损失函数为交叉熵损失函数，其用于度量输出结果与真实标签间的差距，评估模型预测的准确性，具体计算公式为：

其中，L表示交叉熵损失函数；y'表示真实标签的概率分布；y表示预测标签的概率分布。

与现有技术相比，本发明提供了基于高低频双支路的视频动作识别方法，具备以下有益效果：

（1）本发明区别于以往的基于Tansformer的视频动作识别方法，打破了视频序列中时间和空间的等价性，利用人类视觉系统，构建了基于高低频双支路的视频动作方法。相较于以往的研究，本发明是一种对数据利用效率更高，识别效果更好的方法。

（2）本发明通过降采样空间维度的自注意力机制，探索了视频序列中时间和空间的差异性。解决了以往基于窗口注意力的方法面临的缺乏对时空信息直接观察的问题。并相较于以往的解决自注意力机制计算消耗问题的方法更加轻量高效。

（3）本发明还通过低频分支的引导，来调制高频分支的卷积核，挖掘特定于样本的局部时空信息。相较于其他的方法而言，不仅补充了自注意力机制缺失的高频信息，而且计算复杂性低。

附图说明

图1为本发明提出的基于高低频双支路的视频动作识别方法的整体框架流程图；

图2为本发明实施例1中密集采样方法示意图；

图3为本发明实施例1中均匀采样方法示意图；

图4为本发明实施例1中使用的带有重叠卷积的示意图；

图5为本发明实施例1中所使用的隐式位置编码示意图；

图6为本发明实施例1中双路Transformer模块对示意图：包括低频支路和高频支路。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提出一种基于高低频双支路的视频动作识别方法，受到“国家自然科学基金-基于自监督学习的人体微姿态识别和情感分析62171309”的资助，其主要目的在于解决现有基于Tansformer的视频动作识别方法存在的以下问题：

现有方法集中于将时空多头自注意力（MSA）或编码器分解为空间和时间域，这些方法存在着一些不容忽视的局限性：

1）将时间和空间作为等价维度的处理：通过将时空信息等价地分开处理，解耦注意力方法可能缺乏对整体时空特征的关注。

2）对局部时空特征的过度依赖：窗口注意力方法可能过于依赖局部时空特征，从而导致缺乏全局时空特征的准确提取。

3）缺乏对时间信息的直接观察：通过在时空域中分开计算，窗口注意力方法可能缺乏对时间信息的直接观察，导致需要更多迭代才能观察到感兴趣的对象在空间时间中的移动。

综上，目前尚未提出能够有效建模时间和空间关系的基于视频的动作识别的高效处理算法。

针对上述问题，本发明不同于使用窗口注意力或仅对键值降采样的方法，打破了这种这种等价考虑时间和空间的思维。利用视频中时空冗余信息在时间和空间上的特异性，构建了高效处理低频信息的自注意力机制。并利用人类注意力机制，构建了由低频支路引导的高频支路。利用人类视觉系统，考虑空冗余信息在时间和空间上的特异性和整体性与局部性，高效利用高频与低频分支，从而解决基于视频的动作识别的问题。

基于上述描述，本发明所提出的基于高低频双支路的视频动作识别方法具体包括如下内容：

实施例1：

本发明提出一种基于高低频双支路的视频动作识别方法。整体设计流程如图1所示，整体流程可以分为4个Stage，每个Stage由若干个重复的双路Transformer模块堆叠而成。

针对每一模块中的细节部分，详细介绍具体实施步骤如下：

步骤1：对视频数据进行预处理，通过密集采样或均匀采样对视频数据进行帧抽取，最后得到一个帧的数量确定的帧序列。

其中，密集采样具体指：如图2所示，对于一个给定帧数T’的原始视频序列

，若采样间隔为/>

，需要采样的帧数为T，那么密集采样的帧序列对应的原视频序列索引为

；这种采样方式的优点是能够保证在原始视频序列中的绝对位置信息。

均匀采样具体指：如图3所示，对于一个给定帧数T’的原始视频序列

，通过指定抽帧数目T可以计算出采样分割段/>

，对应每个分割点索引为

；然后在每个分割区间/>

中随机抽取一帧/>

步骤2：对采样后的帧序列通过图像缩放、图像裁剪、图像饭庄等方法进行数据增广，以提高模型的泛化能力。

图像缩放是图像处理中的一种常见操作，在视频任务中，一般沿时间维度使用相同的缩放比例进行缩放。缩放使用的算法一般有最邻近插值，双线性插值和双立方插值算法。图像裁剪是图像处理中常见的操作，指的是随机选择图像中的一个矩形区域并删除其他不需要的部分。通过裁剪可以缩小图像的大小，但不会影响图像的分辨率。图像翻转是指将图像在水平、垂直或对角方向上翻转，改变其方向改变。

步骤3：如图4所示，我们使用了带重叠的卷积实现块编码。对于形状为（C _in，D，H，W）的输入。我们进行卷积运算：

我们通过控制Padding和Stride来简介控制输出特征向量的大小。

步骤4：请参阅图5，步骤4中实现的操作同样基于3D卷积层，但是Stride为1，因此分辨率不会受到影响。卷积的公式与步骤3中的一致。

步骤5：高频支路和低频支路相关细节如图6所示，此模块可以分别处理低频信息和高频信息，从而有效减少计算消耗和保证信息有效提取。

如图6上部分所示，对于低频分支我们采用仅空间降采样的自注意力机制，首先将上一级的输入Z _l-1进行空间下采样操作，然后通过查询、键、值编码器来获得查询、键、值特征向量进行自注意力操作。最后将V和

上采样后相加得到低频支路的特征向量输出：

如图6下部分所示，对于高频分支我们采用由低频分支引导的卷积实现。首先将低频支路获得Token相似性矩阵转化为卷积核调制系数，用其调制2维卷积核和3维卷积核。并用调制后的卷积核对输入特征向量Z _l-1提取特征：

其中，A代表低频支路中获得的注意力矩阵；

最后将两个支路的特征向量相加并经过MLP，并输入到多层感知机模块得到整个双路transformer模块的输出，：

步骤6与7：对于步骤6与步骤7的迭代如图1所示。没经过一定数量的双路Transformer迭代后，会经过Patch融合模块和隐式位置编码模块。

步骤8：在步骤8中使用的损失函数为交叉熵损失函数（Cross-EntropyLossFunction）。它可以度量输出结果与真实标签间的差距，用于评估模型预测的准确性：

其中，L是交叉熵损失函数，y'表示真实标签的概率分布；y表示预测标签的概率分布。使用最终的到的特征向量，经过分类模块得到预测标签即可计算损失并反向传播训练。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于高低频双支路的视频动作识别方法，其特征在于，利用人类视觉系统，考虑时空信息在时间和空间上的特异性和整体性与局部性，高效利用高频与低频分支，实现视频动作识别，具体包括以下内容：

步骤3、将步骤2中增广后的帧序列分别输入到块编码器，将得到的每个Patch作为Token的编码；

步骤4、将步骤3中所得的Token进行隐式位置编码；

步骤5、将进行位置编码后的Token输入到低频支路和高频支路中，提取相对应支路下每个样本的特征向量，将低频支路和高频支路的特征向量融合；将融合后的特征向量输入到多层感知机模块得到整个双路Transformer模块的输出；

步骤7、重复步骤5-6，得到最终的特征向量；

步骤8、将步骤7中获得的特征向量输入到动作分类模块，得到分类损失；

2.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤1所述的密集采样具体包括以下内容：对于一个给定帧数T’的原始视频序列

，若采样间隔为/>

；

，通过指定抽帧数目T可以计算出采样分割段/>

，对应每个分割点索引为

；然后在每个分割区间/>

中随机抽取一帧/>

；在每个分割区间内都抽取一帧，一共抽取T帧。

3.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤2所述的数据增广的方法包括图像缩放、图像缩减和图像翻转。

4.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤3所述的块（Patch）编码器由堆叠的3维卷积神经层构建；所述3维卷积神经网络层包含3层，其具体计算公式如下：

y=Wx+b

5.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，所述步骤4具体包括以下内容：

使用跨步为1并带补丁的3D卷积层实现对特征向量的时空位置信息隐式编码，将每一帧图像中每个像素的信息映射到一个向量表示；所述编码允许网络捕捉特征向量中对象在特征向量中的时空位置关系。

6.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤5中所述低频支路采取自注意力机制动态提取每个样本的整体低频特征，首先上一层的输入特征向量Z _l-1进行仅空间维度上的降采样，并进行自注意力机制计算，并将V和

其中，SR、UR代表空间下/上采样操作，实现在空间分辨率的下采样或下采样；s代表对应的比例；W ^Q、W ^K、W ^V代表获得Q、K、V的线性映射权重；d代表自注意力层中的隐藏特征维度；

其中，A代表低频支路中获得的注意力矩阵；

7.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤6中所述的Patch融合模块由3D卷积层实现；所述隐式位置编码模块与步骤4中的相同。

8.根据权利要求1所述的基于高低频双支路的视频动作识别方法，其特征在于，步骤8中所述的分类损失函数为交叉熵损失函数，其用于度量输出结果与真实标签间的差距，评估模型预测的准确性，具体计算公式为：