CN117037288A

CN117037288A - 基于Transformer双流融合网络的多模态人体动作识别方法及装置

Info

Publication number: CN117037288A
Application number: CN202311287226.XA
Authority: CN
Inventors: 汪雯; 钟灵; 高广; 宛敏红; 顾建军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-11-10

Abstract

本发明公开了一种基于Transformer双流融合网络的多模态人体动作识别方法及装置，该方法包括以下步骤：首先，提取人体动作视频数据的RGB帧和光流图像，等间隔采样一定长度的视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；然后，使用Transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性；最后，将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。本发明通过Transformer编码器增强RGB帧和光流图像的特征表达与融合能力，能有效提高人体动作识别的性能，满足现实生活场景对于人体动作识别技术的应用需求。

Description

基于Transformer双流融合网络的多模态人体动作识别方法及装置

技术领域

本发明属于多模态视频动作理解技术领域，涉及一种基于Transformer双流融合网络的多模态人体动作识别方法及装置。

背景技术

随着社会经济与科技的不断发展，影像采集技术及设备的持续进步，近年来人体行为数据总量显著增长，采集场景愈发复杂多样，光照、视角、目标姿态、目标比例及背景等成像条件差异巨大，数据采集形式也从单一可见光模态演变为多种模态。人体行为识别技术具有极大应用价值，高效准确的行为识别方法能显著促进人机交互、智慧安防、无人驾驶以及无人系统等多个实际应用领域的发展。

基于双流网络的人体行为识别方法包含两个分支网络：时间流分支和空间流分支网络。其中，时间流分支网络将连续帧的光流图像作为输入，空间流分支网络将单张RGB图像作为输入，通过卷积神经网络分别提取光流图像和RGB图像的运动和静态特征，最终将两个网络的预测结果进行融合得到最终的行为分类结果，此方法虽然实现了对人体行为的有效识别，但是这种传统的双流网络缺少对两个支路交互信息的有效建模，只是单纯地做后融合，实质上光流和RGB图像之间的互补特性很难被有效地挖掘。

因此需要提出了一种多模态人体动作识别的方法，可以利用Transformer进行光流和RGB多模数据的协同学习以解决现有存在的技术问题。

发明内容

针对现有技术的不足，本发明提供了一种基于Transformer双流融合网络的多模态人体动作识别方法及装置，该方法通过提取人体动作视频数据的RGB帧和光流图像，等间隔采样一定长度的视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；然后，使用Transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性；最后，将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。

本发明的是通过以下技术方案来实现的：

本发明的第一方面：一种基于Transformer双流融合网络的多模态人体动作识别方法，该方法包括以下步骤：

（1）提取人体动作视频数据的RGB帧和光流图像，等间隔采样若干个视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；

（2）使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互；（3）将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。

进一步地，所述步骤（3）具体为：

（3.1）首先使用大小的卷积减少通道数目，得到相应的特征图、/>，然后在空间维度进行展平操作，得到RGB图像的特征表示和光流图像的特征表示/>，并将其作为原始输入特征；其中d为通道数，H和W为特征图的高和宽；

（3.2）对RGB和flow的特征进行三元组矩阵变换，利用变换得到两种模态对应的查询特征、键特征以及值特征；再利用交叉注意力计算进行两种模态的特征融合，且数学表达式中的查询矩阵和键矩阵K分别来自两个模态；

（3.3）通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接，得到与/>特征；再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征和/>，然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示；

（3.4）将多模态特征、/>以及融合后的特征/>进行空间维度的平均池化操作，并送入分类器分别得到预测类别的概率得分/>；

（3.5）利用三元组损失函数优化多模态人体动作识别网络，使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别；

（3.6）测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征，将在融合后的特征上预测相应的动作类别概率得分，将得分最大的类别作为该视频的动作识别结果。

进一步地，所述步骤（3.2）中利用变换得到两种模态对应的查询特征、键特征以及值特征，其变换的数学表达式如下：

；

其中，分别表示对/>特征进行线性变换得到的三元组特征表示即查询特征、键特征以及值特征，/>表示对RGB特征进行线性变换得到的三元组矩阵特征，即RGB特征的查询、键、值矩阵特征；/>，/>表示多头注意力的头数，/>表示矩阵的转置操作；为建模RGB和/>两个模态之间的交互特性，/>表示三元组矩阵的第h个注意力头的分量。

进一步地，所述步骤（3.2）中利用交叉注意力计算进行两种模态的特征融合，且计算的数学表达式中的查询矩阵Q和键矩阵K分别来自两个模态，其数学表达式如下：

；

其中，表示/>特征第i个注意力头的计算结果，/>表示rgb特征第i个注意力头的计算结果；

进而将单头注意力拓展成多头注意力MultiHead的形式，其表达式如下：

；

其中，表示多头注意力的个数，/>为线性变换的参数矩阵，MultiHead表示多头注意力，/>为特征拼接操作。

进一步地，所述步骤（3.3）中拼接得到融合后的多模态特征表示，其拼接表达式如下：

；

其中，表示层归一化Layer Normalization操作，再将/>与/>特征通过前馈神经网络FFN：

；

将上述交叉模态特征和/>进行拼接得到融合后的多模态特征表示：

。

进一步地，所述步骤（3.5）中利用三元组损失函数优化多模态人体动作识别网络，其优化损失函数表达式如下：

；

其中，为损失调节项，/>为类别的真值，C为动作类别数目。

进一步地，所述利用三元组损失函数优化多模态人体动作识别网络，即预训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数；测试时只使用融合分支网络进行类别预测。

本发明的第二个方面：

一种基于Transformer双流融合网络的多模态人体动作识别装置，该装置包括以下模块：

提取模块：提取人体动作视频数据的RGB帧和光流图像，等间隔采样若干个的视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；

获取特征模块：使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互；

融合识别模块：将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。

本发明的第三个方面：一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如一种基于Transformer双流融合网络的多模态人体动作识别方法。

本发明的第四个方面：一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如一种基于Transformer双流融合网络的多模态人体动作识别方法的步骤。

本发明的有益效果如下：

本发明通过人体动作利用Transformer网络中的交叉注意力机制对输入RGB和光流模态的有效融合，进而实现对人体动作的准确识别。可提升多模态人体动作特征的交互能力，进一步提升多模态人体动作识别的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本发明的基于Transformer双流融合网络的多模态人体动作识别方法流程示意图；

图2为本发明的基于Transformer双流融合网络的多模态人体动作识别系统流程图；

图3为本发明的基于Transformer双流融合网络的多模态人体动作识别装置流程示意图；

图4为本发明的基于Transformer双流融合网络的多模态人体动作识别电子设备示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本发明提供了一种基于Transformer双流融合网络的多模态人体动作识别方法，所述人体动作利用Transformer网络中的交叉注意力机制对输入RGB和光流模态的有效融合，进而实现对人体动作的准确识别。如图1和图2所示，该方法首先采用预训练的ResNet101网络提取视频RGB帧和光流图像的视觉特征，这部分的网络参数是固定的。基于得到的RGB和光流图像特征进行多模态交互信息融合，最终基于融合后的多模态特征进行人体动作识别。

下面将结合附图对本发明加以详细说明，图2是本发明提供的基于Transformer双流融合网络的多模态人体动作识别系统流程图，该系统对应本发明的Transformer双流融合网络的多模态人体动作识别方法，如图1所示，该方法的具体步骤为：

S1：提取人体动作视频数据的RGB帧和光流图像，等间隔采样若干个视频图像序列，并利用卷积神经网络为RGB帧和光流图像提取时空特征，作为双流网络模型的输入；使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互；

首先使用大小的卷积减少通道数目，得到相应的特征图/>、，然后在空间维度进行展平操作，得到RGB图像的特征表示/>和光流图像的特征表示/>，并将其作为原始输入特征；其中d为通道数，H和W为特征图的高和宽；

对于公开的人体动作视频数据集Toyota Smarthome，借助denseflow工具以固定帧率FPS=30帧/秒，对视频进行等间隔采样得到视频RGB图像帧和光流序列，将图像统一裁剪成大小，然后使用在ImageNet图像数据上预训练的ResNet101网络分别为RGB和/>光流序列提取池化层前的特征表示，记作/>、，其中2048代表通道数，/>为图像的宽和高；

S2：为减少计算量，首先使用大小的卷积将通道数降低到512维度。进一步，为RGB和光流特征序列添加空间位置编码信息（PE, Positional Encoding），表达式为：

；

其中，代表空间位置，/>代表维度，/>为512。

S3：将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别；对RGB和flow的特征进行三元组矩阵变换，利用变换得到两种模态对应的查询特征、键特征以及值特征；再利用交叉注意力计算进行两种模态的特征融合，且数学表达式中的查询矩阵和键矩阵K分别来自两个模态；

即为挖掘单一模态内的显著化特征，使用自注意力机制，表达式如下：

；

其中，表示/>特征第i个注意力头的计算结果，/>表示rgb特征第i个注意力头的计算结果；/>为RGB模态特征的三元组线性变换，为/>模态的三元组线性变换。将上面单头自注意力拓展成多头注意力的形式，表达式如下：

；

其中，表示多头注意力的个数，/>为线性变换的参数向量，/>为特征拼接操作。

S4：使用交叉注意力机制挖掘不同模态特征之间的交互特性其表达式如下：

；

经过对比可知，交叉注意力机制通过计算不同模态三元组特征之间的相关性得到跨模态增强后的特征表示。同样地，将上面单头注意力拓展成多头注意力的形式。

S5：通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接，得到与/>特征；再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征和/>，然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示；通过跳跃连接将得到的交叉模态特征与原始特征进行连接的表达式如下：

；

LN表示层归一化Layer Normalization操作。进一步地，将上述输出通过前馈神经网络FFN，表达式如下：

；

将与/>进行求和得到最终融合后的多模态特征表示/>，表达式如下：

；

S6：将、/>以及融合后的多模态特征表示/>送入池化层得到空间尺寸为1的特征向量，进一步经过分类器得到相应类别的预测得分/>；分类器由全连接层FC（Fully Connected Layer）和Softmax激活函数组成，通过交叉熵损失函数对神经网络进行训练，并将分类的准确率作为性能评测的指标；即利用三元组损失函数优化多模态人体动作识别网络，使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别；测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征，将在融合后的特征上预测相应的动作类别概率得分，将得分最大的类别作为该视频的动作识别结果。

所述步骤S3与步骤S4中，多头注意力的个数设置为4。

所述步骤S5中，前馈神经网络FFN隐层节点数设置为2048，激活函数采用ReLU。

在人体动作数据集Toyota Smarthome上利用训练集数据训练网络模型，并进一步在测试集上验证模型的有效性。训练集和测试集采用标准cross-subject的方式进行划分。该数据集共包含31个人体动作的类别，例如：Walk（走路）、Readbook（读书）、WatchTV（看电视）、Laydown（躺下）、Uselaptop（使用笔记本）、Cutbread（切面包）等。在该数据集上的识别结果如表1所示（单位：%）。

表1

如表1所示，通过对输入的RGB和光流两个模态进行跨模态的融合，得到融合准确率为52.88%，分别高出RGB支路的准确率8.69%以及Flow支路的准确率13.92%，体现出本发明的技术有效性。

如图3所示，本发明还提供了一种基于Transformer双流融合网络的多模态人体动作识别装置，该装置包括以下模块：

提取拼接模块：使用denseflow工具为公开的人体动作视频数据提取RGB图像帧和光流图像，等间隔抽取一定数量的图像序列；所述光流图像分为x和y两个方向，将两个方向的图像进行拼接得到一张光流图像作为后续光流分支网络的输入；

获取图像特征模块：采用在ImageNet上预训练的ResNet101卷积神经网络提取视频片段的视觉特征，得到RGB图像和光流图像的特征表示分别为和，其中C为通道数，H和W为特征图的高和宽；

捕获输出模块：利用Transformer编码器网络捕捉RGB图像和光流图像特征之间的互补性，将融合后的特征和单个分支的特征分别送入到分类器，输出概率得分最大的动作类别作为最终的多模态识别结果。

值得注意的是，本发明在训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数；测试时只使用融合分支网络进行类别预测。

处理器执行时实现如基于Transformer双流融合网络的多模态人体动作识别的方法的步骤。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于Transformer双流融合网络的多模态人体动作识别的方法。如图4所示，为本发明实施例提供的一种深度学习数据集存取系统所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于Transformer双流融合网络的多模态人体动作识别的方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（FlashCard）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，该方法包括以下步骤：

（2）使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互；（3）将双路分支网络的输出进行融合，并将融合后的特征和单个分支网络的输出送入分

类器完成对人体动作的有效识别。

2.根据权利要求1所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3）具体为：

（3.1）首先使用大小的卷积减少通道数目，得到相应的特征图/>、，然后在空间维度进行展平操作，得到RGB图像的特征表示/>和光流图像的特征表示/>，并将其作为原始输入特征；其中d为通道数，H和W为特征图的高和宽；

（3.3）通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接，得到与/>特征；再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征/>和/>，然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示/>；

3.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3.2）中利用变换得到两种模态对应的查询特征、键特征以及值特征，其变换的数学表达式如下：

；

4.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3.2）中利用交叉注意力计算进行两种模态的特征融合，且计算的数学表达式中的查询矩阵Q和键矩阵K分别来自两个模态，其数学表达式如下：

；

5.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3.3）中拼接得到融合后的多模态特征表示，其拼接表达式如下：

；

。

6.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述步骤（3.5）中利用三元组损失函数优化多模态人体动作识别网络，其优化损失函数表达式如下：

；

其中，为损失调节项，/>为类别的真值，C为动作类别数目。

7.根据权利要求1所述的一种基于Transformer双流融合网络的多模态人体动作识别方法，其特征在于，所述利用三元组损失函数优化多模态人体动作识别网络，即预训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数；测试时只使用融合分支网络进行类别预测。

8.一种基于Transformer双流融合网络的多模态人体动作识别装置，其特征在于，该装置包括以下模块：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。