CN114332573A

CN114332573A - 基于注意力机制的多模态信息融合识别方法及系统

Info

Publication number: CN114332573A
Application number: CN202111557072.2A
Authority: CN
Inventors: 刘桢; 程俊; 任子良; 宋呈群; 张锲石
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-18
Filing date: 2021-12-18
Publication date: 2022-04-12

Abstract

本发明涉及一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统首先对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征；之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示；最后将这两个多模态特征向量相加或拼接操作整合成一个特征向量，通过全连接层和softmax函数分类，得到待测视频中的所属动作类，能够有效地利用RGB和depth数据的互补信息，产生语义丰富的多模态特征表示，极大地提高人体动作识别的准确率和抗干扰能力。

Description

基于注意力机制的多模态信息融合识别方法及系统

技术领域

本发明属于信息识别领域，尤其涉及一种基于注意力机制的多模态信息融合识别方法及系统。

背景技术

动作识别的首要问题是如何表示视频中的动作，提取视频中人体动作的特征表示有传统的手工设计特征方法(如HOG、HOF、MBH、DT/iDT等)和基于深度学习的方法，后者能够简便地提取到更深层次、高效的特征表示，从而逐渐成为主流。从网络结构来说，可以通过二维卷积神经网络(2D CNN)、三维卷积神经网络(3D CNN)、循环神经网络(RNN、LSTM)以及图神经网络(GCN)提取动作特征。从数据模态来说，有基于RGB帧的、基于光流图像的、基于骨架序列的以及深度(depth)图像等单模态方法，也有结合两种或多种模态数据的方法。这些方法通过不同的网络结构提取不同的数据模态特征用于人体动作的识别，采用多种模态数据的方法还包括信息融合操作。

以DT算法为代表的传统手工特征提取方法的基本思路为利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory四种特征，最后利用FV(Fisher Vector)方法对特征进行编码，基于编码结果训练SVM进行分类。以双流网络为代表的2D CNN以及多模态方法，其利用两个卷积网络对动作视频中的外观和运动信息进行建模，一路为空间流CNN，另一路为时间流CNN，前者从静态图像中学习动作，后者基于光流场提取运动信息进行识别。现有技术有通过运动表示图和骨架图像构建了5个输入模态并通过5-stream卷积网络提取特征，现有技术也有设计了一个跨模态补偿模块用来学习RGB和depth动态图之间的互补信息，然后两路网络分别输出不同模态的预测结果。但以上基于多模态数据的方法都是采用的后融合方法，具体来说就是通过平均、相乘等方法融合每个模态的预测结果。

随着视频数据的爆炸式增长，对视频数据的处理以及应用的需求也极大增加，典型的应用场景包括智能视频监控系统，视频检索，人机交互与游戏娱乐等，其中最重要的一步就是人体动作识别。与人类通过处理来自多种感知器官的信息理解并认识外部环境类似，人体动作识别系统及终端设备也可以通过多种信息来源或数据模态增加其准确率与鲁棒性。然而各种视觉传感器在带来不同视频数据模态、丰富数据来源的同时，也引入了对不同模态间数据的处理及融合问题的挑战。多种模态信息能克服单一模态信息所带来的受外界环境影响大和特征单一的局限性，提供互补的信息，但是不同模态信息之间往往存在着数据分布不一致、所提取特征的语义信息差距大，无法直接进行特征融合等问题。

现有技术大多仅依靠单一模态数据比如RGB图像、深度图像、骨架序列进行动作识别，其易受外界环境影响且存在特征缺失的问题。例如RGB图像样本采集方便最为常用，但其缺少三维结构信息，容易受到光照变化等外界因素的干扰，动作识别率不高且鲁棒性和泛化能力较差。而基于多模态数据的动作识别仅利用独立的网络分别提取不同模态的特征，然后进行决策层面的后融合操作，这样的做法所带来的提升有限，且没有充分利用不同模态间的互补信息，无法得到有效的多模态特征表示。

发明内容

本发明实施例提供了一种基于注意力机制的多模态信息融合识别方法及系统，以至少解决现有信息融合识别方法无法得到有效的多模态特征表示的技术问题。

根据本发明的一实施例，提供了一种基于注意力机制的多模态信息融合识别方法，包括以下步骤：

对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；

分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征；

将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示；

将两个多模态融合特征向量相加或拼接操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类别。

进一步地，对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图包括：

从终端设备中的数据库读取人体动作的RGB和depth视频序列，其视频序列中的RGB帧和depth图是一一对应的；设视频序列包含M帧，对RGB视频和depth序列进行时间维度稀疏平均采样，得到人体动作的图像序列。

进一步地，对于RGB视频中的序列帧，分别在三通道进行压缩时空信息表示，并对计算过程中得到的运动信息通过取整操作，最终可得到与RGB三通道类似的运动图像；

对于depth的序列图，首先通过缩放将其转换为[0，255]的灰度图像，之后对单通道的灰度图像进行运动时空信息表示，并通过取整计算，最终得到单通道的时空信息表示图。

进一步地，分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征包括：

对RGB和depth所生成的时空信息表示图，设计网络模型来联合学习RGB和depth信息流特征，通过深度卷积网络提取每种模态信息的高层语义特征；

在网络架构的选取上，选取Resnet、Inception、VGG网络模型，两路网络结构相同、同时优化，提取出的模态特征用于下一步的融合操作。

进一步地，所生成的时空表示图中RGB是三通道、depth是单通道，将depth的时空信息表示图沿其通道维度重复三次，从而扩展为三通道图像，两张时空表示图同时输入卷积神经网络提取特征得到

和

然后通过1x1卷积降低特征图通道维度得到

和

最后将其沿空间维度展平得到

和

两个二维特征向量，用于后续特征融合。

进一步地，将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示包括：

RGB和depth两种模态的高层语义特征输入N层注意力融合模块，在其所属分支和另一分支的融合模块中分别作为不同的输入角色，使得两种模态通过注意力机制交互融合，学习到模态间的互补信息，得到多模态特征X^r和X^d。

进一步地，输入的是两路的模态的特征，其中该模块所在分支的模态特征作为Q，另一分支的模态特征作为K、V，经过多头注意力机制进行融合，然后通过瓶颈激活模块进一步强化所学习到的多模态特征，增强其表达能力。

进一步地，其中瓶颈激活模块配置为：

首先将输入的特征

进行全局平均池化操作，将特征的HW维度压缩成1来产生全局上下文信息

然后通过两层全连接层对特征的另一个维度降维并恢复到原始维度，中间插入ReLu激活函数增加非线性，从而组成瓶颈结构，得到激活值

最后将通过sigmoid函数的特征作为激活值与原始输入特征进行逐元素相乘，强化或抑制原始输入特征中的信息。

进一步地，将两个多模态融合特征向量相加或拼接操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类别包括：

将两个多模态融合特征向量相加或拼接操作整合成一个特征向量，来充分利用其信息，得到最终的融合表示X_fusion，通过softmax全连接层进行动作分类。

根据本发明的另一实施例，提供了一种基于注意力机制的多模态信息融合识别系统，包括：

时空信息表示图生成模块，用于对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；

高层语义特征提取模块，用于分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征；

多模态融合特征计算模块，用于将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示；

动作类别获取模块，用于将两个多模态融合特征向量相加或拼接操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类别。

本发明实施例中的基于注意力机制的多模态信息融合识别方法及系统中，首先对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征；之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示；最后将这两个多模态特征向量相加或拼接(concatenate)操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类，能够有效地利用RGB和depth数据的互补信息，在特征层面进行两种模态间的交互融合，从而产生语义丰富的多模态特征表示，极大地提高人体动作识别的准确率和抗干扰能力。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于注意力机制的多模态信息融合识别方法及系统的总体概览图；

图2为本发明基于注意力机制的多模态信息融合识别方法及系统中双流多模态特征提取网络结构图；

图3为本发明基于注意力机制的多模态信息融合识别方法及系统中多模态信息融合与动作分类示意图；

图4为本发明基于注意力机制的多模态信息融合识别方法及系统中注意力融合模块结构图；

图5为本发明基于注意力机制的多模态信息融合识别方法及系统中瓶颈激活模块结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提出一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统通过注意力机制挖掘模态间的语义联系，使其相互之间产生有益的结合，充分发挥多模态融合的优势，提高复杂场景下人体动作识别的准确率与鲁棒性。

本发明针对RGB和depth两种视频序列使用2D CNN进行动作特征学习，并设计基于注意力机制的融合模块，有效地结合了不同模态数据间的互补信息，提高了动作识别的准确率和鲁棒性，减轻环境变化和单一模态特征缺失所造成了识别精度下降的影响。本发明包括多头跨模态注意力模块和瓶颈激励模块，使用RGB和depth两种模态数据进行人体动作识别，通过深度摄像头可以非常方便的采集这两种数据。本发明通过所提出的融合方法能够有效地利用RGB和depth数据的互补信息，在特征层面进行两种模态间的交互融合，从而产生语义丰富的多模态特征表示，极大地提高人体动作识别的准确率和抗干扰能力。

本发明可以更好地处理多模态信息的协同合作关系来提高动作识别的准确性和稳定性。该方法及系统利用在终端设备中预存的规范化人体动作数据库进行模型的训练与推理，实现人体动作的自动识别，其主要流程包括：(1)动作视频的时空信息表示；(2)多模态高层语义特征的提取；(3)基于注意力机制的多模态信息融合表征，以及多模态特征整合与动作分类。

本发明首先对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图；然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征；之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示；最后将这两个多模态特征向量相加或拼接(concatenate)操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类别。

本发明整体概述如图1所示，按照算法处理流程，从以下几方面详细阐述：

(1)动作视频的时空信息表示

从终端设备中的数据库读取人体动作的RGB和depth视频序列，其视频序列中的RGB帧和depth图是一一对应的。设视频序列包含M帧，首先对RGB视频和depth序列进行时间维度稀疏平均采样，得到人体动作的图像序列<I₁，I₂，I₃，...，I_T>，T表示采样得到的视频帧数(假设动作包含100帧，系数平均采样后T＝10，即用10帧来表示整个动作，RGB和depth的帧标一样)。定义其视频序列的时空信息表示图为MI：

对于RGB视频中的序列帧，可以分别在三通道进行压缩时空信息表示，并对计算过程中得到的运动信息通过取整操作，最终可得到与RGB三通道类似的运动图像；对于depth的序列图，首先通过缩放将其转换为[0，255]的灰度图像，之后对单通道的灰度图像进行运动时空信息表示，并通过取整计算，最终得到单通道的时空信息表示图。

(2)双流网络模型训练与特征提取

对RGB和depth所生成的时空信息表示图，设计网络模型来联合学习RGB和depth信息流特征，通过深度卷积网络提取每种模态信息的高层语义特征。在网络架构的选取上，可以选取诸如Resnet、Inception、VGG等成熟的网络模型，两路网络结构相同、同时优化，但不共享参数。提取出的模态特征用于下一步的融合操作，双流多模态特征提取网络结构如图2所示。

步骤(1)所生成的时空表示图中RGB是三通道、depth是单通道，为了适应网络模型，将depth的时空信息表示图沿其通道维度重复三次，从而扩展为三通道图像。两张时空表示图同时输入卷积神经网络提取特征得到

和

然后通过1x1卷积降低特征图通道维度得到

和

最后将其沿空间维度展平得到

和

两个二维特征向量，用于后续特征融合。

(3)基于注意力机制的多模态信息融合表征与动作分类

两个特征输入N层注意力融合模块，在其所属分支和另一分支的融合模块中分别作为不同的输入角色，即图3中的Q和K、V，从而使得两种模态通过注意力机制交互融合，学习到模态间的互补信息，得到多模态特征X^r和X^d。最后将这两个多模态特征进行相加或拼接整合来充分利用其信息，得到最终的融合表示X_fusion，通过softmax全连接层进行动作分类。

在图3中所示的注意力融合模块的具体结构如图4所示。它的输入是两路的模态的特征，其中该模块所在分支的模态特征作为Q，另一分支的模态特征作为K、V，经过多头注意力机制进行融合，然后通过瓶颈激活模块(BEF)进一步强化所学习到的多模态特征，增强其表达能力。注意力融合模块中每一步都穿插了跨层连接与正则化操作，目的是保证深层网络训练的稳定性。由于多头注意力不能区分输入特征中元素的位置信息，所以为每个输入特征添加位置编码。整个流程可以用公式表示为：

MultiHead(Q，K，V)＝Concat(h₁，...，h_n)W^O， (4)

其中，

是参数矩阵，d_k是key的embedding维度。

是Q的位置编码，

是K和V的位置编码，h是多头注意力的头数。h＝8，d_m＝1024，d_k＝d_v＝d_m/h＝128是默认设置。

瓶颈激活模块(BEF)结构如图5所示，它首先将输入的特征

如式6所示。然后通过两层全连接层对特征的另一个维度降维并恢复到原始维度，中间插入ReLu激活函数增加非线性，从而组成瓶颈结构，得到激活值

如式7所示。最后将通过sigmoid函数的特征作为激活值与原始输入特征进行逐元素相乘，强化或抑制原始输入特征中的信息，如式8所示。降维的比例r限制了模型的参数量并增强了泛化性能(在本发明的应用中设置r＝8)。

s＝Sigmoid(W₂ReLU(W₁z))， (7)

其中，

是瓶颈激励模块的输入，

是参数矩阵，

是瓶颈激励模块的输出。

本发明针对多模态人体动作识别任务中存在的模态语义融合问题提出了一种基于注意力机制的信息融合识别方法及系统。该方法及系统通过对RGB和depth视频序列进行时空信息表示，使用双路深度卷积网络同时提取每个模态的高层语义特征，并对所提取的特征进行基于注意力机制的跨模态融合操作，实现有效地多模态特征交互与融合，从而充分利用不同模态间的互补信息，提高人体动作识别的准确性与鲁棒性。此外，本发明所提出的注意力融合模块中嵌入的瓶颈激励模块能在引入非常少的参数和计算量的情况下，增强模型的表达能力与泛化能力，提高了动作识别的准确率。与现有技术相比，本发明所提出的基于注意力机制的信息融合方法在特征层面进行了高效的多模态语义融合，能够充分挖掘不同模态信息间的联系；该方法中的融合操作由模块化的结构完成，因此可以很容易的应用于其他模型与系统，比如视觉问答模型或机器人系统。本发明经过实验证明可行，效果良好。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的多模态信息融合识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法，其特征在于，所述对人体动作的RGB和depth视频帧序列进行压缩表示，生成整个视频的时空信息表示图包括：

3.根据权利要求2所述的基于注意力机制的多模态信息融合识别方法，其特征在于，对于RGB视频中的序列帧，分别在三通道进行压缩时空信息表示，并对计算过程中得到的运动信息通过取整操作，最终可得到与RGB三通道类似的运动图像；

4.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法，其特征在于，所述分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征包括：

5.根据权利要求4所述的基于注意力机制的多模态信息融合识别方法，其特征在于，所生成的时空表示图中RGB是三通道、depth是单通道，将depth的时空信息表示图沿其通道维度重复三次，从而扩展为三通道图像，两张时空表示图同时输入卷积神经网络提取特征得到

和

然后通过1x1卷积降低特征图通道维度得到

和

最后将其沿空间维度展平得到

和

两个二维特征向量，用于后续特征融合。

6.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法，其特征在于，所述将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示包括：

7.根据权利要求6所述的基于注意力机制的多模态信息融合识别方法，其特征在于，输入的是两路的模态的特征，其中该模块所在分支的模态特征作为Q，另一分支的模态特征作为K、V，经过多头注意力机制进行融合，然后通过瓶颈激活模块进一步强化所学习到的多模态特征，增强其表达能力。

8.根据权利要求7所述的基于注意力机制的多模态信息融合识别方法，其特征在于，其中瓶颈激活模块配置为：

首先将输入的特征

9.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法，其特征在于，所述将两个多模态融合特征向量相加或拼接操作整合成一个特征向量，然后通过全连接层和softmax函数分类，得到待测视频中的所属动作类别包括：

10.一种基于注意力机制的多模态信息融合识别系统，其特征在于，包括：