CN114332573A - 基于注意力机制的多模态信息融合识别方法及系统 - Google Patents

基于注意力机制的多模态信息融合识别方法及系统 Download PDF

Info

Publication number
CN114332573A
CN114332573A CN202111557072.2A CN202111557072A CN114332573A CN 114332573 A CN114332573 A CN 114332573A CN 202111557072 A CN202111557072 A CN 202111557072A CN 114332573 A CN114332573 A CN 114332573A
Authority
CN
China
Prior art keywords
rgb
depth
fusion
information
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111557072.2A
Other languages
English (en)
Inventor
刘桢
程俊
任子良
宋呈群
张锲石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202111557072.2A priority Critical patent/CN114332573A/zh
Publication of CN114332573A publication Critical patent/CN114332573A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统首先对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征;之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示;最后将这两个多模态特征向量相加或拼接操作整合成一个特征向量,通过全连接层和softmax函数分类,得到待测视频中的所属动作类,能够有效地利用RGB和depth数据的互补信息,产生语义丰富的多模态特征表示,极大地提高人体动作识别的准确率和抗干扰能力。

Description

基于注意力机制的多模态信息融合识别方法及系统
技术领域
本发明属于信息识别领域,尤其涉及一种基于注意力机制的多模态信息融合识别方法及系统。
背景技术
动作识别的首要问题是如何表示视频中的动作,提取视频中人体动作的特征表示有传统的手工设计特征方法(如HOG、HOF、MBH、DT/iDT等)和基于深度学习的方法,后者能够简便地提取到更深层次、高效的特征表示,从而逐渐成为主流。从网络结构来说,可以通过二维卷积神经网络(2D CNN)、三维卷积神经网络(3D CNN)、循环神经网络(RNN、LSTM)以及图神经网络(GCN)提取动作特征。从数据模态来说,有基于RGB帧的、基于光流图像的、基于骨架序列的以及深度(depth)图像等单模态方法,也有结合两种或多种模态数据的方法。这些方法通过不同的网络结构提取不同的数据模态特征用于人体动作的识别,采用多种模态数据的方法还包括信息融合操作。
以DT算法为代表的传统手工特征提取方法的基本思路为利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory四种特征,最后利用FV(Fisher Vector)方法对特征进行编码,基于编码结果训练SVM进行分类。以双流网络为代表的2D CNN以及多模态方法,其利用两个卷积网络对动作视频中的外观和运动信息进行建模,一路为空间流CNN,另一路为时间流CNN,前者从静态图像中学习动作,后者基于光流场提取运动信息进行识别。现有技术有通过运动表示图和骨架图像构建了5个输入模态并通过5-stream卷积网络提取特征,现有技术也有设计了一个跨模态补偿模块用来学习RGB和depth动态图之间的互补信息,然后两路网络分别输出不同模态的预测结果。但以上基于多模态数据的方法都是采用的后融合方法,具体来说就是通过平均、相乘等方法融合每个模态的预测结果。
随着视频数据的爆炸式增长,对视频数据的处理以及应用的需求也极大增加,典型的应用场景包括智能视频监控系统,视频检索,人机交互与游戏娱乐等,其中最重要的一步就是人体动作识别。与人类通过处理来自多种感知器官的信息理解并认识外部环境类似,人体动作识别系统及终端设备也可以通过多种信息来源或数据模态增加其准确率与鲁棒性。然而各种视觉传感器在带来不同视频数据模态、丰富数据来源的同时,也引入了对不同模态间数据的处理及融合问题的挑战。多种模态信息能克服单一模态信息所带来的受外界环境影响大和特征单一的局限性,提供互补的信息,但是不同模态信息之间往往存在着数据分布不一致、所提取特征的语义信息差距大,无法直接进行特征融合等问题。
现有技术大多仅依靠单一模态数据比如RGB图像、深度图像、骨架序列进行动作识别,其易受外界环境影响且存在特征缺失的问题。例如RGB图像样本采集方便最为常用,但其缺少三维结构信息,容易受到光照变化等外界因素的干扰,动作识别率不高且鲁棒性和泛化能力较差。而基于多模态数据的动作识别仅利用独立的网络分别提取不同模态的特征,然后进行决策层面的后融合操作,这样的做法所带来的提升有限,且没有充分利用不同模态间的互补信息,无法得到有效的多模态特征表示。
发明内容
本发明实施例提供了一种基于注意力机制的多模态信息融合识别方法及系统,以至少解决现有信息融合识别方法无法得到有效的多模态特征表示的技术问题。
根据本发明的一实施例,提供了一种基于注意力机制的多模态信息融合识别方法,包括以下步骤:
对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;
分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征;
将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示;
将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别。
进一步地,对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图包括:
从终端设备中的数据库读取人体动作的RGB和depth视频序列,其视频序列中的RGB帧和depth图是一一对应的;设视频序列包含M帧,对RGB视频和depth序列进行时间维度稀疏平均采样,得到人体动作的图像序列。
进一步地,对于RGB视频中的序列帧,分别在三通道进行压缩时空信息表示,并对计算过程中得到的运动信息通过取整操作,最终可得到与RGB三通道类似的运动图像;
对于depth的序列图,首先通过缩放将其转换为[0,255]的灰度图像,之后对单通道的灰度图像进行运动时空信息表示,并通过取整计算,最终得到单通道的时空信息表示图。
进一步地,分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征包括:
对RGB和depth所生成的时空信息表示图,设计网络模型来联合学习RGB和depth信息流特征,通过深度卷积网络提取每种模态信息的高层语义特征;
在网络架构的选取上,选取Resnet、Inception、VGG网络模型,两路网络结构相同、同时优化,提取出的模态特征用于下一步的融合操作。
进一步地,所生成的时空表示图中RGB是三通道、depth是单通道,将depth的时空信息表示图沿其通道维度重复三次,从而扩展为三通道图像,两张时空表示图同时输入卷积神经网络提取特征得到
Figure BDA0003419188020000041
Figure BDA0003419188020000042
然后通过1x1卷积降低特征图通道维度得到
Figure BDA0003419188020000043
Figure BDA0003419188020000044
最后将其沿空间维度展平得到
Figure BDA0003419188020000045
Figure BDA0003419188020000046
两个二维特征向量,用于后续特征融合。
进一步地,将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示包括:
RGB和depth两种模态的高层语义特征输入N层注意力融合模块,在其所属分支和另一分支的融合模块中分别作为不同的输入角色,使得两种模态通过注意力机制交互融合,学习到模态间的互补信息,得到多模态特征Xr和Xd
进一步地,输入的是两路的模态的特征,其中该模块所在分支的模态特征作为Q,另一分支的模态特征作为K、V,经过多头注意力机制进行融合,然后通过瓶颈激活模块进一步强化所学习到的多模态特征,增强其表达能力。
进一步地,其中瓶颈激活模块配置为:
首先将输入的特征
Figure BDA0003419188020000047
进行全局平均池化操作,将特征的HW维度压缩成1来产生全局上下文信息
Figure BDA0003419188020000048
然后通过两层全连接层对特征的另一个维度降维并恢复到原始维度,中间插入ReLu激活函数增加非线性,从而组成瓶颈结构,得到激活值
Figure BDA0003419188020000049
最后将通过sigmoid函数的特征作为激活值与原始输入特征进行逐元素相乘,强化或抑制原始输入特征中的信息。
进一步地,将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别包括:
将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,来充分利用其信息,得到最终的融合表示Xfusion,通过softmax全连接层进行动作分类。
根据本发明的另一实施例,提供了一种基于注意力机制的多模态信息融合识别系统,包括:
时空信息表示图生成模块,用于对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;
高层语义特征提取模块,用于分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征;
多模态融合特征计算模块,用于将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示;
动作类别获取模块,用于将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别。
本发明实施例中的基于注意力机制的多模态信息融合识别方法及系统中,首先对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征;之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示;最后将这两个多模态特征向量相加或拼接(concatenate)操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类,能够有效地利用RGB和depth数据的互补信息,在特征层面进行两种模态间的交互融合,从而产生语义丰富的多模态特征表示,极大地提高人体动作识别的准确率和抗干扰能力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明基于注意力机制的多模态信息融合识别方法及系统的总体概览图;
图2为本发明基于注意力机制的多模态信息融合识别方法及系统中双流多模态特征提取网络结构图;
图3为本发明基于注意力机制的多模态信息融合识别方法及系统中多模态信息融合与动作分类示意图;
图4为本发明基于注意力机制的多模态信息融合识别方法及系统中注意力融合模块结构图;
图5为本发明基于注意力机制的多模态信息融合识别方法及系统中瓶颈激活模块结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提出一种基于注意力机制的多模态信息融合识别方法及系统。该方法及系统通过注意力机制挖掘模态间的语义联系,使其相互之间产生有益的结合,充分发挥多模态融合的优势,提高复杂场景下人体动作识别的准确率与鲁棒性。
本发明针对RGB和depth两种视频序列使用2D CNN进行动作特征学习,并设计基于注意力机制的融合模块,有效地结合了不同模态数据间的互补信息,提高了动作识别的准确率和鲁棒性,减轻环境变化和单一模态特征缺失所造成了识别精度下降的影响。本发明包括多头跨模态注意力模块和瓶颈激励模块,使用RGB和depth两种模态数据进行人体动作识别,通过深度摄像头可以非常方便的采集这两种数据。本发明通过所提出的融合方法能够有效地利用RGB和depth数据的互补信息,在特征层面进行两种模态间的交互融合,从而产生语义丰富的多模态特征表示,极大地提高人体动作识别的准确率和抗干扰能力。
本发明可以更好地处理多模态信息的协同合作关系来提高动作识别的准确性和稳定性。该方法及系统利用在终端设备中预存的规范化人体动作数据库进行模型的训练与推理,实现人体动作的自动识别,其主要流程包括:(1)动作视频的时空信息表示;(2)多模态高层语义特征的提取;(3)基于注意力机制的多模态信息融合表征,以及多模态特征整合与动作分类。
本发明首先对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;然后分别将RGB和depth的时空表示图输入双流深度卷积网络提取其高层语义特征;之后将这两种模态的特征输入注意力信息融合模块得到两个不同的多模态融合特征表示;最后将这两个多模态特征向量相加或拼接(concatenate)操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别。
本发明整体概述如图1所示,按照算法处理流程,从以下几方面详细阐述:
(1)动作视频的时空信息表示
从终端设备中的数据库读取人体动作的RGB和depth视频序列,其视频序列中的RGB帧和depth图是一一对应的。设视频序列包含M帧,首先对RGB视频和depth序列进行时间维度稀疏平均采样,得到人体动作的图像序列<I1,I2,I3,...,IT>,T表示采样得到的视频帧数(假设动作包含100帧,系数平均采样后T=10,即用10帧来表示整个动作,RGB和depth的帧标一样)。定义其视频序列的时空信息表示图为MI:
Figure BDA0003419188020000081
对于RGB视频中的序列帧,可以分别在三通道进行压缩时空信息表示,并对计算过程中得到的运动信息通过取整操作,最终可得到与RGB三通道类似的运动图像;对于depth的序列图,首先通过缩放将其转换为[0,255]的灰度图像,之后对单通道的灰度图像进行运动时空信息表示,并通过取整计算,最终得到单通道的时空信息表示图。
(2)双流网络模型训练与特征提取
对RGB和depth所生成的时空信息表示图,设计网络模型来联合学习RGB和depth信息流特征,通过深度卷积网络提取每种模态信息的高层语义特征。在网络架构的选取上,可以选取诸如Resnet、Inception、VGG等成熟的网络模型,两路网络结构相同、同时优化,但不共享参数。提取出的模态特征用于下一步的融合操作,双流多模态特征提取网络结构如图2所示。
步骤(1)所生成的时空表示图中RGB是三通道、depth是单通道,为了适应网络模型,将depth的时空信息表示图沿其通道维度重复三次,从而扩展为三通道图像。两张时空表示图同时输入卷积神经网络提取特征得到
Figure BDA0003419188020000082
Figure BDA0003419188020000083
然后通过1x1卷积降低特征图通道维度得到
Figure BDA0003419188020000084
Figure BDA0003419188020000085
最后将其沿空间维度展平得到
Figure BDA0003419188020000091
Figure BDA0003419188020000092
两个二维特征向量,用于后续特征融合。
(3)基于注意力机制的多模态信息融合表征与动作分类
两个特征输入N层注意力融合模块,在其所属分支和另一分支的融合模块中分别作为不同的输入角色,即图3中的Q和K、V,从而使得两种模态通过注意力机制交互融合,学习到模态间的互补信息,得到多模态特征Xr和Xd。最后将这两个多模态特征进行相加或拼接整合来充分利用其信息,得到最终的融合表示Xfusion,通过softmax全连接层进行动作分类。
在图3中所示的注意力融合模块的具体结构如图4所示。它的输入是两路的模态的特征,其中该模块所在分支的模态特征作为Q,另一分支的模态特征作为K、V,经过多头注意力机制进行融合,然后通过瓶颈激活模块(BEF)进一步强化所学习到的多模态特征,增强其表达能力。注意力融合模块中每一步都穿插了跨层连接与正则化操作,目的是保证深层网络训练的稳定性。由于多头注意力不能区分输入特征中元素的位置信息,所以为每个输入特征添加位置编码。整个流程可以用公式表示为:
Figure BDA0003419188020000093
Figure BDA0003419188020000094
MultiHead(Q,K,V)=Concat(h1,...,hn)WO, (4)
Figure BDA0003419188020000095
其中,
Figure BDA0003419188020000096
是参数矩阵,dk是key的embedding维度。
Figure BDA0003419188020000097
是Q的位置编码,
Figure BDA0003419188020000098
是K和V的位置编码,h是多头注意力的头数。h=8,dm=1024,dk=dv=dm/h=128是默认设置。
瓶颈激活模块(BEF)结构如图5所示,它首先将输入的特征
Figure BDA0003419188020000099
进行全局平均池化操作,将特征的HW维度压缩成1来产生全局上下文信息
Figure BDA0003419188020000101
如式6所示。然后通过两层全连接层对特征的另一个维度降维并恢复到原始维度,中间插入ReLu激活函数增加非线性,从而组成瓶颈结构,得到激活值
Figure BDA0003419188020000102
如式7所示。最后将通过sigmoid函数的特征作为激活值与原始输入特征进行逐元素相乘,强化或抑制原始输入特征中的信息,如式8所示。降维的比例r限制了模型的参数量并增强了泛化性能(在本发明的应用中设置r=8)。
Figure BDA0003419188020000103
s=Sigmoid(W2ReLU(W1z)), (7)
Figure BDA0003419188020000104
其中,
Figure BDA0003419188020000105
是瓶颈激励模块的输入,
Figure BDA0003419188020000106
是参数矩阵,
Figure BDA0003419188020000107
是瓶颈激励模块的输出。
本发明针对多模态人体动作识别任务中存在的模态语义融合问题提出了一种基于注意力机制的信息融合识别方法及系统。该方法及系统通过对RGB和depth视频序列进行时空信息表示,使用双路深度卷积网络同时提取每个模态的高层语义特征,并对所提取的特征进行基于注意力机制的跨模态融合操作,实现有效地多模态特征交互与融合,从而充分利用不同模态间的互补信息,提高人体动作识别的准确性与鲁棒性。此外,本发明所提出的注意力融合模块中嵌入的瓶颈激励模块能在引入非常少的参数和计算量的情况下,增强模型的表达能力与泛化能力,提高了动作识别的准确率。与现有技术相比,本发明所提出的基于注意力机制的信息融合方法在特征层面进行了高效的多模态语义融合,能够充分挖掘不同模态信息间的联系;该方法中的融合操作由模块化的结构完成,因此可以很容易的应用于其他模型与系统,比如视觉问答模型或机器人系统。本发明经过实验证明可行,效果良好。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于注意力机制的多模态信息融合识别方法,其特征在于,包括以下步骤:
对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;
分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征;
将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示;
将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别。
2.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法,其特征在于,所述对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图包括:
从终端设备中的数据库读取人体动作的RGB和depth视频序列,其视频序列中的RGB帧和depth图是一一对应的;设视频序列包含M帧,对RGB视频和depth序列进行时间维度稀疏平均采样,得到人体动作的图像序列。
3.根据权利要求2所述的基于注意力机制的多模态信息融合识别方法,其特征在于,对于RGB视频中的序列帧,分别在三通道进行压缩时空信息表示,并对计算过程中得到的运动信息通过取整操作,最终可得到与RGB三通道类似的运动图像;
对于depth的序列图,首先通过缩放将其转换为[0,255]的灰度图像,之后对单通道的灰度图像进行运动时空信息表示,并通过取整计算,最终得到单通道的时空信息表示图。
4.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法,其特征在于,所述分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征包括:
对RGB和depth所生成的时空信息表示图,设计网络模型来联合学习RGB和depth信息流特征,通过深度卷积网络提取每种模态信息的高层语义特征;
在网络架构的选取上,选取Resnet、Inception、VGG网络模型,两路网络结构相同、同时优化,提取出的模态特征用于下一步的融合操作。
5.根据权利要求4所述的基于注意力机制的多模态信息融合识别方法,其特征在于,所生成的时空表示图中RGB是三通道、depth是单通道,将depth的时空信息表示图沿其通道维度重复三次,从而扩展为三通道图像,两张时空表示图同时输入卷积神经网络提取特征得到
Figure FDA0003419188010000021
Figure FDA0003419188010000022
然后通过1x1卷积降低特征图通道维度得到
Figure FDA0003419188010000023
Figure FDA0003419188010000024
最后将其沿空间维度展平得到
Figure FDA0003419188010000025
Figure FDA0003419188010000026
两个二维特征向量,用于后续特征融合。
6.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法,其特征在于,所述将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示包括:
RGB和depth两种模态的高层语义特征输入N层注意力融合模块,在其所属分支和另一分支的融合模块中分别作为不同的输入角色,使得两种模态通过注意力机制交互融合,学习到模态间的互补信息,得到多模态特征Xr和Xd
7.根据权利要求6所述的基于注意力机制的多模态信息融合识别方法,其特征在于,输入的是两路的模态的特征,其中该模块所在分支的模态特征作为Q,另一分支的模态特征作为K、V,经过多头注意力机制进行融合,然后通过瓶颈激活模块进一步强化所学习到的多模态特征,增强其表达能力。
8.根据权利要求7所述的基于注意力机制的多模态信息融合识别方法,其特征在于,其中瓶颈激活模块配置为:
首先将输入的特征
Figure FDA0003419188010000031
进行全局平均池化操作,将特征的HW维度压缩成1来产生全局上下文信息
Figure FDA0003419188010000032
然后通过两层全连接层对特征的另一个维度降维并恢复到原始维度,中间插入ReLu激活函数增加非线性,从而组成瓶颈结构,得到激活值
Figure FDA0003419188010000033
最后将通过sigmoid函数的特征作为激活值与原始输入特征进行逐元素相乘,强化或抑制原始输入特征中的信息。
9.根据权利要求1所述的基于注意力机制的多模态信息融合识别方法,其特征在于,所述将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别包括:
将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,来充分利用其信息,得到最终的融合表示Xfusion,通过softmax全连接层进行动作分类。
10.一种基于注意力机制的多模态信息融合识别系统,其特征在于,包括:
时空信息表示图生成模块,用于对人体动作的RGB和depth视频帧序列进行压缩表示,生成整个视频的时空信息表示图;
高层语义特征提取模块,用于分别将RGB和depth的时空信息表示图输入双流深度卷积网络提取其高层语义特征;
多模态融合特征计算模块,用于将RGB和depth两种模态的高层语义特征进行注意力信息融合得到两个不同的多模态融合特征表示;
动作类别获取模块,用于将两个多模态融合特征向量相加或拼接操作整合成一个特征向量,然后通过全连接层和softmax函数分类,得到待测视频中的所属动作类别。
CN202111557072.2A 2021-12-18 2021-12-18 基于注意力机制的多模态信息融合识别方法及系统 Pending CN114332573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557072.2A CN114332573A (zh) 2021-12-18 2021-12-18 基于注意力机制的多模态信息融合识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557072.2A CN114332573A (zh) 2021-12-18 2021-12-18 基于注意力机制的多模态信息融合识别方法及系统

Publications (1)

Publication Number Publication Date
CN114332573A true CN114332573A (zh) 2022-04-12

Family

ID=81051771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557072.2A Pending CN114332573A (zh) 2021-12-18 2021-12-18 基于注意力机制的多模态信息融合识别方法及系统

Country Status (1)

Country Link
CN (1) CN114332573A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和系统
CN115100740A (zh) * 2022-06-15 2022-09-23 东莞理工学院 一种人体动作识别和意图理解方法、终端设备及存储介质
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117592003A (zh) * 2024-01-18 2024-02-23 之江实验室 基于多模态双线性池化的运动模式识别方法、装置及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035512A (zh) * 2022-05-24 2022-09-09 合肥工业大学 基于多模态深度学习的作物营养状态诊断方法和系统
CN115100740A (zh) * 2022-06-15 2022-09-23 东莞理工学院 一种人体动作识别和意图理解方法、终端设备及存储介质
CN115100740B (zh) * 2022-06-15 2024-04-05 东莞理工学院 一种人体动作识别和意图理解方法、终端设备及存储介质
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN117592003A (zh) * 2024-01-18 2024-02-23 之江实验室 基于多模态双线性池化的运动模式识别方法、装置及介质
CN117592003B (zh) * 2024-01-18 2024-05-24 之江实验室 基于多模态双线性池化的运动模式识别方法、装置及介质

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN114332573A (zh) 基于注意力机制的多模态信息融合识别方法及系统
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
CN111967533B (zh) 一种基于场景识别的草图图像翻译方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN112257526A (zh) 一种基于特征交互学习的动作识别方法及终端设备
CN113221663A (zh) 一种实时手语智能识别方法、装置及系统
CN114973418A (zh) 一种跨模态三维点云序列时空特征网络的行为识别方法
CN112132106A (zh) 基于人工智能的图像增广处理方法、装置、设备及存储介质
CN111046213B (zh) 一种基于图像识别的知识库构建方法
Liu et al. Dual-stream cross-modality fusion transformer for RGB-D action recognition
CN115131849A (zh) 图像生成方法以及相关设备
CN115565238A (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
Ahmad et al. 3D capsule networks for object classification from 3D model data
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN113705384B (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Wen et al. Semantic segmentation using a GAN and a weakly supervised method based on deep transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination