CN112507947A - 基于多模态融合的手势识别方法、装置、设备及介质 - Google Patents

基于多模态融合的手势识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN112507947A
CN112507947A CN202011509113.6A CN202011509113A CN112507947A CN 112507947 A CN112507947 A CN 112507947A CN 202011509113 A CN202011509113 A CN 202011509113A CN 112507947 A CN112507947 A CN 112507947A
Authority
CN
China
Prior art keywords
fusion
determining
model
modal
gesture recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011509113.6A
Other languages
English (en)
Inventor
张忠平
肖益珊
王永斌
刘廉如
季文翀
曾汉
温振山
黄永
郑涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Original Assignee
Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yitong Century Internet Of Things Research Institute Guangzhou Co ltd filed Critical Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Priority to CN202011509113.6A priority Critical patent/CN112507947A/zh
Publication of CN112507947A publication Critical patent/CN112507947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多模态融合的手势识别方法、装置、设备及介质,方法包括:获取多模态数据;对多模态数据进行预处理,提取不同模态的特征;根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;根据不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;根据第一关联度和第二关联度,确定不同模态的融合结果;根据融合结果进行模型训练,得到目标模型;通过目标模型对待识别图像进行识别,确定手势类别。本发明实现了多模态信息细致的自动融合,不仅充分利用模态之间的关联,还抑制模态之间的噪声干扰,提高了模型的检测精度以及手势识别的准确率,可广泛应用于人工智能技术领域。

Description

基于多模态融合的手势识别方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其是基于多模态融合的手势识别方法、装置、设备及介质。
背景技术
在当下科技飞速发展的年代,利用人工智能技术实现人类与机器之间更好的交互具有非常重要的意义。因人类的世界具有丰富多样的数据,研究者们通过引入多种模态数据,来让机器更好的理解和模拟人类,从而处理解决各种复杂问题,因此多模态机器学习(Multimodal Machine Learning,MMML)快速成为当下的研究热点。
多模态机器学习是具有重大潜力和多元化的领域,旨在建立能够平衡利用多种模态信息的同时能够抑制信息之间的干扰,从而达到较好的任务效果的模型。不同模态的信息可以相互补充,从而减少因信息缺失带来的误差,因此多模态融合是提高模型鲁棒性的重要步骤。然而,根据模态之间的关系而实现信息的细粒度融合仍然是一个具有挑战性的问题。因此,研究如何充分的利用和挖掘多种模态之间的互补性,实现多模态信息更加细致的融合,提高多模态模型的准确度和鲁棒性是具有重要意义的。在复杂的实际场景有更大的应用价值。
现有专利针对多模态融合的大多都没有充分利用模态之间的互补关系,利用的模态数据种类较少,使用模型参数量庞大,然而,多模态融合技术仍存在有用信息无法得到有效的利用,冗余信息无法得到更好的抑制,多种模态信息无法得到细粒度的融合等挑战。基于简单连接的传统多模态融合方法具有以下缺点:1.没有充分挖掘和利用多模态之间的互补性。2.存在于多模态之间的干扰噪声没有得到有效的抑制从而使得任务效果表现一般。3.由于复杂的个体差异与多变的观测条件等原因,导致模型在实际应用中出现失误,模型缺少鲁棒性。所以研究如何自动细致地融合多种模态信息,组建最优的信息组合,以高精度地实现模型任务是有重要意义和应用价值的。
发明内容
有鉴于此,本发明实施例提供基于多模态融合的手势识别方法、装置、设备及介质,以提高模型的检测精度,进而提高手势识别的准确率。
本发明的第一方面提供了基于多模态融合的手势识别方法,包括:
获取多模态数据;
对所述多模态数据进行预处理,提取不同模态的特征;
根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
根据所述融合结果进行模型训练,得到目标模型;
通过目标模型对待识别图像进行识别,确定手势类别。
优选地,所述对所述多模态数据进行预处理,提取不同模态的特征,包括:
确定所述多模态数据中的视频模态数据、音频模态数据和骨骼模态数据;
通过3D卷积和2D卷积方法获取视频模态数据中的视频表征,所述视频表征彩色模态和深度模态;
通过卷积方法获取音频模态数据中的音频表征;
通过全连接层获取骨骼模态数据中的骨骼表征。
优选地,所述根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度,包括:
将不同模态进行拼接,得到初始融合层;
根据所述初始融合层,确定目标模型的所有融合层,并确定所有融合层的神经元;
确定所述神经元的初始权重矩阵和自定义掩码矩阵;
根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵;
根据所述目标权重矩阵,确定神经元与各个模态之间的第一关联度。
优选地,所述根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵,具体为:
将所述初始权重矩阵和所述自定义掩码矩阵的乘积,确定为所述目标权重矩阵。
优选地,所述根据所述第一关联度和所述第二关联度,确定不同模态的融合结果,包括:
利用反向求导的方式进行参数学习,确定所述初始权重矩阵和所述自定义掩码矩阵;
根据参数学习的结果,对所述第一关联度进行优化更新;
根据优化更新后的第一关联度,结合所述第二关联度,确定最优融合组合。
优选地,所述根据所述融合结果进行模型训练,得到目标模型,具体为:
将所述融合结果输入三层全连接层进行模型训练,得到目标模型。
本发明实施例的另一方面还提供了一种基于多模态融合的手势识别装置,包括:模态特征提取模块、多模态融合模块和模型预测输出模块;
其中,所述模态特征提取模块包括获取单元和预处理单元:
所述获取单元,用于获取多模态数据;
所述预处理单元,用于对所述多模态数据进行预处理,提取不同模态的特征;
所述多模态融合模块包括第一关联单元、第二关联单元和融合单元:
所述第一关联单元,用于根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
所述第二关联单元,用于根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
所述融合单元,用于根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
所述模型预测输出模块包括训练单元和识别单元;
所述训练单元,用于根据所述融合结果进行模型训练,得到目标模型;
所述识别单元,用于通过目标模型对待识别图像进行识别,确定手势类别。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例获取多模态数据;对所述多模态数据进行预处理,提取不同模态的特征;根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;根据所述融合结果进行模型训练,得到目标模型;通过目标模型对待识别图像进行识别,确定手势类别。本发明实现了多模态信息细致的自动融合,不仅充分利用模态之间的关联,并且抑制模态之间的噪声干扰,提高了模型的检测精度,并提高了手势识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的步骤流程图;
图2为本发明实施例提供的网络模型算法示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明提供一种基于注意力机制的多模态融合模型正则化方法来进行手势识别,利用注意力机制和模型正则化方法可以细致地融合多种模态信息。通过使用模块化神经元(Block)这种模型正则化方法来学习单层特征神经元与不同模态之间的关系,使用注意力机制来学习模态和模态之间的关联度,从而使得模型能够获得较高的检测精度。
具体地,本发明实施例提供了一种基于多模态融合的手势识别方法,如图1所示,包括以下步骤:
获取多模态数据;
对所述多模态数据进行预处理,提取不同模态的特征;
根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
根据所述融合结果进行模型训练,得到目标模型;
通过目标模型对待识别图像进行识别,确定手势类别。
优选地,所述对所述多模态数据进行预处理,提取不同模态的特征,包括:
确定所述多模态数据中的视频模态数据、音频模态数据和骨骼模态数据;
通过3D卷积和2D卷积方法获取视频模态数据中的视频表征,所述视频表征彩色模态和深度模态;
通过卷积方法获取音频模态数据中的音频表征;
通过全连接层获取骨骼模态数据中的骨骼表征。
优选地,所述根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度,包括:
将不同模态进行拼接,得到初始融合层;
根据所述初始融合层,确定目标模型的所有融合层,并确定所有融合层的神经元;
确定所述神经元的初始权重矩阵和自定义掩码矩阵;
根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵;
根据所述目标权重矩阵,确定神经元与各个模态之间的第一关联度。
优选地,所述根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵,具体为:
将所述初始权重矩阵和所述自定义掩码矩阵的乘积,确定为所述目标权重矩阵。
优选地,所述根据所述第一关联度和所述第二关联度,确定不同模态的融合结果,包括:
利用反向求导的方式进行参数学习,确定所述初始权重矩阵和所述自定义掩码矩阵;
根据参数学习的结果,对所述第一关联度进行优化更新;
根据优化更新后的第一关联度,结合所述第二关联度,确定最优融合组合。
优选地,所述根据所述融合结果进行模型训练,得到目标模型,具体为:
将所述融合结果输入三层全连接层进行模型训练,得到目标模型。
下面结合网络模型的算法示意图2,详细说明本发明的具体实现原理:
本发明利用多模态手势识别Montalbano数据集,建立模型识别多种手势类别,模型算法图见图2。具体介绍模态特征提取模块、多模态融合模块、模型预测输出模块方法如下:
模态特征提取模块:此部分主要对Montalbano数据集中的视频,骨骼,音频模态数据进行处理,利用已有的特征提取方法提取不同模态的特征。
对于视频模态:视频数据包括描述手势的彩色模态和深度模态。本发明使用3D卷积和2D卷积提取模态特征。对于骨骼模态,利用全连接网络提取骨骼特征。对于音频模态,利用卷积操作得到音频表征。具体操作见表1。
表1
Figure BDA0002845837650000051
Figure BDA0002845837650000061
多模态融合模块:此部分是基于注意力机制的多模态融合的模型正则化模块。针对面向的手势识别任务,利用注意力机制的来学习不同模态之间的关系,利用模块化神经元并设置权重掩码这种模型正则化方法来学习融合层神经元与模态间的关系。从而自动地实现多模态自适应细粒度融合。注意力机制有以下优点:强化模态间有用信息,减弱模态间的噪声干扰,从而达到高精度的预测目标。模块化神经元这种模型正则化方法有以下优点:缩减参数量,避免模型过拟合,可以根据神经元与模态之间的关系搭建合理的融合网络。
(1)构建初始融合层
首先假设模态数为Nm个,而提取到的每个模态的特征维度分别为F1,F2,……,Fn。将所有模态拼接起来形成一个简单的初始融合层Li,其之后的网络层分别标记为Li+1,Li+2,……。其中Li融合层共有Ni个神经元,即Ni=F1+F2+……+Fn
(2)利用模型正则化和注意力机制方法设置神经元权重掩码矩阵
我们假定Xi为第i层网络层的输出,Xi-1是上层网络层Li-1的输出。Wi为初始权重矩阵,Mi为自定义掩码矩阵。
于是有公式:
Figure BDA0002845837650000063
其中,掩码矩阵Mi与原权重矩阵Wi做元素相乘得到网络层Li的新的目标权重矩阵Wi’,符号σ代表每层的激活函数操作。
Li的掩码矩阵Mi定义为:
Figure BDA0002845837650000062
其中,Ci矩阵代表该第i层神经网络层神经元与模态之间的关联度,Ci-1 T则代表第i-1层神经网络的神经元与模态之间的通信关系的转置,Ui矩阵则是神经网络学习控制的模态关系掩码矩阵。
利用模型正则化思想,定义Ci矩阵代表该第i层神经网络层神经元与模态之间的关联度,用来控制该网络层的Ni个神经元分配到Nm个模态的具体情况。对于第i层的每个神经元节点Ni,有:
Ci=II(Ni∈Nm) (3)
其中,公式3,Ci=II(Ni∈Nm)表示,若神经元Ni属于模态Nm,即为该模态的特征神经元,那么Ci等于1,若不属于该模态,则等于0。
因此根据上述描述,新的目标权重矩阵Wi’可由下式(4)得到:
Figure BDA0002845837650000071
其中,Mi为网络层Li的掩码矩阵,Wi为原权重矩阵,Ci矩阵代表该第i层神经网络层神经元与模态之间的关联度,Ci-1 T则代表第i-1层神经网络的神经元与模态之间的通信关系的转置,Ui矩阵则是神经网络学习控制的模态关系掩码矩阵。
除此之外,本发明利用注意力机制控制的模态与模态之间的第二关联度。其中的Ui矩阵则是神经网络学习控制的模态关系掩码矩阵。利用注意力机制,神经网络可以自动学习Nm个模态之间的相关性,并给不同模态之间的关联度打分,从而通过控制Ui矩阵来控制Nm个模态之间不同程度融合的情况。
(3)通过反向传播自动调整学习
根据神经网络的特点,利用反向传播求导的方式自动学习参数,调整参数数值大小。通过自动学习掩码矩阵和权重矩阵,来实现不同模态在细粒程度上的融合。
本发明利用注意力机制学习模态与模态之间的关联度,利用模型正则化的方法自动学习神经元与模态之间的相关性,根据不同的指定任务,自动学习多模态信息的细粒程度上的最优融合组合。神经网络充分利用模态之间的冗余度和互补性,提高网络模型的鲁棒性,以达到高精度识别任务的能力。
模型预测输出模块:此部分利用先前融合后的信息,送入三层全连接层进行进一步的模型训练预测,如图2所示。最终输出模型的判断结果,判断输入手势属于的类别。
在公开数据集上实验验证算法的检测能力。使用Montalbano数据集进行验证,该数据集是Chalearn 2014Looking at People Challenge track 3比赛的多模态手势识别数据集的预处理版本,由RGB视频数据、深度视频数据、骨架数据和音频数据四种模态组成,包含20个表演者执行的20个意大利手势类别和一个非手势类别。并将得到的实例按9:1的比例划分为训练集和测试集。
本发明分别根据不同的掩码矩阵Mi设置来进行实验。采用根据上述公式(2)描述得到的掩码矩阵的模型正则化方法记作Bloatt1,;改变公式(2)中的第三个矩阵Ci-1 T,设置其为Ci T并记作Bloatt2;对于掩码矩阵Mi使用单位矩阵Ei代替Ci矩阵,使得第i层神经网络层神经元免去正则化步骤,记作Bloatt3;对于掩码矩阵Mi,使用单位矩阵Ei-1代替Ci-1矩阵使得第i-1层神经网络层神经元免去正则化步骤,记作Bloatt4。手势识别的精度(Accuracy)结果如表2所示。
表2
Figure BDA0002845837650000081
如表2所示,由实验结果可知,Bloatt3与Bloatt4精度较低,表明只对一层神经元使用正则化是不能够充分探索神经元与模态之间的关系的。而使用本专利的发明方法,利用模型正则化神经元在前后两层神经层探索模态与神经元关联度,利用注意力机制探索模态之间的融合度,使得模型有了良好的表现。在手势识别任务下的融合阶段使用了本发明的多模态融合方法Bloatt1,Bloatt2,分别可以达到92.8%,93%的精度。
本发明实施例还提供了一种基于多模态融合的手势识别装置,包括:模态特征提取模块、多模态融合模块和模型预测输出模块;
其中,所述模态特征提取模块包括获取单元和预处理单元:
所述获取单元,用于获取多模态数据;
所述预处理单元,用于对所述多模态数据进行预处理,提取不同模态的特征;
所述多模态融合模块包括第一关联单元、第二关联单元和融合单元:
所述第一关联单元,用于根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
所述第二关联单元,用于根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
所述融合单元,用于根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
所述模型预测输出模块包括训练单元和识别单元;
所述训练单元,用于根据所述融合结果进行模型训练,得到目标模型;
所述识别单元,用于通过目标模型对待识别图像进行识别,确定手势类别。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
综上所述,本发明针对多模态融合提出一种基于注意力机制的模型正则化方法,提出利用注意力机制在融合多模态特征信息时,学习各个模态之间的关系,利用模型正则化方法在多模态融合层学习不同特征神经元与各个模态之间的关系。本发明实现了多模态信息细致的自动融合,不仅充分利用模态之间的关联,并且抑制模态之间的噪声干扰。使得基于此方法的多模态手势检测在精度方面有良好的表现。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.基于多模态融合的手势识别方法,其特征在于,包括:
获取多模态数据;
对所述多模态数据进行预处理,提取不同模态的特征;
根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
根据所述融合结果进行模型训练,得到目标模型;
通过目标模型对待识别图像进行识别,确定手势类别。
2.根据权利要求1所述的基于多模态融合的手势识别方法,其特征在于,所述对所述多模态数据进行预处理,提取不同模态的特征,包括:
确定所述多模态数据中的视频模态数据、音频模态数据和骨骼模态数据;
通过3D卷积和2D卷积方法获取视频模态数据中的视频表征,所述视频表征彩色模态和深度模态;
通过卷积方法获取音频模态数据中的音频表征;
通过全连接层获取骨骼模态数据中的骨骼表征。
3.根据权利要求1所述的基于多模态融合的手势识别方法,其特征在于,所述根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度,包括:
将不同模态进行拼接,得到初始融合层;
根据所述初始融合层,确定目标模型的所有融合层,并确定所有融合层的神经元;
确定所述神经元的初始权重矩阵和自定义掩码矩阵;
根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵;
根据所述目标权重矩阵,确定神经元与各个模态之间的第一关联度。
4.根据权利要求3所述的基于多模态融合的手势识别方法,其特征在于,所述根据所述初始权重矩阵和所述自定义掩码矩阵,确定目标权重矩阵,具体为:
将所述初始权重矩阵和所述自定义掩码矩阵的乘积,确定为所述目标权重矩阵。
5.根据权利要求3所述的基于多模态融合的手势识别方法,其特征在于,所述根据所述第一关联度和所述第二关联度,确定不同模态的融合结果,包括:
利用反向求导的方式进行参数学习,确定所述初始权重矩阵和所述自定义掩码矩阵;
根据参数学习的结果,对所述第一关联度进行优化更新;
根据优化更新后的第一关联度,结合所述第二关联度,确定最优融合组合。
6.根据权利要求1所述的基于多模态融合的手势识别方法,其特征在于,所述根据所述融合结果进行模型训练,得到目标模型,具体为:
将所述融合结果输入三层全连接层进行模型训练,得到目标模型。
7.基于多模态融合的手势识别装置,其特征在于,包括:模态特征提取模块、多模态融合模块和模型预测输出模块;
其中,所述模态特征提取模块包括获取单元和预处理单元:
所述获取单元,用于获取多模态数据;
所述预处理单元,用于对所述多模态数据进行预处理,提取不同模态的特征;
所述多模态融合模块包括第一关联单元、第二关联单元和融合单元:
所述第一关联单元,用于根据不同模态的特征,通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度;
所述第二关联单元,用于根据所述不同模态的特征,通过注意力机制学习不同模态之间的第二关联度;
所述融合单元,用于根据所述第一关联度和所述第二关联度,确定不同模态的融合结果;
所述模型预测输出模块包括训练单元和识别单元;
所述训练单元,用于根据所述融合结果进行模型训练,得到目标模型;
所述识别单元,用于通过目标模型对待识别图像进行识别,确定手势类别。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
CN202011509113.6A 2020-12-18 2020-12-18 基于多模态融合的手势识别方法、装置、设备及介质 Pending CN112507947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011509113.6A CN112507947A (zh) 2020-12-18 2020-12-18 基于多模态融合的手势识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011509113.6A CN112507947A (zh) 2020-12-18 2020-12-18 基于多模态融合的手势识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112507947A true CN112507947A (zh) 2021-03-16

Family

ID=74922576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011509113.6A Pending CN112507947A (zh) 2020-12-18 2020-12-18 基于多模态融合的手势识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112507947A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966644A (zh) * 2021-03-24 2021-06-15 中国科学院计算技术研究所 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN113269068A (zh) * 2021-05-18 2021-08-17 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
CN114694123A (zh) * 2022-05-30 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 交通信号灯感知方法、装置、设备及存储介质
WO2023173538A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 阿尔兹海默症评估方法、系统、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966644A (zh) * 2021-03-24 2021-06-15 中国科学院计算技术研究所 用于手势检测和手势识别的多模态多任务模型及其训练方法
CN113269068A (zh) * 2021-05-18 2021-08-17 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113269068B (zh) * 2021-05-18 2022-04-22 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113297955A (zh) * 2021-05-21 2021-08-24 中国矿业大学 一种基于多模态分层级信息融合的手语词识别方法
WO2023173538A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 阿尔兹海默症评估方法、系统、设备及存储介质
CN114694123A (zh) * 2022-05-30 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 交通信号灯感知方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112507947A (zh) 基于多模态融合的手势识别方法、装置、设备及介质
Liu et al. Picanet: Learning pixel-wise contextual attention for saliency detection
CN110785767B (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110728330A (zh) 基于人工智能的对象识别方法、装置、设备及存储介质
CN115205949A (zh) 图像生成方法以及相关设备
TW201633181A (zh) 用於經非同步脈衝調制的取樣信號的事件驅動型時間迴旋
Chen et al. Automated design of neural network architectures with reinforcement learning for detection of global manipulations
CN110619347A (zh) 一种基于机器学习的图像生成方法及其方法
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN109409504A (zh) 一种数据处理方法、装置、计算机及存储介质
CN112667071A (zh) 基于随机变分信息的手势识别方法、装置、设备及介质
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
Zhang et al. Channel-wise and feature-points reweights densenet for image classification
CN109960732A (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN115761905A (zh) 一种基于骨骼关节点的潜水员动作识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN113688882A (zh) 一种记忆增强的连续学习神经网络模型的训练方法及装置
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
Fang et al. A Small Network MicronNet‐BF of Traffic Sign Classification
KR102215824B1 (ko) 시각 및 텍스트 정보를 포함하는 다이어그램의 분석 방법 및 장치
Zhu et al. Perception-and-Regulation Network for Salient Object Detection
CN115688234A (zh) 一种基于条件卷积的建筑布局生成方法、装置及介质
Sra et al. Deepspace: Mood-based image texture generation for virtual reality from music
Li et al. Group-level emotion recognition based on faces, scenes, skeletons features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510630 room 1101, building 1, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (office use only)

Applicant after: Guangdong Yitong Lianyun Intelligent Information Co.,Ltd.

Address before: 510630 building 1101, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: YITONG CENTURY INTERNET OF THINGS RESEARCH INSTITUTE (GUANGZHOU) Co.,Ltd.

CB02 Change of applicant information