CN112507947A

CN112507947A - 基于多模态融合的手势识别方法、装置、设备及介质

Info

Publication number: CN112507947A
Application number: CN202011509113.6A
Authority: CN
Inventors: 张忠平; 肖益珊; 王永斌; 刘廉如; 季文翀; 曾汉; 温振山; 黄永; 郑涛
Original assignee: Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Current assignee: Yitong Century Internet Of Things Research Institute Guangzhou Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-16

Abstract

本发明公开了基于多模态融合的手势识别方法、装置、设备及介质，方法包括：获取多模态数据；对多模态数据进行预处理，提取不同模态的特征；根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度；根据不同模态的特征，通过注意力机制学习不同模态之间的第二关联度；根据第一关联度和第二关联度，确定不同模态的融合结果；根据融合结果进行模型训练，得到目标模型；通过目标模型对待识别图像进行识别，确定手势类别。本发明实现了多模态信息细致的自动融合，不仅充分利用模态之间的关联，还抑制模态之间的噪声干扰，提高了模型的检测精度以及手势识别的准确率，可广泛应用于人工智能技术领域。

Description

基于多模态融合的手势识别方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其是基于多模态融合的手势识别方法、装置、设备及介质。

背景技术

在当下科技飞速发展的年代，利用人工智能技术实现人类与机器之间更好的交互具有非常重要的意义。因人类的世界具有丰富多样的数据，研究者们通过引入多种模态数据，来让机器更好的理解和模拟人类，从而处理解决各种复杂问题，因此多模态机器学习(Multimodal Machine Learning,MMML)快速成为当下的研究热点。

多模态机器学习是具有重大潜力和多元化的领域，旨在建立能够平衡利用多种模态信息的同时能够抑制信息之间的干扰，从而达到较好的任务效果的模型。不同模态的信息可以相互补充，从而减少因信息缺失带来的误差，因此多模态融合是提高模型鲁棒性的重要步骤。然而，根据模态之间的关系而实现信息的细粒度融合仍然是一个具有挑战性的问题。因此，研究如何充分的利用和挖掘多种模态之间的互补性，实现多模态信息更加细致的融合，提高多模态模型的准确度和鲁棒性是具有重要意义的。在复杂的实际场景有更大的应用价值。

现有专利针对多模态融合的大多都没有充分利用模态之间的互补关系，利用的模态数据种类较少，使用模型参数量庞大，然而，多模态融合技术仍存在有用信息无法得到有效的利用，冗余信息无法得到更好的抑制，多种模态信息无法得到细粒度的融合等挑战。基于简单连接的传统多模态融合方法具有以下缺点：1.没有充分挖掘和利用多模态之间的互补性。2.存在于多模态之间的干扰噪声没有得到有效的抑制从而使得任务效果表现一般。3.由于复杂的个体差异与多变的观测条件等原因，导致模型在实际应用中出现失误，模型缺少鲁棒性。所以研究如何自动细致地融合多种模态信息，组建最优的信息组合，以高精度地实现模型任务是有重要意义和应用价值的。

发明内容

有鉴于此，本发明实施例提供基于多模态融合的手势识别方法、装置、设备及介质，以提高模型的检测精度，进而提高手势识别的准确率。

本发明的第一方面提供了基于多模态融合的手势识别方法，包括：

获取多模态数据；

对所述多模态数据进行预处理，提取不同模态的特征；

根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度；

根据所述不同模态的特征，通过注意力机制学习不同模态之间的第二关联度；

根据所述第一关联度和所述第二关联度，确定不同模态的融合结果；

根据所述融合结果进行模型训练，得到目标模型；

通过目标模型对待识别图像进行识别，确定手势类别。

优选地，所述对所述多模态数据进行预处理，提取不同模态的特征，包括：

确定所述多模态数据中的视频模态数据、音频模态数据和骨骼模态数据；

通过3D卷积和2D卷积方法获取视频模态数据中的视频表征，所述视频表征彩色模态和深度模态；

通过卷积方法获取音频模态数据中的音频表征；

通过全连接层获取骨骼模态数据中的骨骼表征。

优选地，所述根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度，包括：

将不同模态进行拼接，得到初始融合层；

根据所述初始融合层，确定目标模型的所有融合层，并确定所有融合层的神经元；

确定所述神经元的初始权重矩阵和自定义掩码矩阵；

根据所述初始权重矩阵和所述自定义掩码矩阵，确定目标权重矩阵；

根据所述目标权重矩阵，确定神经元与各个模态之间的第一关联度。

优选地，所述根据所述初始权重矩阵和所述自定义掩码矩阵，确定目标权重矩阵，具体为：

将所述初始权重矩阵和所述自定义掩码矩阵的乘积，确定为所述目标权重矩阵。

优选地，所述根据所述第一关联度和所述第二关联度，确定不同模态的融合结果，包括：

利用反向求导的方式进行参数学习，确定所述初始权重矩阵和所述自定义掩码矩阵；

根据参数学习的结果，对所述第一关联度进行优化更新；

根据优化更新后的第一关联度，结合所述第二关联度，确定最优融合组合。

优选地，所述根据所述融合结果进行模型训练，得到目标模型，具体为：

将所述融合结果输入三层全连接层进行模型训练，得到目标模型。

本发明实施例的另一方面还提供了一种基于多模态融合的手势识别装置，包括：模态特征提取模块、多模态融合模块和模型预测输出模块；

其中，所述模态特征提取模块包括获取单元和预处理单元：

所述获取单元，用于获取多模态数据；

所述预处理单元，用于对所述多模态数据进行预处理，提取不同模态的特征；

所述多模态融合模块包括第一关联单元、第二关联单元和融合单元：

所述第一关联单元，用于根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度；

所述第二关联单元，用于根据所述不同模态的特征，通过注意力机制学习不同模态之间的第二关联度；

所述融合单元，用于根据所述第一关联度和所述第二关联度，确定不同模态的融合结果；

所述模型预测输出模块包括训练单元和识别单元；

所述训练单元，用于根据所述融合结果进行模型训练，得到目标模型；

所述识别单元，用于通过目标模型对待识别图像进行识别，确定手势类别。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取多模态数据；对所述多模态数据进行预处理，提取不同模态的特征；根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度；根据所述不同模态的特征，通过注意力机制学习不同模态之间的第二关联度；根据所述第一关联度和所述第二关联度，确定不同模态的融合结果；根据所述融合结果进行模型训练，得到目标模型；通过目标模型对待识别图像进行识别，确定手势类别。本发明实现了多模态信息细致的自动融合，不仅充分利用模态之间的关联，并且抑制模态之间的噪声干扰，提高了模型的检测精度，并提高了手势识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的步骤流程图；

图2为本发明实施例提供的网络模型算法示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提供一种基于注意力机制的多模态融合模型正则化方法来进行手势识别，利用注意力机制和模型正则化方法可以细致地融合多种模态信息。通过使用模块化神经元(Block)这种模型正则化方法来学习单层特征神经元与不同模态之间的关系，使用注意力机制来学习模态和模态之间的关联度，从而使得模型能够获得较高的检测精度。

具体地，本发明实施例提供了一种基于多模态融合的手势识别方法，如图1所示，包括以下步骤：

获取多模态数据；

对所述多模态数据进行预处理，提取不同模态的特征；

根据所述融合结果进行模型训练，得到目标模型；

通过目标模型对待识别图像进行识别，确定手势类别。

通过卷积方法获取音频模态数据中的音频表征；

通过全连接层获取骨骼模态数据中的骨骼表征。

将不同模态进行拼接，得到初始融合层；

确定所述神经元的初始权重矩阵和自定义掩码矩阵；

根据参数学习的结果，对所述第一关联度进行优化更新；

下面结合网络模型的算法示意图2，详细说明本发明的具体实现原理：

本发明利用多模态手势识别Montalbano数据集，建立模型识别多种手势类别，模型算法图见图2。具体介绍模态特征提取模块、多模态融合模块、模型预测输出模块方法如下：

模态特征提取模块：此部分主要对Montalbano数据集中的视频，骨骼，音频模态数据进行处理，利用已有的特征提取方法提取不同模态的特征。

对于视频模态：视频数据包括描述手势的彩色模态和深度模态。本发明使用3D卷积和2D卷积提取模态特征。对于骨骼模态，利用全连接网络提取骨骼特征。对于音频模态，利用卷积操作得到音频表征。具体操作见表1。

表1

多模态融合模块：此部分是基于注意力机制的多模态融合的模型正则化模块。针对面向的手势识别任务，利用注意力机制的来学习不同模态之间的关系，利用模块化神经元并设置权重掩码这种模型正则化方法来学习融合层神经元与模态间的关系。从而自动地实现多模态自适应细粒度融合。注意力机制有以下优点：强化模态间有用信息，减弱模态间的噪声干扰，从而达到高精度的预测目标。模块化神经元这种模型正则化方法有以下优点：缩减参数量，避免模型过拟合，可以根据神经元与模态之间的关系搭建合理的融合网络。

(1)构建初始融合层

首先假设模态数为N_m个，而提取到的每个模态的特征维度分别为F₁，F₂，……，F_n。将所有模态拼接起来形成一个简单的初始融合层L_i，其之后的网络层分别标记为L_i+1，L_i+2，……。其中L_i融合层共有N_i个神经元，即N_i＝F₁+F₂+……+F_n。

(2)利用模型正则化和注意力机制方法设置神经元权重掩码矩阵

我们假定X_i为第i层网络层的输出，X_i-1是上层网络层L_i-1的输出。W_i为初始权重矩阵，M_i为自定义掩码矩阵。

于是有公式：

其中，掩码矩阵M_i与原权重矩阵W_i做元素相乘得到网络层L_i的新的目标权重矩阵W_i’，符号σ代表每层的激活函数操作。

L_i的掩码矩阵M_i定义为：

其中，C_i矩阵代表该第i层神经网络层神经元与模态之间的关联度，C_i-1 ^T则代表第i-1层神经网络的神经元与模态之间的通信关系的转置，U_i矩阵则是神经网络学习控制的模态关系掩码矩阵。

利用模型正则化思想，定义C_i矩阵代表该第i层神经网络层神经元与模态之间的关联度，用来控制该网络层的N_i个神经元分配到N_m个模态的具体情况。对于第i层的每个神经元节点N_i，有：

C_i＝II(N_i∈N_m) (3)

其中，公式3，C_i＝II(N_i∈N_m)表示，若神经元N_i属于模态N_m，即为该模态的特征神经元，那么C_i等于1，若不属于该模态，则等于0。

因此根据上述描述，新的目标权重矩阵W_i’可由下式(4)得到：

其中，M_i为网络层L_i的掩码矩阵，W_i为原权重矩阵，C_i矩阵代表该第i层神经网络层神经元与模态之间的关联度，C_i-1 ^T则代表第i-1层神经网络的神经元与模态之间的通信关系的转置，U_i矩阵则是神经网络学习控制的模态关系掩码矩阵。

除此之外，本发明利用注意力机制控制的模态与模态之间的第二关联度。其中的U_i矩阵则是神经网络学习控制的模态关系掩码矩阵。利用注意力机制，神经网络可以自动学习N_m个模态之间的相关性，并给不同模态之间的关联度打分，从而通过控制U_i矩阵来控制N_m个模态之间不同程度融合的情况。

(3)通过反向传播自动调整学习

根据神经网络的特点，利用反向传播求导的方式自动学习参数，调整参数数值大小。通过自动学习掩码矩阵和权重矩阵，来实现不同模态在细粒程度上的融合。

本发明利用注意力机制学习模态与模态之间的关联度，利用模型正则化的方法自动学习神经元与模态之间的相关性，根据不同的指定任务，自动学习多模态信息的细粒程度上的最优融合组合。神经网络充分利用模态之间的冗余度和互补性，提高网络模型的鲁棒性，以达到高精度识别任务的能力。

模型预测输出模块：此部分利用先前融合后的信息，送入三层全连接层进行进一步的模型训练预测，如图2所示。最终输出模型的判断结果，判断输入手势属于的类别。

在公开数据集上实验验证算法的检测能力。使用Montalbano数据集进行验证，该数据集是Chalearn 2014Looking at People Challenge track 3比赛的多模态手势识别数据集的预处理版本，由RGB视频数据、深度视频数据、骨架数据和音频数据四种模态组成，包含20个表演者执行的20个意大利手势类别和一个非手势类别。并将得到的实例按9:1的比例划分为训练集和测试集。

本发明分别根据不同的掩码矩阵M_i设置来进行实验。采用根据上述公式(2)描述得到的掩码矩阵的模型正则化方法记作Bloatt1,；改变公式(2)中的第三个矩阵C_i-1 ^T，设置其为C_i ^T并记作Bloatt2；对于掩码矩阵M_i使用单位矩阵E_i代替C_i矩阵，使得第i层神经网络层神经元免去正则化步骤，记作Bloatt3；对于掩码矩阵M_i，使用单位矩阵E_i-1代替C_i-1矩阵使得第i-1层神经网络层神经元免去正则化步骤，记作Bloatt4。手势识别的精度(Accuracy)结果如表2所示。

表2

如表2所示，由实验结果可知，Bloatt3与Bloatt4精度较低，表明只对一层神经元使用正则化是不能够充分探索神经元与模态之间的关系的。而使用本专利的发明方法，利用模型正则化神经元在前后两层神经层探索模态与神经元关联度，利用注意力机制探索模态之间的融合度，使得模型有了良好的表现。在手势识别任务下的融合阶段使用了本发明的多模态融合方法Bloatt1，Bloatt2，分别可以达到92.8％，93％的精度。

本发明实施例还提供了一种基于多模态融合的手势识别装置，包括：模态特征提取模块、多模态融合模块和模型预测输出模块；

其中，所述模态特征提取模块包括获取单元和预处理单元：

所述获取单元，用于获取多模态数据；

所述模型预测输出模块包括训练单元和识别单元；

本发明实施例还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

综上所述，本发明针对多模态融合提出一种基于注意力机制的模型正则化方法，提出利用注意力机制在融合多模态特征信息时，学习各个模态之间的关系，利用模型正则化方法在多模态融合层学习不同特征神经元与各个模态之间的关系。本发明实现了多模态信息细致的自动融合，不仅充分利用模态之间的关联，并且抑制模态之间的噪声干扰。使得基于此方法的多模态手势检测在精度方面有良好的表现。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于多模态融合的手势识别方法，其特征在于，包括：

获取多模态数据；

对所述多模态数据进行预处理，提取不同模态的特征；

根据所述融合结果进行模型训练，得到目标模型；

通过目标模型对待识别图像进行识别，确定手势类别。

2.根据权利要求1所述的基于多模态融合的手势识别方法，其特征在于，所述对所述多模态数据进行预处理，提取不同模态的特征，包括：

通过卷积方法获取音频模态数据中的音频表征；

通过全连接层获取骨骼模态数据中的骨骼表征。

3.根据权利要求1所述的基于多模态融合的手势识别方法，其特征在于，所述根据不同模态的特征，通过模型正则化方法确定目标模型中融合层的神经元与各个模态之间的第一关联度，包括：

将不同模态进行拼接，得到初始融合层；

确定所述神经元的初始权重矩阵和自定义掩码矩阵；

4.根据权利要求3所述的基于多模态融合的手势识别方法，其特征在于，所述根据所述初始权重矩阵和所述自定义掩码矩阵，确定目标权重矩阵，具体为：

5.根据权利要求3所述的基于多模态融合的手势识别方法，其特征在于，所述根据所述第一关联度和所述第二关联度，确定不同模态的融合结果，包括：

根据参数学习的结果，对所述第一关联度进行优化更新；

6.根据权利要求1所述的基于多模态融合的手势识别方法，其特征在于，所述根据所述融合结果进行模型训练，得到目标模型，具体为：

7.基于多模态融合的手势识别装置，其特征在于，包括：模态特征提取模块、多模态融合模块和模型预测输出模块；

其中，所述模态特征提取模块包括获取单元和预处理单元：

所述获取单元，用于获取多模态数据；

所述模型预测输出模块包括训练单元和识别单元；

8.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。