CN112667071A - 基于随机变分信息的手势识别方法、装置、设备及介质 - Google Patents
基于随机变分信息的手势识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112667071A CN112667071A CN202011511115.9A CN202011511115A CN112667071A CN 112667071 A CN112667071 A CN 112667071A CN 202011511115 A CN202011511115 A CN 202011511115A CN 112667071 A CN112667071 A CN 112667071A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- variation information
- gesture recognition
- bottleneck
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims description 30
- 230000006835 compression Effects 0.000 claims description 27
- 238000007906 compression Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 12
- 210000000988 bone and bone Anatomy 0.000 claims description 11
- 238000005315 distribution function Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于随机变分信息的手势识别方法、装置、设备及介质,方法包括:对获取的待测数据进行特征提取,得到不同模态下的特征数据;获取变分信息瓶颈;通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;将所述不同模态下的融合结果输入预设模型,输出手势识别结果。本发明能够充分利用多模态之间的关联性,降低干扰噪声,进而提高识别准确性,可广泛应用于图像处理技术领域。
Description
技术领域
本发明涉及图像处理技术领域,尤其是基于随机变分信息的手势识别方法、装置、设备及介质。
背景技术
在当下科技飞速发展的年代,利用人工智能技术实现人类与机器之间更好的交互具有非常重要的意义。随着芯片、通信等技术的飞速发展,人们可以获取的信息变得愈发丰富。对同一个对象通过不同领域或不同视角得到的数据就是多模态数据,其中每一个领域或视角就称为一个模态。相比于传统的单一模态感知,多模态学习能够借助各模态数据之间的关系更好完成感知任务。因此,多模态机器学习(Multi-Modal Machine Learning,MMML)快速成为当下的研究热点,并成功应用于语音识别,信息检索,人机交互等领域。
手势是一种典型的人机交互方式,高精度、高鲁棒的手势识别将有助于实现更自然地交互与理解。就手势识别技术而言,依据其所依赖的信号源种类,也可以被分为单模态和多模态两类。仅依赖于单一模态进行手势识别的方法,具有简单高效的优点。但由于单模态对手势观察具有片面性,仅靠单模态进行手势识别,特别是动态手势识别,很难取得较好效果。而多模态手势识别可以利用多个数据模态之间的信息互补特性,充分地从多个角度来获取手势相关信息,因而受到了广泛关注。
在多模态手势识别过程中,各模态数据之间既存在关联关系,也存在信息的无效冗余。关联关系主要是指对同一手势信息的关联性描述,比如视频信息与骨骼信息的关联性。通过对模态关联关系的分析可以较好地应对模态的缺失问题,或者模态信号质量差时模型的不鲁棒问题。无效冗余主要包括真实场景下采集的某些模态数据存在复杂多变的环境噪声,使之与其他模态可能出现信息冲突。这样的无效冗余信息,会对手势识别模型造成干扰;而且模型对无效冗余信息进行不当学习,将影响模型的识别性能。
然而,多模态融合技术仍存在有用信息无法得到有效的利用,冗余信息无法得到更好的抑制,多种模态信息无法得到细粒度的融合等挑战。基于简单连接的传统多模态融合方法具有以下缺点:1、没有充分挖掘和利用多模态之间的关联性。2、存在于多模态之间的干扰噪声没有得到有效的抑制。
发明内容
有鉴于此,本发明实施例提供基于随机变分信息的手势识别方法、装置、设备及介质,以充分利用多模态之间的关联性,降低干扰噪声,进而提高识别准确性。
本发明实施例的一方面提供了基于随机变分信息的手势识别方法,包括:
对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
获取变分信息瓶颈;
通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
优选地,所述对获取的待测数据进行特征提取,得到不同模态下的特征数据,包括:
对所述待测数据进行数据划分,得到视频模态下的数据、骨骼模态下的数据以及音频模态下的数据;
通过3D卷积和2D卷积的方法对所述视频模态下的数据进行特征提取,得到第一模态特征;
通过全连接网络对所述骨骼模态下的数据进行特征提取,得到第二模态特征;
通过卷积操作对所述音频模态下的数据进行特征提取,得到第三模态特征。
优选地,所述获取变分信息瓶颈,包括:
获取所述不同模态下的特征数据作为输入数据;
根据所述输入数据,确定神经网络对所述输入数据的内部表示;
根据所述内部表示,确定所述内部表示与预设的输出目标之间的最大化的第一互信息,以及确定所述内部表示与所述输入数据之间的最小化的第二互信息;
根据所述第一互信息和所述第二互信息,确定所述变分信息瓶颈。
优选地,所述通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果,包括:
按照预设的压缩比例从所述不同模态的特征数据中选取第一部分的数据,并通过所述变分信息瓶颈对所述第一部分的数据进行压缩,得到信息瓶颈层输出;
将所述不同模态的特征数据中剩余部分的数据输入全连接层,得到全连接层输出;
根据所述压缩比例,对所述信息瓶颈层输出和所述全连接层输出进行融合,得到融合结果。
优选地,所述将所述不同模态下的融合结果输入预设模型,输出手势识别结果,包括:
通过三层全连接层对所述不同模态下的融合结果进行训练,输出模型的判断结果,作为手势识别结果。
优选地,所述方法还包括对所述预设模型进行验证的步骤,包括:
验证不同信息瓶颈宽度和压缩比例对所述预设模型的影响程度;
验证不同隐变量采样策略对所述预设模型的影响程度;
验证不同叠加策略对所述预设模型的影响程度。
优选地,所述根据所述第一互信息和所述第二互信息,确定所述变分信息瓶颈中,所述变分信息瓶颈的优化目标为:
其中,JIB代表变分信息瓶颈网络优化目标函数;N代表样本实例总个数;ε代表对Z使用重参数技巧的参数表示;p(ε)代表参数ε的边缘分布;q(yn|f(xn,ε))代表yn与f(xn,ε)的条件分布函数;yn代表数据集中相应输出目标(标签);xn代表输入数据;f(xn,ε)代表xn与ε的联合分布函数;β代表控制多项式之间权重的超参数;DKL代表控制多项式之间权重的超参数;p(Z|xn)代表Z与xn的条件分布函数;r(Z)代表隐变量z的边缘分布p(z)近似变分计算。
本发明实施例的另一方面提供了一种基于随机变分信息的手势识别装置,包括:
特征提取模块,用于对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
变分信息模块,用于获取变分信息瓶颈;
多模态融合模块,用于通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
识别模块,用于将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明的实施例对获取的待测数据进行特征提取,得到不同模态下的特征数据;然后获取变分信息瓶颈;通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;最后将所述不同模态下的融合结果输入预设模型,输出手势识别结果。本发明实施例利用随机变分信息瓶颈方法进行多模态融合学习,输出强相关性的融合表征,能够充分利用多模态之间的关联性,降低干扰噪声,使得模型能够获得较高的手势识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的步骤流程示意图;
图2为本发明实施例提供的网络模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,如何有效地平衡多模态之间的关联关系和冗余关系,能够提升多模态手势识别模型的识别性能和鲁棒性。而上述问题则可以转变为平衡手势识别模型对无效冗余的过滤和对有效冗余的利用的问题。信息瓶颈(InformationBottleneck,IB)是一个能够学习输入变量的高效表征,从而使其与输出变量最相关的一个理论框架;在尽可能地压缩噪声数据的同时保留数据所代表的信息。因此信息瓶颈和多模态学习有天然的切合点,通过信息瓶颈可以学习多模态融合下与输出强相关性的融合表征。所以研究多模态融合下与输出强相关性的融合表征,以高精度地实现模型任务是有重要意义和应用价值的。
基于此,本发明实施例提供一种基于随机变分信息瓶颈的多模态融合手势识别方法,利用随机变分信息瓶颈方法进行多模态融合学习,可以输出强相关性的融合表征。利用随机的局部信息选择策略使得部分信息被信息瓶颈充分压缩,而其余信息被直接保留,从而在充分抑制无效冗余信息的同时尽量利用有效冗余信息,使得模型能够获得较高的手势检测精度。
如图1所示,本发明实施例提供的基于随机变分信息的手势识别方法,包括以下步骤:
S1、对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
具体地,本发明实施例通过对多模态数据进行预处理,利用表现优秀的特征提取方法提取模态信息特征。
S2、获取变分信息瓶颈;
S3、通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
具体地,本发明实施例基于随机变分信息瓶颈方法进行多模态信息融合。信息瓶颈主要是信息进行压缩,但是在多模态学习过程中,还有适当保留有效冗余,以提升模型的精度和鲁棒性。因此,引入一定的随机性来保留冗余。应用该方法可以充分实现平衡信息压缩和无效冗余,以保证识别精度和鲁棒性。可以更好地利用模态之间的关系,有效地利用模态间的有用信息,抑制模态间的冗余干扰,从而提高模型的预测能力。
S4、将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
具体地,对多模态融合后的信息用于任务检测并得到相应结果。当多种模态数据融合后,送入该模块的全连接层进行模型训练,最后得出手势的预测结果。
优选地,所述对获取的待测数据进行特征提取,得到不同模态下的特征数据,包括:
对所述待测数据进行数据划分,得到视频模态下的数据、骨骼模态下的数据以及音频模态下的数据;
通过3D卷积和2D卷积的方法对所述视频模态下的数据进行特征提取,得到第一模态特征;
通过全连接网络对所述骨骼模态下的数据进行特征提取,得到第二模态特征;
通过卷积操作对所述音频模态下的数据进行特征提取,得到第三模态特征。
具体地,本发明实施例中,对于视频模态:视频数据包括描述手势的彩色模态和深度模态,使用3D卷积和2D卷积提取模态特征。对于骨骼模态,利用全连接网络提取骨骼特征。对于音频模态,利用卷积操作得到音频表征。
本发明实施例中模态特征提取的具体操作如表1所示:
表1
如表1所示,其中,视频模态输入数据维度为(36*36*5),首先使用大小为(25*5*5*3)的3D卷积核进行卷积操作,再连接大小为(2*2*3)的最大池化层。再使用大小为(25*5*5)的2D卷积核进行卷积操作,后接大小为(1*1)的最大池化层。进一步使用三层大小分别为900,450,21的全连接层处理数据,最后一层为网络输出层。骨骼模态输入数据维度大小为915,后使用四层大小分别为700,400,350,21的全连接层处理数据,最后一层为网络输出层。音频模态输入数据维度大小为(40*9),首先使用大小为(25*5*5)的2D卷积核进行卷积操作,后接大小为(1*1)的最大池化层,再进一步使用三层大小分别为700,350,21的全连接层处理数据,最后一层为网络输出层。
优选地,所述获取变分信息瓶颈,包括:
获取所述不同模态下的特征数据作为输入数据;
根据所述输入数据,确定神经网络对所述输入数据的内部表示;
根据所述内部表示,确定所述内部表示与预设的输出目标之间的最大化的第一互信息,以及确定所述内部表示与所述输入数据之间的最小化的第二互信息;
根据所述第一互信息和所述第二互信息,确定所述变分信息瓶颈。
需要说明的是,本发明实施例是基于随机变分信息瓶颈的多模态融合手势识别方法,针对面向的手势识别任务,利用随机的局部信息选择策略使得部分信息被信息瓶颈充分压缩,而其余信息被直接保留,从而在充分抑制无效冗余信息的同时尽量利用有效冗余信息。随机变分信息瓶颈有以下优点:近年来,信息瓶颈被认为是一个可以揭示深度学习本质的理论框架,能够提供相关性的理论边界。通过这个框架去除掉含有无关细节的噪音输入数据,只保留与通用概念最相关的特征,这与多模态融合的目标深度切合。然而,现在还鲜有基于信息瓶颈的多模态融合相关工作。而本专利创新性地提出了基于随机变分信息瓶颈的多模态融合手势识别方法,用以平衡多模态之间的关联关系和冗余关系,从而保证识别的精度和鲁棒性。
具体地,信息瓶颈理论用于解释和增强神经网络模型的泛化能力。在本发明实施例中,记输入数据为X,其相应输出目标(标签)为Y,记神经网络对数据的内部表示为Z,则信息瓶颈的目标为最大化Y与Z之间的第一互信息I(Z,Y),同时最小化X与Z之间的第二互信息I(Z,X),从而使得输入数据中“最有用的信息”得以保留,而其他信息则被丢弃。其中互信息用KL散度表示。信息瓶颈优化目标函数有两部分互信息表示,如式(1)所示。
(1)、RIB(θ)=I(Z,Y;θ)-βI(Z,X;θ)
其中RIB为信息瓶颈优化目标函数,β为用于控制两项之间权重的超参数,θ为待学习网络参数,优化目标即为最大化该公式。
变分信息瓶颈网络优化目标可以表示为以下式(2):
其中,JIB代表变分信息瓶颈网络优化目标函数;N代表样本实例总个数;ε代表对Z使用重参数技巧的参数表示;p(ε)代表参数ε的边缘分布;q(yn|f(xn,ε))代表yn与f(xn,ε)的条件分布函数;yn代表数据集中相应输出目标(标签);xn代表输入数据;f(xn,ε)代表xn与ε的联合分布函数;β代表控制多项式之间权重的超参数;DKL代表控制多项式之间权重的超参数;p(Z|xn)代表Z与xn的条件分布函数;r(Z)代表隐变量z的边缘分布p(z)近似变分计算;
信息瓶颈理论核心思想如下:记输入数据为X,其相应输出目标(标签)为Y,记神经网络对数据的内部表示为Z,则信息瓶颈的目标为最大化Y与Z之间的互信息I(Z,Y),同时最小化X与Z之间的互信息I(Z,X),从而使得输入数据中“最有用的信息”得以保留,而其他信息则被丢弃。其中互信息用KL散度表示。信息瓶颈优化目标函数有两部分互信息表示,如式所示。
RIB(θ)=I(Z,Y;θ)-βI(Z,X;θ)
其中RIB为信息瓶颈优化目标函数,β为用于控制两项之间权重的超参数,θ为待学习网络参数,优化目标即为最大化该公式。若直接将该公式作为网络优化目标函数,是难以求算的,而且难以通过梯度下降法以反向传播方式更新网络参数。因此,以变分推断方式来构造公式的一个下界,并利用重参数技巧使得该优化目标可以通过梯度反传的方式进行参数更新,利用近似变分计算方法来取代复杂不可导式子。第一项为第一互信息I(Z,Y;θ)的近似取代式,第二项DKL(p(Z|xn),r(Z))为第二互信息I(Z,X;θ)的近似取代式,因此得到上述优化目标函数JIB。
本发明实施例以标准正态分布N(0,1)作为Z的先验分布,则上述式(2)第二项βDKL(p(Z|xn),r(Z))为仅关于μ和∑的函数。将变分信息瓶颈应用于多模态手势识别即多分类任务时,式(2)中第一项则可由经典的交叉熵(CrossEntropy)项替换,因此若要在已有网络中加入信息瓶颈进行压缩,则直接在原网络损失函数中增加式(2)中第二项βDKL(p(Z|xn),r(Z))即可。
优选地,所述通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果,包括:
按照预设的压缩比例从所述不同模态的特征数据中选取第一部分的数据,并通过所述变分信息瓶颈对所述第一部分的数据进行压缩,得到信息瓶颈层输出;
将所述不同模态的特征数据中剩余部分的数据输入全连接层,得到全连接层输出;
根据所述压缩比例,对所述信息瓶颈层输出和所述全连接层输出进行融合,得到融合结果
具体地,信息瓶颈主要是信息进行压缩,但是在多模态学习过程中,还有适当保留有效冗余,以提升模型的精度和鲁棒性。因此,本发明实施例引入一定的随机性来保留冗余。提出随机变分信息瓶颈,平衡信息压缩和无效冗余,以保证识别精度和鲁棒性。
具体而言,在使用信息瓶颈对多模态融合层进行压缩时,不是对该层全部信息进行压缩,而是从中以一定压缩比例pcomp选择部分节点输入信息瓶颈层进行压缩,而其余1-pcomp比例的节点信息则被直接输入一个宽度等于信息瓶颈宽度(即隐变量z所属高斯分布的独立分量个数)的全连接层,最终与信息瓶颈采样层输出按比例叠加后再传向下一层。这里以压缩和非压缩概率作为比例,例如当pcomp=0.4时,则叠加层输入即为“0.4*采样层输出+0.6*全连接层输出”。之所以按比例叠加,而不是直接叠加,是为了使得叠加结果中信息比重与压缩和非压缩的比重相一致。一种极端情况是,当pcomp=1时,若直接叠加,则未压缩的全连接层的输出必然全部为随机值,而其在叠加结果中与采样层输出所占比重相等,因此这部分随机信息将破坏采样层中网络已学习到的有效信息。
在信息瓶颈压缩的采样层,由于采样操作具有随机性,可能使得网络输出不稳定,于是在网络预测或测试阶段,对z向量的采样操作(即对式(2)中ε向量的采样),采取采样12次求均值的方式来完成。
加入随机变分信息瓶颈后的多模态融合网络,以图2所示的网络结构为例,在图2所示的网络结构中。随机变分信息瓶颈的输出可以表示为下列式(3):
(3)、pcomp*y+(1-pcomp)*yfc
其中,y是信息瓶颈层输出,yfc是全连接层输出,pcomp为压缩比例。
图2的网络结构说明如下:首先网络将视频,骨骼,音频模态处理后的数据拼接起来形成大小为1*784的融合层,将该融合层通过信息瓶颈压缩方法得到大小为1*120的信息瓶颈层,同时将该融合层信息进行全连接操作,得到大小为1*120的全连接层数据,信息瓶颈层与全连接层通过上文描述的公式(3)进行叠加操作形成大小为1*120的叠加层,进一步使用大小分别为1*60,1*21的全连接层处理数据并输出结果,其中最后一层全连接层为21种手势分类的输出层。
本发明实施例利用随机的局部信息选择策略使得部分信息被信息瓶颈充分压缩,而其余信息被直接保留,从而在充分抑制无效冗余信息的同时尽量利用有效冗余信息,以达到高精度识别手势任务的能力。
优选地,所述将所述不同模态下的融合结果输入预设模型,输出手势识别结果,包括:
通过三层全连接层对所述不同模态下的融合结果进行训练,输出模型的判断结果,作为手势识别结果。
具体地,本发明实施例利用先前融合后的信息,送入三层全连接层进行进一步的模型训练预测,最终输出模型的判断结果,判断输入手势属于的类别。
优选地,所述方法还包括对所述预设模型进行验证的步骤,包括:
验证不同信息瓶颈宽度和压缩比例对所述预设模型的影响程度;
验证不同隐变量采样策略对所述预设模型的影响程度;
验证不同叠加策略对所述预设模型的影响程度。
具体地,本发明实施例为了验证提出的随机变分信息瓶颈的效果,在公开多模态手势识别数据集Montalbano上展开实验,并主要对以下几个方面进行验证:(1)不同信息瓶颈宽度和压缩比例pcomp对网络的影响;(2)不同隐变量采样策略对网络模型的影响;(3)不同叠加策略对网络模型的影响。
(1)不同信息瓶颈宽度和压缩比例pcomp对网络模型的影响:
由于涉及三个可变超参数,为节约计算资源,首先探索了信息瓶颈宽度不同取值的效果。初步选定损失项约束系数β=0.0001,采样层在训练和测试中均采样12次求均值,叠加层直接对采样层和全连接层输出结果进行等比例叠加,本发明实施例对比了若干组信息瓶颈宽度和pcomp对网络进行训练和测试,结果如表2所示,表2用于展示不同信息瓶颈随机压缩比例(各列)与不同信息瓶颈宽度(各行)对应的测试精度。
表2
从表2中可以首先观察到,有多组参数对应的手势识别测试准确率已经超越了原始网络,从而验证了随机变分信息瓶颈作为一种正则化手段可以有效提高模型泛化能力。其次,可以发现,信息瓶颈宽度为120时,网络性能最佳。
(2)不同隐变量采样策略对网络模型的影响:
下面实验固定β=0.0001,探索不同隐变量采样方式的效果,结果如表3所示。表3用于表示不同隐变量采样策略下不同信息瓶颈随机压缩比例(各列)对应的测试精度。表3中的“采样12次”,是指采样12次求均值;表3中的“训练”和“测试”是指网络训练阶段和预测阶段。可见,最优采样策略是:训练时对每个样本对应的隐变量都只采样一次,而在预测阶段采样12次求均值。训练阶段只采样1次可以使得参数搜索范围更大,有利于跳出局部最优;测试阶段采样12次求均值可以保证输出尽可能稳定。这种策略兼顾了预测阶段网络模型的输出稳定性,同时又在训练阶段让网络充分自由地更新参数。
表3
(3)不同叠加策略对网络模型的影响:
接下来固定采样策略为“训练采样1次,测试采样12次”,固定叠加层叠加策略为按比例叠加,同时将信息瓶颈宽度固定为120。改变不同的β和pcomp来完成最后的超参数确定,实验中若干组β和pcomp所对应的手势识别测试准确率如表4所示,表4用于表示不同信息瓶颈随机压缩比例(各列)与不同损失项约束系数(各行)所对应的测试精度。
表4
由表4中数据,可以确定最优超参数组合为β=0.0001,pcomp=0.2。同时,在各个取值下,最优手势识别准确率几乎都出现在pcomp=0.2附近,表明随机选取20%的节点输入信息瓶颈进行压缩是比较有效的。当pcomp过大或过大时,类似于信息瓶颈宽度过小的情况,网络中被压缩信息过多,导致学习能力下降,识别准确率不高。当pcomp较小或过小时,信息瓶颈发挥的提升作用较小,从而其识别准确率也不能达到最优。多模态数据之间存在一定的无效冗余信息,但其量并不大,因而随机变分信息瓶颈可以发挥作用,且在pcomp=0.2时发挥最大作用。
由实验结果可知,当采样策略为“训练采样1次,测试采样12次”,固定叠加层叠加策略为按比例叠加,同时将信息瓶颈宽度固定为120,参数pcomp=0.2,β=0.0001时,模型效果最佳,且手势识别的精度(Accuracy)结果为95.01%,从而验证了随机变分信息瓶颈作为一种正则化手段可以有效提高模型精度。而使用本发明实施例的方法,利用随机变分信息瓶颈方法进行多模态融合学习,输出强相关性的融合表征,使得模型有了良好的表现。
本发明实施例还提供了一种基于随机变分信息的手势识别装置,包括:
特征提取模块,用于对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
变分信息模块,用于获取变分信息瓶颈;
多模态融合模块,用于通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
识别模块,用于将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
本发明实施例还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如图1所示的方法。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如图1所示的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
综上所述,本发明实施例针对基于多模态融合的手势识别提出了一种新的多模态融合算法。本发明实施例针对多模态融合提出一种基于随机变分信息瓶颈的多模态融合手势识别方法,信息瓶颈主要是信息进行压缩,但是在多模态学习过程中,还有适当保留有效冗余,以提升模型的精度和鲁棒性。因此,本发明实施例引入一定的随机性来保留冗余。基于随机性的正则化约束因其简单性和有效性已经广泛应用于深度学习中。因此,本发明实施例提出随机变分信息瓶颈,平衡信息压缩和无效冗余,以保证识别精度和鲁棒性。使得基于此方法的多模态手势检测在精度方面有良好的表现。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.基于随机变分信息的手势识别方法,其特征在于,包括:
对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
获取变分信息瓶颈;
通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
2.根据权利要求1所述的基于随机变分信息的手势识别方法,其特征在于,所述对获取的待测数据进行特征提取,得到不同模态下的特征数据,包括:
对所述待测数据进行数据划分,得到视频模态下的数据、骨骼模态下的数据以及音频模态下的数据;
通过3D卷积和2D卷积的方法对所述视频模态下的数据进行特征提取,得到第一模态特征;
通过全连接网络对所述骨骼模态下的数据进行特征提取,得到第二模态特征;
通过卷积操作对所述音频模态下的数据进行特征提取,得到第三模态特征。
3.根据权利要求1所述的基于随机变分信息的手势识别方法,其特征在于,所述获取变分信息瓶颈,包括:
获取所述不同模态下的特征数据作为输入数据;
根据所述输入数据,确定神经网络对所述输入数据的内部表示;
根据所述内部表示,确定所述内部表示与预设的输出目标之间的最大化的第一互信息,以及确定所述内部表示与所述输入数据之间的最小化的第二互信息;
根据所述第一互信息和所述第二互信息,确定所述变分信息瓶颈。
4.根据权利要求1所述的基于随机变分信息的手势识别方法,其特征在于,所述通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果,包括:
按照预设的压缩比例从所述不同模态的特征数据中选取第一部分的数据,并通过所述变分信息瓶颈对所述第一部分的数据进行压缩,得到信息瓶颈层输出;
将所述不同模态的特征数据中剩余部分的数据输入全连接层,得到全连接层输出;
根据所述压缩比例,对所述信息瓶颈层输出和所述全连接层输出进行融合,得到融合结果。
5.根据权利要求1所述的基于随机变分信息的手势识别方法,其特征在于,所述将所述不同模态下的融合结果输入预设模型,输出手势识别结果,包括:
通过三层全连接层对所述不同模态下的融合结果进行训练,输出模型的判断结果,作为手势识别结果。
6.根据权利要求1所述的基于随机变分信息的手势识别方法,其特征在于,所述方法还包括对所述预设模型进行验证的步骤,包括:
验证不同信息瓶颈宽度和压缩比例对所述预设模型的影响程度;
验证不同隐变量采样策略对所述预设模型的影响程度;
验证不同叠加策略对所述预设模型的影响程度。
7.根据权利要求3所述的基于随机变分信息的手势识别方法,其特征在于,所述根据所述第一互信息和所述第二互信息,确定所述变分信息瓶颈中,所述变分信息瓶颈的优化目标为:
其中,JIB代表变分信息瓶颈网络优化目标函数;N代表样本实例总个数;ε代表对Z使用重参数技巧的参数表示;p(ε)代表参数ε的边缘分布;q(yn|f(xn,ε))代表yn与f(xn,ε)的条件分布函数;yn代表数据集中相应输出目标(标签);xn代表输入数据;f(xn,ε)代表xn与ε的联合分布函数;β代表控制多项式之间权重的超参数;DKL代表控制多项式之间权重的超参数;p(Z|xn)代表Z与xn的条件分布函数;r(Z)代表隐变量z的边缘分布p(z)近似变分计算。
8.基于随机变分信息的手势识别装置,其特征在于,包括:
特征提取模块,用于对获取的待测数据进行特征提取,得到不同模态下的特征数据;所述模态包括视频模态、骨骼模态和音频模态;
变分信息模块,用于获取变分信息瓶颈;
多模态融合模块,用于通过所述变分信息瓶颈对所述特征数据中随机的局部信息进行压缩处理,并保留所述特征数据中剩余的局部信息,得到不同模态下的特征数据的融合结果;
识别模块,用于将所述不同模态下的融合结果输入预设模型,输出手势识别结果。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011511115.9A CN112667071A (zh) | 2020-12-18 | 2020-12-18 | 基于随机变分信息的手势识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011511115.9A CN112667071A (zh) | 2020-12-18 | 2020-12-18 | 基于随机变分信息的手势识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667071A true CN112667071A (zh) | 2021-04-16 |
Family
ID=75406243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011511115.9A Pending CN112667071A (zh) | 2020-12-18 | 2020-12-18 | 基于随机变分信息的手势识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667071A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221963A (zh) * | 2021-04-21 | 2021-08-06 | 山东师范大学 | 一种基于信息瓶颈的智能乳腺对比增强摄影分类系统 |
CN113488060A (zh) * | 2021-06-25 | 2021-10-08 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及系统 |
CN114398973A (zh) * | 2022-01-07 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容标签识别方法、装置、设备及存储介质 |
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185695A1 (en) * | 2009-01-22 | 2010-07-22 | Ron Bekkerman | System and Method for Data Clustering |
CN108388882A (zh) * | 2018-03-16 | 2018-08-10 | 中山大学 | 基于全局-局部rgb-d多模态的手势识别方法 |
CN109923560A (zh) * | 2016-11-04 | 2019-06-21 | 谷歌有限责任公司 | 使用变分信息瓶颈来训练神经网络 |
US20190347523A1 (en) * | 2018-05-14 | 2019-11-14 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
US20190392587A1 (en) * | 2018-06-22 | 2019-12-26 | Microsoft Technology Licensing, Llc | System for predicting articulated object feature location |
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
US20200142994A1 (en) * | 2018-11-07 | 2020-05-07 | Adobe Inc. | Guided content discovery in visual search |
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
US20200311548A1 (en) * | 2019-04-01 | 2020-10-01 | Google Llc | Learning compressible features |
CN111813893A (zh) * | 2020-06-24 | 2020-10-23 | 重庆邮电大学 | 基于深度迁移学习的房地产市场分析方法、装置及设备 |
CN112016332A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 基于变分推理和多任务学习的多模态机器翻译方法 |
-
2020
- 2020-12-18 CN CN202011511115.9A patent/CN112667071A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185695A1 (en) * | 2009-01-22 | 2010-07-22 | Ron Bekkerman | System and Method for Data Clustering |
CN109923560A (zh) * | 2016-11-04 | 2019-06-21 | 谷歌有限责任公司 | 使用变分信息瓶颈来训练神经网络 |
US20190258937A1 (en) * | 2016-11-04 | 2019-08-22 | Google Llc | Training neural networks using a variational information bottleneck |
CN108388882A (zh) * | 2018-03-16 | 2018-08-10 | 中山大学 | 基于全局-局部rgb-d多模态的手势识别方法 |
US20190347523A1 (en) * | 2018-05-14 | 2019-11-14 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
US20190392587A1 (en) * | 2018-06-22 | 2019-12-26 | Microsoft Technology Licensing, Llc | System for predicting articulated object feature location |
CN110751208A (zh) * | 2018-10-29 | 2020-02-04 | 山东大学 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
US20200142994A1 (en) * | 2018-11-07 | 2020-05-07 | Adobe Inc. | Guided content discovery in visual search |
US20200311548A1 (en) * | 2019-04-01 | 2020-10-01 | Google Llc | Learning compressible features |
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
CN111813893A (zh) * | 2020-06-24 | 2020-10-23 | 重庆邮电大学 | 基于深度迁移学习的房地产市场分析方法、装置及设备 |
CN112016332A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 基于变分推理和多任务学习的多模态机器翻译方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221963A (zh) * | 2021-04-21 | 2021-08-06 | 山东师范大学 | 一种基于信息瓶颈的智能乳腺对比增强摄影分类系统 |
CN113488060A (zh) * | 2021-06-25 | 2021-10-08 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及系统 |
CN113488060B (zh) * | 2021-06-25 | 2022-07-19 | 武汉理工大学 | 一种基于变分信息瓶颈的声纹识别方法及系统 |
CN114398973A (zh) * | 2022-01-07 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 一种媒体内容标签识别方法、装置、设备及存储介质 |
CN114398973B (zh) * | 2022-01-07 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 一种媒体内容标签识别方法、装置、设备及存储介质 |
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Herzig et al. | Learning canonical representations for scene graph to image generation | |
CN112667071A (zh) | 基于随机变分信息的手势识别方法、装置、设备及介质 | |
CN114398961B (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
CN111079658B (zh) | 基于视频的多目标连续行为分析方法、系统、装置 | |
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
CN113628294A (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
Gallo et al. | Image and text fusion for upmc food-101 using bert and cnns | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN109034206A (zh) | 图像分类识别方法、装置、电子设备及计算机可读介质 | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
CN113343901A (zh) | 基于多尺度注意力图卷积网络的人体行为识别方法 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN112507947A (zh) | 基于多模态融合的手势识别方法、装置、设备及介质 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
Ning et al. | Conditional generative adversarial networks based on the principle of homologycontinuity for face aging | |
CN112966644A (zh) | 用于手势检测和手势识别的多模态多任务模型及其训练方法 | |
CN112836602A (zh) | 基于时空特征融合的行为识别方法、装置、设备及介质 | |
Shao et al. | Deep multi-center learning for face alignment | |
CN112508048A (zh) | 图像描述的生成方法和装置 | |
Qian et al. | Rethinking zero-shot action recognition: Learning from latent atomic actions | |
CN115761905A (zh) | 一种基于骨骼关节点的潜水员动作识别方法 | |
CN111652349A (zh) | 一种神经网络的处理方法及相关设备 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
Li et al. | Rolling bearing fault diagnosis under data imbalance and variable speed based on adaptive clustering weighted oversampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 510630 room 1101, building 1, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (office use only) Applicant after: Guangdong Yitong Lianyun Intelligent Information Co.,Ltd. Address before: 510630 building 1101, No.16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province Applicant before: YITONG CENTURY INTERNET OF THINGS RESEARCH INSTITUTE (GUANGZHOU) Co.,Ltd. |