CN116206367A - 预测手势的方法、装置、电子设备及存储介质 - Google Patents

预测手势的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116206367A
CN116206367A CN202310210643.8A CN202310210643A CN116206367A CN 116206367 A CN116206367 A CN 116206367A CN 202310210643 A CN202310210643 A CN 202310210643A CN 116206367 A CN116206367 A CN 116206367A
Authority
CN
China
Prior art keywords
hand
features
feature
predicted
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310210643.8A
Other languages
English (en)
Inventor
祁星群
李林橙
吕唐杰
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202310210643.8A priority Critical patent/CN116206367A/zh
Publication of CN116206367A publication Critical patent/CN116206367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种预测手势的方法、装置、电子设备及存储介质,该方法包括获取待预测目标的身体特征;将身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;基于两个所述单手特征得到与所述待预测目标对应的预测手势;其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出,从而通过两个分开训练的MLP模型分别获取两个手的单手特征,避免了由于双手的不对称运动所导致的被预测的手势不自然的问题。

Description

预测手势的方法、装置、电子设备及存储介质
技术领域
本申请涉及神经网络模型技术领域,尤其涉及一种预测手势的方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,随着基于深度学习的3D手势估计和重建技术快速发展,大力促进了从上半身预测3D手势的相关方法的提出。这种非语言的手-身交互建模在各种虚拟角色场景中发挥着重要作用,包括人机交互、语音手势合成、全息传输等,具备广泛的应用前景和巨大的市场价值。但是,目前相关技术中的从上半身身体运动中预测3D手势的方法往往忽略了双手之间的不对称运动,而是以整体的方式来生成两只手,导致了预测结果的不自然。
发明内容
有鉴于此,本申请的目的在于提出一种预测手势的方法、装置、电子设备及存储介质。
基于上述目的,本申请提供了一种预测手势的方法,包括:
获取待预测目标的身体特征;
将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;
基于两个所述单手特征得到与所述待预测目标对应的预测手势;
其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出。
基于同一发明构思,本申请示例性实施例还提供了一种预测手势的装置,包括:
获取模块,获取待预测目标的身体特征;
特征提取模块,将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;
预测模块,基于两个所述单手特征得到与所述待预测目标对应的预测手势;
其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出。
基于同一发明构思,本申请示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的预测手势的方法。
基于同一发明构思,本申请示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的预测手势的方法。
从上面所述可以看出,本申请提供的预测手势的方法、装置、电子设备及存储介质,获取待预测目标的身体特征;将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;基于两个所述单手特征得到与所述待预测目标对应的预测手势;其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出,从而通过两个分开训练的MLP模型分别获取两个手的单手特征,避免了由于双手的不对称运动所导致的被预测的手势不自然的问题。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种预测手势的方法的流程示意图;
图2为本申请实施例的另一种预测手势的方法的流程示意图;
图3为本申请实施例的一种预测手势的装置的结构示意图;
图4为本申请实施例的一种具体的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
根据本申请的实施方式,提出了一种预测手势的方法、系统、电子设备及存储介质。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
目前相关技术中的从上半身身体运动中预测3D手势的方法往往忽略了双手之间的不对称运动,例如:当一只手移动时,另一只手可能静止或缓慢移动。而是从整体的角度直接生成双手,导致了预测结果的不自然。
为了解决上述问题,本申请提供了一种预测手势的方法,具体包括:
获取待预测目标的身体特征;将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;基于两个所述单手特征得到与所述待预测目标对应的预测手势;其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出,从而通过两个分开训练的MLP模型分别获取两个手的单手特征,避免了由于双手的不对称运动所导致的被预测的手势不自然的问题。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
在一些具体的应用场景中,本申请的预测手势的方法可以应用于各种设计手势预测的平台或系统中。作为一种示例,该应用场景包括至少一个服务器和至少一个终端。服务器与终端之间可以通过网络进行通信,以实现数据的传输。其中,网络可以是有线网络或无线网络,本申请对此不作具体限定。
服务器可以是提供各种服务的服务器。具体的,服务器可以用于为终端运行的应用程序提供后台服务。可选的,在一些实现方式中,本申请实施例提供的预测手势的方法对可以由服务器执行。服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。本申请实施例对此不作具体限定。
可选的,上述无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络,包括但不限于局域网(local area network,LAN)、城域网(metropolitan area network,MAN)、广域网(wide area network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,HTML)、可扩展标记语言(extensible markuplanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(secure socket layer,SSL)、传输层安全(transport layer security,TLS)、虚拟专用网络(virtual private network,VPN)、网际协议安全(internet protocolsecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
下面结合具体的应用场景,来描述根据本申请示例性实施方式的预测手势的方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性方法
参考图1,本申请实施例提供了一种预测手势的方法,该方法的执行主体可以但不限于是服务器或终端设备。所述方法包括以下步骤:
S101,获取待预测目标的身体特征。
具体实施时,待预测目标可以是人物形象,也可以是具有双手的动物形象,该形象可以是虚拟形象也可以是真实人或物对应的照片,对此不做限定。待预测目标的身体特征可以通过目前相关技术中的任何一种提取特征的方法来提取,对此不做限定。
在一些实施例中,获取待预测目标的身体特征具体包括:
将所述待预测目标的身体关节点信息输入到训练获得的身体编码器中,并通过所述身体编码器的编码得到所述身体特征。
具体实施时,为了准确的获取到身体特征,可以将所述待预测目标的身体关节点信息输入到训练获得的身体编码器中,通过该身体编码器的编码过程得到所述身体特征,可选的,身体关节点信息可以是待检测目标身体骨骼关节点的位置信息,该位置信息可以通过坐标或向量表示对此不做限定。
考虑到待预测的双手手势主要与身体的上半身相关,在一些实施例中,所述待预测目标的身体关节点信息主要指身体上半身的关节点信息。
S102,将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征。
具体实施时,在预测手势的模型训练阶段,分别通过第一单手真值和第二单手真值来训练两个独立的MLP(多层感知机)模型,需要说明的是,该第一、第二单手主要用于区别待预测目标的左手和右手。模型训练完成后,就可以将提取到的身体特征分别输入两个训练好的MLP模型中,得到两个单手特征。由于两个MLP模型是分别单独训练的,因此可以更准确的识别每个手的特征,避免了双手特征一起识别导致的预测结果的不自然。
在一些实施例中,基于所述MLP模型对应的单手真值来约束所述MLP模型的输出包括:
将所述MLP模型输出的单手特征输入到训练获得的与所述MLP模型对应的单手自动编码器中,并通过所述单手自动编码器的解码得到单手手势;
将所述MLP模型对应的单手真值输入到所述单手自动编码器的编码中,并通过所述单手自动编码器的编码和解码得到重建手势;
基于所述重建手势约束所述单手手势。
具体实施时,为了在模型训练过程中,便于比较所述MLP模型输出的单手特征,将输出的单手特征先通过其对应的单手自动编码器的解码过程得到,与单手特征对应的单手手势,此时,可以直接用单手真值来约束单手手势,即通过比较单手手势与单手真值的差异来优化MLP模型的参数。但是,进一步考虑到单手自动编码器输出的手势一般会受到自动编码器本身的影响,使其输出的手势与真实的手势具有一定的偏差,为了消除这种偏差在真值比较时产生的影响,可以将单手真值先输入到所述单手自动编码器的编码中,并通过所述单手自动编码器的编码和解码得到重建手势,该重建手势同样受到了自动编码器的影响,因此,通过该重建手势来约束单手手势时,可以相互抵消自动编码器的影响,进一步保证了MLP模型输出的特征的准确性。
S103,基于两个所述单手特征得到与所述待预测目标对应的预测手势。
具体实施时,在得到两个单手特征后,就可以直接通过两个单手特征来得到与所述待预测目标对应的预测手势,可选的,可以将两个单手特征输入到训练获得的自动编码器中,然后通过自动编码器的解码过程直接得到预测手势。可选的,预测手势可以通过关节点的位置坐标或向量来表示,对此不做限定。
在一些实施例中,所述身体特征为多个时刻的序列特征集合;基于两个所述单手特征得到与所述待预测目标对应的预测手势,具体包括:
对于每个所述MLP模型输出的单手特征,获取初始时刻对应的单手特征,确定相邻两个时刻对应的单手特征之间的空间残差,基于所述空间残差与所述初始时刻的单手特征确定除所述初始时刻之外的其他所有时刻对应的单手特征;基于所述初始时刻对应的单手特征和所述其他所有时刻对应的单手特征组成与每个所述MLP模型对应的针对身体特征的单手残差特征集合;
基于两个所述单手残差特征集合得到与所述待预测目标对应的预测手势。
具体实施时,待预测目标的身体关节点信息可以是身体连续运动过程中的身体关节点序列集合
Figure BDA0004114978610000061
其中T为序列长度,与之对应的待预测目标的身体特征为多个时刻的序列特征集合,即关节点序列集合B中的每个bt均对应一个时刻的序列特征,而每个时刻的序列特征均可以通过MLP模型获取一个单手特征。为了拟合相邻时刻对应的单手特征的空间关系,先通过MLP模型获取初始时刻的单手特征,然后在获取后续时刻对应的单手特征时,不再使用MLP模型的输出,而是,先确定相邻两个时刻对应的单手特征之间的空间残差,然后根据所述空间残差与所述初始时刻的单手特征确定除所述初始时刻之外的其他所有时刻对应的单手特征,最后,将初始时刻对应的单手特征和所述其他所有时刻对应的单手特征组成单手残差特征集合,并通过该单手残差特征集合得到所述待预测目标对应的预测手势,其中,单手残差特征集合中的每个时刻对应的单手特征均可以得到在该时刻所述待预测目标对应的预测手势,即可以得到与多个时刻对应的预测手势集合。可选的,可以将每个时刻对应的单手特征输入到训练获得的自动编码器中,然后通过自动编码器的解码过程得到该时刻对应的预测手势。
需要说明的是,由于本申请实施例中的同一身体特征通过两个MLP模型分别得到两个单手特征,即第一单手特征和第二单手特征,上述实施例中只展示了一个MLP模型输出的单手特征转化为单手残差特征集合的过程,而另一个MLP模型输出的单手特征转化为单手残差特征集合的过程与之类似,对此不再赘述。
在一些实施例中,通过如下公式确定除所述初始时刻之外的其他所有时刻对应的单手特征:
Figure BDA0004114978610000071
其中,
Figure BDA0004114978610000072
表示t+1时刻对应的单手特征,/>
Figure BDA0004114978610000073
表示t时刻对应的单手特征,/>
Figure BDA0004114978610000074
表示t+1时刻对应的单手特征与t时刻对应的单手特征之间的空间依赖度;
其中,确定所述空间依赖度的过程包括:
确定t+1时刻对应的单手特征与t时刻对应的单手特征之间的目标空间残差,将所述目标空间残差进行矩阵转置后与t时刻对应的单手特征进行矩阵相乘,并将所述矩阵相乘的结果进行softmax操作得到所述空间依赖度。
具体实施时,由于最初获得的是初始时刻对应的单手特征,因此,可以通过上述公式依次计算出在初始时刻之后的每个时刻对应的单手特征。可选的,将所述矩阵相乘的结果进行softmax(逻辑回归)操作,即将矩阵相乘的结果归一化为0到1之间的数值。
为了准确的刻画相邻的时刻对应的单手特征之间的空间差异,在一些实施例中,确定相邻两个时刻对应的单手特征之间的空间残差,具体包括:
从所述多个时刻的序列特征集合中确定当前时刻对应的序列特征;
从预设空间残差集合中确定与当前时刻对应的序列特征最相近的第一空间残差,并将所述第一空间残差确定为当前时刻对应的单手特征与下一时刻对应的单手特征之间的空间残差。
具体实施时,可以通过余弦相似度来从预设空间残差集合中确定与当前时刻对应的序列特征最相近的第一空间残差。
在一些实施例中,确定所述预设空间残差集合的过程包括:
在预测手势的模型训练阶段,构建初始空间残差集合,从所述初始空间残差集合中确定与目标样本身体特征最相近的原始空间残差,并基于预设残差更新公式不断更新所述原始空间残差,直到所述模型训练完成时,结束更新所述原始空间残差,以完成所述初始空间残差集合的更新,并将完成更新的所述初始空间残差集合确定为所述预设空间残差集合;
其中,所述预设残差更新公式为:
Figure BDA0004114978610000075
其中,λ表示第一预设权值,
Figure BDA0004114978610000076
表示t时刻对应的样本单手特征,mr表示更新前的空间残差,mr+1表示更新后的空间残差。
具体实施时,在预测手势的模型训练阶段时,可以先根据需要随机构建一个初始空间残差集合,该初始空间残差集合中设置了多个空间残差,然后通过余弦相似度从所述初始空间残差集合中确定与目标样本身体特征最相近的原始空间残差,并不断的根据预设残差更新公式更新所述原始空间残差,从而使得预设空间残差集合中的空间残差能更加准确的表征相邻单手特征之间的空间差异,以及身体和每只手之间的空间关系。可选的,第一预设权值λ可以根据需要进行实验获得,可选的,可以将第一预设权值λ设置为0.8。
为了保证双手的运动在时间上与身体关节点的运动顺序一致,在一些实施例中,基于两个所述单手残差特征集合得到与所述待预测目标对应的预测手势,具体包括:
将所述待预测目标的身体关节点信息输入到训练获得的运动编码器中,并通过运动编码器的编码得到所述待预测目标的身体运动嵌入特征;
对于每个所述单手残差特征集合,在预设单手运动嵌入特征集合中确定与所述身体运动嵌入特征最一致的目标单手运动嵌入特征,将所述目标单手运动嵌入特征进行softmax操作后,与所述单手残差特征集合进行向量点积,并将所述向量点积的结果与所述单手残差特征集合相加得到单手时序特征集合;
基于两个所述单手时序特征集合得到与所述待预测目标对应的预测手势。
具体实施时,通过运动编码器输出的身体运动嵌入特征来表示在一个序列中身体关节点的时间变化,然后通过预设单手运动嵌入特征集合来表示多个序列中单手特征的时间变化,并通过余弦相似度来从预设单手运动嵌入特征集合中确定与所述身体运动嵌入特征最一致的目标单手运动嵌入特征,通过该目标单手运动嵌入特征得到所述单手时序特征集合,从而保证了最后预测的手势的运动在时序上与待预测目标的身体关节点的运动保持一致。
在一些实施例中,确定所述预设单手运动嵌入特征集合的过程包括:
在预测手势的模型训练阶段,构建初始单手运动嵌入特征集合,从所述初始单手运动嵌入特征集合中确定与目标样本身体运动嵌入特征最相近的原始单手运动嵌入特征,并基于预设运动更新公式不断更新所述原始单手运动嵌入特征,直到所述模型训练完成时,结束更新所述原始单手运动嵌入特征,以完成所述初始单手运动嵌入特征集合的更新,并将完成更新的所述初始单手运动嵌入特征集合确定为所述预设单手运动嵌入特征集合;
其中,所述预设运动更新公式为:
Figure BDA0004114978610000081
其中,α表示第二预设权值,
Figure BDA0004114978610000091
表示样本身体运动嵌入特征,mn表示更新前的单手运动嵌入特征,mn+1表示更新后的单手运动嵌入特征。
具体实施时,在预测手势的模型训练阶段,得到所述预设单手运动嵌入特征集合的过程与得到所述预设空间残差集合的过程类似,只是在更新单手运动嵌入特征时,用身体运动嵌入特征代替了单手特征,对此不做赘述,可选的,第二预设权值α可以根据需要由实验获取,该第二预设权值α可以与第一预设权值λ的数值相同或不同,对此不做限定。
在一些实施例中,基于两个所述单手时序特征集合得到与所述待预测目标对应的预测手势,具体包括:
将所述身体特征输入到训练获得的第一transformer模型的编码器中,获得查询特征;
对于每个所述单手时序特征集合,将所述单手时序特征集合输入到与所述单手时序特征集合对应的transformer模型的编码器中,得到key特征与value特征,并将所述查询特征分别与所述key特征和所述value特征进行预设次数的多头注意机制运算,得到同步单手特征集合;
将两个所述同步单手特征集合的特征进行拼接,得到双手特征集合;
将所述双手特征集合输入到训练获得的第二transformer模型的编码器中进行预设次数的多头注意机制运算后,通过所述第二transformer模型的全连接层得到与所述待预测目标对应的预测手势。
具体实施时,通过第一transformer模型得到的查询特征代表了与双手运动同步的身体特征信息,通过将所述查询特征分别与所述key特征和所述value特征进行预设次数的多头注意机制运算,可以进一步提高单手特征与身体特征的同步性。可选的,预测次数可以根据需要进行设置,对此不做限定,可选的,可以将预测次数设置为3次。在得到同步单手特征集合后,为了进一步使得两个手的特征可以进一步结合,并从整体上鼓励合并的双手特征与身体运动更加时序一致,先将两个所述同步单手特征集合的特征进行拼接,得到双手特征集合;然后将所述双手特征集合输入到训练获得的第二transformer模型的编码器中进行预设次数的多头注意机制运算后,可选的,在第二transformer模型的编码器中进行预设次数的多头注意机制运算时,先获取查询特征代以及与双手特征集合对应的key特征与value特征,然后将查询特征分别与该key特征与该value特征进行预设次数的多头注意机制运算。最后通过所述第二transformer模型的全连接层得到与所述待预测目标对应的预测手势。可选的,这里的全连接层可以设置为两层。可选的,若获得的所述身体特征为多个时刻的序列特征集合,即输入的是带预测目标的关节点位置序列集合,对应的预测手势则为包括多个预测手势的手势序列集合。
需要说明的是,在预测手势的模型训练阶段,可以通过计算预测的手势和真值之间的最小化绝对误差(Least Abosulote Error,LAE)作为模型的损失函数。并通过梯度下降算法来迭代地更新优化网络的权重参数,从而得到自然的预测3D手势。此外,在一些实施例中,还可以使用一个运动判别器来确保预测的手势是自然和连续的。
为了实现输出预测手势的多样性,在一些实施例中,在基于两个所述单手特征得到与所述待预测目标对应的预测手势之后,所述方法还包括:
确与所述预测手势对应的手势原型特征;
通过基于梯度的马尔可夫链蒙特卡洛采样得到所述手势原型特征的扰动参数;
基于所述扰动参数与所述手势原型特征生成与所述预测手势对应的其他预设手势。
在一些实施例中,确与所述预测手势对应的手势原型特征,具体包括:
将所述预测手势输入到训练获取的双手编码器中,并通过所述双手编码器的编码过程得到双手特征;
从预设手势原型特征集合中确定与所述双手特征最接近的手势原型特征。
具体实施时,确与所述预测手势对应的手势原型特征的具体过程可以根据需要进行选择,例如,可以直接将通过双手编码器的编码过程得到的双手特征作为手势原型特征。但是,考虑到通过双手编码器的编码过程得到的双手特征可能超出了模型本身的识别范围,容易导致最后生成的其他预设手势不可控,而且与原本生成的预测手势相差甚远。因此,会事先准备一个预设手势原型特征集合,并通过余弦相似度从该预设手势原型特征集合中确定与所述双手特征最接近的手势原型特征。
在一些实施例中,确定所述预设手势原型特征集合的过程包括:
在预测手势的模型训练阶段,构建初始手势原型特征集合,从所述初始手势原型特征集合中确定与目标样本双手特征最接近的原始手势原型特征,并基于预设原型更新公式不断更新所述原始手势原型特征,直到所述模型训练完成时,结束更新所述原始手势原型特征,以完成所述初始手势原型特征集合的更新,并将完成更新的所述初始手势原型特征集合确定为所述预设单手运动嵌入特征集合;
其中,所述预设原型更新公式为:
Figure BDA0004114978610000111
其中,β表示第三预设权值,
Figure BDA0004114978610000112
表示样本双手特征,mp表示更新前的单手运动嵌入特征,mp+1表示更新后的单手运动嵌入特征。
参考图2,为本申请实施例的另一种预测手势的方法的流程示意图,其中,先将带预测身体上半身(即身体上半身的关节点的坐标)输入到身体编码器中,由身体编码器的编码过程输出身体特征,然后将该身体特征分别输入第一MLP模型和第二MLP模型中,以分别得到第一单手特征和第二单手特征,然后将第一单手特征与身体特征经过第一空间残差记忆力池(第一预设空间残差集合)得到第一单手残差特征集合,并将第二单手特征与身体特征经过第二空间残差记忆力池(第二预设空间残差集合)得到第二单手残差特征集合,之后将身体特征以及第一单手残差特征集合和第二单手残差特征集合分别经过第一时序运动记忆池(第一预设单手运动嵌入特征集合)和第二时序运动记忆池(第二预设单手运动嵌入特征集合)得到第一单手时序特征集合和第二单手时序特征集合,接着将身体特征输入到身体Ttansformer编码器中得到查询特征Q,将第一单手时序特征集合输入到第一单手Ttansformer编码器中得到第一key特征与第一value特征,将第二单手时序特征集合输入到第二单手Ttansformer编码器中得到第二key特征与第二value特征,并将查询特征Q分别与第一key特征与第一value特征,以及第二key特征与第二value特征进行多次多头注意机制运算,得到第一同步单手特征集合和第二同步单手特征集合,之后将第一同步单手特征集合和第二同步单手特征集合进行拼接得到双手特征集合,并将双手特征集合输入到双手Ttansformer编码器中,在双手编码器中,同时输入了查询特征Q先进行多次多头注意机制运算,然后通过全连接层输出预测手势,在得到预测手势后,为了获取多样性的其他预测手势,将预测手势输入双手解码器中,获得与所述预测手势对应的双特征,并将该双手特征经过双手原型记忆力池(预设手势原型特征集合)得到手势原型特征,然后将随机初始化的噪声输入到采样头中,可选的,该随机初始化的噪声符合高斯分布。可选的,该采样头可以是训练获取的MLP模型,并在采用头中通过基于梯度的马尔可夫链蒙特卡洛采样(MCMC)得到所述手势原型特征的扰动参数,最后将扰动参数和手势原型特征输入到双手解码器中,输出其他预测手势。
本申请提供的预测手势的方法,获取待预测目标的身体特征;将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;基于两个所述单手特征得到与所述待预测目标对应的预测手势;其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出,从而通过两个分开训练的MLP模型分别获取两个手的单手特征,避免了双手的不对称运动所导致的被预测的手势不自然的问题。同时,本申请通过空间残差学习来模拟身体和每只手之间的空间关系,以及相邻手势之间的空间关系,并通过运动嵌入特征保证了双手的运动在时间上与上半身的顺序的一致性。此外,本申请还通过基于梯度的马尔可夫链蒙特卡洛(MCMC)采样获得3D手势的扰动,并利用该扰动参与手势的预测,从而获得多样性的预测结果。
示例性设备
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种预测手势的装置。
参考图3,所述预测手势的装置,包括:
获取模块201,获取待预测目标的身体特征;
特征提取模块202,将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;
预测模块203,基于两个所述单手特征得到与所述待预测目标对应的预测手势;
其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的系统用于实现前述任一实施例中相应的预测手势的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的预测手势的方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的预测手势的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
示例性程序产品
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的预测手势的方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的一种预测手势的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所在领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种预测手势的方法,其特征在于,包括:
获取待预测目标的身体特征;
将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;
基于两个所述单手特征得到与所述待预测目标对应的预测手势;
其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出。
2.根据权利要求1所述的方法,其特征在于,获取待预测目标的身体特征具体包括:
将所述待预测目标的身体关节点信息输入到训练获得的身体编码器中,并通过所述身体编码器的编码得到所述身体特征。
3.根据权利要求1所述的方法,其特征在于,基于所述MLP模型对应的单手真值来约束所述MLP模型的输出包括:
将所述MLP模型输出的单手特征输入到训练获得的与所述MLP模型对应的单手自动编码器中,并通过所述单手自动编码器的解码得到单手手势;
将所述MLP模型对应的单手真值输入到所述单手自动编码器的编码中,并通过所述单手自动编码器的编码和解码得到重建手势;
基于所述重建手势约束所述单手手势。
4.根据权利要求1所述的方法,其特征在于,所述身体特征为多个时刻的序列特征集合;基于两个所述单手特征得到与所述待预测目标对应的预测手势,具体包括:
对于每个所述MLP模型输出的单手特征,获取初始时刻对应的单手特征,确定相邻两个时刻对应的单手特征之间的空间残差,基于所述空间残差与所述初始时刻的单手特征确定除所述初始时刻之外的其他所有时刻对应的单手特征;
基于所述初始时刻对应的单手特征和所述其他所有时刻对应的单手特征组成每个所述MLP模型对应的针对所述身体特征的单手残差特征集合;
基于两个所述单手残差特征集合得到与所述待预测目标对应的预测手势。
5.根据权利要求4所述的方法,其特征在于,通过如下公式确定除所述初始时刻之外的其他所有时刻对应的单手特征:
Figure FDA0004114978600000021
其中,
Figure FDA0004114978600000022
表示t+1时刻对应的单手特征,/>
Figure FDA0004114978600000023
表示t时刻对应的单手特征,/>
Figure FDA0004114978600000024
表示t+1时刻对应的单手特征与t时刻对应的单手特征之间的空间依赖度;
其中,确定所述空间依赖度的过程包括:
确定t+1时刻对应的单手特征与t时刻对应的单手特征之间的目标空间残差,将所述目标空间残差进行矩阵转置后与t时刻对应的单手特征进行矩阵相乘,并将所述矩阵相乘的结果进行softmax操作得到所述空间依赖度。
6.根据权利要求4所述的方法,其特征在于,确定相邻两个时刻对应的单手特征之间的空间残差,具体包括:
从所述多个时刻的序列特征集合中确定当前时刻对应的序列特征;
从预设空间残差集合中确定与当前时刻对应的序列特征最相近的第一空间残差,并将所述第一空间残差确定为当前时刻对应的单手特征与下一时刻对应的单手特征之间的空间残差。
7.根据权利要求6所述的方法,其特征在于,确定所述预设空间残差集合的过程包括:
在预测手势的模型训练阶段,构建初始空间残差集合,从所述初始空间残差集合中确定与目标样本身体特征最相近的原始空间残差,并基于预设残差更新公式不断更新所述原始空间残差,直到所述模型训练完成时,结束更新所述原始空间残差,以完成所述初始空间残差集合的更新,并将完成更新的所述初始空间残差集合确定为所述预设空间残差集合;
其中,所述预设残差更新公式为:
Figure FDA0004114978600000025
其中,λ表示第一预设权值,
Figure FDA0004114978600000026
表示t时刻对应的样本单手特征,mr表示更新前的空间残差,mr+1表示更新后的空间残差。
8.根据权利要求4所述的方法,其特征在于,基于两个所述单手残差特征集合得到与所述待预测目标对应的预测手势,具体包括:
将所述待预测目标的身体关节点信息输入到训练获得的运动编码器中,并通过运动编码器的编码得到所述待预测目标的身体运动嵌入特征;
对于每个所述单手残差特征集合,在预设单手运动嵌入特征集合中确定与所述身体运动嵌入特征最一致的目标单手运动嵌入特征,将所述目标单手运动嵌入特征进行softmax操作后,与所述单手残差特征集合进行向量点积,并将所述向量点积的结果与所述单手残差特征集合相加得到单手时序特征集合;
基于两个所述单手时序特征集合得到与所述待预测目标对应的预测手势。
9.根据权利要求8所述的方法,其特征在于,确定所述预设单手运动嵌入特征集合的过程包括:
在预测手势的模型训练阶段,构建初始单手运动嵌入特征集合,从所述初始单手运动嵌入特征集合中确定与目标样本身体运动嵌入特征最相近的原始单手运动嵌入特征,并基于预设运动更新公式不断更新所述原始单手运动嵌入特征,直到所述模型训练完成时,结束更新所述原始单手运动嵌入特征,以完成所述初始单手运动嵌入特征集合的更新,并将完成更新的所述初始单手运动嵌入特征集合确定为所述预设单手运动嵌入特征集合;
其中,所述预设运动更新公式为:
Figure FDA0004114978600000031
其中,α表示第二预设权值,
Figure FDA0004114978600000032
表示样本身体运动嵌入特征,mn表示更新前的单手运动嵌入特征,mn+1表示更新后的单手运动嵌入特征。
10.根据权利要求8所述的方法,其特征在于,基于两个所述单手时序特征集合得到与所述待预测目标对应的预测手势,具体包括:
将所述身体特征输入到训练获得的第一transformer模型的编码器中,获得查询特征;
对于每个所述单手时序特征集合,将所述单手时序特征集合输入到与所述单手时序特征集合对应的transformer模型的编码器中,得到key特征与value特征,并将所述查询特征分别与所述key特征和所述value特征进行预设次数的多头注意机制运算,得到同步单手特征集合;
将两个所述同步单手特征集合的特征进行拼接,得到双手特征集合;
将所述双手特征集合输入到训练获得的第二transformer模型的编码器中进行预设次数的多头注意机制运算后,通过所述第二transformer模型的全连接层得到与所述待预测目标对应的预测手势。
11.根据权利要求1至10任一项所述的方法,其特征在于,在基于两个所述单手特征得到与所述待预测目标对应的预测手势之后,所述方法还包括:
确与所述预测手势对应的手势原型特征;
通过基于梯度的马尔可夫链蒙特卡洛采样得到所述手势原型特征的扰动参数;
基于所述扰动参数与所述手势原型特征生成与所述预测手势对应的其他预设手势。
12.根据权利要求11所述的方法,其特征在于,确与所述预测手势对应的手势原型特征,具体包括:
将所述预测手势输入到训练获取的双手编码器中,并通过所述双手编码器的编码过程得到双手特征;
从预设手势原型特征集合中确定与所述双手特征最接近的手势原型特征。
13.一种预测手势的装置,其特征在于,包括:
获取模块,获取待预测目标的身体特征;
特征提取模块,将所述身体特征分别输入到训练获取的两个MLP模型中,得到两个单手特征;
预测模块,基于两个所述单手特征得到与所述待预测目标对应的预测手势;
其中,训练每个所述MLP模型的过程包括:基于所述MLP模型对应的单手真值来约束所述MLP模型的输出。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至12中任意一项所述的方法。
15.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至12中任一项所述的方法。
CN202310210643.8A 2023-02-28 2023-02-28 预测手势的方法、装置、电子设备及存储介质 Pending CN116206367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310210643.8A CN116206367A (zh) 2023-02-28 2023-02-28 预测手势的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310210643.8A CN116206367A (zh) 2023-02-28 2023-02-28 预测手势的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116206367A true CN116206367A (zh) 2023-06-02

Family

ID=86509302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310210643.8A Pending CN116206367A (zh) 2023-02-28 2023-02-28 预测手势的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116206367A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490002A (zh) * 2023-12-28 2024-02-02 成都同飞科技有限责任公司 基于流量监测数据的供水管网流量预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490002A (zh) * 2023-12-28 2024-02-02 成都同飞科技有限责任公司 基于流量监测数据的供水管网流量预测方法及系统
CN117490002B (zh) * 2023-12-28 2024-03-08 成都同飞科技有限责任公司 基于流量监测数据的供水管网流量预测方法及系统

Similar Documents

Publication Publication Date Title
CN112001914B (zh) 深度图像补全的方法和装置
CN110612536B (zh) 神经机器翻译的逐深度可分离卷积
US10621422B2 (en) Method and apparatus for generating facial expression and training method for generating facial expression
US11308671B2 (en) Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
CN113850916A (zh) 模型训练、点云缺失补全方法、装置、设备及介质
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111046027A (zh) 时间序列数据的缺失值填充方法和装置
CN109754464B (zh) 用于生成信息的方法和装置
CN113792871A (zh) 神经网络训练方法、目标识别方法、装置和电子设备
WO2021220688A1 (en) Reinforcement learning model for labeling spatial relationships between images
WO2024125612A1 (zh) 任务处理模型的数据处理方法及虚拟人物动画生成方法
CN116206367A (zh) 预测手势的方法、装置、电子设备及存储介质
CN111970536B (zh) 一种基于音频生成视频的方法和装置
CN118212328A (zh) 使用生成模型的对应于用户输入的故事视频生成
CN116246213B (zh) 数据处理方法、装置、设备以及介质
CN113239799B (zh) 训练方法、识别方法、装置、电子设备和可读存储介质
CN115131475A (zh) 过渡帧生成方法、装置、设备及存储介质
CN114580425A (zh) 命名实体识别的方法和装置,以及电子设备和存储介质
JP2023535047A (ja) マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体
CN116977502A (zh) 运动重定向方法、装置、电子设备及计算机可读存储介质
CN115619903A (zh) 文本图像合成模型的训练、合成方法、装置、设备及介质
CN115063713A (zh) 视频生成模型的训练方法、视频生成方法、装置、电子设备及可读存储介质
CN116721185A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN117152467B (zh) 图像识别方法、装置、介质及电子设备
CN117271803B (zh) 知识图谱补全模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination