CN117456596A - 手势估计网络处理方法、装置、设备及介质 - Google Patents

手势估计网络处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN117456596A
CN117456596A CN202210835582.XA CN202210835582A CN117456596A CN 117456596 A CN117456596 A CN 117456596A CN 202210835582 A CN202210835582 A CN 202210835582A CN 117456596 A CN117456596 A CN 117456596A
Authority
CN
China
Prior art keywords
gesture
image
simulation
real image
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210835582.XA
Other languages
English (en)
Inventor
闻超
薛舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202210835582.XA priority Critical patent/CN117456596A/zh
Publication of CN117456596A publication Critical patent/CN117456596A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种手势估计网络处理方法、装置、设备及存储介质,所述方法包括:获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。可以得到与手势真实图像接近的手势半真实图像,并且,手势半真实图像具有位置精准的手势关键点,因此无需人工标定图像中的手势关键点,降低了手势网络的训练难度,也能提高手势估计网络对手势真实图像的处理效果。

Description

手势估计网络处理方法、装置、设备及介质
技术领域
本公开涉及手势估计处理领域,尤其涉及一种手势估计网络处理方法、装置、设备及介质。
背景技术
随着人工智能技术的不断成熟,越来越多的应用场景开始支持人机交互,而手势交互则是一种常见的人机交互方式。
为了实现手势交互,相关技术需要预先利用手势真实图像训练手势估计网络,然后利用训练好的手势估计网络进行手势识别。然而,用于训练手势估计网络的手势真实图像存在人工标记准确性低的问题,使得训练得到的手势估计网络进行手势估计处理时的准确性较差。因此,利用非人工标记的图像训练手势估计网络,以提高手势估计处理效果,是亟需解决的技术问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种手势估计网络处理方法、装置、设备及介质,无需人工标定图像中的手势关键点,也能提高手势估计网络对手势真实图像的处理效果。
第一方面,本公开提供了一种手势估计网络处理方法,该方法包括:
获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;
对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;
基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
第二方面,本公开提供了一种手势估计网络处理装置,该装置包括:
手势仿真获取模块,用于获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;
手势半真实图像生成模块,用于对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;
手势估计处理模块,用于基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述的方法。
第四方面,本公开提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。
第五方面,本公开提供了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述的方法。
本公开实施例提供的技术方案与现有技术相比至少具有如下优点:
本公开实施例提供了一种手势估计网络处理方法、装置、设备及介质,获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。通过上述过程,可以得到与手势真实图像接近的手势半真实图像,并且,手势半真实图像具有位置精准的手势关键点,因此无需人工标定图像中的手势关键点,降低了手势网络的训练难度,也能提高手势估计网络对手势真实图像的处理效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种手势估计网络处理方法的流程示意图;
图2为本公开实施例提供的一种手势估计网络处理方法的逻辑示意图;
图3为本公开实施例提供的另一种手势估计网络处理方法的流程示意图;
图4为本公开实施例提供的又一种手势估计网络处理方法的流程示意图;
图5为本公开实施例提供的一种手势估计网络处理装置的结构示意图;
图6为本公开实施例提供的一种手势估计网络处理设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
在很多手势交互场景中需要对不同的手势图像进行手势估计。手势估计过程需要训练手势估计网络。其中,手势估计网络的训练样本包括手势真实图像和人工标记的手势关键点。但是,在手势真实图像中标记手势关键点的难度很大,无法标记出准确的手势关键点的,并且,部分手势存在自遮挡问题,进一步提高了手势关键点的标记难度。
为了提高手势关键点的标记准确性,现有技术首先采用多目相机联合标定方法解决手势自遮挡问题,然后采用人工标记与机器标记结合的方式,标记手势关键点。这种方式虽然在一定程度上解决手势自遮挡问题,但是手势关键点的标定精度受限于人工标定精度与机器估计精度,因此也无法解决手势关键点的准确性较差的问题。
同样,为了提高手势关键点的标记准确性,现有技术通过在手部增加额外信息,如利用手套/光球/led/手部磨具等外设组件,辅助标记手势关键点。这种方式通常能在物理上获得相对更精确的手势关键点,但制作成本高、制作难度大,并且上述外设组件会导致数据的通用性和网络的通用性下降,因此,适用性较差。
为了克服上述问题,现有技术从仿真的角度出发,制作手势仿真图像作为手势估计网络的训练样本。其中,手势仿真图像的优点是:具有绝对准确的手势关键点,同时也能轻易的提供大量数据用于训练。但是,利用仿真图像训练手势估计网络的缺点是:手势仿真图像与手势真实图像的差异较大,导致训练出的手势估计网络对手势真实图像的处理效果不好。
为了进一步的提高手势估计网络的训练准确性,现有技术还采用叠加手势仿真图和手势真实图的方式获得手势半真实图像,并通过叠加的方式生成手势半真实图像,然后利用手势半真实图像训练手势估计网络。然而,这种方式也存在缺点,缺点一:生成的手势半真实图像依赖于手势真实图的手势,无法扩展到其他手势,导致无法对多样化的手势真实图像进行手势估计处理;缺点二:生成的手势半真实图像与真实环境的差异较大,也会导致训练得到的手势估计网络对手势真实图像的处理效果较差。
为了解决上述问题,本公开实施提供了一种手势估计网络处理方法、装置、设备及介质,能够生成与手势真实图像的真实环境接近的手势半真实图像,并且无需人工标定图像中的手势关键点,提高了手势网络的训练准确性,最终提高手势估计网络对手势真实图像的处理效果。
下面,首先结合图1对本公开实施例提供的手势估计网络处理方法进行说明。
图1示出了本公开实施例提供的一种手势估计网络处理方法的流程示意图。
图1所示的手势估计网络处理方法可以由手势估计网络处理设备执行。该手势估计网络处理设备可以为服务器。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图1所示,该手势估计网络处理方法可以包括如下步骤。
S110、获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点。
实际应用时,为了提高手势估计网络对手势真实图像的处理效果,需要获取多种手势对应的手势仿真图像,进而基于手势仿真图像生成用于训练手势估计网络的多种手势对应的手势半真实图像。
在本公开实施例中,多种手势可以是包括简单手势、复杂手势以及重叠手势等。
在本公开实施例中,手势仿真图像是基于手部模型仿真得到的非真实的手势图像。
可以理解的是,由于手势模型具有绝对的三维坐标,则手势仿真图像具有位置精准的手势关键点,因此,对于手势仿真图像,不需要人工标记手势关键点。另外,手势仿真图像是多种手势对应的仿真图像,因此能够外推到任意的手势,提高了手势多样性。
S120、对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境。
实际应用时,由于手势仿真图像是由手部模型仿真得到,因此手势仿真图像与手势真实模型的场景元素存在较大差异,为了得到与手势真实图像接近的图像,需要将真实场景中的场景元素添加到手势仿真图像,从而生成与手势真实图像的真实环境接近的手势半真实图像。
在本公开实施例中,真实环境是指做出手势时的实际环境。相应的,场景元素是指真实环境中的环境要素。
可选的,场景元素可以包括背景、噪声等元素。
在一些实施例中,S120具体可以包括如下步骤:
利用预先训练好的图像生成网络,对手势仿真图像添加场景元素,生成手势半真实图像,其中,图像生成网络基于样本手势仿真图像和样本手势真实图像训练得到。
具体的,由于图像生成网络基于样本手势仿真图像和样本手势真实图像训练得到,使得图像生成网络具有将手势仿真图像转换成与手势真实图像的能力。
可以理解的是,由于手势半真实图像中添加真实场景元素,使得生成的手势半真实图像与手势真实图像接近。
其中,样本手势仿真图像可以是基于手部模型生成手势仿真图像。样本手势真实图像可以是真实拍摄的图像。
可选的,图像生成网络可以是生成式对抗网络(Generative AdversarialNetworks,GAN网络),也可以是其他类型的网络。
在另一些实施例中,S120具体可以包括如下步骤:
从预先确定的多种场景元素中选择与手势仿真图像匹配的场景元素,并将与手势仿真图像匹配的场景元素添加到手势仿真图像中,得到手势半真实图像。
具体的,可以预先确定多个手势真实图像的场景元素,在获取到手势仿真图像之后,可以查找与该手势仿真图像匹配的场景元素,该场景元素能够用于模拟表征该手势仿真图像的真实环境,则将与手势仿真图像匹配的场景元素添加到手势仿真图像中,得到与手势真实图像接近的手势半真实图像。
由此,在本公开实施例中,通过对手势仿真图像添加场景元素,能够生成与手势真实图像接近的手势半真实图像,因此可以有效还原各种手势的真实环境。
S130、基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
实际应用时,可以将手势半真实图像作为手势估计网络的输入数据,将手势半真实图像中的手势关键点作为标签,则由输入数据和标签迭代训练手势估计网络,得到训练完成的手势估计网络。
需要说明的是,无论是简单手势还是存在部分遮挡的手势,其对应的手势仿真图像都具有位置精准的手势关键点,基于手势仿真图像生成手势半真实图像之后,手势关键点的位置保持不变,因此,尽管手势中存在部分遮挡,手势半仿真图像也具有位置精准的手势关键点。
可选的,手势估计网络可以是任意一种神经网络,例如,卷积神经网络、深度卷积神经网络等。
由此,在本公开实施例中,在进行手势估计网络训练时,无需人工标记手势关键点,并且能够得到大量的手势半真实图像,因此降低了手势估计网络的训练难度,也能保证手势估计网络对手势真实图像的手势估计处理能力。
为了便于整体理解上述手部模型、图像生成网络以及手势估计网络的执行逻辑。图2示出了本公开实施例提供的一种手势估计网络处理方法的逻辑示意图。
如图2所示,首先,利用手部模型基于多个角度生成多种手势对应的手势仿真图像;然后,将多种手势对应的手势仿真图像输入预先训练好的图像生成网络,使得利用预先训练好的图像生成网络对手势仿真图像添加场景元素,生成手势半真实图像;最后,利用手势半真实图像和手势半真实图像中的手势关键点进行模型训练,得到进行手势估计处理的训练好的手势估计网络。
本公开实施例提供了一种手势估计网络处理方法,获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。通过上述过程,可以得到与手势真实图像接近的手势半真实图像,并且,手势半真实图像具有位置精准的手势关键点,因此无需人工标定图像中的手势关键点,降低了手势网络的训练难度,也能提高手势估计网络对手势真实图像的处理效果。
在本公开另一种实施方式中,为了提升手势半真实图像的泛化能力,进而提升手势估计网络的处理效果,可以结合手势真实图像的手势特征数据,生成大量的手势仿真图像,进一步实现对手势半真实图像的数据增强效果。
图3示出了本公开实施例提供的另一种手势估计网络处理方法的流程示意图。如图3所示,该手势估计网络处理方法可以包括如下步骤。
S310、获取多种手势对应的手势真实图像。
在本公开实施例中,手势真实图像是指对多种手势拍摄的真实图像。
其中,手势真实图像包括手势和手势对应的真实环境。
S320、确定手势真实图像的手势特征数据。
实际应用时,由于手势真实图像是实际拍摄的手势图像,不具有位置绝对准确的手势关键点,则需要对手势真实图像中手势关键点进行识别以及进行手势特征分析,得到手势特征数据。
在本公开实施例中,手势特征数据是指基于手势关键点确定的手势特征。
可选的,手势特征数据可以包括手掌朝向、指关节弯曲度、手掌大小以及手指粗细程度。
在本公开实施例中,可选的,S320可以通过如下方式实现:
利用预先训练得到的初步手势估计网络,对手势真实图像进行手势估计处理,得到手势真实图像的手势关键点;
基于手势真实图像的手势关键点,对手势真实图像进行手势特征分析,得到手势真实图像的手势特征数据。
其中,初步手势估计网络可以利用已有的手势真实图像和手势真实图像中的手势关键点训练得到。
其中,基于手势真实图像的手势关键点,对手势真实图像进行手势特征分析,得到手势真实图像的手势特征数据,可以通过以下至少一种方式实现:
基于手势关键点,对手势真实图像进行手掌朝向分析,得到手掌朝向,并将手掌朝向作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行指关节弯曲度分析,得到指关节弯曲度,并将指关节弯曲度作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行手掌大小分析,得到手掌大小,并将手掌大小作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行手指粗细程度分析,得到手指粗细程度,并将手指粗细程度手势真实图像的手势特征数据。
具体的,针对手掌朝向,可以基于手指关键点的三维坐标和手腕关键点的三维坐标进行确定,并将手掌朝向作为手势真实图像的手势特征数据;针对指关节弯曲度,可以基于相邻的手指关节的位置进行确定,并将指关节弯曲度作为手势真实图像的手势特征数据;针对手掌大小,可以基于手掌骨架的大小进行确定,并将手掌大小作为手势真实图像的手势特征数据;针对手指粗细程度,可以基于手指骨架的大小进行确定,并将手指粗细程度作为手势真实图像的手势特征数据。
由此,在本公开实施例中,能够基于手势真实图像的手势关键点,确定手势真实图像的多样化的手势特征数据。
S330、基于手势特征数据,生成多种手势对应的手势仿真图像。
在本公开实施例中,可选的,S330可以通过如下方式实现:
利用预设的手部模型,生成初步手势仿真图像;
基于手势特征数据和初步手势仿真图像的关键点分布范围,生成位于关键点分布范围外的新增手势仿真图像以及位于关键点分布范围内的新增手势仿真图像;
将初步手势仿真图像、位于关键点分布范围外的新增手势仿真图像以及位于关键点分布范围内的新增手势仿真图像,作为多种手势对应的手势仿真图像。
其中,初步手势仿真图像可以是已生成的少量的手势仿真图像。可选的,初步手势仿真图像可以包括训练集和测试集。
其中,位于关键点分布范围外的新增手势仿真图像是指不属于手势仿真图像的手势仿真图像。位于关键点分布范围内的新增手势仿真图像是指属于初步手势仿真图像的手势仿真图像。
由此,在本公开实施例中,能够基于手势真实图像的多样化的手势特征数据,生成多种手势对应的手势仿真图像,因此提高了手势仿真图像数量和类型,最终提高了手势仿真图像的泛化能力。
另外,若位于关键点分布范围外的新增手势仿真图像作为训练集,则位于关键点分布范围外的新增手势仿真图像能够提高训练集的泛化能力,若位于关键点分布范围内的新增手势仿真图像作为测试集,则位于关键点分布范围内的新增手势仿真图像能够提高训练集的泛化能力。由此,可以避免训练集的手势仿真图像和测试集的手势仿真图像差异较大。
S340、对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境。
S350、基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
基于上述步骤可知,由于基于手势真实图像的多样化的手势特征数据,生成多种手势对应的手势仿真图像,则可以实现对手势板真实图像的数据增强效果,因此,降低了训练样本的生产难度和生产成本,同时也保证了手势估计网络的训练效果。
在本公开又一种实施方式中,为了生成符合实际手势且丰富度较高的手势仿真图像,可以基于自然运动轴的手部模型生成手势仿真图像。
图4示出了本公开实施例提供的又一种手势估计网络处理方法的流程示意图。如图4所示,该手势估计网络处理方法可以包括如下步骤。
S410、将多种手势对应的多个角度输入第一自由度对应的手部模型,得到第一自由度对应的手势图像,其中,第一自由度根据每个手势的手指关节的坐标轴数量确定。
实际应用时,当采用第一自由度对应的手部模型生成手势仿真图像时,根据每个手势的手指关节的坐标轴数量,确定多种手势对应的多个角度,并将多种手势对应的多个角度输入第一自由度对应的手部模型,从而输出第一自由度对应的手势图像。
在本公开实施例中,每个手势下的手指关节对应3个坐标轴,分别是X、Y、Z,每个手指有3个手指关节,并且,每个手势有5个手指,由此,每个手势可以对应45个角度。相应的,第一自由度可以是45自由度(Degree of Freedom,DOF)。
在本公开实施例中,可选的,S410具体可以包括如下步骤:
利用第一自由度对应的手部模型,基于多种手势对应的多个角度,计算各手势下的手指在自然运动方向上的旋转角度和/或弯曲角度;
对自然运动方向上的旋转角度和/或弯曲角度进行阈值限定和去噪处理,得到优化后的旋转角度和/或弯曲角度;
基于优化后的旋转角度和/或弯曲角度,生成第一自由度对应的手势图像。
其中,自然运动方向是指每个手指实际可运动的方向。例如,手指的自然运动方向可以是向前弯曲或者向后弯曲,手指关节的自然运动方向可以是自旋转。
具体的,以第一自由度是45自由度为例,45自由度的手部模型可以首先基于45个角度,计算每个手指向前弯曲的角度、向后弯曲的角度以及手指关节的自旋角,然后利用向前弯曲的角度阈值、向后弯曲的角度阈值以及手指关节的自旋角阈值,对上述角度进行阈值限定以及去噪处理,从而将不符合实际情况的向前弯曲的角度、向后弯曲的角度以及手指关节的自旋角剔除,保留符合实际情况的角度。例如,每个手指的第二个手指关节和第三个手指关节不应该发生左右偏移角,则需要将该左右偏移角剔除。
S420、将第一自由度对应的手势图像,作为多种手势对应的手势仿真图像。
在本公开实施例中,第一自由度对应的手势图像可以是手部模型得到的仿真图像,则可以将第一自由度对应的手势图像,直接作为多种手势对应的手势仿真图像。
由此,在本公开实施例中,通过将手指在自然运动方向上的旋转角度和/或弯曲角度进行阈值限定和去噪处理,能够剔除不符合实际情况的角度,因此能够避免生成与实际手势不相符的手势仿真图像。
S430、将多种手势对应的多个角度输入第二自由度对应的手部模型,得到第二自由度对应的手势图像,其中,第二自由度根据每个手势的手指运动方向确定。
实际应用时,当采用第二自由度对应的手部模型生成手势仿真图像时,根据每个手势的手指的运动方向,确定多种手势对应的多个角度,并将多种手势对应的多个角度输入第二自由度对应的手部模型,从而输出第二自由度对应的手势图像。
在本公开实施例中,每个手势包括4个手指运动方向,分别是:前、后、左、右,并且,每个手势有5个手指,由此,每个手势可以对应20个角度。相应的,第二自由度可以是20DOF。
S440、确定第二自由度对应的手部模型和第二自由度手部模型之间的转换关系。
需要说明的是,利用20DOF的手部模型生成的手势仿真图像,相比于利用45DOF的手部模型生成的手势仿真图像来说,更符合人类手指的自然运动规律,也就是说,利用20DOF的手部模型生成的手势仿真图像更符合实际手势。由此可以将20DOF的手部模型和45DOF的手部模型结合生成多种手势对应的手势仿真图像。
实际应用时,能够基于同一手势的手势关键点,确定第一自由度对应的手部模型和第二自由度手部模型之间的转换关系。
S450、基于转换关系,将第二自由度对应的手势图像转化为第一自由度对应的手势图像。
实际应用时,在得到第二自由度对应的手势图像之后,根据该转换关系将第二自由度对应的手势图像转换为第一自由度对应的手势图像,从而得到多种手势对应的手势仿真图像,每个手势对应的手势仿真图像具有坐标绝对准确的手势关键点。
其中,第一自由度对应的手部模型是20DOF的手部模型,第二自由度对应的手部模型是45DOF的手部模型。具体的,利用20DOF的手部模型生成对应的手势图像之后,可以利用20DOF的手部模型与45DOF的手部模型之间的转换关系,将20DOF的手部模型生成对应的手势图像转换回45DOF的手部模型,由此可以得到45DOF对应的手势图像以及该手势图像中的手势关键点。
S460、将第一自由度对应的手势图像作为多种手势对应的手势仿真图像。
由此,在本公开实施例中,能够利用两个自由度的手部模型生成符合人体自然运动规律且手势丰富的手势仿真图像,在保证手势仿真图像的手势多样性的同时,也能保证手势仿真图像的可靠性。
S470、对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境。
S480、基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
基于上述步骤可知,能够单独基于第一自由度对应的手部模型,生成多种手势对应的手势仿真图像,或者结合第一自由度对应的手部模型和第二自由度对应的手部模型,生成多种手势对应的手势仿真图像,由此能够生成符合人体自然运动规律且手势丰富的手势仿真图像,降低了训练样本的生产难度和生产成本,同时也能提高手势估计网络的训练效果。
与上述方法实施例基于同一个发明构思,本公开还提供了一种手势估计网络处理装置,参考图5,为本公开实施例提供的一种手势估计网络处理装置的结构示意图,装置包括:
手势仿真获取模块501,用于获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;
手势半真实图像生成模块502,用于对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;
手势估计处理模块503,用于基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
本公开实施例提供了一种手势估计网络处理装置,获取多种手势对应的手势仿真图像,其中,手势仿真图像包括手势关键点;对手势仿真图像添加场景元素,生成手势半真实图像,其中,场景元素用于模拟表征手势仿真图像对应的真实环境;基于手势半真实图像以及手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。通过上述过程,可以得到与手势真实图像接近的手势半真实图像,并且,手势半真实图像具有位置精准的手势关键点,因此无需人工标定图像中的手势关键点,降低了手势网络的训练难度,也能提高手势估计网络对手势真实图像的处理效果。
一种可选的实施方式中,手势半真实图像生成模块502具体用于,利用预先训练好的图像生成网络,对手势仿真图像添加场景元素,生成手势半真实图像,其中,图像生成网络基于样本手势仿真图像和样本手势真实图像训练得到。
一种可选的实施方式中,手势仿真获取模块501,包括:
手势真实图像单元,用于获取多种手势对应的手势真实图像;
手势特征数据确定单元,用于确定手势真实图像的手势特征数据;
手势仿真图像生成单元,用于基于手势特征数据,生成多种手势对应的手势仿真图像。
一种可选的实施方式中,分布特征确定单元具体用于,利用预先训练得到的初步手势估计网络,对手势真实图像进行手势估计处理,得到手势真实图像的手势关键点;
基于手势真实图像的手势关键点,对手势真实图像进行手势特征分析,得到手势真实图像的手势特征数据。
一种可选的实施方式中,分布特征确定单元具体用于执行以下至少一种:
基于手势关键点,对手势真实图像进行手掌朝向分析,得到手掌朝向,并将手掌朝向作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行指关节弯曲度分析,得到指关节弯曲度,并将指关节弯曲度作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行手掌大小分析,得到手掌大小,并将手掌大小作为手势真实图像的手势特征数据;
基于手势关键点,对手势真实图像进行手指粗细程度分析,得到手指粗细程度,并将手指粗细程度手势真实图像的手势特征数据。
一种可选的实施方式中,手势仿真图像生成单元具体用于,利用预设的手部模型,生成初步手势仿真图像;
基于手势特征数据和初步手势仿真图像的关键点分布范围,生成位于关键点分布范围外的新增手势仿真图像以及位于关键点分布范围内的新增手势仿真图像;
将初步手势仿真图像、位于关键点分布范围外的新增手势仿真图像以及位于关键点分布范围内的新增手势仿真图像,作为多种手势对应的手势仿真图像。
一种可选的实施方式中,手势仿真获取模块501,包括:
第一图像生成单元,用于将多种手势对应的多个角度输入第一自由度对应的手部模型,得到第一自由度对应的手势图像,其中,第一自由度根据每个手势的手指关节的坐标轴数量确定;
第一图像确定单元,用于将第一自由度对应的手势图像,作为多种手势对应的手势仿真图像。
一种可选的实施方式中,第一图像生成单元具体用于,利用第一自由度对应的手部模型,基于多种手势对应的多个角度,计算各手势下的手指在自然运动方向上的旋转角度和/或弯曲角度;
对自然运动方向上的旋转角度和/或弯曲角度进行阈值限定和去噪处理,得到优化后的旋转角度和/或弯曲角度;
基于优化后的旋转角度和/或弯曲角度,生成第一自由度对应的手势图像。
一种可选的实施方式中,手势仿真获取模块501,包括:
第二图像确定单元,用于将多种手势对应的多个角度输入第二自由度对应的手部模型,得到第二自由度对应的手势图像,其中,第二自由度根据每个手势的手指运动方向确定;
转换关系确定单元,用于确定第一自由度对应的手部模型和第二自由度手部模型之间的转换关系;
手势图像转换单元,用于基于转换关系,将第二自由度对应的手势图像转化为第一自由度对应的手势图像;
手势仿真图像确定单元,用于将第一自由度对应的手势图像作为多种手势对应的手势仿真图像。
除了上述方法和装置以外,本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备实现本公开实施例的手势估计网络处理方法。
本公开实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序/指令,计算机程序/指令被处理器执行时实现本公开实施例的手势估计网络处理方法。
另外,本公开实施例还提供了一种手势估计网络处理设备,参见图6所示,可以包括:
处理器601、存储器602、输入装置603和输出装置604。手势估计网络处理设备中的处理器601的数量可以一个或多个,图6中以一个处理器为例。在本公开的一些实施例中,处理器601、存储器602、输入装置603和输出装置604可通过总线或其它方式连接,其中,图6中以通过总线连接为例。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行手势估计网络处理设备的各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置603可用于接收输入的数字或字符信息,以及产生与手势估计网络处理设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现上述手势估计网络处理设备的各种功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种手势估计网络处理方法,其特征在于,所述方法包括:
获取多种手势对应的手势仿真图像,其中,所述手势仿真图像包括手势关键点;
对所述手势仿真图像添加场景元素,生成手势半真实图像,其中,所述场景元素用于模拟表征所述手势仿真图像对应的真实环境;
基于所述手势半真实图像以及所述手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述手势仿真图像添加场景元素,生成手势半真实图像,包括:
利用预先训练好的图像生成网络,对所述手势仿真图像添加场景元素,生成所述手势半真实图像,其中,所述图像生成网络基于样本手势仿真图像和样本手势真实图像训练得到。
3.根据权利要求1所述的方法,其特征在于,所述获取多种手势对应的手势仿真图像,包括:
获取所述多种手势对应的手势真实图像;
确定所述手势真实图像的手势特征数据;
基于所述手势特征数据,生成所述多种手势对应的手势仿真图像。
4.根据权利要求3所述的方法,其特征在于,所述确定所述手势真实图像的手势特征数据,包括:
利用预先训练得到的初步手势估计网络,对所述手势真实图像进行手势估计处理,得到所述手势真实图像的手势关键点;
基于所述手势真实图像的手势关键点,对所述手势真实图像进行手势特征分析,得到所述手势真实图像的手势特征数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述手势真实图像的手势关键点,对所述手势真实图像进行手势特征分析,得到所述手势真实图像的手势特征数据,包括以下至少一种:
基于所述手势关键点,对所述手势真实图像进行手掌朝向分析,得到手掌朝向,并将所述手掌朝向作为所述手势真实图像的手势特征数据;
基于所述手势关键点,对所述手势真实图像进行指关节弯曲度分析,得到指关节弯曲度,并将所述指关节弯曲度作为所述手势真实图像的手势特征数据;
基于所述手势关键点,对所述手势真实图像进行手掌大小分析,得到手掌大小,并将所述手掌大小作为所述手势真实图像的手势特征数据;
基于所述手势关键点,对所述手势真实图像进行手指粗细程度分析,得到手指粗细程度,并将所述手指粗细程度所述手势真实图像的手势特征数据。
6.根据权利要求3所述的方法,其特征在于,所述基于所述手势特征数据,生成所述多种手势对应的手势仿真图像,包括:
利用预设的手部模型,生成初步手势仿真图像;
基于所述手势特征数据和所述初步手势仿真图像的关键点分布范围,生成位于所述关键点分布范围外的新增手势仿真图像以及位于所述关键点分布范围内的新增手势仿真图像;
将所述初步手势仿真图像、位于所述关键点分布范围外的新增手势仿真图像以及位于所述关键点分布范围内的新增手势仿真图像,作为所述多种手势对应的手势仿真图像。
7.根据权利要求1所述的方法,其特征在于,所述获取多种手势对应的手势仿真图像,包括:
将多种手势对应的多个角度输入第一自由度对应的手部模型,得到所述第一自由度对应的手势图像,其中,所述第一自由度根据每个手势的手指关节的坐标轴数量确定;
将第一自由度对应的手势图像,作为所述多种手势对应的手势仿真图像。
8.根据权利要求7所述的方法,其特征在于,所述将多种手势对应的多个角度输入第一自由度对应的手部模型,得到所述第一自由度对应的手势图像,包括:
利用所述第一自由度对应的手部模型,基于所述多种手势对应的多个角度,计算各手势下的手指在自然运动方向上的旋转角度和/或弯曲角度;
对所述自然运动方向上的旋转角度和/或弯曲角度进行阈值限定和去噪处理,得到优化后的旋转角度和/或弯曲角度;
基于所述优化后的旋转角度和/或弯曲角度,生成所述第一自由度对应的手势图像。
9.根据权利要求1所述的方法,其特征在于,所述获取多种手势对应的手势仿真图像,包括:
将多种手势对应的多个角度输入第二自由度对应的手部模型,得到所述第二自由度对应的手势图像,其中,所述第二自由度根据每个手势的手指运动方向确定;
确定第一自由度对应的手部模型和第二自由度手部模型之间的转换关系;
基于所述转换关系,将所述第二自由度对应的手势图像转化为第一自由度对应的手势图像;
将所述第一自由度对应的手势图像作为所述多种手势对应的手势仿真图像。
10.一种手势估计网络处理装置,其特征在于,所述装置包括:
手势仿真获取模块,用于获取多种手势对应的手势仿真图像,其中,所述手势仿真图像包括手势关键点;
手势半真实图像生成模块,用于对所述手势仿真图像添加场景元素,生成手势半真实图像,其中,所述场景元素用于模拟表征所述手势仿真图像对应的真实环境;
手势估计处理模块,用于基于所述手势半真实图像以及所述手势半真实图像中的手势关键点,训练手势估计网络进行手势估计处理。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-9任一项所述的方法。
12.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-9任一项所述的方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如权利要求1-9任一项所述的方法。
CN202210835582.XA 2022-07-15 2022-07-15 手势估计网络处理方法、装置、设备及介质 Pending CN117456596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210835582.XA CN117456596A (zh) 2022-07-15 2022-07-15 手势估计网络处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210835582.XA CN117456596A (zh) 2022-07-15 2022-07-15 手势估计网络处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117456596A true CN117456596A (zh) 2024-01-26

Family

ID=89586122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210835582.XA Pending CN117456596A (zh) 2022-07-15 2022-07-15 手势估计网络处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117456596A (zh)

Similar Documents

Publication Publication Date Title
CN110991319B (zh) 手部关键点检测方法、手势识别方法及相关装置
CN108369643B (zh) 用于3d手部骨架跟踪的方法和系统
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
CN107428004B (zh) 对象数据的自动收集和标记
CN111402290B (zh) 一种基于骨骼关键点的动作还原方法以及装置
CN104732203B (zh) 一种基于视频信息的情绪识别与跟踪方法
CN109359539B (zh) 注意力评估方法、装置、终端设备及计算机可读存储介质
CN111208783B (zh) 一种动作模仿方法、装置、终端及计算机存储介质
CN109732593B (zh) 一种机器人的远端控制方法、装置及终端设备
CN110633608A (zh) 一种姿态图像的人体肢体相似度评估方法
CN109840508A (zh) 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
US20170193288A1 (en) Detection of hand gestures using gesture language discrete values
CN111768472A (zh) 虚拟试衣方法及装置、计算机可存储介质
US20160364321A1 (en) Emulating a user performing spatial gestures
CN107553496A (zh) 机械臂逆运动学求解方法误差的确定及校正方法和装置
Lee et al. Control framework for collaborative robot using imitation learning-based teleoperation from human digital twin to robot digital twin
He et al. A generative feature-to-image robotic vision framework for 6D pose measurement of metal parts
CN113119104A (zh) 机械臂控制方法、机械臂控制装置、计算设备及系统
CN111080755A (zh) 一种运动解算方法、装置、存储介质及电子设备
CN111168676A (zh) 机械臂手眼协作绘画方法、装置、绘画机器人及介质
CN108509924B (zh) 人体姿态的评分方法和装置
Corke et al. What can robotics research learn from computer vision research?
CN112911266A (zh) 基于增强现实技术的物联网实训系统的实现方法及系统
Li et al. Quantized self-supervised local feature for real-time robot indirect VSLAM
CN117456596A (zh) 手势估计网络处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination