CN116092178A - 一种面向移动端的手势识别和跟踪方法及系统 - Google Patents

一种面向移动端的手势识别和跟踪方法及系统 Download PDF

Info

Publication number
CN116092178A
CN116092178A CN202211488944.9A CN202211488944A CN116092178A CN 116092178 A CN116092178 A CN 116092178A CN 202211488944 A CN202211488944 A CN 202211488944A CN 116092178 A CN116092178 A CN 116092178A
Authority
CN
China
Prior art keywords
hand
gesture
model
module
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211488944.9A
Other languages
English (en)
Inventor
陈睿明
曹邹颖
范思远
高耕
顾枢衡
李明泽
荣逸鹏
杨飞
张子腾
周浩然
宋沫飞
耿新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211488944.9A priority Critical patent/CN116092178A/zh
Publication of CN116092178A publication Critical patent/CN116092178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • G06T3/047Fisheye or wide-angle transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种面向移动端的手势识别和跟踪方法及系统,包括:手部图像检测模块至少包括YOLOv5的手部检测模型,将原始图像输入手部检测模型进行处理,输出包括检测框、左手置信度、右手置信度及是否有手的置信度的手部图像检测结果;手势估计模块至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;三维转换模块利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg‑Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。

Description

一种面向移动端的手势识别和跟踪方法及系统
技术领域
本发明属于图像处理技术领域,涉及一种手势跟踪及估计的方法,主要涉及了一种面向移动端的手势识别和跟踪方法及系统。
背景技术
目前,VR等设备快速发展,对手势交互有着越来越强烈的需求。设备需要根据用户的手势,准确判断其采取的一系列行动,并作出各种丰富的响应。
然而,现有的手势估计方法往往采用较大的模型,无法部署在资源较少的移动端设备上;当前轻量化的模型往往存在精确度较低,三维预测结果不准确的问题。这些原因,制约着移动端设备上手势估计方法的应用。例如,VR眼镜作为移动端设备的其中一种,要求模型尽可能小,运算速度尽可能快,同时,稳定性、准确率都需要达到较高的水平。
发明内容
本发明正是针对现有手势估计方法无法成功部署在移动端设备的问题,提供一种面向移动端的手势识别和跟踪方法及系统,包括手部图像检测模块、手势估计模块及三维转换模块,手部图像检测模块至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;三维转换模块利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。本案方法和系统在保证手势准确率的同时,也满足了可部署到移动端要求的问题。
为了实现上述目的,本发明采取的技术方案是:一种面向移动端的手势识别和跟踪系统,包括手部图像检测模块、手势估计模块及三维转换模块,
所述手部图像检测模块,至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
所述手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;
所述三维转换模块,利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。
为了实现上述目的,本发明还采取的技术方案是:一种面向移动端的手势识别和跟踪方法,包括以下步骤:
S1,手部图像检测:将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部检测模型为YOLOv5,其手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
S2,手部图像预处理:对经过步骤S1检测到的手部图像进行预处理,所属预处理至少包括对检测框裁剪图片、缩放大小并进行图像填充;
S3,关键点估计:将经过步骤S2预处理后的手部图片输入手势估计模型进行处理,输出21个手势关键点;所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNetV2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层;
S4,坐标转换:将数据增强后的裁剪框作为原裁剪框,模型输入大小作为目标裁剪框,进行仿射变换,从而得到相应的变换矩阵及其逆矩阵,利用逆变换矩阵,模型预测的关键点坐标转换为完整图像对应的关键点坐标;
S5,结果输出:经过步骤S4的坐标转换,得到左右视图两张完整图像对应的2维关键点坐标,使用Levenberg-Marquardt算法,添加相机内外参数以及惯性测量单元参数,生成3维关键点坐标,得到手势识别和跟踪系统的最终结果;所述Levenberg-Marquardt算法的目标函数为:3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差。
作为本发明的一种改进,所述步骤S1中的原始图像通过双目鱼眼相机获取,为多帧视频;获取图像时,若第一帧检测到手部的图像,则将此图像直接输入手部检测模型,间隔数帧,再次将图像输入手部检测模型,以此循环,在间隔的数帧中,使用上一帧的检测框。
作为本发明的一种改进,所述步骤S3中,手势估计模型输出结果为21个关键点对应的二维热图,使用soft-argmax算法获取最高点的位置作为关键点的二维坐标。
作为本发明的另一种改进,所述步骤S3的手势估计模型中,将训练数据进行增广,使用均方误差MSE损失函数进行训练模型,所用的MSE函数为:
Figure BDA0003964054610000031
其中,y为预测的热图结果;
Figure BDA0003964054610000032
为热图标签值;joint为关键点数量;n为每一批训练的数量;i为输入数据的下标;j为输入数据中相应关键点的下标;
Figure BDA0003964054610000033
为每张图片每个关键点预测热图与标签热图的均方误差;所述数据增广方法包括但不限于随机镂空、旋转、缩放、平移和颜色增强。
作为本发明的另一种改进,所述步骤S3手势估计模型的输入图片为裁剪后的右手图片,若图片中手部为左手,则对图片进行翻转。
作为本发明的又一种改进,所述步骤S3手势估计模型中使用知识蒸馏和半监督学习策略,通过知识蒸馏,教师模型的知识尽可能迁移到学生模型上,利用教师模型,生成未标注数据的伪标签,补充数据集,训练学生模型。
作为本发明的更进一步改进,所述步骤S5中还包括手势运动的关节角度约束。
与现有技术相比,本发明具有的有益效果:提供了一种面向移动端的手势识别和跟踪方法和系统,间隔一定数量帧进行检测,以期在一定时间内处理更多数据;利用随机镂空数据增广、损失函数等方法进行训练,提高准确率、稳定性;利用轻量化组件、量化模型来实现在移动端上的成功部署;利用优化算法最小化重投影误差生成3D关键点坐标,保证射影不变性,并添加时间、运动学约束;利用知识蒸馏算法来进一步提高模型的性能;利用半监督学习来补充数据集,降低标注成本,教师模型生成伪标签来辅助学生模型的训练。
附图说明
图1是本发明一种面向移动端的手势识别和跟踪系统各模块的工作流程图;
图2是本发明一种面向移动端的手势识别和跟踪方法的步骤流程图;
图3是本发明手势关键点的标注示意图;
图4是本发明手势关键点预测结果示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
一种面向移动端的手势识别和跟踪系统,包括手部图像检测模块、手势估计模块及三维转换模块,如图1所示,手部图像检测模块至少包括手部检测模型,手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
将手部图像检测模块处理后的手部图片输入手势估计模块,手势估计模块中至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,输出二维空间下21个手势关键点估计结果;
利用两视图几何,通过三维转换模块将手势估计模块输出的2D关键点转为3D,使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数优化结果,生成三维关键点坐标,实现手势的识别和跟踪。
终端设备将目标图像输入手部图像检测模块进行处理,输出检测框,将裁剪后的图片输入手势估计模块,得到关键点坐标,再根据左右视图得到3D空间下的关键点坐标,并使用优化算法优化,施加时间、运动学等约束,通过三维转换模块,实现手势的识别和跟踪,保证手势准确率的同时,满足部署到移动端要求的问题。
实施例2
一种面向移动端的手势识别和跟踪方法,如图2所示,包括以下步骤:
S1,手部图像检测:将原始图像输入手部检测模型进行处理,输出手部图像检测结果。
原始图像由鱼眼相机获取,可以为终端设备在当前时刻获取到的图像,该原始图像为实时获取的外界视频图像,且包含有多帧视频图像。其中,可以理解的是,一个当前视频图像可能包含多个原始图像。
手部检测模型采用YOLOv5网络,并且在所用手势数据集下进行微调,输出包括检测框、是否为右手、是否为左手、是否有手。在检测确定检测框时,使用非极大值抑制算法找到最合适的检测框作为最终结果。
S2,手部图像预处理:对经过步骤S1检测到的手部图像进行预处理,根据手部检测框裁剪图片,并缩放到指定大小,并进行图像填充。
S3,关键点估计:将经过步骤S2预处理后的手部图片输入手势估计模型进行处理,输出21个手势关键点;
上述手部检测模型以及手势估计模型,前者可用于对原始图像输出手部检测结果,后者可用于输出估计的关键点热力图。其中,上述手部检测结果为手部矩形检测框、左手置信度、右手置信度以及是否有手的置信度,上述关键点热力图为2维热力图。具体的,检测框为矩形左上角坐标、长度以及宽度。热力图的长度以及宽度都为32像素。
所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层;具体的,第一个反卷积层输入通道数为1024,3个反卷积层的输出通道数分别是256,256,256,内核大小为4,步长为2,填充为1。卷积层输入通道数为256,输出通道数为21,内核大小为1,步长为1,填充为0。
手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,用来提取特征,在CPU上推理速度较快;姿态网络部分为3个反卷积层与1个内核大小为1的卷积层。模型输入图片为裁剪后的右手图片。若图片中手部为左手,图片进行翻转。模型输出结果为21个关键点对应的2维热图,使用soft-argmax算法获取最高点的位置作为关键点的2维坐标。
此外,手势估计模型还采用数据增广、损失函数提高模型的稳定性以及准确性,具体为:
将训练数据通过随机镂空、旋转、缩放、平移、颜色增强等各种方法进行增广,并将数据集扩大10倍,使用均方误差MSE损失函数进行训练模型。所用的MSE函数为:
Figure BDA0003964054610000061
其中,y为预测的热图结果;
Figure BDA0003964054610000062
为热图标签值;joint为关键点数量;n为每一批训练的数量;i为输入数据的下标;j为输入数据中相应关键点的下标;
Figure BDA0003964054610000063
为每张图片每个关键点预测热图与标签热图的均方误差。
将相应的标签值根据裁剪的结果转换为对应的标签值,并以sigma为1.0将各个关键点坐标分别转换为高斯热图,同时添加高斯噪音,用于训练模型。。
手势估计模型还使用知识蒸馏、半监督学习策略来提高手势估计模型的性能,教师模型使用较大的手势估计模型,学生模型为特征提取部分采用ShuffleNet V2的手势估计模型。通过知识蒸馏,教师模型的知识尽可能迁移到学生模型上。同时,利用教师模型强大的性能,生成未标注数据的伪标签,补充数据集,更好地训练学生模型,并降低标注的成本。
所述模型需尽可能轻量化,采用轻量化组件、量化模型等方法使得模型尽可能达到移动端平台的要求。通过采用ShuffleNet等轻量化网络作为模型的特征提取部分,模型的特征提取能力保证较高的水平同时具有较快的速度。量化部分则将模型转为int8类型,并通过后训练量化和量化感知训练来保证量化后模型的性能接近原始模型。
S4,坐标转换:将数据增强后的裁剪框作为原裁剪框,模型输入大小作为目标裁剪框,进行仿射变换,从而得到相应的变换矩阵及其逆矩阵;利用逆变换矩阵,模型预测的关键点坐标转换为完整图像对应的关键点坐标;
S5,结果输出:经过步骤S4的坐标转换,得到左右视图两张完整图像对应的2维关键点坐标。该步骤使用Levenberg-Marquardt算法,添加相机内外参数以及惯性测量单元参数,采用3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差共同作为Levenberg-Marquardt算法的目标函数,从而优化生成3维关键点坐标,得到手势识别和跟踪系统的最终结果。
左右视图为左右相机得到的图像。通过左右相机的内参外参以及惯性测量单元的相应参数,使用Levenberg-Marquardt优化算法以及三角测量方法来得到3维空间下的关键点坐标。目标函数使用3维估计点的重投影误差、上一帧估计结果的时间误差以标准关节长度误差来实现。同时添加了手势运动的关节角度约束,并处理了鱼眼畸变问题,最后生成所需的3维关键点坐标,实现手势的识别和跟踪。
实施例3
一种面向移动端的手势识别和跟踪方法,包括如下步骤:
首先,双目鱼眼相机作为终端设备来获取帧图像。若当前帧图像满足手势检测条件,则终端设备将当前帧图像作为输入进行处理。帧图像长宽分别为640像素和400像素的灰度图。
间隔数帧调用手部检测模型检测手部。对于间隔的未检测帧图像,则使用上一帧的检测框结果。可以理解的是,通过间隔合理的帧数调用检测模型,可以在确保准确率的同时,尽可能提高整个系统的速度。
然后,获取到检测框信息后,将检测框扩大为正方形并裁剪。裁剪后的图片缩放到边长为128像素的图片,插值方法使用cv2.INTER_LINEAR。裁剪后的图片作为手势估计模型的输入。
手势估计模型得到裁剪后图像对应的输出,利用增强后检测框转换为边长为128像素正方形的逆矩阵,将得到的输出重新转换到完整图像中对应的输出。其中,裁剪图像仅为包含右手的图像,若图像中手部为左手,图像进行翻转。
执行两次模型推理过程得到左右相机对应的2维手势关键点坐标。利用射影不变的三角测量方法以及Levenberg-Marquardt优化算法,得到3维空间下的该手势关键点坐标,同时保证得到的结果满足时间一致性以及手势的运动学规律。
其中,模型的轻量化流程如下:
得到裁剪后的图片作为数据集进行训练,该数据集仅为右手数据集。将训练集进行随机镂空、平移、旋转、缩放、颜色增强等数据增强,同时将该数据集扩大10倍,并且打乱。
知识蒸馏是一种模型压缩技术,一般使用教师-学生框架,可以尽可能将教师的知识迁移给学生。知识蒸馏将准确度较高的大模型作为教师,轻量化模型作为学生,使得模型在具有较高准确度的结果同时,拥有足够的速度、较小的模型规模。同时,使用更强大的教师网络为未标记图像生成较准确的伪标签,补充数据集,辅助训练学生网络至收敛。测试阶段,评价指标采用关键点的平均绝对偏差。
选择准确度最高的模型。此模型进行后训练量化以及量化感知训练,使其量化为int8类型,加快推理速度。
图3为步骤S3中2维结果各关键点的示意图。图中标注了21个手势关键点,0为手掌关键点,1-4为大拇指上4个关键点,5-8为食指上4个关键点,9-12为中指上4个关键点,13-16为无名指上4个关键点,17-20为小指上4个关键点。裁剪后的图片输入手势估计模型,会得到各个关键点对应的热力图。热力图反应了目标的位置。图4为步骤S3中得到的2维裁剪图像预测结果的可视化图。该图准确预测出了手势的21个关键点。
综上,本发明方法将原始图像输入手部检测模型进行处理,输出包括检测框、左手置信度、右手置信度及是否有手的置信度的手部图像检测结果;手势估计模块至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNetV20.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;三维转换模块利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪,在保证手势准确率的同时,也满足了可部署到移动端要求的问题。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (8)

1.一种面向移动端的手势识别和跟踪系统,包括手部图像检测模块、手势估计模块及三维转换模块,
所述手部图像检测模块,至少包括手部检测模型,所述手部检测模型为YOLOv5,将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
所述手势估计模块,至少包括手势估计模型,手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V2 0.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层,将手部图像检测模块处理后的手部图片输入手势估计模块,输出21个手势关键点估计结果;
所述三维转换模块,利用两视图几何,将手势估计模块输出的2D关键点转为3D,使用Levenberg-Marquardt算法、相机内外参数以及惯性测量单元参数,生成三维关键点坐标,实现手势的识别和跟踪。
2.一种面向移动端的手势识别和跟踪方法,其特征在于,包括以下步骤:
S1,手部图像检测:将原始图像输入手部检测模型进行处理,输出手部图像检测结果,所述手部检测模型为YOLOv5,其手部图像检测结果输出包括检测框、左手置信度、右手置信度及是否有手的置信度;
S2,手部图像预处理:对经过步骤S1检测到的手部图像进行预处理,所属预处理至少包括对检测框裁剪图片、缩放大小并进行图像填充;
S3,关键点估计:将经过步骤S2预处理后的手部图片输入手势估计模型进行处理,输出21个手势关键点;所述手势估计模型网络的特征提取部分为轻量化网络ShuffleNet V20.5x模块,姿态网络部分为3个反卷积层与1个内核大小为1的卷积层;
S4,坐标转换:将数据增强后的裁剪框作为原裁剪框,模型输入大小作为目标裁剪框,进行仿射变换,从而得到相应的变换矩阵及其逆矩阵,利用逆变换矩阵,模型预测的关键点坐标转换为完整图像对应的关键点坐标;
S5,结果输出:经过步骤S4的坐标转换,得到左右视图两张完整图像对应的2维关键点坐标,使用Levenberg-Marquardt算法,添加相机内外参数以及惯性测量单元参数,生成3维关键点坐标,得到手势识别和跟踪系统的最终结果;所述Levenberg-Marquardt算法的目标函数为:3维关键点的重投影误差、3维关键点与上一帧3维估计结果的误差以及3维关键点关节长度与标准手势的关节长度的误差。
3.如权利要求2所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S1中的原始图像通过双目鱼眼相机获取,为多帧视频;获取图像时,若第一帧检测到手部的图像,则将此图像直接输入手部检测模型,间隔数帧,再次将图像输入手部检测模型,以此循环,在间隔的数帧中,使用上一帧的检测框。
4.如权利要求3所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S3中,手势估计模型输出结果为21个关键点对应的二维热图,使用soft-argmax算法获取最高点的位置作为关键点的二维坐标。
5.如权利要求3所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S3的手势估计模型中,将训练数据进行增广,使用均方误差MSE损失函数进行训练模型,所用的MSE函数为:
Figure FDA0003964054600000021
其中,y为预测的热图结果;
Figure FDA0003964054600000022
为热图标签值;joint为关键点数量;n为每一批训练的数量;i为输入数据的下标;j为输入数据中相应关键点的下标;
Figure FDA0003964054600000031
为每张图片每个关键点预测热图与标签热图的均方误差;所述数据增广方法包括但不限于随机镂空、旋转、缩放、平移和颜色增强。
6.如权利要求4或5所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S3手势估计模型的输入图片为裁剪后的右手图片,若图片中手部为左手,则对图片进行翻转。
7.如权利要求6所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S3手势估计模型中使用知识蒸馏和半监督学习策略,通过知识蒸馏,教师模型的知识尽可能迁移到学生模型上,利用教师模型,生成未标注数据的伪标签,补充数据集,训练学生模型。
8.如权利要求7所述的一种面向移动端的手势识别和跟踪方法,其特征在于:所述步骤S5中还包括手势运动的关节角度约束。
CN202211488944.9A 2022-11-25 2022-11-25 一种面向移动端的手势识别和跟踪方法及系统 Pending CN116092178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211488944.9A CN116092178A (zh) 2022-11-25 2022-11-25 一种面向移动端的手势识别和跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211488944.9A CN116092178A (zh) 2022-11-25 2022-11-25 一种面向移动端的手势识别和跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN116092178A true CN116092178A (zh) 2023-05-09

Family

ID=86203326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211488944.9A Pending CN116092178A (zh) 2022-11-25 2022-11-25 一种面向移动端的手势识别和跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN116092178A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880687A (zh) * 2023-06-07 2023-10-13 黑龙江科技大学 一种基于单目多算法的悬浮触控方法
CN117095131A (zh) * 2023-10-16 2023-11-21 广州紫为云科技有限公司 物体运动关键点的三维重建方法、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880687A (zh) * 2023-06-07 2023-10-13 黑龙江科技大学 一种基于单目多算法的悬浮触控方法
CN116880687B (zh) * 2023-06-07 2024-03-19 黑龙江科技大学 一种基于单目多算法的悬浮触控方法
CN117095131A (zh) * 2023-10-16 2023-11-21 广州紫为云科技有限公司 物体运动关键点的三维重建方法、设备及存储介质
CN117095131B (zh) * 2023-10-16 2024-02-06 广州紫为云科技有限公司 物体运动关键点的三维重建方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107330439B (zh) 一种图像中物体姿态的确定方法、客户端及服务器
CN116092178A (zh) 一种面向移动端的手势识别和跟踪方法及系统
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN108537844B (zh) 一种融合几何信息的视觉slam回环检测方法
WO2024021194A1 (zh) 激光雷达点云分割方法、装置、设备及存储介质
CN110109535A (zh) 增强现实生成方法及装置
GB2580691A (en) Depth estimation
CN114692720B (zh) 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN111914756A (zh) 一种视频数据处理方法和装置
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN111368733B (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN115482556A (zh) 关键点检测模型训练及虚拟角色驱动的方法和对应的装置
CN115008454A (zh) 一种基于多帧伪标签数据增强的机器人在线手眼标定方法
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
CN113657403B (zh) 图像处理方法及图像处理网络的训练方法
WO2023086398A1 (en) 3d rendering networks based on refractive neural radiance fields
US20220051436A1 (en) Learning template representation libraries
Gupta et al. Reconnoitering the Essentials of Image and Video Processing: A Comprehensive Overview
CN114663917A (zh) 基于多视角的多人三维人体位姿估计方法及装置
CN115272450A (zh) 一种基于全景分割的目标定位方法
CN116152334A (zh) 图像处理方法及相关设备
CN111435448A (zh) 图像显著性物体检测方法、装置、设备及介质
CN116168312B (zh) 复杂场景下端到端的ar辅助装配三维注册方法及系统
CN113822174B (zh) 视线估计的方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination