CN116466816A - 一种基于双相机多分支网络的虚拟现实教学手势识别方法 - Google Patents
一种基于双相机多分支网络的虚拟现实教学手势识别方法 Download PDFInfo
- Publication number
- CN116466816A CN116466816A CN202211596376.4A CN202211596376A CN116466816A CN 116466816 A CN116466816 A CN 116466816A CN 202211596376 A CN202211596376 A CN 202211596376A CN 116466816 A CN116466816 A CN 116466816A
- Authority
- CN
- China
- Prior art keywords
- gesture recognition
- depth
- point cloud
- image
- hand region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 85
- 230000004927 fusion Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 229940060587 alpha e Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种基于双相机多分支网络的虚拟现实教学手势识别方法,包括:获取待识别对象不同时刻手势变化的3D点云图像和深度图像;分别对3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;将不同时刻的手部区域图像输入到训练好的手势识别模型中,生成待识别对象在不同时刻的手势识别结果;根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。本发明融合深度图像和3D点云图像两个模态的数据进行手部识别,两个模态的数据之间可以互补,具有更鲁棒的识别能力,能够提高识别精度;基于识别结果实现虚拟场景教学,可以使学生在课堂上更加专注于学习。
Description
技术领域
本申请涉及模式识别与信息处理技术领域,更具体地,涉及一种基于双相机多分支网络的虚拟现实教学手势识别方法、系统及计算机设备。
背景技术
教育,是各个时代都不可或缺的一项人类文化活动,把VR(虚拟现实)技术引入教育行业,开拓新的教学方法与方式,对于学生更高效、更主动地掌握各类技能至关重要。手势识别可以应用在VR、AR、辅助教学等多个场景中,手势识别的研究起着至关重要的作用。教学恰好是一个很好的虚拟现实应用场景,不论是各大高校教学或者是中小学、博物馆科技馆的科普教学等,都非常适合应用。目前的教学大部分停留在传统的图像教学,少部分应用了虚拟现实技术但存在交互性差且过于依赖游戏手柄的问题。
近年来,三维手势识别方法取得了一些重大进展。然而,相对于二维图像识别,三维手势中往往会出现遮挡问题,对于具体的实际应用来说,存在识别精度远远不够的问题,因此还有很大的改进空间。同时,对于教育应用方面,需要一种为教学设计的虚拟现实手势识别方法及系统。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于双相机多分支网络的虚拟现实教学手势识别方法、系统及计算机设备,融合深度图像和3D点云图像两个模态的数据进行手部识别,两个模态的数据之间可以互补,具有更鲁棒的识别能力,从而提高识别精度。
为实现上述目的,按照本发明的第一个方面,提供了一种基于双相机多分支网络的虚拟现实教学手势识别方法,该方法包括以下步骤:
获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,分别提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
进一步地,上述虚拟现实教学手势识别方法还包括:
对所述3D点云图像进行几何变换,包括平面内旋转、3D缩放和3D平移;
使用NewDropout函数对所述深度图像进行图像增强。
进一步地,上述虚拟现实教学手势识别方法中,所述手势识别模型包括:
第一图像处理网络,其对深度图像中的手部区域图像进行特征提取,获得手部区域的深度图像特征向量;
第二图像处理网络,其对3D点云图像中的手部区域图像进行特征提取,获得手部区域的点云图像特征向量;
融合模块,其将所述深度图像特征向量与点云图像特征向量进行融合,生成融合特征向量;
手势识别网络,其基于所述融合特征向量生成待识别对象在不同时刻的手势识别结果。
进一步地,上述虚拟现实教学手势识别方法中,所述第一图像处理网络包括:
沙漏网络,其对深度图像中的手部区域图像进行特征提取,获得手部特征量;
深度图像空间分支,其根据沙漏网络输出的所述手部特征量计算每个关节的有监督注意力地图;
注意力增强分支,其根据沙漏网络输出的所述手部特征量计算每个关节的无监督注意力地图;
深度提取分支,其根据沙漏网络输出的所述手部特征量,生成包含每个关节的深度特征向量的密集深度特征图;
注意融合网络,其将所述有监督注意力地图与无监督注意力地图进行融合,得到融合注意图,并根据所述融合注意图和密集深度特征图识别每个关节的真实深度值,获得手部区域的深度图像特征向量。
进一步地,上述虚拟现实教学手势识别方法中,所述有监督注意力地图的计算方式为:
根据沙漏网络输出的手部特征量计算每个关节的注意力地图;
对所述注意力地图进行归一化处理,得到表征每个像素出现在关节位置的可能性的热图;
基于所述热图,通过积分运算计算每个关节在深度图像空间中的识别坐标;
以使每个关节在深度图像空间中的识别坐标与实际坐标之间的平均距离最小为条件对注意力地图进行监督,获得有监督注意力地图。
进一步地,上述虚拟现实教学手势识别方法中,所述第二图像处理网络包括:
下采样模块,其对输入的3D点云图像进行下采样,输出若干三维数据点;
归一化模块,其用于获取每个所述三维数据点的坐标值和曲面法线向量作为初始特征输入,在定向包围盒中进行归一化,获得归一化坐标;
分层提取模块,其以每个三维数据点的所述归一化坐标和三维曲面法线作为输入,将全部三维数据点划分为多个局部区域,通过对每个所述局部区域进行特征提取并映射为三维向量,得到手部区域的点云图像特征向量。
进一步地,上述虚拟现实教学手势识别方法中,所述手势识别网络包括:
多层transformer模型,其以融合模块输出的融合特征向量作为输入,生成偏移量和先验信息;在预定义的模板手网格的三维平均关节位置上加入所述偏移量,得到粗预测坐标;
自回归器,其根据所述先验信息对粗预测坐标进行多次迭代回归,得到细预测坐标,即为手势识别结果。
按照本发明的第二个方面,提供了一种基于双相机多分支网络的虚拟现实教学手势识别系统,该系统包括:
数据获取模块,用以获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
预处理模块,用于分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
识别模块,用于将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,通过模型提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
响应模块,用于根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
进一步地,上述虚拟现实教学手势识别系统中,使用事件相机采集待识别对象不同时刻手势变化的3D点云图像;
使用Leap Motion控制器记录待识别对象不同时刻手势变化的深度图像。
按照本发明的第三个方面,还提供了一种计算机设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述虚拟现实教学手势识别方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明使用深度图像和3D点云图像两个模态的数据进行手势识别,两个模态的数据之间可以互补,使本方法具有更鲁棒的识别能力。
(2)本发明利用创新模型来提高对深度图像的手势识别精度,将三维手姿识别分解为深度图像空间中二维关节位置的识别,并通过两个互补的注意图来识别它们对应的深度,可以提取出关节特征和骨架特征,提高了识别精度。
(3)本发明引入事件相机获取对象的手势图像数据,事件相机可以敏感地捕捉到运动的物体,和传统相机相比,它具有低时延的特性,可以捕获很短时间间隔内的像素变化。同时通过事件相机采集图像数据可直接判断是否产生动作。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本实施例提供的虚拟现实教学手势识别方法的流程示意图;
图2是本实施例提供的基于双相机多分支网络的虚拟现实教学手势识别方法的操作流程示意图;
图3是本实施例提供的数据采集的场景示意图;
图4为本申请实施例提供的手部识别模型的网络结构示意图。
图5为本申请实施例提供的标准手势设计及其对应的操作指令。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
此外,为了避免使技术人员对本发明的理解模糊,可能不详细地描述或示出公知的或广泛使用的技术、元件、结构和处理。尽管附图表示本发明的示例性实施例,但是附图不必按照比例绘制,并且特定的特征可被放大或省略,以便更好地示出和解释本发明。
图1是本实施例提供的虚拟现实教学手势识别方法的流程示意图,图2是本实施例提供的基于双相机多分支网络的虚拟现实教学手势识别方法的操作流程示意图;请参阅图1、2,该方法主要包括以下步骤:
S1获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
本实施例中,待识别对象为佩戴虚拟现实设备进行教学活动的老师;图3是本实施例提供的数据采集的场景示意图,如图3所示,通过固定在教师用户前方的事件相机和LeapMotion控制器进行数据采集,具体的:使用事件相机录老师在不同时刻手势变化的3D点云图像Ip;使用Leap Motion控制器记录老师在不同时刻手势变化的深度图像Id。
由于事件相机通过捕捉光度变化输出大量事件,仅能捕捉相对相机运动的事物,当事物相对相机静止时基本不输出任何信息;所以当相机记录的图像出现手部时即认为教师用户在发出手势指令。
S2分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
本实施例中,在进行手部区域检测之前,对采集的3D点云图像、深度图像进行预处理;具体的:对3D点云图像进行几何变换,包括包括平面内旋转([-180,180]度)、3D缩放([0.9,1,1])和3D平移([-8,8]mm);使用NewDropout函数对所述深度图像进行图像增强。
本实施例提出的数据增强函数NewDropout定义为函数Tα:RW×H→RW×H,其中,参数α∈[0,1]控制增强的强度。在第一步中,我们从[0,α]范围均匀抽样一个概率γ。在第二步中,我们从手表面均匀采样一组像素Q。每个像素的选择概率为γ。通过删除选定像素,计算增强深度图像如下所示:
其中,p表示深度图像中的任意像素;C表示分配给背景(非手)像素的常量值。
然后,对预处理后的3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像Imgp、Imgd;在一个具体示例中,使用YOLOv7模型进行双手的目标检测,从3D点云图像、深度图像中裁剪出对应的手部区域,并将其调整为128×128的固定尺寸。
S3将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,分别提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
根据同一时刻的手部区域图像数据确定该时刻的手部姿态。将当前k时刻的图像数据输入到训练好的手势识别模型,则可以得到当前k时刻的手势识别结果Pk。
图4为本申请实施例提供的手部识别模型的网络结构示意图,本实施例中,该手势识别模型包括第一图像处理网络、第二图像处理网络、融合模块和手势识别网络;其中,
第一图像处理网络用于对深度图像中的手部区域图像进行特征提取,获得手部区域的深度图像特征向量;
请参阅图4,在一个可选的实施方式中,该第一图像处理网络包括沙漏网络、深度图像空间分支、注意力增强分支、深度提取分支和注意融合网络;
沙漏网络用于对深度图像中的手部区域图像进行特征提取,获得手部特征量;使用沙漏网络作为编码器,编码器定义为从输入深度图像到输出特征量f:RW×H→Rc×h×w的非线性映射,其中h、w、c分别表示输出特征量的高度、宽度和通道数。为了使精度最大化,编码器网络应该具有在不同尺度上提取和融合特征的高能力。使用沙漏网络作为编码器。它使用跨接连接和重复的自底向上、自顶向下处理来提取和巩固不同规模的特征,对输入的深度图形进行处理,对手部的低级特征和高级特征进行提取和组合,输出高分辨率的特征量,并将特征量传递给深度图像空间分支、注意力增强分支和深度提取分支。
深度图像空间分支用于根据沙漏网络输出的所述手部特征量计算每个关节的有监督注意力地图;其中,该有监督注意力地图的计算方式为:
根据沙漏网络输出的手部特征量计算每个关节的注意力地图;
对注意力地图进行归一化处理,得到表征每个像素出现在关节位置的可能性的热图;
基于热图,通过积分运算计算每个关节在深度图像空间中的识别坐标;
以使每个关节在深度图像空间中的识别坐标与实际坐标之间的平均距离最小为条件对注意力地图进行监督,获得有监督注意力地图。
具体来说,深度图像空间分支以编码器的输出特征量作为输入,计算每个关节的注意力地图Attuv∈Ri×h×w。我们用表示第i个关节对应的注意地图。为保证每个注意力地图集中于对应关节出现的像素上,将利用对热图的2D监督。为此,首先对注意地图Attuv进行空间softmax层的归一化处理,得到相应的热图/>如下:
其中,σ为空间softmax层;热图表示每个像素位置出现第i个关节的可能性;Ω表示注意力图/>的空间域;通过积分运算计算第i个关节的二维位置,如下所示:
表示深度图像空间中第i个关节的识别坐标;监督应用于所有注意图通过使平均距离L1最小,定义为:
其中,(Ui,Vi)表示深度图像空间中第i个关节的实际坐标。
利用对热图的2D监督,来保证每个注意力图集中于对应关节出现的像素上。
注意力增强分支用于根据沙漏网络输出的手部特征量计算每个关节的无监督注意力地图;
该分支旨在计算一个更灵活的注意图,以增强深度图像空间分支计算出的注意地图Attuv,以促进关节深度值的识别。具体来说,注意力增强分支以编码器的输出特征量作为输入,计算每个关节的注意力地图Attmix∈Ri×h×w。 表示第i个关节对应的注意力地图。与Attuv相比,该注意力地图/>没有外部约束(监督),允许它自由学习哪些手部像素是最相关的,从而得到一个更灵活的注意力图,以增强深度图像空间分支生成的注意力地图,以便于识别不同场景下每个关节的深度值。
深度提取分支用于根据沙漏网络输出的所述手部特征量,生成包含每个关节的深度特征向量的密集深度特征图;
与通常的计算像素级深度偏移或预测的做法不同,该模型计算密集的像素级深度特征向量。具体来说,深度提取分支以编码器的输出特征量作为输入,生成密集深度特征图D∈RD×h×w;其中,D表示深度特征向量维数,本实施例将其设为D=64。深度特征图D中特殊位置(x,y)的深度特征向量,表示为D(x,y)∈RD,其中包含了深度特征体中特殊位置(x,y)的接收域中包含的输入深度图像像素所收集的关节深度值的信息。每个关节用于识别其深度值的最终特征向量是使用对所有深度特征向量计算的加权平均值获得的,其中每个深度特征向量的权重是使用相应的融合注意图分配的。
注意融合网络用于将有监督注意力地图与无监督注意力地图进行融合,得到融合注意图,并根据所述融合注意图和密集深度特征图识别每个关节的真实深度值,获得手部区域的深度图像特征向量。
本实施例中,注意融合原理如下:
两个注意力地图和/>是互补的,/>将网络注意转移到第i个关节发生的像素,而/>帮助网络注意到非关节像素,这些像素可能包含识别第i个关节深度值的有用信息。这两个注意图融合如下:
这里,βi∈[0,1]表示学习到的参数,控制每个注意图对使用的融合注意图的贡献;该模型使用/>作为指导,从包含与第i个关节深度最相关的信息的像素中汇集特征;该融合注意图用于指导后续的深度值识别的特征池化。
深度值识别原理如下:
第i个关节的深度值是由包含深度最相关信息的像素的特征池化得到的特征向量来识别的,由引导,如下:
其中,为第i个关节的集合特征向量;第i个关节的识别深度值,用/>表示,利用一个所有关节点共享的线性层估计,如下所示:
其中,W∈RD,b∈R表示线性层的权值。
节点深度值的识别由以下损失项监督:
其中,Zi表示第i个关节的真实深度值。
第二图像处理网络用于对3D点云图像中的手部区域图像进行特征提取,获得手部区域的点云图像特征向量;
在一个可选的实施方式中,第二图像处理网络包括下采样模块、归一化模块和分层提取模块;
下采样模块用于对输入的3D点云图像进行下采样,输出若干三维数据点;
归一化模块用于获取每个所述三维数据点的坐标值和曲面法线向量作为初始特征输入,在定向包围盒中进行归一化,获得归一化坐标;
具体的:将输入的点云图像数据下采样为N个点pi∈R3(i=1,2,……N)。每个点取坐标值和曲面法线向量作为初始特征输入,在定向包围盒中进行归一化。定向包围盒是一个紧密拟合输入点云的边界框,通过对输入点的三维坐标进行主成分分析(PCA)确定定向包围盒的方向。定向包围盒的x、y、z轴与输入点协方差矩阵的特征向量对齐,分别对应从大到小的特征值。摄像机坐标系中的原始点首先转换为定向包围盒坐标系中的点,然后将这些点移动为均值为零并缩放为单位大小,所述方法公式如下:
其中,pobb为定向包围盒归一化后的坐标,pcam为p点在摄像机坐标系下的坐标,为3D旋转矩阵,/>为形心坐标,Lobb为边界框的最大边长,pnor为最终的归一化坐标。
分层提取模块以每个三维数据点的所述归一化坐标和三维曲面法线作为输入,将全部三维数据点划分为多个局部区域,通过对每个所述局部区域进行特征提取并映射为三维向量,得到手部区域的点云图像特征向量。
本实施例中,分层提取模块采用多层的点云分类分割网络,将归一化后的点输入到一个点云分类分割网络中,其中,/>为第i个点归一化的坐标,/>为第i个点对应的三维曲面法线;
该点云分类分割网络具有三层点集抽象级别,前两层分别将输入点分组为N1=512、N2=128两个局部区域,每个局部区域包含k=64个点。这两个层次分别提取每个局部区域的C1=128、C2=256维特征向量。最后一层则提取1024维全局特征向量,通过三层完全连接映射为三维输出向量。
在模型的训练阶段,对摄像机坐标系中的真值三维关节位置也应用公式(9)(10)变化得到归一化的定向包围盒坐标系中的三位关节位置。
通过对训练数据集中的真值三维关节位置进行主成分分析,可以得到的三维投影αt,公式如下:
其中,E为主成分,m为经验均值。
设置损失函数:
其中,w为网络参数,F表示分层PiontNet网络,λ为正则化强度;
在测试阶段,根据网络输出重建估计的三维关节位置,得到特征向量:
融合模块将深度图像特征向量与点云图像特征向量进行融合,生成融合特征向量;
在分别得到特征向量和特征向量/>将两特征向量进行融合:
其中,α和β分别为特征向量和特征向量/>的权重。
特征向量的融合由以下损失项监督:
提出的模型是端到端可微的,通过最小化损失函数进行训练,该函数包括前面讨论的三个损失项,其表达式为:
L=Luv+λ1Ld+λ2LAB, (16)
其中,λ1和λ2是平衡Luv、Ld和LAB的权重因子。
手势识别网络则基于融合特征向量生成待识别对象在不同时刻的手势识别结果;在一个可选的实施方式中,手势识别网络包括多层transformer模型和自回归器;
多层transformer模型以融合模块输出的融合特征向量作为输入,生成偏移量和先验信息;在预定义的模板手网格的三维平均关节位置上加入所述偏移量,得到粗预测坐标;
自回归器根据所述先验信息对粗预测坐标进行多次迭代回归,得到细预测坐标,即为手势识别结果。
在得到数据融合后的特征向量后,首先通过多层transformer得到偏移量/>和先验信息X;
借助雅各布矩阵,进行姿态长度正则化,雅各布矩阵表达式如下:
姿态长度正则化表达式如下:
其中,a表示雅各布矩阵的移动平均值.
然后在预先定义的模板手网格的三维平均关节位置上加入偏移量/>得到粗预测坐标/>其表达式如下:
通过自回归的方式回归细预测坐标首先使:
用如下公式进行迭代:
其中,X为先验信息,R为重新调节因子,通常迭代的次数越多效果越好。
S4根据手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
本实施例提供了一套适用于虚拟现实场景教学的手势设计,并为每个手势匹配了一种操作指令,形成系统手势库;请参阅图5,系统手势库中包含14种标准手势:左手向左旋转、左手向向右旋转、右手向左旋转、右手向右旋转、双手关闭、双手打开、单手放大、单手缩小、双手放大、双手缩小、左手向右、右手向左、前进、后退。
将模型输出的老师在不同时刻的手势识别结果与系统手势库中的标准手势进行匹配,若手势识别结果不存在于系统手势库中,则该手势无效,系统不做出反应;若匹配成功则为有效手势,查询匹配上的标准手势对应的操作指令并执行,根据操作命令使虚拟现实画面发生相应变化,实现非接触式人机交互教学。
本申请可以使教师在无接触情况下操控虚拟现实设备,利用虚拟现实设备辅助进行教学,带领学生沉浸式体验教学,同时本系统的交互性便于教师进行教学,趣味性可以使学生在课堂上更加专注于学习。
应当注意,尽管在上述的实施例中,以特定顺序描述了本说明书实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本实施例提供了一种基于双相机多分支网络的虚拟现实教学手势识别系统,该系统可以采用软件和/或硬件的方式实现,并可集成在电子设备上;具体的,该系统包括:
数据获取模块,用以获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
预处理模块,用于分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
识别模块,用于将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,通过模型提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
响应模块,用于根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
在一个可选示例中,该系统还包括事件相机和Leap Motion控制器;使用事件相机采集待识别对象不同时刻手势变化的3D点云图像;使用Leap Motion控制器记录待识别对象不同时刻手势变化的深度图像。
关于虚拟现实教学手势识别系统的具体限定可以参见上文中对于虚拟现实教学手势识别方法的限定,在此不再赘述。上述虚拟现实教学手势识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本实施例还提供了一种计算机设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行虚拟现实教学手势识别方法的步骤,具体步骤参见上文,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
该电子设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的终端通信,和/或与使得该电子设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双相机多分支网络的虚拟现实教学手势识别方法,其特征在于,包括:
获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,分别提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
2.如权利要求1所述的虚拟现实教学手势识别方法,其特征在于,还包括:
对所述3D点云图像进行几何变换,包括平面内旋转、3D缩放和3D平移;
使用NewDropout函数对所述深度图像进行图像增强。
3.如权利要求1所述的虚拟现实教学手势识别方法,其特征在于,所述手势识别模型包括:
第一图像处理网络,其对深度图像中的手部区域图像进行特征提取,获得手部区域的深度图像特征向量;
第二图像处理网络,其对3D点云图像中的手部区域图像进行特征提取,获得手部区域的点云图像特征向量;
融合模块,其将所述深度图像特征向量与点云图像特征向量进行融合,生成融合特征向量;
手势识别网络,其基于所述融合特征向量生成待识别对象在不同时刻的手势识别结果。
4.如权利要求3所述的虚拟现实教学手势识别方法,其特征在于,所述第一图像处理网络包括:
沙漏网络,其对深度图像中的手部区域图像进行特征提取,获得手部特征量;
深度图像空间分支,其根据沙漏网络输出的所述手部特征量计算每个关节的有监督注意力地图;
注意力增强分支,其根据沙漏网络输出的所述手部特征量计算每个关节的无监督注意力地图;
深度提取分支,其根据沙漏网络输出的所述手部特征量,生成包含每个关节的深度特征向量的密集深度特征图;
注意融合网络,其将所述有监督注意力地图与无监督注意力地图进行融合,得到融合注意图,并根据所述融合注意图和密集深度特征图识别每个关节的真实深度值,获得手部区域的深度图像特征向量。
5.如权利要求4所述的虚拟现实教学手势识别方法,其特征在于,所述有监督注意力地图的计算方式为:
根据沙漏网络输出的手部特征量计算每个关节的注意力地图;
对所述注意力地图进行归一化处理,得到表征每个像素出现在关节位置的可能性的热图;
基于所述热图,通过积分运算计算每个关节在深度图像空间中的识别坐标;
以使每个关节在深度图像空间中的识别坐标与实际坐标之间的平均距离最小为条件对注意力地图进行监督,获得有监督注意力地图。
6.如权利要求3所述的虚拟现实教学手势识别方法,其特征在于,所述第二图像处理网络包括:
下采样模块,其对输入的3D点云图像进行下采样,输出若干三维数据点;
归一化模块,其用于获取每个所述三维数据点的坐标值和曲面法线向量作为初始特征输入,在定向包围盒中进行归一化,获得归一化坐标;
分层提取模块,其以每个三维数据点的所述归一化坐标和三维曲面法线作为输入,将全部三维数据点划分为多个局部区域,通过对每个所述局部区域进行特征提取并映射为三维向量,得到手部区域的点云图像特征向量。
7.如权利要求3所述的虚拟现实教学手势识别方法,其特征在于,所述手势识别网络包括:
多层transformer模型,其以融合模块输出的融合特征向量作为输入,生成偏移量和先验信息;在预定义的模板手网格的三维平均关节位置上加入所述偏移量,得到粗预测坐标;
自回归器,其根据所述先验信息对粗预测坐标进行多次迭代回归,得到细预测坐标,即为手势识别结果。
8.一种基于双相机多分支网络的虚拟现实教学手势识别系统,其特征在于,包括:
数据获取模块,用以获取待识别对象不同时刻手势变化的3D点云图像和深度图像;
预处理模块,用于分别对所述3D点云图像、深度图像进行手部区域检测,从中分割出手部区域图像;
识别模块,用于将不同时刻的3D点云图像和深度图像对应的手部区域图像输入到训练好的手势识别模型中,通过模型提取手部区域的深度图像特征向量与点云图像特征向量并进行融合,基于融合特征向量生成待识别对象在不同时刻的手势识别结果;
响应模块,用于根据所述手势识别结果以及预设的标准手势与指令之间的映射关系,形成待识别对象在不同时刻的操作指令。
9.如权利要求8所述的虚拟现实教学手势识别系统,其特征在于,使用事件相机采集待识别对象不同时刻手势变化的3D点云图像;
使用Leap Motion控制器记录待识别对象不同时刻手势变化的深度图像。
10.一种计算机设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~7任一项所述虚拟现实教学手势识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596376.4A CN116466816A (zh) | 2022-12-12 | 2022-12-12 | 一种基于双相机多分支网络的虚拟现实教学手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596376.4A CN116466816A (zh) | 2022-12-12 | 2022-12-12 | 一种基于双相机多分支网络的虚拟现实教学手势识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116466816A true CN116466816A (zh) | 2023-07-21 |
Family
ID=87183041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211596376.4A Pending CN116466816A (zh) | 2022-12-12 | 2022-12-12 | 一种基于双相机多分支网络的虚拟现实教学手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116466816A (zh) |
-
2022
- 2022-12-12 CN CN202211596376.4A patent/CN116466816A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126272B (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
Hassan et al. | Resolving 3D human pose ambiguities with 3D scene constraints | |
Ibrahim et al. | An automatic Arabic sign language recognition system (ArSLRS) | |
Varol et al. | Learning from synthetic humans | |
Zimmermann et al. | Learning to estimate 3d hand pose from single rgb images | |
Bhagat et al. | Indian sign language gesture recognition using image processing and deep learning | |
Sharp et al. | Accurate, robust, and flexible real-time hand tracking | |
Yoon et al. | Hand gesture recognition using combined features of location, angle and velocity | |
Malassiotis et al. | Real-time hand posture recognition using range data | |
Choi et al. | Depth analogy: Data-driven approach for single image depth estimation using gradient samples | |
Schwarz et al. | Manifold learning for tof-based human body tracking and activity recognition. | |
Zeng et al. | View-invariant gait recognition via deterministic learning | |
Zhang et al. | DAAL: Deep activation-based attribute learning for action recognition in depth videos | |
Hashmi et al. | FashionFit: Analysis of mapping 3D pose and neural body fit for custom virtual try-on | |
More et al. | Hand gesture recognition system using image processing | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN110751097A (zh) | 一种半监督的三维点云手势关键点检测方法 | |
Yu et al. | A video-based facial motion tracking and expression recognition system | |
Hu et al. | Human interaction recognition using spatial-temporal salient feature | |
Tang et al. | Position-free hand gesture recognition using single shot multibox detector based neural network | |
CN116466816A (zh) | 一种基于双相机多分支网络的虚拟现实教学手势识别方法 | |
Ding et al. | Combining adaptive hierarchical depth motion maps with skeletal joints for human action recognition | |
Parekh et al. | Deep learning-based 2D and 3D human pose estimation: a survey | |
CN114202606A (zh) | 图像处理方法、电子设置、存储介质及计算机程序产品 | |
Lin | Visual hand tracking and gesture analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |