CN117111736A - 一种基于手势识别的增强显示交互方法和头戴式显示设备 - Google Patents
一种基于手势识别的增强显示交互方法和头戴式显示设备 Download PDFInfo
- Publication number
- CN117111736A CN117111736A CN202310977322.0A CN202310977322A CN117111736A CN 117111736 A CN117111736 A CN 117111736A CN 202310977322 A CN202310977322 A CN 202310977322A CN 117111736 A CN117111736 A CN 117111736A
- Authority
- CN
- China
- Prior art keywords
- user
- hand
- target object
- virtual target
- gesture recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 41
- 230000003190 augmentative effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 13
- 210000003811 finger Anatomy 0.000 description 72
- 210000004247 hand Anatomy 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003213 activating effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005057 finger movement Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种基于手势识别的增强显示交互方法和头戴式显示设备,涉及数据处理技术领域,包括:建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点;通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作,解决现有AR交互方法识别准确率不够且处理时间较长的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于手势识别的增强显示交互方法和头戴式显示设备。
背景技术
目前,增强现实(AugmentedReality,简称AR),是通过计算机系统提供的信息增加用户对现实世界感知的技术。AR技术能够将虚拟的信息应用到真实世界,并将计算机生成的虚拟物体、场景或系统提示信息通过头戴式显示设备例如AR眼镜,叠加到用户能够看到的真实场景中,从而实现对用户现实感知的增强。现有AR技术中,为了提高用户的体验,除了单纯地将虚拟的AR场景叠加到头戴式显示设备中,用户还可以通过操作头戴式显示设备的手柄等控制装置,操作AR场景中特定的AR虚拟模型进行移动。例如,用户通过操作手柄的方向按键控制AR场景中的AR虚拟人物在AR场景中进行走动。
此外,现有技术中出现了对AR目标进行简单操控的方法,如点击、旋转、拖动等,提高了AR交互的智能化程度。其方法是:通过摄像头进行手部检测和手势识别,并将其映射到操作指令上;将其坐标与AR目标进行映射联系,然后随着手势的改变,对AR目标进行操作,但是现有对于复杂的手势,如连续的手指运动、手势序列等,目前的手势识别技术可能无法准确地捕捉和解释,识别准确性较低,还可能需要较长的处理时间,无法满足实时交互的需求。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供一种基于手势识别的增强显示交互方法和头戴式显示设备,以解决现有AR交互方法识别准确率不够且处理时间较长的问题。
本发明公开了一种基于手势识别的增强现实交互方法,应用于头戴式显示设备,包括:
建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;
根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
优选地,在进行所述第一操作或所述第二操作前,还包括:
将用户手部与所述虚拟目标对象关联,以对所述虚拟目标对象进行所述第一操作或所述第二操作。
优选地,所述将用户手部与所述虚拟目标对象关联,包括:
当通过所述手势识别模型确定用户手掌朝向为预设方向且单个手指的指尖覆盖所述第一操作点,则将所述用户手部与所述虚拟目标对象关联,以触发所述第一操作;
当通过所述手势识别模型确定用户两个手指的指尖覆盖所述第二操作点,则将用户手部与虚拟目标对象关联,以触发第二操作。
优选地,所所述通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,进一步包括:
获取手部的深度信息,当所述单个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第一预设条件时,对所述虚拟目标对象进行第一操作。
优选地,所述根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,包括:
基于所述手势识别模型确定所述用户两个手指的指尖之间的距离变化,以执行对所述虚拟目标对象的缩放操作;
和/或,基于所述手势识别模型确定所述用户两个手指的指尖的移动方向和距离,以执行对所述虚拟目标对象的旋转操作。
优选地,所述根据用户手部的深度信息的变化结束所述第二操作,包括:
当根据所述用户手部的深度信息确定所述用户的两个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第二预设条件时,则结束执行对所述虚拟目标对象的第二操作。
优选地,基于所述第一操作和/或所述第二操作调整所述虚拟目标对象的第一操作点和/或所述第二操作点的呈现状态信息。
优选地,所述头戴式显示设备上包括图像采集模块和距离传感设备,以分别用于采集用户手部图像和用户手部的深度信息。
优选地,所述通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向,包括:
向手势识别模型输入手部图像,所述手势识别模型包含多个堆叠的特征提取模块,对输入的所述图像依次采用多个堆叠的特征提取模块进行特征提取,得到预设尺寸的特征图;
将所述预设尺寸的特征图通过维度展开层展开为一维向量,并采用全连接层进行手部关键点的回归预测以得到手部关键点的坐标;
通过所述手部关键点的坐标之间的组合关系以获取用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向。
本发明还提供一种头戴式显示设备,包括:
基础模块,用于建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
识别模块,用于通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
操作模块,用于通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
本申请提供的基于手势识别的增强现实交互方法和头戴式显示设备,通过设置用于单指操作的第一操作点和用于双指操作的第二操作点,将用户手部和虚拟目标对象关联,利用手势识别模型,结合传感器监测手部的深度信息,提高实时性,降低操作延迟,解决现有AR交互方法识别准确率不够且处理时间较长的问题。
附图说明
图1为本发明所述一种基于手势识别的增强现实交互方法实施例一的流程图;
图2为本发明所述一种基于手势识别的增强现实交互方法实施例一中手势识别模型的网络结构示意图;
图3为本发明所述头戴式显示设备实施例二的模块示意图。
附图标记:
6-头戴式显示设备;61-基础模块;62-识别模块;63-操作模块。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
实施例一:本实施例公开了一种基于手势识别的增强现实交互方法,应用于头戴式显示设备(例如智能眼镜等),作为说明的,本实施方式提供了新的交互方式,使得操作方式更加便捷,实时性更高,优化手势识别和AR目标的关联逻辑,以提高响应效率,参阅图1,包括:
S10:建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
在本实施方式中,虚拟目标对象为头戴式显示设备显示出的对象(不同于真实场景中的真实对象),为了实现对该虚拟目标对象的精准控制,设置操作点,以提高用户对于虚拟目标对象的控制精度和操作效率,具体的,每当创建一个虚拟目标对象时,该虚拟目标对象上设置第一操作点和第二操作点,其中,第一操作点为一个独立的点,用于单个手指的单点操作(如点击,单指移动等操作);第二操作点,为至少两个点,用于两个手指的双点操作(如旋转、放大、缩小等操作)。第一操作点和第二操作点会生成在虚拟目标对象的外部,第一操作点和第二操作点所在的具体部位由虚拟目标对象的形状所决定,也可以人为设置第一操作点和第二操作点所在的具体部位。作为举例的可以这么设置:第一操作点放置在虚拟目标对象的顶部,第二操作点放置在虚拟目标对象的中间部位(相对上下方向和左右方向)。
S20:通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
作为说明的,手势识别模型用于识别用户手部信息,即上述确定用户手部指尖位置和手掌朝向,在一些实施例中,采用深度学习模型创建该手势识别模型。在本实施方式中,所述通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型(参考图2)实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向,包括:头戴式显示设备通过自身的传感器获取用户的手部图像,向手势识别模型输入手部图像,所述手势识别模型包含多个堆叠的特征提取模块,对输入的所述手部图像依次采用多个堆叠的特征提取模块进行特征提取,得到预设尺寸的特征图;将所述预设尺寸的特征图通过维度展开层展开为一维向量,并采用全连接层进行手部关键点的回归预测以得到手部关键点的坐标;通过所述手部关键点的坐标之间的组合关系以获取用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向。
基于上述,参阅图2,作为对手势识别模型的补充,对于多模块堆叠中的第一个特征提取模块,是先通道扩展层(如expand_channels)对输入的图像进行升维处理,接着将升维后的特征图进行组卷积处理,然后将升维后的特征图和组卷积处理后的特征图相加后进行激活(如Activate),即可输出得到第一个特征提取模块的第一特征图。而对于多模块堆叠中的其他特征提取模块,是对上一个特征提取模块输出的特征图进行下采样(如down_sampling)处理,即通道扩展只在第一个特征提取模块中使用,在其他特征提取模块中,直接对上一个特征提取模块输出的特征图进行下采样处理。接着将下采样后的特征图进行组卷积处理,然后将下采样后的特征图和组卷积处理后的特征图相加后进行激活(如Activate),即可输出得到其他特征提取模块的特征图。进一步的,组卷积处理包括,将特征图输入组卷积模块进行多尺寸核的特征提取;将多尺寸核的特征提取的输出特征输入归一化层(如BN)和激活函数层(如Activate)以输出组卷积后的特征图。具体地,将第一个特征提取模块中升维后的特征图或者其他特征提取模块的下采样后的特征图输入组卷积模块,进行多尺寸核的特征提取,然后再将其输入归一化层和激活函数层,最后输出得到组卷积后的特征图。在一些实施例中,将第一个特征提取模块中升维后的特征图或者其他特征提取模块的下采样后的特征图输入组卷积模块之前先通过1X1的卷积核进行升维,将升维后的特征图输入组卷积模块进行多尺寸核的特征提取。在一些实施例中,将多尺寸核特征提取后的特征图先进行通道打乱(如Shuffle_Channels),以混合来自不同尺寸核提取的特征,然后再输入归一化层和激活函数层,最后输出得到组卷积后的特征图。在一些实施例中,对于多个堆叠的特征提取模块中的最后一个所述特征提取模块对应的组卷积模块包括:将特征图输入组卷积模块进行多尺寸核的特征提取;将多尺寸核的特征提取的输出特征输入归一化层后即得到组卷积后的特征图。则对于多个堆叠的特征提取模块中的最后一个所述特征提取模块,其特征提取步骤为:将下采样后的特征图与组卷积后的特征图相加,然后通过激活层进行激活后得到最后一个所述特征提取模块的特征图。其中,在除最后一个特征提取模块外,其余特征提取模块对应的组卷积模块内,包括多尺寸核的特征提取、归一化层和激活函数层,以对组卷积处理得到的特征进行归一化和激活;而在最后一个特征提取模块对应的组卷积模块中,不包括激活函数层,仅将多尺寸核的特征提取的输出特征输入归一化层后即得到组卷积后的特征图,然后再将上一个特征提取模块输出的特征图进行下采样后的特征图与最后一个特征提取模块对应的组卷积后的特征图相加后再输入激活函数层,得到最后一个所述特征提取模块的特征图。多尺寸核特征提取包括n个组卷积模块的处理过程,n的值可自由调整,每一个组卷积模块的多尺寸核的特征提取过程包括对特征图进行通道拆解以获取多组通道,每组通道的卷积核不同,在每组通道内分别进行分组卷积,其中组数等于通道数,在每组通道内分别进行分组卷积,其中组数等于通道数。在每组通道内分别进行分组卷积,其中组数等于通道数。上述主要针对在已经取得手部图像之后对手部关键点和手掌朝向进行的检测,手部关键点的检测基于上述十分轻量网络结构,可轻松在头戴式显示设备上达到实时的手部关键点检测,以实现对手部信息中指尖位置的确定,对于手掌方向的确定,利用上述获得的特征,基于上述网络结构的处理新增一特征处理分支,或者在输出上扩大输出尺寸即可。
基于上述可知的,是利用头戴式显示设备上的图像采集模块(如摄像头等图像采集设备)进行用户手部图像/视频采集,甚至也可以布置音频采集设备,以进一步辅助识别出用户手部指尖和手掌朝向,以提高识别准确性。除了上述需要识别用户手部指尖和手掌朝向去确定用户手部信息变化外,在一些实施例中,还需要根据用户手部相对头戴式显示设备的距离进一步辅助确定用户手部操作,因此,设置深度信息来进一步确定用户手部操作。作为说明的是,上述深度信息是用户手部相对头戴式显示设备的距离,因此,上述监测用户手部的深度信息,包括:所述头戴式显示设备上包括图像采集模块和距离传感设备,以分别用于采集用户手部图像和用户手部的深度信息,其中距离传感器可以是深度传感器等。作为说明的,除了距离传感器外,其他可实现距离/位移检测的设备也可用于该深度信息的获取。
在进行所述第一操作或所述第二操作前,还包括:将用户手部与所述虚拟目标对象关联,以对所述虚拟目标对象进行所述第一操作或所述第二操作;
在本实施方式中,通过上述步骤中手势识别模型确认用户手部指尖位置(用户手指顶部关键点位置)和手掌朝向后,进一步确定用户单个手指指尖的关键点是否覆盖第一操作点及手掌朝向是否为预设方向,或确定用户两个手指指尖的关键点是否覆盖第二操作点,从而将用户手部(即手指)与虚拟目标对象的关联,区别于现有仅识别手势后再反馈指令,通过操作点直接关联用户手部姿势,响应速度快,且精准度较高。
具体的,由于第一操作点和第二操作点所执行的操作不一样,所以用户的指尖通过不同操作点关联后执行不同的操作,因此,上述将用户手部与虚拟目标对象关联,包括:当通过所述手势识别模型确定用户手掌朝向为预设方向且单个手指的指尖覆盖所述第一操作点,则将所述用户手部与所述虚拟目标对象关联,以触发所述第一操作,其中,优选地,预设方向为手掌方向面对目标虚拟对象;作为示例的,头戴式显示设备通过摄像头采集真实场景图像,并通过头戴式显示设备的显示屏幕呈现该真实场景图像,同时在该显示屏幕中显示虚拟目标对象(即虚拟目标对象叠加显示于真实场景),当用户将手部放入头戴式显示设备的摄像头采集区域时,即当头戴式显示设备采集到用户手部图像时,通过手势识别模型(手势识别算法)确定用户手部的各个关键点位置和手掌方向,当检测到用户手指指尖的关键点(即手指顶部的关键点)的坐标覆盖虚拟目标对象的第一操作点且手掌方向面对虚拟目标对象时,则将用户的该手指和虚拟目标对象进行关联。优选地,覆盖第一操作点的指尖对应的手指为食指。
当通过所述手势识别模型确定用户两个手指的指尖覆盖所述第二操作点,则将用户手部与虚拟目标对象关联,以触发第二操作;作为示例的,头戴式显示设备通过摄像头采集真实场景图像,并通过头戴式显示设备的显示屏幕呈现该真实场景图像,同时在该显示屏幕中显示虚拟目标对象(即虚拟目标对象叠加显示于真实场景),当用户将手部放入头戴式显示设备的摄像头采集区域时,即当头戴式显示设备采集到用户手部图像时,通过手势识别模型确定用户手部的各个关键点位置,当检测到用户两个手指的指尖的关键点(例如拇指和食指的顶部的关键点或者食指和中指的顶部的关键点)都覆盖到第二操作点上时,则将该用户的两个手指(例如拇指和食指或者食指和中指)和虚拟目标对象进行关联。
基于上述的,本实施方式中的用户手部与虚拟目标对象关联区别于现有在用于登录后识别用户手势以执行对应操作,使得操作方式更加便捷,实时性更高。
S30:通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;
在一些实施例中,第一操作包括但不限于移动或点击操作中的一个或多个操作。在上述步骤中,当需要移动虚拟目标对象时,由于用户单个手指和虚拟目标对象关联,只要用户移动该单个手指,则虚拟目标对象即可随着用户的该单个手指移动而产生任意方向的位移。若要停止移动,只需要在当前位置将手掌方向从面向虚拟目标对象的方向改变为手掌方向面向虚拟目标对象的右侧、左侧或不同于面相虚拟目标对象的其他方向时,则停止移动,用户手指与虚拟目标对象的关联立即解除。
进一步的,作为可选的,上述通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,进一步包括:获取手部的深度信息,当所述单个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第一预设条件时,对所述虚拟目标对象进行第一操作。
在上述操作中,上述第一预设条件可以设置包括但不限于:单个手指的指尖与头戴式显示设备之间的深度信息的增加值大于一定阈值,或者深度信息增大后又减少(即点击后手指缩回)等,例如,当单个手指的指尖与头戴式显示设备之前的深度信息满足第一预设条件时,可对虚拟目标对象进行第一操作,如点击操作。例如,当用户食指与虚拟目标对象进行关联之后,获取用户食指的深度信息,当该深度信息的变化满足第一预设条件时,对虚拟目标对象执行点击操作(如对虚拟目标对象上的菜单栏、按钮等进行点击操作),则头戴式显示设备进一步显示虚拟目标对象被点击后呈现的信息等。
S40:根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
在上述步骤中,第二操作包括但不限于旋转、缩放等,第二操作点也可以依据虚拟目标对象的面积、形状对应设置多个(两个及以上),即也可以对虚拟目标对象不同方向、不同角度进行缩放或旋转。
基于所述手势识别模型确定所述用户两个手指的指尖之间的距离变化,以执行对所述虚拟目标对象的缩放操作;即,作为示例的,由于用户的两个手指和虚拟目标对象关联,只要用户的该两个手指的指尖之间的距离变化,则虚拟目标对象即可随着用户两个手指的指尖距离的变大或者变小而进行放大操作或者缩小操作,可以根据距离变化的趋势进行对应的放大和缩小,也可对应进行预设比例的缩放。
和/或,基于所述手势识别模型确定所述用户两个手指的指尖的移动方向和距离,以执行对所述虚拟目标对象的旋转操作。即,作为示例的,由于用户两个手指和虚拟目标对象关联,只要用户的该两个手指的指尖同时向同一个方向移动,则虚拟目标对象即可随着用户的该两个手指的指尖移动方向和距离的变化而进行旋转操作,例如,当两个手指同时往某个方向移动时,则立即沿对应方向旋转AR目标。在一些实施例中,所述第二操作点位置保持固定;即,双点操作点固定在原来的坐标位置,不会随着虚拟目标对象的变化而移动,当虚拟目标对象旋转或缩放,第二操作点始终位于虚拟目标对象操作前的位置上,可以通过固定坐标实现,例如,对于一个面对用户的AR动漫人物,原本的双点操作点在其肚腹处,当逆时针旋转90度以后,双点操作点(第二操作点)出现在其右腰处,旋转180度以后,出现在其后腰处,等。
具体的,所述根据用户手部的深度信息的变化结束所述第二操作,包括:
当根据所述用户手部的深度信息确定所述用户的两个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第二预设条件时,则结束执行对所述目标虚拟目标对象的第二操作。其中,第二预设条件可以设置包括但不限于:用户的两个手指的指尖与所述头戴式显示设备之间的深度信息减少值大于一定阈值(例如表示用户手部向远离所述虚拟目标对象的方向移动)等,即当检测到用户手部向远离所述虚拟目标对象的方向移动(即通过深度信息表现为用户手部距离头戴式显示设备距离变小,如用户操作完虚拟目标对象后往回收手),则判定当前缩放操作和/或旋转操作已结束,解除用户的两个手指与虚拟目标对象的关联,在进行下一次缩放操作和/或旋转操作需要重新将用户的两个手指与虚拟目标对象进行关联。需要说明的是,上述深度信息除了利用上述传感器实时测量获得外,可以是基于上述手势识别模型进行识别(如增加一个分支等),或者是独立于该手势识别模型,设置用于识别深度信息的单独的网络分支等等。
进一步作为优选地,还可以基于所述第一操作和/或所述第二操作调整所述虚拟目标对象的第一操作点和/或所述第二操作点的呈现状态信息,作为说明的,上述第一操作点和第二操作点可以根据虚拟目标对象的位置(坐标)确定,操作点的设置不能影响虚拟目标对象的外观,一般会在生成虚拟目标对象时提示操作点的初始位置在某个位置,可以通过参数设置各个操作点处于隐藏状态,或以较小的形态附着在虚拟目标对象上。当执行上述任意操作时,对应的操作点会变得明显,包括但不限于操作点的面积变大、颜色变化等,当操作完成后,再次恢复到初始的形态。即,设置操作点(上述第一操作点、第二操作点)有利于用户手势操作目标虚拟对象时的响应速度,不会对虚拟目标对象产生影响。
基于上述,本实施方法提供的基于手势识别的增强现实交互方法,通过设置第一操作点和第二操作点,使得与用户手部和虚拟目标对象的关联更迅速,利用头戴式显示设备自带的传感器等硬件来监测手部的深度信息,再结合识别手势的手势识别模型,实现了实时且高精度的针对虚拟目标对象的方法,显著改善虚拟目标对象的操控体验和便捷性,提高实时性效果,降低操作延迟,即使在一系列连续的稍微复杂一些的操作比如说连续放大、连续缩小、连续左滑/右滑等操作下,也可以保持较高的准确度。
实施例二:本实施例还提供一种头戴式显示设备6,执行上述实施例一所述的基于手势识别的增强显示交互方法,具体的,参阅图3,包括:
基础模块61,用于建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
具体的,还可通过在所述设备上配置参数调整所述第一操作点和所述第二操作点位于所述虚拟目标对象上的状态信息,包括但不限于操作点的面积变大、颜色变化等。如,在生成目标时提示初始位置在某个位置,然后处于隐藏状态,或以较小的形态附着在虚拟目标对象上,当执行第一操作或第二操作时,各个操作点会变得明显,操作结束后,恢复至初始状态。
识别模块62,用于通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
具体的,所述头戴式显示设备上包括图像采集模块,以采集用户手部图像。头戴式显示设备通过摄像头采集真实场景图像,并通过头戴式显示设备的显示屏幕呈现该真实场景图像,同时在该显示屏幕中显示虚拟目标对象(即虚拟目标对象叠加显示于真实场景),当用户将手部放入头戴式显示设备的摄像头采集区域时,即当头戴式显示设备的显示屏幕中采集到用户手部图像时,通过手势识别模型(参考实施例一中所示例的网络结构及特征提取及识别方法)确定用户手部的指尖位置和手掌朝向。在一些实施中,所述头戴式显示设备包括距离传感设备,如深度摄像头,用户采集用户手部的深度信息,深度信息是用户手部相对头戴式显示设备的距离,也可以采用其他可实现图像采集或距离确定的装置/设备替代,或者通过手势识别模型建立网络结构分支实现。
操作模块63,用于通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
通过上述操作模块,在执行第一操作和/或第二操作前,建立用户手部与虚拟目标对象关联,其中,当用户单个手指与虚拟目标对象关联后进行第一操作,如虚拟目标对象可随着用户的手指移动而产生任意方向的位移,当用户两个手指与虚拟目标关联后进行第二操作,如虚拟目标对象即可随着用户的手指移动和距离的变化而产生缩放或旋转等形变,通过操作点准确实现用户手部动作对虚拟目标对象进行的控制,具体的第一操作包括点击、移动,第二操作包括旋转、放大、缩小,显著改善虚拟目标对象的操控体验和便捷性,提高实时性效果,降低操作延迟。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于手势识别的增强现实交互方法,其特征在于,应用于头戴式显示设备,包括:
建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;
根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
2.根据权利要求1所述的交互方法,其特征在于,在进行所述第一操作或所述第二操作前,还包括:
将用户手部与所述虚拟目标对象关联,以对所述虚拟目标对象进行所述第一操作或所述第二操作。
3.根据权利要求2所述的交互方法,其特征在于,所述将用户手部与所述虚拟目标对象关联,包括:
当通过所述手势识别模型确定用户手掌朝向为预设方向且单个手指的指尖覆盖所述第一操作点,则将所述用户手部与所述虚拟目标对象关联,以触发所述第一操作;
当通过所述手势识别模型确定用户两个手指的指尖覆盖所述第二操作点,则将用户手部与虚拟目标对象关联,以触发第二操作。
4.根据权利要求1所述的交互方法,其特征在于,所述通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,进一步包括:
获取手部的深度信息,当所述单个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第一预设条件时,对所述虚拟目标对象进行第一操作。
5.根据权利要求1所述的交互方法,其特征在于,所述根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,包括:
基于所述手势识别模型确定所述用户两个手指的指尖之间的距离变化,以执行对所述虚拟目标对象的缩放操作;
和/或,基于所述手势识别模型确定所述用户两个手指的指尖的移动方向和距离,以执行对所述虚拟目标对象的旋转操作。
6.根据权利要求1所述的交互方法,其特征在于,所述根据用户手部的深度信息的变化结束所述第二操作,包括:
当根据所述用户手部的深度信息确定所述用户的两个手指的指尖与所述头戴式显示设备之间的深度信息的变化满足第二预设条件时,则结束执行对所述虚拟目标对象的第二操作。
7.根据权利要求1所述的交互方法,其特征在于,包括:
基于所述第一操作和/或所述第二操作调整所述虚拟目标对象的第一操作点和/或所述第二操作点的呈现状态信息。
8.根据权利要求1所述的交互方法,其特征在于,包括:
所述头戴式显示设备上包括图像采集模块和距离传感设备,以分别用于采集用户手部图像和用户手部的深度信息。
9.根据权利要求1所述的交互方法,其特征在于,所述通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向,包括:
向手势识别模型输入手部图像,所述手势识别模型包含多个堆叠的特征提取模块,对输入的所述图像依次采用多个堆叠的特征提取模块进行特征提取,得到预设尺寸的特征图;
将所述预设尺寸的特征图通过维度展开层展开为一维向量,并采用全连接层进行手部关键点的回归预测以得到手部关键点的坐标;
通过所述手部关键点的坐标之间的组合关系以获取用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向。
10.一种头戴式显示设备,其特征在于,包括:
基础模块,用于建立虚拟目标对象,所述虚拟目标对象包括第一操作点和第二操作点,其中,所述第一操作点用于触发第一操作,所述第二操作点用于触发第二操作;
识别模块,用于通过头戴式显示设备的传感器采集手部图像,并采用手势识别模型实时确定用户手部信息,其中,所述手部信息包括指尖位置和手掌朝向;
操作模块,用于通过用户单个手指的指尖对所述虚拟目标对象进行第一操作,当用户手掌朝向改变时结束所述第一操作;根据用户两个手指的指尖变化对所述目标虚拟对象进行第二操作,获取手部的深度信息,根据用户手部的深度信息的变化结束所述第二操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977322.0A CN117111736A (zh) | 2023-08-03 | 2023-08-03 | 一种基于手势识别的增强显示交互方法和头戴式显示设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310977322.0A CN117111736A (zh) | 2023-08-03 | 2023-08-03 | 一种基于手势识别的增强显示交互方法和头戴式显示设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117111736A true CN117111736A (zh) | 2023-11-24 |
Family
ID=88801218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310977322.0A Pending CN117111736A (zh) | 2023-08-03 | 2023-08-03 | 一种基于手势识别的增强显示交互方法和头戴式显示设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117111736A (zh) |
-
2023
- 2023-08-03 CN CN202310977322.0A patent/CN117111736A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030237B2 (en) | Method and apparatus for identifying input features for later recognition | |
US10394334B2 (en) | Gesture-based control system | |
JP6744990B2 (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP6057396B2 (ja) | 3次元ユーザインタフェース装置及び3次元操作処理方法 | |
KR101083408B1 (ko) | 인터렉티브 모드를 지원하는 증강현실 구현 장치 및 방법 | |
CN104123520B (zh) | 二维码扫描方法及装置 | |
US20140240225A1 (en) | Method for touchless control of a device | |
EP2352112B1 (en) | Remote control system for electronic device and remote control method thereof | |
US20140139429A1 (en) | System and method for computer vision based hand gesture identification | |
US20120293544A1 (en) | Image display apparatus and method of selecting image region using the same | |
US10372229B2 (en) | Information processing system, information processing apparatus, control method, and program | |
JP2003533817A (ja) | 3次元モデリングを行うことなく画像処理によってターゲットを指し示す装置及びその方法 | |
US9836130B2 (en) | Operation input device, operation input method, and program | |
CN111596757A (zh) | 一种基于指尖交互的手势控制方法和装置 | |
CN102929547A (zh) | 智能终端无接触交互方法 | |
CN106200942B (zh) | 信息处理方法及电子设备 | |
CN105242776A (zh) | 一种智能眼镜的控制方法及智能眼镜 | |
CN106909219B (zh) | 基于三维空间的交互控制方法和装置、智能终端 | |
Bai et al. | Free-hand interaction for handheld augmented reality using an RGB-depth camera | |
JP6325659B2 (ja) | 操作画面表示装置、操作画面表示方法およびプログラム | |
CN112702517B (zh) | 显示控制方法、装置及电子设备 | |
CN113282164A (zh) | 一种处理方法和装置 | |
JP7209495B2 (ja) | 画像処理装置、画像処理方法 | |
KR20210003515A (ko) | 인터렉티브모드를지원하는증강현실구현장치 | |
CN117111736A (zh) | 一种基于手势识别的增强显示交互方法和头戴式显示设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |