CN116382469A - 双手手势识别方法、交互界面显示方法和头戴式显示设备 - Google Patents
双手手势识别方法、交互界面显示方法和头戴式显示设备 Download PDFInfo
- Publication number
- CN116382469A CN116382469A CN202310173337.1A CN202310173337A CN116382469A CN 116382469 A CN116382469 A CN 116382469A CN 202310173337 A CN202310173337 A CN 202310173337A CN 116382469 A CN116382469 A CN 116382469A
- Authority
- CN
- China
- Prior art keywords
- gesture
- information
- hand gesture
- double
- hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000004913 activation Effects 0.000 claims abstract description 15
- 210000000707 wrist Anatomy 0.000 claims description 29
- 210000004247 hand Anatomy 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 10
- 241001133760 Acoelorraphe Species 0.000 description 18
- 241000233788 Arecaceae Species 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000203475 Neopanax arboreus Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开的实施例公开了双手手势识别方法、交互界面显示方法和头戴式显示设备。该双手手势识别方法的一具体实施方式包括:通过单目摄像头获取视频流;对视频流进行双手手势检测,得到双手手势位置信息;生成双手手势关键点信息;确定摄像头位姿信息;确定预测双手手势位置信息。该交互界面显示方法的一具体实施方式包括:确定手势关键点信息;确定手势关键点信息是否表征手势处于点按激活手势状态;响应于确定手势关键点信息表征手势处于点按激活手势状态,确定手势驻留时长;响应于手势驻留时长满足预设手势驻留时长条件,对手势关键点信息对应的交互界面进行显示。该实施方式降低了装载于头戴式显示设备的摄像头的体积与功耗,提升了用户体验。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及双手手势识别方法、交互界面显示方法和头戴式显示设备。
背景技术
随着增强现实技术的发展,在头戴式显示设备(例如智能眼镜)上装载摄像头进行人机交互成为一种新的主流方式。目前,现有的应用单目摄像头进行人机交互的方案为:单目摄像头基于屏幕平面与用户的手势捏合来判断用户是否进行点击操作。此外,也存在通过双目摄像头进行人机交互的方式。
然而,当采用上述方式进行人机交互时,经常会存在如下技术问题:
双目摄像头体积大、功耗较高;此外,单目摄像头基于屏幕平面的交互需要用户手臂长期持续抬起,造成用户手臂劳累,用户体验较差。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了双手手势识别方法、交互界面显示方法和头戴式显示设备,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种双手手势识别方法,该方法包括:通过上述单目摄像头获取视频流;对上述视频流进行双手手势检测,得到双手手势位置信息;根据上述双手手势位置信息,生成双手手势关键点信息;根据上述视频流和惯性测量单元信息,确定摄像头位姿信息;根据上述摄像头位姿信息和上述视频流,确定预测双手手势位置信息。
可选地,上述对上述视频流进行双手手势检测,得到双手手势位置信息,包括:通过双手手势检测算法对上述视频流进行双手手势检测,得到双手手势包围框位置信息和双手手势初始坐标信息;将上述双手手势包围框位置信息和上述双手手势初始坐标信息确定为双手手势位置信息。
可选地,在上述将上述双手手势包围框位置信息和上述双手手势初始坐标信息确定为双手手势位置信息之前,上述方法还包括:对上述双手手势初始坐标信息进行对齐处理,得到对齐处理后的双手手势初始坐标信息;对于对齐处理后的双手手势初始坐标信息进行配准处理,以实现对双手手势初始坐标信息的更新
可选地,上述双手手势识别方法还包括:响应于上述视频流包括的最后一帧视频帧内不包括手势信息,确定上述预测手势位置信息对于上述最后一帧视频帧的相对位置信息;根据上述相对位置信息,提示用户对上述单目摄像头进行移动。
第二方面,本公开的一些实施例提供了一种交互界面显示方法,该方法包括:使用上述第一方面任一实现方式所描述的方法,确定手势关键点信息;确定上述手势关键点信息是否表征手势处于点按激活手势状态;响应于确定上述手势关键点信息表征手势处于点按激活手势状态,根据上述手势关键点信息,确定手势驻留时长;响应于上述手势驻留时长满足预设手势驻留时长条件,对上述手势关键点信息对应的交互界面进行显示。
可选地,上述交互界面显示方法还包括:响应于检测到上述手势关键点信息表征手势处于握拳状态,关闭上述交互界面。
可选地,上述交互界面显示方法还包括:响应于检测到上述手势关键点信息表征手势处于手腕抬起状态,在上述手势关键点信息对应的手腕处,以预设手腕显示模式显示上述交互界面。
可选地,上述交互界面显示方法还包括:响应于检测到上述手势关键点信息表征手势处于预设移动界面手势状态,对上述交互界面进行移动。
可选地,上述交互界面显示方法还包括:响应于检测到上述手势关键点信息表征手势处于预设移动应用手势状态,对上述交互界面内的应用进行移动。
第三方面,本公开的一些实施例提供了一种头戴式显示设备,包括:单目摄像头,用于获取视频流;一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的双手手势识别方法,降低了装载于头戴式显示设备的摄像头的体积与功耗,提升用户体验。具体来说,造成装载于头戴式显示设备的摄像头的体积与功耗较大,用户体验较差的原因在于:双目摄像头体积大、功耗较高;此外,单目摄像头基于屏幕平面的交互需要用户手臂长期持续抬起,造成用户手臂劳累,用户体验较差。基于此,本公开的一些实施例的双手手势识别方法,首先,通过单目摄像头获取视频流。然后,对视频流进行双手手势检测,得到双手手势位置信息。由此,可以得到表征用户的双手在上述视频流包括的各个视频帧中的位置的双手手势位置信息。然后,根据双手手势位置信息,生成双手手势关键点信息。由此,可以得到表征两个手掌的关节点的坐标的双手手势关键点信息。之后,根据视频流和惯性测量单元信息,确定摄像头位姿信息。由此,可以得到表征单目摄像头的位置的摄像头位姿信息。最后,根据摄像头位姿信息和视频流,确定预测双手手势位置信息。由此,可以得到表征预测的双手在下一帧视频帧中相对于上述单目摄像头的位置的预测双手手势位置信息。因为通过装载单目摄像头实现了人机交互,且通过得到预测双手手势位置信息,可以减少直接将双目摄像头替换成单目摄像头造成的手势或手掌的跟丢,从而在对于用户而言人机交互效果类似的基础上减小了摄像头的体积,进而提升了用户体验。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的双手手势识别方法的一些实施例的流程图;
图2是根据本公开的交互界面显示方法的一些实施例的流程图;
图3是适于用来实现本公开的一些实施例的头戴式显示设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的双手手势识别方法的一些实施例的流程100。该双手手势识别方法,包括以下步骤:
步骤101,通过单目摄像头获取视频流。
在一些实施例中,双手手势识别方法的执行主体(例如头戴式显示设备)可以通过单目摄像头获取视频流。其中,上述头戴式显示设备可以包括上述单目摄像头。实践中,上述执行主体可以通过处于启动状态的单目摄像头获取视频流。
步骤102,对视频流进行双手手势检测,得到双手手势位置信息。
在一些实施例中,上述执行主体可以对上述视频流进行双手手势检测,得到双手手势位置信息。其中,上述双手手势位置信息可以表征用户的双手在上述视频流包括的各个视频帧中的位置。作为示例,上述双手手势位置信息可以包括双手对应的最小外接矩形框的四个顶点的坐标和两个手掌的手掌初始坐标。这里,手掌初始坐标可以为手心处的坐标。手掌初始坐标还可以为手掌根部的坐标。例如,上述双手手势位置信息可以为:[第一帧视频帧:顶点坐标(12,25)、顶点坐标(30,25)、顶点坐标(12,60)、顶点坐标(30,60)、手掌初始坐标(16、33)、手掌初始坐标(22、34)]、[第二帧视频帧:顶点坐标(12,25)、顶点坐标(30,25)、顶点坐标(12,60)、顶点坐标(30,60)、手掌初始坐标(16、33)、手掌初始坐标(22、34)]。实践中,上述执行主体可以采用动态滤波算法(例如卡尔曼滤波算法)对上述视频流进行双手手势检测,得到双手手势位置信息。由此,可以得到表征用户的双手在上述视频流包括的各个视频帧中的位置的双手手势位置信息。
在一些实施例的一些可选的实现方式中,首先,上述执行主体可以通过双手手势检测算法对上述视频流进行双手手势检测,得到双手手势包围框位置信息和双手手势初始坐标信息。其中,上述双手手势检测算法可以为隐马尔可夫模型法。上述双手手势包围框位置信息可以表征双手分别在视频流包括的各个视频帧中的最小外接矩形框的坐标。例如,对于上述视频流包括的每个视频帧,上述双手手势包围框位置信息可以包括该视频帧中左手的最小外接矩形框的四个顶点和右手的最小外接矩形框的四个顶点。上述双手手势初始坐标信息可以表征两个手掌的手掌初始坐标。然后,可以将上述双手手势包围框位置信息和上述双手手势初始坐标信息确定为双手手势位置信息。由此,由于双手手势检测在同一时间分别对两个手掌进行检测,对于同一视频帧而言,检测该视频帧是否包括手势信息(表征视频帧内存在用户的手掌的信息)的准确性得到了提升,从而可以在连续的视频帧中持续追踪用户的手掌,降低手掌跟丢的概率。
可选地,在上述将上述双手手势包围框位置信息和上述双手手势初始坐标信息确定为双手手势位置信息之前,首先,上述执行主体可以对上述双手手势初始坐标信息进行对齐处理,得到对齐处理后的双手手势初始坐标信息。实践中,上述执行主体可以对上述双手手势初始坐标信息包括的各个手掌初始坐标进行对齐处理,得到对齐处理后的双手手势初始坐标信息。由此,可以使得各个手掌初始坐标位于同一坐标系内。然后,可以对于对齐处理后的双手手势初始坐标信息进行配准处理,以实现对双手手势初始坐标信息的更新。由此可以提高双手手势初始坐标信息所表征的坐标的精度。
步骤103,根据双手手势位置信息,生成双手手势关键点信息。
在一些实施例中,上述执行主体可以根据上述双手手势位置信息,生成双手手势关键点信息。其中,上述双手手势关键点信息可以为表征两个手掌的关节点的坐标的信息。例如,上述双手手势关键点信息可以为表征两个手掌共42个关节点的坐标的信息。实践中,上述执行主体可以将上述视频流和上述双手手势位置信息输入Landmark模型(界标模型),得到双手手势关键点信息。由此,可以得到表征两个手掌的关节点的坐标的双手手势关键点信息。步骤104,根据视频流和惯性测量单元信息,确定摄像头位姿信息。
在一些实施例中,上述执行主体可以根据上述视频流和惯性测量单元信息,确定摄像头位姿信息。其中,上述惯性测量单元信息可以为头戴式显示设备包括的IMU(Inertial Measurement Unit,惯性测量单元)传感器测量得到的信息。实践中,可以采用VIO(Visual-Inertial Odometry,视觉惯性里程计)技术根据上述视频流和惯性测量单元信息,确定摄像头位姿信息。由此,可以得到表征单目摄像头的位置的摄像头位姿信息。
步骤105,根据摄像头位姿信息和视频流,确定预测双手手势位置信息。
在一些实施例中,上述执行主体可以根据上述摄像头位姿信息和上述视频流,确定预测双手手势位置信息。其中,上述双手手势位置信息可以表征预测的双手在下一帧视频帧中相对于上述单目摄像头的位置的信息。其中,上述下一帧视频帧可以为上述视频流包括的最后一帧的下一帧视频帧。实践中,上述执行主体可以将上述摄像头位姿信息和上述视频流输入至预先训练好的双手手势位置预测模型,得到预测双手手势位置信息。其中,上述双手手势位置预测模型可以为以摄像头位姿信息和视频流为输入,以预测双手手势位置信息为输出的神经网络模型。例如,上述神经网络模型可以为CNN(ConvolutionalNeural Network,卷积神经网络)模型。其中,上述双手手势位置预测模型可以包括低通卷积滤波器。该低通卷积滤波器可以对应有低通卷积滤波系数。具体地,首先,可以将视频流输入至上述双手手势位置预测模型,以更新上述低通卷积滤波系数(低通卷积滤波系数的更新已得到预先训练)。然后,可以将上述摄像头位姿信息输入至包括的低通卷积滤波系数更新后的双手手势位置预测模型,得到预测双手手势位置信息。由此,可以得到表征预测的双手在下一帧视频帧中相对于上述单目摄像头的位置的预测双手手势位置信息。
可选地,首先,响应于上述视频流包括的最后一帧视频帧内不包括手势信息,上述执行主体可以确定上述预测手势位置信息对于上述最后一帧视频帧的相对位置信息。其中,上述手势信息可以为表征视频帧内存在用户的手掌的信息。上述相对位置信息可以表征上述预测手势位置信息所表征的位置相对于上述最后一帧视频帧所表征的位置的方位。例如,上述相对位置信息可以为:左上方。实践中,由于预测手势位置信息相对于上述最后一帧视频帧位置方位,与预测手势位置信息相对于上述单目摄像头的位置方位相同,因此,可以将预测手势位置信息相对于上述单目摄像头的位置方位确定为上述相对位置信息。然后,可以根据上述相对位置信息,提示用户对上述单目摄像头进行移动。作为示例,上述相对位置信息表征上述预测手势位置信息在上述最后一帧视频帧左上方,上述执行主体可以提示用户将上述单目摄像头向左上方移动。由此,可以在手掌出画时,提示用户及时调整单目摄像头的位置,使得手掌再次入画。此外,使用惯性测量单元信息也可以进一步降低手掌跟丢的概率。
可选地,上述执行主体可以通过上述单目摄像头所获取到的视频流,生成手势深度信息。上述手势深度信息可以表征视频流中包括的手与上述单目摄像头之间的距离。例如,上述手势深度信息可以表征视频流中包括的手与上述单目摄像头之间的距离为:[第一帧视频帧:1个单位深度]、[第二帧视频帧:1个单位深度]。其中,这里的单位深度可以由相关工作人员预先设定。这里的单位深度也可以为第一帧视频帧中手与上述单目摄像头之间的距离。实践中,首先,上述执行主体可以根据上述视频流包括的视频帧,确定手势尺度信息。上述手势尺度信息可以表征手部相对于视频流包括的各个视频帧的大小。例如,上述手势尺度信息可以包括:[第一帧视频帧:手部占100个像素点]、[第二帧视频帧:手部占100个像素点]。这里,对于手势尺度信息的具体确定方式,不作限定。例如,可以采用目标检测算法(如卷积神经网络算法),通过视频流包括的视频帧确定手势尺度信息。然后,可以根据上述手势尺度信息,确定手势深度信息。例如,可以通过尺度与深度对照表确定手势深度信息。其中,上述尺度与深度对照表可以表征手势尺度与手势深度的一一对应关系。例如,上述尺度与深度对照表可以包括:100个像素点-一个单位深度、200个像素点-2个单位深度。又如,在单位深度为第一帧视频帧中手与上述单目摄像头之间的距离时,可以将各个视频帧相对于第一帧视频帧的手部像素点倍数确定为手势深度,得到手势深度信息。手部像素点倍数为各个视频帧对应的手部占像素点的数量与第一帧视频帧对应的手部占像素点的数量的商。作为示例,第一帧视频帧:手部占100个像素点,第二帧视频帧:手部占100个像素点,则第二帧视频帧相对于第一帧视频帧的手部像素点倍数为1,第二帧视频帧对应的手势深度为1个单位深度,此时的手势深度信息为:[第一帧视频帧:1个单位深度]、[第二帧视频帧:1个单位深度]。
由此,由于现有的应用单目摄像头进行人机交互的方案中往往难以获取到手势深度信息,以至于人机交互的交互操作困难,用户体验较差,而上述内容作为本公开的实施例的一个发明点,则可以通过单目摄像头所获取到的视频流生成手势深度信息,从而在通过头戴式显示设备与用户进行交互的各个场景,诸如对于虚拟物体的抓取、拖拽等交互操作的场景中,可以通过手势深度信息确定虚拟物体移动的方向、距离,进而可以基于包括单目摄像头的头戴式显示设备来完成更加精准的交互操作,提升用户体验。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的双手手势识别方法,降低了装载于头戴式显示设备的摄像头的体积与功耗,提升用户体验。具体来说,造成装载于头戴式显示设备的摄像头的体积与功耗较大,用户体验较差的原因在于:双目摄像头体积大、功耗较高;此外,单目摄像头基于屏幕平面的交互需要用户手臂长期持续抬起,造成用户手臂劳累,用户体验较差。基于此,本公开的一些实施例的双手手势识别方法,首先,通过单目摄像头获取视频流。然后,对视频流进行双手手势检测,得到双手手势位置信息。由此,可以得到表征用户的双手在上述视频流包括的各个视频帧中的位置的双手手势位置信息。然后,根据双手手势位置信息,生成双手手势关键点信息。由此,可以得到表征两个手掌的关节点的坐标的双手手势关键点信息。之后,根据视频流和惯性测量单元信息,确定摄像头位姿信息。由此,可以得到表征单目摄像头的位置的摄像头位姿信息。最后,根据摄像头位姿信息和视频流,确定预测双手手势位置信息。由此,可以得到表征预测的双手在下一帧视频帧中相对于上述单目摄像头的位置的预测双手手势位置信息。因为通过装载单目摄像头实现了人机交互,且通过得到预测双手手势位置信息,可以减少直接将双目摄像头替换成单目摄像头造成的手势或手掌的跟丢,从而在对于用户而言人机交互效果类似的基础上减小了摄像头的体积,进而提升了用户体验。
下面参考图2,其示出了根据本公开的交互界面显示方法的一些实施例的流程200。该交互界面显示方法,包括以下步骤:
步骤201,确定手势关键点信息。
在一些实施例中,步骤201的具体实现及其所带来的技术效果,可以参考图1对应的实施例中的步骤101-103,在此不再赘述。
步骤202,确定双手手势关键点信息是否表征手势处于点按激活手势状态。
在一些实施例中,交互界面显示方法的执行主体(例如头戴式显示设备)可以确定上述双手手势关键点信息是否表征手势处于点按激活手势状态。其中,上述点按激活手势状态可以为手势处于预先设定的表示点按激活的手部姿势的状态。例如,上述点按激活手势状态对应的手部姿势可以为左手手心向上,左手五指自然分开,右手握拳后手背向上,右手伸出食指压在左手手腕中心处。实践中,可以通过比较上述双手手势关键点信息包括的42个关节点之间的相对位置关系、与预设点按激活手势关键点信息包括的42个关节点之间的相对位置关系是否相同,来确定手势是否处于点按激活手势状态。其中,上述预设点按激活手势关键点信息可以为预先设定的表征手势处于点按激活手势状态的双手手势关键点信息。若相同,则手势处于点按激活手势状态。若不同,则手势不处于点按激活手势状态。由此,可以确定手势的状态。
步骤203,响应于确定双手手势关键点信息表征手势处于点按激活手势状态,根据双手手势关键点信息,确定手势驻留时长。
在一些实施例中,响应于确定上述双手手势关键点信息表征手势处于点按激活手势状态,上述执行主体可以根据上述双手手势关键点信息,确定手势驻留时长。实践中,响应于确定上述双手手势关键点信息表征手势处于点按激活手势状态,可以将上述双手手势关键点信息表征手势处于点按激活手势状态的时长确定为手势驻留时长。由此,可以避免手势偶然处于点按激活手势状态造成的误触。
步骤204,响应于手势驻留时长满足预设手势驻留时长条件,对双手手势关键点信息对应的交互界面进行显示。
在一些实施例中,上述执行主体可以响应于上述手势驻留时长满足预设手势驻留时长条件,对上述双手手势关键点信息对应的交互界面进行显示。其中,上述预设手势驻留时长条件可以为上述手势驻留时长大于等于预设时长阈值。上述交互界面可以为预先设定的由手势处于点按激活手势状态,且手势驻留时长满足预设手势驻留时长条件时所触发显示的界面。例如,上述交互界面可以为表示桌面的界面。
可选地,响应于检测到上述手势关键点信息表征手势处于握拳状态,关闭上述交互界面。其中,上述握拳状态可以为左手的手势处于握拳状态。检测手势关键点信息是否表征手势处于握拳状态的具体方法,可以参考“步骤202,确定双手手势关键点信息是否表征手势处于点按激活手势状态”的具体实现,在此不再赘述。由此,可以进一步实现用户与头戴式显示设备的交互。
可选地,响应于检测到上述手势关键点信息表征手势处于手腕抬起状态,可以在上述手势关键点信息对应的手腕处,以预设手腕显示模式显示上述交互界面。其中,上述手腕抬起状态可以为用户的手腕已经抬起来的状态。上述手势关键点信息对应的手腕处可以为用户抬起的手腕的手腕处。上述预设手腕显示模式可以为预先设定的,在手势处于手腕抬起状态时显示交互界面的方式。作为示例,上述预设手腕显示模式可以为在手腕中央显示圆形表盘以示时间,并在圆形表盘附近呈环绕状依次显示各个应用图标的模式。由此,可以通过手腕抬起状态以预设手腕显示模式显示上述交互界面,从而丰富交互界面的触发与显示方式。
可选地,上述响应于检测到上述手势关键点信息表征手势处于手腕抬起状态,可以在上述手势关键点信息对应的手腕处,以预设手腕显示模式显示上述交互界面,可以包括:响应于检测到上述手势关键点信息表征手势处于手腕抬起状态,以及响应于检测到手势深度信息,可以在上述手势关键点信息对应的手腕处,以预设手腕显示模式和对应上述手势深度信息的尺度显示信息显示上述交互界面。其中,手势尺度显示信息可以为显示交互界面的尺度(大小)的信息。例如,可以预先设置有交互界面的标准显示大小。可以通过手势深度信息包括的最后一帧视频帧的手势深度与预设深尺度系数确定对应的尺度显示信息。其中,上述预设深尺度系数可以为预先设置的手势深度与标准显示大小的比例系数。作为示例,手势深度信息包括的最后一帧视频帧的手势深度可以为1个单位深度,预设深尺度系数可以为1,上述尺度显示信息可以为1倍标准显示大小。作为又一示例,手势深度信息包括的最后一帧视频帧的手势深度可以为2个单位深度,预设深尺度系数可以为1,上述尺度显示信息可以为2倍标准显示大小。由此,可以根据手势深度信息调整交互界面所显示的大小,即对于离上述单目摄像头较近的手腕,可以显示更大的交互界面,而随着手腕远离摄像头,则可以使得显示的交互界面逐渐减小,从而提升用户交互时的沉浸感和代入感。
可选地,响应于检测到上述手势关键点信息表征手势处于预设移动界面手势状态,对上述交互界面进行移动。上述预设移动界面手势状态可以为右手的手势处于五指张开的状态。检测手势关键点信息是否表征手势处于预设移动界面手势状态的具体方法,可以参考“步骤202,确定双手手势关键点信息是否表征手势处于点按激活手势状态”的具体实现,在此不再赘述。由此,可以进一步实现用户与头戴式显示设备的交互。
可选地,响应于检测到上述手势关键点信息表征手势处于预设移动应用手势状态,对上述交互界面内的应用进行移动。上述预设移动应用手势状态可以为右手的手势处于五指捏合的状态。检测手势关键点信息是否表征手势处于预设移动应用手势状态的具体方法,可以参考“步骤202,确定双手手势关键点信息是否表征手势处于点按激活手势状态”的具体实现,在此不再赘述。由此,可以进一步实现用户与头戴式显示设备的交互。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的交互界面显示方法,降低了装载于头戴式显示设备的摄像头的体积与功耗,提升用户体验。具体来说,造成装载于头戴式显示设备的摄像头的体积与功耗较大,用户体验较差的原因在于:双目摄像头体积大、功耗较高;此外,单目摄像头基于屏幕平面的交互需要用户手臂长期持续抬起,造成用户手臂劳累,用户体验较差。基于此,本公开的一些实施例的交互界面显示方法,首先,确定手势关键点信息。然后,确定双手手势关键点信息是否表征手势处于点按激活手势状态。由此,可以确定手势的状态。然后,响应于确定双手手势关键点信息表征手势处于点按激活手势状态,根据双手手势关键点信息,确定手势驻留时长。由此,可以避免手势偶然处于点按激活手势状态造成的误触。最后,响应于手势驻留时长满足预设手势驻留时长条件,对双手手势关键点信息对应的交互界面进行显示。因为通过点按激活手势状态与预设手势驻留时长条件进行交互界面的显示,在人机交互中用户无需长期持续抬起手臂,减少了用户手臂劳累,提升了用户体验。
下面参考图3,其示出了适于用来实现本公开的一些实施例的头戴式显示设备300的结构示意图。图3示出的头戴式显示设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,头戴式显示设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有头戴式显示设备300操作所需的各种程序和数据。处理装置301、ROM302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许头戴式显示设备300与其他设备进行无线或有线通信以交换数据。此外,头戴式显示设备300还可以包括单目摄像头310。其中,单目摄像头310用于获取视频流。虽然图3示出了具有各种装置的头戴式显示设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种双手手势识别方法,应用于包括单目摄像头的头戴式显示设备,其中,所述方法包括:
通过所述单目摄像头获取视频流;
对所述视频流进行双手手势检测,得到双手手势位置信息;
根据所述双手手势位置信息,生成双手手势关键点信息;
根据所述视频流和惯性测量单元信息,确定摄像头位姿信息;
根据所述摄像头位姿信息和所述视频流,确定预测双手手势位置信息。
2.根据权利要求1所述的方法,其中,所述对所述视频流进行双手手势检测,得到双手手势位置信息,包括:
通过双手手势检测算法对所述视频流进行双手手势检测,得到双手手势包围框位置信息和双手手势初始坐标信息;
将所述双手手势包围框位置信息和所述双手手势初始坐标信息确定为双手手势位置信息。
3.根据权利要求2所述的方法,其中,在所述将所述双手手势包围框位置信息和所述双手手势初始坐标信息确定为双手手势位置信息之前,所述方法还包括:
对所述双手手势初始坐标信息进行对齐处理,得到对齐处理后的双手手势初始坐标信息;
对于对齐处理后的双手手势初始坐标信息进行配准处理,以实现对双手手势初始坐标信息的更新。
4.根据权利要求1所述的方法,其中,所述方法还包括:
响应于所述视频流包括的最后一帧视频帧内不包括手势信息,确定所述预测手势位置信息对于所述最后一帧视频帧的相对位置信息;
根据所述相对位置信息,提示用户对所述单目摄像头进行移动。
5.一种交互界面显示方法,应用于包括单目摄像头的头戴式显示设备,其中,所述方法包括:
使用如权利要求1-4之一所述的方法,确定双手手势关键点信息;
确定所述双手手势关键点信息是否表征手势处于点按激活手势状态;
响应于确定所述双手手势关键点信息表征手势处于点按激活手势状态,根据所述双手手势关键点信息,确定手势驻留时长;
响应于所述手势驻留时长满足预设手势驻留时长条件,对所述双手手势关键点信息对应的交互界面进行显示。
6.根据权利要求5所述的方法,其中,所述方法还包括:
响应于检测到所述手势关键点信息表征手势处于握拳状态,关闭所述交互界面。
7.根据权利要求5所述的方法,其中,所述方法还包括:
响应于检测到所述手势关键点信息表征手势处于手腕抬起状态,在所述手势关键点信息对应的手腕处,以预设手腕显示模式显示所述交互界面。
8.根据权利要求5所述的方法,其中,所述方法还包括:
响应于检测到所述手势关键点信息表征手势处于预设移动界面手势状态,对所述交互界面进行移动。
9.根据权利要求5所述的方法,其中,所述方法还包括:
响应于检测到所述手势关键点信息表征手势处于预设移动应用手势状态,对所述交互界面内的应用进行移动。
10.一种头戴式显示设备,包括:
单目摄像头,用于获取视频流;
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310173337.1A CN116382469A (zh) | 2023-02-17 | 2023-02-17 | 双手手势识别方法、交互界面显示方法和头戴式显示设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310173337.1A CN116382469A (zh) | 2023-02-17 | 2023-02-17 | 双手手势识别方法、交互界面显示方法和头戴式显示设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116382469A true CN116382469A (zh) | 2023-07-04 |
Family
ID=86960503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310173337.1A Pending CN116382469A (zh) | 2023-02-17 | 2023-02-17 | 双手手势识别方法、交互界面显示方法和头戴式显示设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116382469A (zh) |
-
2023
- 2023-02-17 CN CN202310173337.1A patent/CN116382469A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10261685B2 (en) | Multi-task machine learning for predicted touch interpretations | |
US10001838B2 (en) | Feature tracking for device input | |
KR102151286B1 (ko) | 애플리케이션과의 상호작용으로서의 다모드 사용자 표현 및 사용자 인텐서티 검출 기법 | |
US20110115814A1 (en) | Gesture-controlled data visualization | |
US20220066569A1 (en) | Object interaction method and system, and computer-readable medium | |
JP2016534481A (ja) | 状態変化および将来のユーザ入力の予想に関する情報を使用するユーザ入力に対する応答を提供するためのシステムおよび方法 | |
US10488918B2 (en) | Analysis of user interface interactions within a virtual reality environment | |
CN111783626B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114972958B (zh) | 关键点检测方法、神经网络的训练方法、装置和设备 | |
Jörg et al. | Virtual hands in VR: Motion capture, synthesis, and perception | |
US9665232B2 (en) | Information-processing device, storage medium, information-processing method, and information-processing system for enlarging or reducing an image displayed on a display device | |
WO2021244650A1 (zh) | 控制方法、装置、终端及存储介质 | |
Vatavu | Gesture-based interaction | |
CN110908568B (zh) | 一种虚拟对象的控制方法和装置 | |
Raja et al. | Voice Assistant and Gesture Controlled Virtual Mouse using Deep Learning Technique | |
CN116433847A (zh) | 姿态迁移方法及装置、电子设备和存储介质 | |
CN116382469A (zh) | 双手手势识别方法、交互界面显示方法和头戴式显示设备 | |
CN114092556A (zh) | 用于确定人体姿态的方法、装置、电子设备、介质 | |
CN113672158A (zh) | 一种增强现实的人机交互方法及设备 | |
CN113052174A (zh) | 车牌数据样本生成方法、装置、电子设备和存储介质 | |
US20230409121A1 (en) | Display control method, apparatus, electronic device, medium, and program product | |
CN115345981B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
US20240096043A1 (en) | Display method, apparatus, electronic device and storage medium for a virtual input device | |
US20240103625A1 (en) | Interaction method and apparatus, electronic device, storage medium, and computer program product | |
CN116185205B (zh) | 非接触手势交互方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |