CN111527468A - 一种隔空交互方法、装置和设备 - Google Patents

一种隔空交互方法、装置和设备 Download PDF

Info

Publication number
CN111527468A
CN111527468A CN201980006422.0A CN201980006422A CN111527468A CN 111527468 A CN111527468 A CN 111527468A CN 201980006422 A CN201980006422 A CN 201980006422A CN 111527468 A CN111527468 A CN 111527468A
Authority
CN
China
Prior art keywords
image
user
screen
coordinate
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980006422.0A
Other languages
English (en)
Inventor
夏璐
陆勤
张建顺
甘启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN111527468A publication Critical patent/CN111527468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了一种隔空交互方法、装置和终端设备,应用于人机交互技术领域。其中,所述方法包括:获取用户的第一深度图像;识别第一深度图像中的用户的眼睛的眼睛坐标和操控物的第一操控物坐标;根据眼睛坐标和第一操控物坐标,确定用户对屏幕进行点击的点击位置。本申请通过获取用户的眼睛或主视眼的三维坐标和手指或手中握持的物品的三维坐标后,根据两个坐标点构成的直线投射到屏幕上的交点,确定用户在屏幕上点击的位置,以实现隔空交互。

Description

一种隔空交互方法、装置和设备
技术领域
本发明涉及人机交互技术领域,尤其涉及一种隔空交互方法、装置和设备。
背景技术
如今大屏幕的显示器越来越普及,例如从家庭的电视机到室外的广告牌等设备都采用各类显示器显示图像信息。但是,在用户与设备传统的交互方式中,主要是采用触摸屏和遥控器。然而,在一些场景下,用户即操作者无法直接接触到屏幕,触摸屏方式不可实施,如家用电视机、或户外高楼的显示屏等不适宜采用触摸屏。并且,使用遥控器控制,也有诸多问题,如遥控器容易丢失、操作不便捷、或导致界面显示不自然等。因此,现有的人机交互方式存在缺陷。如何提供一种更为便利的交互方法来控制显示器就成了一个问题。
发明内容
为了克服上述问题,本申请的实施例提供了一种隔空交互方法、装置和设备。
第一方面,本申请提供一种隔空交互方法,包括:获取用户的第一深度图像,所述第一深度图像包括第一红绿蓝RGB图像和第一深度信息;识别所述第一深度图像中的所述用户的眼睛的眼睛坐标和操控物的第一操控物坐标;根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置。
本申请实施例提供的隔空交互方法,通过获取用户的眼睛的三维坐标和手指或手中握持的物品的三维坐标后,根据两个坐标点构成的直线投射到屏幕上的交点,确定用户在屏幕上点击的位置,以实现隔空交互。
在另一个可能的实现中,当所述眼睛坐标和所述第一操控物坐标属于深度图像坐标系时,所述方法还包括:将所述眼睛坐标和所述第一操控物坐标从所述深度图像坐标系转换至空间三维坐标系。
在另一个可能的实现中,所述根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置,包括:将穿过所述空间三维坐标系中的所述眼睛坐标和所述第一操控物坐标的直线与所述屏幕所在平面的交点,确定为所述点击位置。
在另一个可能的实现中,在确定所述用户对所述屏幕进行点击的点击位置之后,还包括:将所述点击位置从所述空间三维坐标系转换至所述屏幕坐标系。
在另一个可能的实现中,所述方法还包括:获取所述用户的第二深度图像,所述第二深度图像包括第二GRB图像和第二深度信息,所述第一深度图像和所述第二深度图像是时域上不同时刻的图像;识别所述第二深度图像中的所述操控物的第二操控物坐标;判断所述第一操控物坐标和所述第二操控物坐标的变化幅度是否超过预设阈值;所述根据所述主视眼坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置,包括:当所述变化幅度超过所述预设阈值时,根据所述主视眼坐标和所述第一操控物坐标,确定所述用户对屏幕进行点击的点击位置。
本申请通过判断用户的手或手中握持的物品是否进行操作,只获取有操作的手指或手中握持的物品的坐标,这样就过滤掉静止状态的用户的手图像,以减少处理器的工作负担。
在另一个可能的实现中,所述获取用户的第一深度图像或第二深度图像之前,包括:通过至少一个摄像头获取所述用户的第一图像和第二图像,所述第一图像包括所述第一RGB信息,所述第二图像包括第二RGB信息或所述第一深度信息;根据所述第一图像和所述第二图像,计算出所述第一深度图像或所述第二深度图像。例如,该过程由包括所述至少一个摄像头的设备执行或由执行第一方面或其中任一可能实现方式中的方法的设备或设备内处理器执行。
第二方面,本申请还提供了一种隔空交互设备,包括屏幕和至少一个摄像头和执行如第一方面或第一方面的各个可能实现的实施例的处理器。
第三方面,本申请还提供了一种隔空交互设备,包括:处理器和存储器;所述存储器存储有一个或多个程序,所述一个或多个程序包括指令,所述处理器,用于执行所述指令,使得所述设备执行如第一方面中的任意一种可能实现的实施例。
第四方面,本申请还提供了一种可读存储介质,用于存储指令,其特征在于,当所述指令被执行时,使得执行如第一方面中的任意一种可能实现的实施例。
第五方面,本申请还提供了一种包含指令的计算机程序设备,其特征在于,当其在设备或处理器上运行时,使得所述设备执行如第一方面中的任意一种可能实现的实施例。
第六方面,本申请还提供了一种隔空交互装置,所述装置执行如第一方面中的任意一种可能实现的实施例。
附图说明
下面对实施例或现有技术描述中所需使用的附图作简单地介绍。
图1为本申请实施例提供的一种人机交互的场景示意图;
图2(a)为双目摄像头进行拍摄的场景示意图;
图2(b)为双目摄像头进行拍摄的几何模型的结构示意图;
图3为本申请实施例提供的一种终端设备的结构示意图;
图4为本申请实施例提供的一种隔空交互方法的流程示意图;
图5为本申请实施例提供的摄像头获取人脸图像的场景示意图;
图6为本申请实施例提供的主摄像头获取的图像中各个位置的坐标示意图;
图7为本申请实施例提供的在隔空交互过程中以主摄像头作为原点的笛卡尔坐标系下各个位置的坐标示意图;
图8为本申请实施例提供的在屏幕坐标系下的用户点击位置的坐标示意图;
图9为本申请实施例提供的一种隔空交互装置的结构示意图。
具体实施方式
下面将结合附图对本实施例的实施方式进行详细描述。
本申请实施例提供的一种隔空交互方法,可应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant,PDA)、电视机、投影设备、虚拟现实设备、广告牌或大屏幕设备等具有屏幕的终端设备中,本申请实施例对此不做任何限制。
图1为本申请实施例提供的一种人机交互的场景示意图。如图1所示,本申请提供的终端设备包括:屏幕10,用于显示用户所要观看图像的设备。在本申请实施例中,屏幕10可以包括但不限于电视机、或广告牌等屏幕,也可以包括但不限于投影设备投影时作为屏幕的墙面、幕布、或玻璃等设备。终端设备包括但不限于之前提到的手机。
所述终端设备还包括至少一个主摄像头20,用于获取屏幕10正前方一定区域内的人物的GRB图像。主摄像头20可以内置在屏幕10内部,也可以作为独立的装置连接在屏幕10上。在本申请实施例中,主摄像头20包括但不限于可见光摄像头、红外光摄像头或其它类型的摄像头。其中,在本申请中优选的采用红外光摄像头,由于红外线对于人眼来说,是不可见的,这样避免主摄像头20在采集人物图像过程中,对屏幕10正前方人员产生影响。
所述终端设备还包括至少一个辅摄像头30,用于获取屏幕10正前方一定区域内的人物图像的图像深度信息。辅摄像头30可以内置在屏幕10内部,也可以作为独立的装置连接在屏幕10上。在本申请实施例中,辅摄像头30包括但不限于结构光摄像头、时间飞行(time of flight,TOF)摄像头或其它类型的摄像头。
所述终端设备还包括处理器(具体参照图3中处理器303的描述),其具有通用计算能力,用于处理主摄像头20获取的RGB图像和辅摄像头30获取的深度信息。
需要特别说明的是,副摄像头30可以为如主摄像头20类型相同的摄像头,此时主摄像头20和辅摄像头30构成双目摄像头,可以通过双目摄像头原理计算图像深度信息。在一个可能的实施例中,如图2(a)所示,当主摄像头20和辅摄像头30对空间的一景物点P进行拍摄时,将进行拍摄的过程简化为几何模型,如图2(b)所示,OL为辅摄像头30的光圈中心点、OR主摄像头20的光圈中心点、PL为辅摄像头30的成像点、PR为主摄像头20的成像点,根据△PPLPR和△POLOR的相似关系,计算景物点P与摄像头之间的距离如下:
Figure BDA0002536914990000031
其中,基线b为主摄像头20和辅摄像头30的光圈之间的距离,焦距f为主摄像头20和辅摄像头30的成像点与光圈中心的距离,uL为辅摄像头30光圈中心与辅摄像头30成像点在水平方向上的距离,uR为主摄像头20光圈中心与主摄像头20成像点在水平方向上的距离,距离z为景物点与光圈中心的距离。
在操控员(图中为观众D)与终端设备进行隔空交互过程中,处理器通过控制主摄像头20进行拍摄,以获取屏幕10正前方一定区域内的图像或视频,包括但不限于RGB图像。然后主摄像头20将采集的图像或视频发送给处理器。与此同时,处理器通过控制辅摄像头30进行拍摄,以获取屏幕10正前方一定区域内的图像深度信息。然后辅摄像头30将采集的图像深度信息发送给处理器。
处理器在接收到主摄像头20发送的图像或视频后,通过人脸识别模块识别出图像或视频中人脸图像和通过手势识别模块识别出图像或视频中手图像。然后根据已有的人脸识别算法计算出人脸图像中眼睛,例如主视眼的瞳孔在图像或视频中的位置,并根据手势识别算法计算出手图像中手指的指尖、指甲或其它部位在图像或视频中的位置。其中人脸识别模块和手势识别模块可以是预置在终端设备中的软件模块或神经网络模型,可以被处理器执行或预置在处理器中,本实施例不做限定。
本申请实施例中,如果用户手持遥控笔、签字笔等操控物时,处理器可以获取操控物尖部位置,来替代获取手指的指尖、指甲或其它部位的位置。
处理器在接收到辅摄像头30发送的图像深度信息后,先将得到的瞳孔和手指的指尖、指甲或其它部位在图像或视频中的位置转换为空间坐标中的坐标点;然后计算由瞳孔和手指的指尖、指甲或其它部位在空间坐标中的坐标点构成的直线;最后计算该直线与屏幕10在空间坐标中的平面相交的交点的坐标,得到用户所要对屏幕10进行点击的点击位置。后续,如果用户对屏幕10上显示的内容进行操作时,处理器通过识别用户的手势,然后执行该手势对应的指令,实现在屏幕上进行点击、放大、缩小、移动等操作。
本申请实施例通过主摄像头20和辅摄像头30获取用户的眼睛,例如主视眼的某个部位的三维坐标点和手指在进行点击时的手指某个部位的三维坐标点后,根据这两个三维坐标点连接的直线投射到预设屏幕上到的交点,即为用户所要点击的位置,实现在不借助任何工具,与终端设备进行隔空交互。
另外,所述终端设备还可以有至少一个补光灯50,用于向屏幕10正前方一定区域内的进行补光。补光灯50可以内置在屏幕10内部,也可以作为独立的装置连接在屏幕10上。在本申请实施例中,补光灯50包括但不限于可见光照明设备、红外光照明设备等其它类型的照明设备。其中,补光灯50的进行补光的种类和主摄像头20的进行拍摄获取的光源的种类相同,使得补光灯50补充的光更好的为主摄像头20进行拍摄。
需要说明的是,后续实施例以用户的主视眼为例进行说明,但实际应用中,被处理的图像中涉及的眼睛也可以是非主视眼,本实施例对此不限定。
图3为本发明实施例提供的一种终端设备的结构示意图。如图3所示的一种终端设备300,该终端设备300包括传感器301,显示器302,处理器303、存储器304、通信接口305以及接口306。终端设备300中的处理器303、存储器304和通信接口305可以通过接口306建立通信连接。传感器301,用于获取包括RGB-D图像、RGB图像和图像深度信息。传感器301可包括主摄像头20和辅摄像头30。显示器302,用于显示处理后的数据,如视频、及虚拟操作界面。显示器302可以为屏幕10。
处理器303可以为中央处理器(central processing unit,CPU)。处理器303用于根据至少一张红绿蓝-深度(red green blue-depth map,RGB-D)图像,识别出用户的主视眼的主视眼坐标,以及根据至少一张RGB-D图像,检测操控物在进行操作时,确定操控物的操控物坐标;处理器303还用于将主视眼坐标和操控物坐标从深度图像坐标系转换至空间三维坐标系;然后将穿过空间三维坐标系中的主视眼坐标和第一操控物坐标的直线与显示器302所在平面的交点,确定为点击位置;处理器303还用于将点击位置从空间三维坐标系转换至屏幕坐标系。RGB-D图像在本申请实施例中也叫深度图像。
存储器304可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,硬盘(hard disk drive,HDD)或固态硬盘(solid state drive,SSD);存储器304还可以包括上述种类的存储器的组合。其中,人脸RGB图像、手RGB图像和图像深度信息等数据将存储在存储器304中。另外,存储器304中还将用于存储处理器303执行的用于实现上述实施例的隔空交互对应的程序指令等等。
在图3中,通信接口305可以实现终端设备的对外通信,包括但不限于蜂窝通信、短距离通信或有线通信等。接口306可以是处理器303与其他部件交互的接口或通道。例如,该接口可以是总线或其他接口。接口306可用于连接至传感器301,并用于传递传感器301采集到的各类图像信息至处理器303。
图4为本申请实施例提供的一种隔空交互方法的流程示意图。可结合图1示例的终端设备,如图4所示,本申请实施例提供的隔空交互方法具体实现的过程如下。步骤S401,处理器303获取用户的第一深度图像。在图1中的终端设备开始进行隔空交互时,处理器303控制主摄像头20和辅摄像头30对屏幕10前方一定区域内进行实时拍摄,将获取的图像信息和深度信息发送到处理器303,处理器303可以通过计算得到深度图像。或者,如果主摄像头20和辅摄像头30作为单独的拍摄设备或模组,其内部有一个单独的处理单元,则将获取的图像信息和深度信息进行处理后,生成深度图像发送给处理器303,此时的处理器303直接接收拍摄该设备或模组发送的深度图像,本实施例对此不限定。
其中,RGB-D图像获取的方法有两种:第一种是,主摄像头30用于获取屏幕10前方一定区域内人物RGB图像,辅摄像头30用于获取屏幕10前方一定区域内人物的图像深度信息,然后拍摄该设备或模组或处理器303将人物RGB图像和人物的图像深度信息结合,得到RGB-D图像。第二种是,通过两个完全相同的摄像头(主摄像头20和辅摄像头30相同)获取RGB图像后,根据双目摄像头原理,拍摄该设备或模组或处理器303计算出RGB-D图像。不管采用哪种方法,我们都可以将RGB-D图像分为RGB图像和图像深度信息。下面我们以第一种获取RGB-D图像的方法为例讲述本申请实施例的方案。
人脸识别模块对主摄像头20拍摄获取的图像实时进行人脸识别,以捕捉图像内的人脸图像。同时,处理器303可以实时计算人脸识别模块识别出的人脸图像的位置。对于处理器303获取人脸图像的原理,可以参考现有手机、摄像机等设备拍照原理,如图5所示。在主摄像头20进行实时拍摄时,通过人脸识别模块识别出在镜头中人脸图像后,将每个人脸图像通过一个个方框给框出来,每一个人脸框表示一个用户的人脸图像,以方便后期计算人脸图像的位置。
步骤S403,处理器303识别第一深度图像中的用户的眼睛的眼睛坐标和操控物的第一操控物坐标。后续介绍以眼睛是主视眼为例。在人脸识别模块识别人脸图像后,处理器303可以根据应用场景,有选择性的保留部分或全部的人脸识别模块识别出的人脸图像。在一种可能的实施例中,处理器303仅保留有抬手动作的用户的人脸图像。由于在进行隔空交互过程中,终端设备需要通过识别用户的手指动作来实现隔空交互,因此只需要获取有抬手动作的用户的人脸图像即可。对于静止状态的用户或没有抬手动作的用户,处理器303就不用获取其人脸图像,以减少处理器303的工作负担。处理器303可通过运行人脸识别模块和手势识别模块,例如运行人脸神经网络模型和手势神经网络模型,对第一深度图像进行识别,以得到主视眼在空间中的坐标和第一手图像中的至少一个手指在空间中的坐标,相关神经网络模型采用人工智能识别技术,相关技术具体可参照现有技术的描述,此处不做展开。
在另一种可能的实施例中,处理器303仅保留设定的用户的人脸图像。在本申请实施例在进行隔空隔空交互过程中,如果有两个或两个以上的用户有抬手动作时,处理器303在判定控制者的时候会出现紊乱。因此本申请实施例可以在存储器中预先存储设定的一个或多个用户的人脸图像作为控制者的人脸图像,在人脸识别模块识别出包括设定的控制者在内的多个用户有抬手动作时,处理器303优先判定存储器存储的设定的控制者作为进行隔空交互的控制者。
处理器303得到在人脸识别模块对拍摄获取的图像中识别出符合要求的用户的人脸图像时,将该人脸图像作为进行隔空交互的控制者的人脸图像。处理器303控制人脸识别模块识别出控制者的人脸图像的主视眼的眼球、瞳孔或其它部位,然后计算主视眼的眼球、瞳孔或其它部位在主摄像头20获取的图像中的位置。
其中,处理器303根据主摄像头30获取的图像的分辨率H(Height)×W(Width),计算控制者的主视眼的眼球、瞳孔或其它部位在主摄像头20获取的图像中的位置A1(Xp,Yp),如图6所示。随后,处理器303结合辅摄像头30获取的控制者的主视眼的眼球、瞳孔或其它部位的图像深度信息,计算出控制者的主视眼在RGB-D图像中位置A2(Xp,Yp,Zp)。
在本申请实施例中,获取用户的眼睛,一般为用户的主视眼,但是不限于此,也可以基于非主视眼或基于双眼执行处理,对于处理所针对的眼睛数量也不限定。本文涉及的主视眼也叫注视眼、优势眼。从人的生理角度讲,每个人都有一个主视眼,可能是左眼,也可能是右眼。主视眼所看到的东西会被大脑优先接受。对于大多数人来说,右眼为主视眼,所以在此系统默认右眼为主视眼。
另外,系统可以通过眼睛部位和手指部位的连线方向是否指向屏幕10来判断用户的主视眼。如果用户的左眼部位和手指部位的连线方向指向屏幕10内的某点,而的右眼部位和手指部位的连线方向指向屏幕10外的某点,则认为主视眼为左眼;如果用户的右眼部位和手指部位的连线方向指向屏幕10内的某点,而的左眼部位和手指部位的连线方向指向屏幕10外的某点,则认为主视眼为右眼;如果用户的左眼部位和手指部位的连线方向指向屏幕10内的某点,而的右眼部位和手指部位的连线方向也指向屏幕10内的某点,则默认为主视眼为右眼。
在手势识别模块识别出用户的手图像后,处理器303可以根据应用场景,有选择性的保留部分或全部的手势识别模块识别出的手图像。在一个可能的实施例中,处理器303根据连续的至少两张图片中的手的位置是否变化,即变化幅度,来判断用户的手是否进行操作,处理器303仅保留有操作动作的手图像。由于主摄像头20获取的图像或视频中不仅包括进行操作的用户的手图像,还包括围观的用户的手图像。但是对静止状态的用户,处理器303就不用获取其手图像,以减少处理器303的工作负担。
在一个可能的实施例中,处理器303仅保留特定的动作的手图像。由于用户的手除对终端设备进行操作的动作外,还进行如挠痒、拿东西等动作,但是这些动作并不是对终端设备进行操作的。因此本申请实施例可以在存储器中预先存储设定的操作动作,如抬手、点击等动作,作为检测用户是否对终端设备进行操作的动作。
处理器303得到在手势识别模块对拍摄获取的图像中识别出符合要求的用户的手图像时,将该手图像作为进行隔空交互的控制者的手图像。处理器303控制手势识别模块识别出控制者的手图像的手指的指尖、指甲或其它部位,然后计算手指的指尖、指甲或其它部位在主摄像头20获取的图像中的位置。
以上实施例中提到的操控物是人的手。需要特别说明的是,处理器303得到在手势识别模块对拍摄获取的图像中识别出符合要求的用户的手图像时,可能检测到手图像中的手中有遥控笔或签字笔等操控物,则表明用户的手中握持有其他物体作为操控物。此时处理器303可以计算操控物突出的尖部在主摄像头20获取的图像中的位置,来替代手指的指尖、指甲或其它部位的位置。综上,本申请实施例的操控物包括手、手持设备、手持物体或其他代替手实现操控的设施,本实施例对此不限定。
在本申请实施例中,处理器303根据主摄像头30获取的图像的分辨率H(Height)×W(Width),计算控制者的手指的指尖、指甲或其它部位在主摄像头20获取的图像中的位置B1(Xf,Yf),如图6所示。随后,处理器303结合辅摄像头30获取的控制者的手指的指尖、指甲或其它部位的图像深度信息,计算出控制者的手指在RGB-D图像中位置B2(Xf,Yf,Zf)。也即是说,本坐标包括了指尖、指甲或其它部位在二维的RGB图像中的坐标B1(Xf,Yf)和深度信息Zf。其中,分辨率中H(Height)表示图像中在垂直方向上占的点数的单位,W(Width)表示图像中在水平方向上占的点数的单位。
步骤S405,处理器303根据眼睛坐标和第一操控物坐标,确定用户对屏幕进行点击的点击位置。上述本申请实施例的处理器303得到在RGB-D图像中的控制者的主视眼的瞳孔的坐标A2(Xp,Yp,Zp)和手指的坐标B2(Xf,Yf,Zf)后,处理器303需要将在RGB-D坐标下的坐标点转换为空间中的笛卡尔坐标系下的坐标点。如图7所示,以主摄像头20为原点,将以与屏幕10所在的平面作为xoy平面,将与屏幕10垂直的方向为z轴方向,其中,以主摄像头20到辅摄像头30的方向为x轴方向,分别与x轴和z轴相垂直的方向为y轴方向。将在RGB-D图像中的主视眼和手指的坐标转换为空间中的笛卡尔坐标系下坐标的计算过程具体如下:
Figure BDA0002536914990000071
Figure BDA0002536914990000072
其中,Cx、Cy、Fx和Fy为主摄像头20的内参数据,Cx,Cy为图像原点相对于光圈中心成像点的纵横偏移量(单位:像素),Fx=f/dx,其中f为相机的焦距,dx为x方向的一个像素占多少长度单位,Fy=f/dy,其中f为相机的焦距,dy为y方向的一个像素占多少长度单位。
由上述公式(2)和公式(3)计算得到空间中以主摄像头20为原点的笛卡尔坐标系下的控制者的主视眼的三维坐标A3(Xsp,Ysp,Zsp)和手指的三维坐标B3(Xsf,Ysf,Zsf)。需要特别说明的是,上述实施例是以主摄像头20的光圈中心点与屏幕10的显示层在一个平面上进行举例说明的,如果主摄像头20的光圈中心点与屏幕10的显示层不在一个平面上,此时计算的Zsp和Zsf需要考虑主摄像头20的光圈中心点与屏幕10的显示层之间的距离。
然后,处理器303根据主视眼坐标A3和手指坐标B3这两个坐标点构成的直线投射到屏幕上的交点,计算手指指向屏幕上的坐标点M1,具体如下:
Figure BDA0002536914990000073
由上述公式(4)计算得到在空间中笛卡尔坐标系下的控制者的手指指向屏幕上的坐标点M1(Xpoint,Ypoint,Zpoint)。
最后,处理器303在得到空间中笛卡尔坐标系下的控制者手指指向的屏幕坐标M1后,由于屏幕要显示控制者所指示的点,所以需要将空间中笛卡尔坐标系下的坐标点M1转化成屏幕坐标系下的坐标M2。
如图8所示,假设屏幕坐标系的坐标原点为屏幕左下角处的直角点,X轴为向右为正(以图1中屏幕10显示为基准),Y轴向上为正,屏幕分辨率为H(Height)×W(Width),主摄像头在屏幕坐标系下位置为(Xc,Yc),则在屏幕坐标系下的控制者所指示的交点坐标M2计算过程具体如下:
Figure BDA0002536914990000081
由上述公式(5)计算得到在屏幕10坐标系下的控制者的手指指向屏幕10上的坐标点M2(Xs,Ys)。然后,控制器根据坐标点M2在屏幕10的以屏幕10左下角处的直角点为原点向右距Xs、且以屏幕10左下角处的直角点为原点向上距Ys处的位置上显示一个如箭头、小手、或圆点等标识,以提示控制者看到自己进行隔空交互在屏幕10上所要指示的坐标点。
同时,处理器303根据控制者的手的姿态对标识点所处的位置中的文本进行点击、移动、放大等操作。在本申请实施例中,处理器303通过获取连续多张RGB-D图像,并计算用户的手的在RGB-D图像中的位置,然后根据用户的手指的位置是否发生变化,来判断用户的手指的姿势。
隔空交互在一种情况下,处理器303根据在规定的时间内获取的多张RGB-D图像,检测到用户的手指在垂直于屏幕10的方向上移动的距离大于预设距离,且移动的方向指向屏幕10的方向,则处理器303判定控制者的手的姿态为点击操作或落笔操作。然后处理器303打开在屏幕10上的坐标点M2处的文件、APP图标等应用。
在第二种情况下,处理器303根据在规定的时间内获取的多张RGB-D图像,检测到用于的手指在垂直于屏幕10的方向上移动的距离大于预设距离,且移动的方向背向屏幕10的方向,则处理器303判定控制者的手的姿态为抬手操作或抬笔操作。然后处理器303停止对在屏幕10上的坐标点M2处的文件、或页面等内容的修改。
在第三种情况下,处理器303根据在规定的时间内获取的多张RGB-D图像,检测到用户的手指在垂直于屏幕10的方向上移动的距离小于预设距离,且移动的方向有指向屏幕10的方向,也有背向屏幕10的方向,则处理器303判定控制者的手的姿态为连击操作。然后处理器303对在屏幕10上的坐标点M2处的文件、或页面等内容进行重点显示。显示的方法有将坐标点M2周围的文字显示红色、图标放大、或背景变亮等等。
在第四种情况下,处理器303根据在规定的时间内获取的多张RGB-D图像,检测到用户的手指在与屏幕10平行的平面上移动的距离大于预设距离,且在垂直于屏幕10的方向上并未检测到移动,或移动的距离小于预设距离,则处理器303判定控制者的手的姿态为滑动操作。然后处理器303将在屏幕10上的坐标点M2处的文件、或APP图标等内容移动到最后落手对应的屏幕10上的坐标点位置上。
在第五种情况下,处理器303根据在规定的时间内获取的多张RGB-D图像,检测到主摄像头20获取的图像中的手指数量超过一个的时候,处理器303再结合辅摄像头30获取的控制者的手指的图像深度信息,确定各个手指之间的距离是否发生变化。当处理器303检测到多个手指之间的距离不断地放大时,则判定控制者对屏幕上选定的目标进行放大,将在屏幕10上的坐标点M2处的文件、或APP图标等内容进行放大、或将已打开的文件打开;当处理器303检测到多个手指之间的距离不断地缩小时,则判定控制者对屏幕上选定的目标进行缩小,将在屏幕10上的坐标点M2处的文件、或APP图标等内容进行缩小、或将已打开的文件关闭。
需要说明的是,操作动作不仅限上述五种情况,还可以为其它操作动作,本申请在此不再一一举例。
本申请实施例提供的隔空交互方法,通过获取用户的主视眼中的某个部位的三维坐标和手指中的某个部位的三维坐标后,根据两个坐标点构成的直线投射到屏幕上的交点,确定用户在屏幕上点击的位置,并根据用户的手指的姿态对文件进行各种操作,以实现隔空交互。
图9为本申请实施例提供的一种隔空交互装置的结构示意图。如图9所示,本申请实施例提供的隔空交互装置900包括:获取单元901和处理单元903。其中,获取单元901用于获取用户的RGB-D图像。处理单元903用于识别RGB-D图像中的用户的一个眼睛的眼睛坐标和操控物的操控物坐标;以及根据眼睛坐标和第一操控物坐标,确定用户对屏幕进行点击的点击位置。每个单元具体的实现方案可参考之前实施例的介绍。除了获取深度图像外,处理单元903还可执行以上实施例提到的其他操作,具体参照之前实施例的介绍。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
此外,本申请实施例的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,CD)、数字通用盘(digital versatiledisc,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasableprogrammable read-only memory,EPROM)、卡、棒或钥匙驱动器等)。另外,本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
在上述实施例中,图9中隔空交互装置900可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
应当理解的是,在本申请实施例的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者接入网设备等)执行本申请实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (11)

1.一种隔空交互方法,其特征在于,包括:
获取用户的第一深度图像,所述第一深度图像包括第一红绿蓝RGB信息和第一深度信息;
识别所述第一深度图像中的所述用户的眼睛的眼睛坐标和操控物的第一操控物坐标;
根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置。
2.根据权利要求1所述的方法,其特征在于,所述眼睛坐标和所述第一操控物坐标属于深度图像坐标系时,所述方法还包括:
将所述眼睛坐标和所述第一操控物坐标从所述深度图像坐标系转换至空间三维坐标系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置,包括:
将穿过所述空间三维坐标系中的所述眼睛坐标和所述第一操控物坐标的直线与所述屏幕所在平面的交点,确定为所述点击位置。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在确定所述用户对所述屏幕进行点击的点击位置之后,还包括:
将所述点击位置从所述空间三维坐标系转换至所述屏幕坐标系。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
获取所述用户的第二深度图像,所述第二深度图像包括第二RGB图像和第二深度信息,所述第一深度图像和所述第二深度图像是时域上不同时刻的图像;
识别所述第二深度图像中的所述操控物的第二操控物坐标;
判断所述第一操控物坐标和所述第二操控物坐标的变化幅度是否超过预设阈值;
所述根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置,包括:当所述变化幅度超过所述预设阈值时,根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对屏幕进行点击的点击位置。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取用户的第一深度图像或第二深度图像之前,包括:
通过至少一个摄像头获取所述用户的第一图像和第二图像,所述第一图像包括所述第一RGB信息,所述第二图像包括第二RGB信息或所述第一深度信息;
根据所述第一图像和所述第二图像,计算出所述第一深度图像或所述第二深度图像。
7.一种隔空交互设备,包括屏幕、至少一个摄像头和执行如权利要求1-6所述的处理器。
8.一种隔空交互设备,包括:处理器和存储器;
所述存储器存储有一个或多个程序,所述一个或多个程序包括指令,
所述处理器,用于执行所述指令,使得所述设备执行根据权利要求1-6中的任意项所述的方法。
9.一种可读存储介质,用于存储指令,当所述指令被执行时,使得如权利要求1-6中的任一项所述的方法被实现。
10.一种包含指令的计算机程序设备,当其在终端上运行时,使得所述终端执行如权利要求1-6中的任一项所述的方法。
11.一种隔空交互装置,包括:
获取单元,用于获取用户的第一深度图像,所述第一深度图像包括第一RGB图像和第一深度信息;
处理单元,用于识别所述第一深度图像中的所述用户的眼睛的眼睛坐标和操控物的第一操控物坐标;以及
根据所述眼睛坐标和所述第一操控物坐标,确定所述用户对所述屏幕进行点击的点击位置。
CN201980006422.0A 2019-11-18 2019-11-18 一种隔空交互方法、装置和设备 Pending CN111527468A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/119129 WO2021097600A1 (zh) 2019-11-18 2019-11-18 一种隔空交互方法、装置和设备

Publications (1)

Publication Number Publication Date
CN111527468A true CN111527468A (zh) 2020-08-11

Family

ID=71900759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980006422.0A Pending CN111527468A (zh) 2019-11-18 2019-11-18 一种隔空交互方法、装置和设备

Country Status (2)

Country Link
CN (1) CN111527468A (zh)
WO (1) WO2021097600A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363626A (zh) * 2020-11-25 2021-02-12 广州魅视电子科技有限公司 基于人体姿态和手势姿态视觉识别的大屏幕交互控制方法
CN112560572A (zh) * 2020-10-24 2021-03-26 北京博睿维讯科技有限公司 一种摄像和大屏交互处理方法、装置及系统
CN112799574A (zh) * 2021-02-23 2021-05-14 京东方科技集团股份有限公司 一种显示控制方法和显示装置
CN113448443A (zh) * 2021-07-12 2021-09-28 交互未来(北京)科技有限公司 一种基于硬件结合的大屏幕交互方法、装置和设备
CN113778217A (zh) * 2021-09-13 2021-12-10 海信视像科技股份有限公司 显示设备及显示设备控制方法
CN114527922A (zh) * 2022-01-13 2022-05-24 珠海视熙科技有限公司 一种基于屏幕识别实现触控的方法及屏幕控制设备
CN114816145A (zh) * 2022-03-08 2022-07-29 联想(北京)有限公司 设备管控方法、装置
TWI823740B (zh) * 2022-01-05 2023-11-21 財團法人工業技術研究院 主動式互動導覽系統以及主動式互動導覽方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000032420A (ja) * 1998-05-01 2000-01-28 Sumitomo Electric Ind Ltd 双方向対話システム用撮像装置
CN101344816A (zh) * 2008-08-15 2009-01-14 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置
CN103793060A (zh) * 2014-02-14 2014-05-14 杨智 一种用户交互系统和方法
CN103809733A (zh) * 2012-11-07 2014-05-21 北京三星通信技术研究有限公司 人机交互系统和方法
CN107292295A (zh) * 2017-08-03 2017-10-24 华中师范大学 手势分割方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375542B (zh) * 2011-10-27 2015-02-11 Tcl集团股份有限公司 一种肢体遥控电视的方法及电视遥控装置
US10318100B2 (en) * 2013-10-16 2019-06-11 Atheer, Inc. Method and apparatus for addressing obstruction in an interface
CN106774850B (zh) * 2016-11-24 2020-06-30 深圳奥比中光科技有限公司 一种移动终端及其交互控制方法
CN109445593A (zh) * 2018-10-31 2019-03-08 贵州火星探索科技有限公司 电子设备控制方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000032420A (ja) * 1998-05-01 2000-01-28 Sumitomo Electric Ind Ltd 双方向対話システム用撮像装置
CN101344816A (zh) * 2008-08-15 2009-01-14 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置
CN103809733A (zh) * 2012-11-07 2014-05-21 北京三星通信技术研究有限公司 人机交互系统和方法
CN103793060A (zh) * 2014-02-14 2014-05-14 杨智 一种用户交互系统和方法
CN107292295A (zh) * 2017-08-03 2017-10-24 华中师范大学 手势分割方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560572A (zh) * 2020-10-24 2021-03-26 北京博睿维讯科技有限公司 一种摄像和大屏交互处理方法、装置及系统
CN112363626A (zh) * 2020-11-25 2021-02-12 广州魅视电子科技有限公司 基于人体姿态和手势姿态视觉识别的大屏幕交互控制方法
CN112363626B (zh) * 2020-11-25 2021-10-01 广东魅视科技股份有限公司 基于人体姿态和手势姿态视觉识别的大屏幕交互控制方法
CN112799574A (zh) * 2021-02-23 2021-05-14 京东方科技集团股份有限公司 一种显示控制方法和显示装置
CN113448443A (zh) * 2021-07-12 2021-09-28 交互未来(北京)科技有限公司 一种基于硬件结合的大屏幕交互方法、装置和设备
CN113778217A (zh) * 2021-09-13 2021-12-10 海信视像科技股份有限公司 显示设备及显示设备控制方法
TWI823740B (zh) * 2022-01-05 2023-11-21 財團法人工業技術研究院 主動式互動導覽系統以及主動式互動導覽方法
CN114527922A (zh) * 2022-01-13 2022-05-24 珠海视熙科技有限公司 一种基于屏幕识别实现触控的方法及屏幕控制设备
CN114816145A (zh) * 2022-03-08 2022-07-29 联想(北京)有限公司 设备管控方法、装置

Also Published As

Publication number Publication date
WO2021097600A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
US11546505B2 (en) Touchless photo capture in response to detected hand gestures
CN111527468A (zh) 一种隔空交互方法、装置和设备
US20230117197A1 (en) Bimanual gestures for controlling virtual and graphical elements
CN105487673B (zh) 一种人机交互系统、方法及装置
US9651782B2 (en) Wearable tracking device
US20220124295A1 (en) Marker-based guided ar experience
CN116348836A (zh) 增强现实中用于交互式游戏控制的手势跟踪
JP7026825B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
US11869156B2 (en) Augmented reality eyewear with speech bubbles and translation
US20140104394A1 (en) System and method for combining data from multiple depth cameras
CN106462242A (zh) 使用视线跟踪的用户界面控制
KR20140144510A (ko) 시선 추적을 이용한 시인성 개선 방법, 저장 매체 및 전자 장치
KR101196291B1 (ko) 손가락의 움직임을 인식하여 3d인터페이스를 제공하는 단말기 및 그 방법
KR20130004357A (ko) 컴퓨팅 디바이스 인터페이스
CN108090463B (zh) 对象控制方法、装置、存储介质和计算机设备
TW201324235A (zh) 手勢輸入的方法及系統
JP2012238293A (ja) 入力装置
KR102159767B1 (ko) 시선 추적을 이용한 시인성 개선 방법, 저장 매체 및 전자 장치
WO2021238163A1 (zh) 一种图像处理方法、装置、电子设备及存储介质
KR101256046B1 (ko) 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템
KR101426378B1 (ko) 깊이 정보를 이용한 프레젠테이션 이벤트 처리 장치 및 방법
CN115482359A (zh) 目标的尺寸测量方法、电子设备及其介质
CN111176425A (zh) 多屏幕操作方法与使用此方法的电子系统
CN104020843A (zh) 一种信息处理方法及一种电子设备
WO2021004413A1 (zh) 一种手持输入设备及其指示图标的消隐控制方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication