CN110333779A - 控制方法、终端和存储介质 - Google Patents

控制方法、终端和存储介质 Download PDF

Info

Publication number
CN110333779A
CN110333779A CN201910481155.4A CN201910481155A CN110333779A CN 110333779 A CN110333779 A CN 110333779A CN 201910481155 A CN201910481155 A CN 201910481155A CN 110333779 A CN110333779 A CN 110333779A
Authority
CN
China
Prior art keywords
image
user
acquisition
infrared
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910481155.4A
Other languages
English (en)
Other versions
CN110333779B (zh
Inventor
徐乃江
吕向楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910481155.4A priority Critical patent/CN110333779B/zh
Publication of CN110333779A publication Critical patent/CN110333779A/zh
Application granted granted Critical
Publication of CN110333779B publication Critical patent/CN110333779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

本发明实施例公开了一种控制方法、终端和存储介质,其中,所述方法包括:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;基于采集图像,获得所述人脸的深度图像和红外图像;依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。

Description

控制方法、终端和存储介质
技术领域
本发明涉及控制技术,具体涉及一种控制方法、终端和存储介质。
背景技术
目前,用户可通过手势操作、体感动作和/或语音指令对终端进行操作。为了解放用户的双手,可通过体感动作和/或语音指令进行输入。但是体感动作和语音指令的识别需要内置相应的功能模块,占用了终端的一部分空间。为实现用户双手的真正解放,出现了眼球跟踪技术。相关技术中,出现有一种方法:通过采集用户目光注视终端时的平面图像对用户的眼球进行定位,得到用户在终端显示屏上的注视位置,从而实现在显示屏上对应于注视位置处的对象的控制如对按键的操作。这种识别注视位置的方式受光线影响大,需要使用泛光灯提供环境光,在光线较暗的情况下识别准确性不足。相关技术中,出现有一种受光线影响小的眼球跟踪技术,基于结构光的眼球跟踪方法,通过投射调制的结构光至用户的人脸,解码调制的结构光从而对眼球进行定位。该种方法虽然受光线的影响小、能够在光线较为暗淡的情况下使用,但是对眼球的定位准确性在一定程度上依赖于编解码图案,图案的编解码实现复杂度较高。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种控制方法、终端和存储介质,至少能够提高注视位置的识别准确性、工程上易于实现。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种控制方法,所述方法包括:
获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
基于采集图像,获得所述人脸的深度图像和红外图像;
依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
依据红外图像,获得所述用户的眼部动作;或者依据深度图像和红外图像,获得所述用户的头部运动轨迹;
基于所述眼部动作或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
本发明实施例还提供一种终端,包括:
第一获取单元,用于获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
第二获取单元,用于基于采集图像,获得所述人脸的深度图像和红外图像;
第三获取单元,用于依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
第四获取单元,用于依据红外图像,获得所述用户的眼部动作;或者依据深度图像和红外图像,获得所述用户的头部运动轨迹;
控制单元,用于基于所述眼部动作或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述控制方法的步骤。
本发明实施例还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行实现前述控制方法的步骤。
本发明实施例的控制方法、终端和存储介质,其中,所述方法包括:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;基于采集图像,获得所述人脸的深度图像和红外图像;依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
前述方案中,利用采集到的人脸图像的深度图像和红外图像对用户的目光进行跟踪,得到用户在显示屏上的注视位置,与相关技术中的仅采用平面图像进行用户眼球跟踪从而识别出注视位置的方案相比,本申请实施例中利用深度图像和/或红外图像得到注视位置,结合人脸上的各点距离终端的距离和/或灰度值对注视位置进行识别,至少可提高注视位置的识别准确性。与相关技术中的利用结构光进行用户眼球跟踪的方案相比,投射红外光就可得到深度图像和红外图像,进而得到注视位置,不需要对红外光进行编解码,复杂度不高,工程上易于实现。
此外,通过用户的眼部动作和/或头部运动轨迹实现了对期望操作的对象的选取与操作,为一种解放用户的双手即可实现期望操作的方案,可大大提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的控制方法的第一实施例的实现流程示意图;
图2为本申请提供的控制方法的第二实施例的实现流程示意图;
图3为本申请提供的控制方法的第三实施例的实现流程示意图;
图4为本申请提供的TOF相机的设置示意图;
图5为本申请提供的TOF的工作原理的总体示意图;
图6为本申请提供的TOF的工作原理示意图一;
图7为本申请提供的TOF的工作原理示意图二;
图8为本申请提供的控制方法的第四实施例的实现流程示意图;
图9为本申请提供的头部在世界坐标系下的示意图;
图10为本申请提供的头部运动示意图一;
图11为本申请提供的头部运动示意图二;
图12为本申请提供的头部运动示意图三;
图13为本申请提供的应用场景示意图一;
图14为本申请提供的应用场景示意图二;
图15为本申请提供的终端实施例的组成示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例中的终端可以为手机、平板电脑(PAD)、台式机、电子阅读器、个人数字助理(PDA)等,还可以是虚拟现实(VR)设备、增强现实(AR)设备、智能手表、智能眼镜、智能鞋等。优选的,本发明实施例的终端为手机。
本发明实施例的控制方法的第一实施例,应用于终端中,如图1所示,所述方法包括:
步骤101:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
本步骤中,终端具有发射红外光的功能,将红外光投射至用户、具体是用户的人脸,采集用户使用或观看终端时红外光投射至人脸时的图像,视采集到的人脸图像为采集图像。本领域技术人员应该而知,红外光的投射是激光的全面照射,而结构光是投射其中局部区域,基于红外光的投射的覆盖面大于结构光的投射覆盖面,更利于对人脸的深度图像和红外图像的准确采集。
步骤102:基于采集图像,获得所述人脸的深度图像和红外图像;
本步骤中,终端根据采集图像计算出深度图像和红外图像。本领域技术人员应该理解,深度图像(depth image)也被称为距离影像(range image),是指将从终端到场景中各点的距离作为像素值的图像,也即深度图像的像素表征为拍摄场景中的各点与终端之间的距离参量,它反映了拍摄场景中各个景物可见表面的几何形状。红外图像也被称为confidence图像,利用自然界中的一切物体均具有向外辐射能量的特性,红外图像表示的是拍摄场景中的各个景物的能量的分布,为一种灰度图像,像素值表示为拍摄场景中的各个景物的灰度。
步骤103:依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
本步骤中,依据深度图像和红外图像,不仅获得用户在显示屏上的注视位置。
步骤104:依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
本步骤中,获得用户的眼部动作和/或头部运动轨迹。
步骤105:基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
本步骤中,基于头部运动轨迹和/或眼部动作,对显示屏上对应于注视位置的对象进行控制,也即对用户观看的对象进行控制。本领域技术人员应该而知,所述对象可以是任何合理的能够呈现于显示屏并被操作的对象如应用APP、功能按键、页面等。其中,所述终端对用户观看的对象的控制为一种自动控制,该控制至少可使得显示屏上的至少部分显示内容发生变化,如切换当前显示页面为其它显示页面。例如,如果对象是应用APP,以眼部动作为例,基于眼部动作可实现从主界面进入APP的显示页面、或者退出APP从APP的显示页面切换至主界面;如果是功能按键如上下滑按键,可通过眼部动作对当前的显示内容进行上滑或下滑。如果对象是页面,则通过眼部动作可实现从当前页面切换到另一页面。
执行步骤101~105的实体为终端。其中,步骤101和104无严格的先后顺序,还可以同时进行。
前述方案中,利用采集到的人脸图像的深度图像和红外图像对用户的目光进行跟踪,得到用户在显示屏上的注视位置,与相关技术中的仅采用平面图像进行用户眼球跟踪从而识别出注视位置的方案相比,本申请实施例中利用深度图像和红外图像得到注视位置,结合人脸上的各点距离终端的距离和/或灰度值对注视位置进行识别,至少可提高注视位置的识别准确性。此外,与相关技术中的利用结构光进行用户眼球跟踪的方案相比,仅需投射红外光就可得到深度图像和红外图像,进而得到注视位置,不需要对红外光进行图案编解码,复杂度不高,工程上易于实现。可以理解:基于注视位置确定了用户期望操作的对象(显示屏上对应于注视位置的对象),也即通过用户的目光实现了对期望操作的对象的选取。同时,基于眼部动作和/或头部运动轨迹,对选取的对象进行自动操作,能够无需用户的手动参与即可实现对期望操作对象的操作,为一种解放用户的双手即可实现期望操作的方案,可大大提升用户的使用体验。
本发明实施例的控制方法的第二实施例,应用于终端中,如图2所示,所述方法包括:
步骤201:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
本步骤中,采集用户使用或观看终端时红外光投射至人脸时的图像,视采集到的人脸图像为采集图像。
步骤202:基于采集图像,获得所述人脸的深度图像和红外图像;
步骤203:依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
步骤204:依据红外图像,确定所述用户的眼部动作;
需要说明的是,步骤203和204无严格的先后顺序,还可以同时进行。
本申请实施例中,所述眼部动作至少包括眼球运动轨迹和眨眼动作;
其中,针对眼部动作包括眼球运动轨迹的情形,步骤204可以进一步为:在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;依据眼球在至少两帧红外图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。眼球运动轨迹可以是眼球从眼睛的左/右边移动至右/左边、从上/下边移动至下/上边;还可以是眼球从眼睛的左/右边移动至右/左边再移动至左/右边、从上/下边移动至下/上边再移动至上/下边。在技术实现上,通常采集多帧采集图像(优选为连续多帧采集图像),从各自的红外图像中确定眼球特征点在各自采集图像中的位置,基于位置的改变确定眼球的运动轨迹。例如,经过对多帧采集图像中眼球特征点的位置的分析,得知眼球发生移动如发生从上到下的移动或从左到右的移动。可以理解,眼球运动轨迹还可以为其它任何能够想到的情形,对此本文不做一一限定。
其中,针对眼部动作包括眨眼动作的情形,步骤204可以进一步为:在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。在实际应用中,眨眼动作可以是从睁眼到闭眼的动作,也可以是从闭眼到睁开的动作;还可以是从睁开到闭眼再到睁开的动作、从闭眼到睁开再到闭眼的动作。可以理解,在眼睛睁开的情况下眼部区域图像占采集图像的比例与闭眼情况下眼部区域图像占采集图像的比例有所不同,通常在闭眼情况下眼部区域将被眼皮遮挡,占用采集图像的比例小于眼睛睁开的情况下眼部区域图像占采集图像的比例。在具体实现上,预先设置一比例阈值,如果一采集图像中的眼部区域图像占用该采集图像的比例未达到该比例阈值,则认为是闭眼状态;如果达到该比例阈值则认为是睁眼状态。本申请实施例中可基于多帧图像中的各个眼部区域图像占相应采集图像的比例得到眨眼动作。进一步的,可通过采集的多帧采集图像来判断用户眨眼几次,例如眨眼一次、眨眼两次等。眼部动作还可以包括其他合理的眼部动作、如其中一只眼睛处于睁开的状态、另一只眼睛从睁到闭或从闭到睁(眨眼卖萌的动作)。对此本文不做一一限定。
其中,比例阈值是经验值,可以为具体数值如10%,也可以是数值范围如[8%,12%],视具体情况而灵活设定。
步骤205:基于眼部动作,对显示屏上对应于所述注视位置的对象进行控制。
前述方案中,通过深度图像和红外图像的结合得到注视位置,结合人脸上的各点距离终端的距离和灰度值对注视位置进行识别,至少可提高注视位置的识别准确性。此外,仅需投射红外光就可得到深度图像和红外图像,进而得到注视位置,不需要对红外光进行图案编解码,复杂度不高,工程上易于实现。其中,注视位置可确定用户期望操作的对象(显示屏上对应于注视位置的对象),也即通过用户的眼球运动轨迹和/或眨眼动作实现了对期望操作的对象的选取。此外,还通过红外图像得到对该选取的对象需要执行的操作,通过眼球运动轨迹和/或眨眼动作实现对操作对象的操作,为一种自动操作,能够无需用户的手动参与,为一种解放用户的双手即可实现期望操作的方案,可大大提升用户的使用体验。可以理解,前述方案为一种通过注视位置+眼部动作、具体是注视位置+眼球运动轨迹和/或眨眼动作实现一种自动操作的方案。
本发明实施例的控制方法的第三实施例,应用于终端中,如图3所示,所述方法包括:
步骤301:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
本步骤中,终端具有发射红外光的功能,采集用户使用或观看终端时红外光投射至人脸时的图像,视采集到的人脸图像为采集图像。
步骤302:基于采集图像,获得所述人脸的深度图像和红外图像;
步骤303:依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
步骤304:依据深度图像和红外图像,确定所述用户的头部运动轨迹;
需要说明的是,步骤303和304无严格的先后顺序,还可以同时进行。
步骤304可以进一步为:在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;依据所述偏移量确定所述用户的头部运动轨迹。其中,所述相同部位可以为眼、鼻、口、耳、眉等五官中的至少一个。优选所述相同部位为眼部。
步骤305:基于所述头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
前述方案中,通过深度图像和红外图像的结合得到注视位置,结合人脸上的各点距离终端的距离和灰度值对注视位置进行识别,至少可提高注视位置的识别准确性。此外,投射的红外光不需要进行图案编解码,复杂度不高,在工程上易于实现。其中,注视位置可确定用户期望操作的对象(显示屏上对应于注视位置的对象),也即通过用户的眼球(目光)实现了对期望操作的对象的选取。此外,还通过深度图像和红外图像得到对该选取的对象需要执行的操作,基于头部运动轨迹实现对操作对象的操作,能够无需用户的手动参与即可实现对期望操作对象的选取与操作,可解放用户的双手,提升用户的使用体验。
在前述实施例一至三的任意一种实施例中,所述基于所述至少两帧采集图像,获得所述人脸的深度图像,包括:获得所述采集图像的各个像素的相位信息;基于相位信息获得各个像素的深度信息;根据深度信息得到所述深度图像。可以理解,本实施例中的深度图像基于采集图像各个像素的相位信息而得。深度图像可反映人脸上的各点距离终端的距离。在实际应用中,这种基于红外光深度图像的得到方式较容易实现,实用性较好。而且,红外光的投射是全面激光照射,相比于相关技术中的结构光的部分照射而言,更能够获得更为准确的人脸图像,为后续的确定注视位置以及头部或眼球运动轨迹提供了一定的数据保障。
在一个可选的方案中,所述获得所述注视位置的方法可以进一步为:依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;依据所述深度图像对所述估计位置进行修正,得到所述注视位置。可以理解,本可选方案中先依据红外图像得到用户的注视位置的估计值,再依据深度图像得到用户注视位置的最终值,可保证注视位置的计算准确性。注视位置的计算准确至少可保证对用户期望操作的对象的选取准确性,达到在显示屏显示多个对象的情况下利用目光即可准确选取出期望操作的对象的有益效果,做到了对用户双手的真正解放。
下面结合图4~图14所示对本发明实施例的技术方案作进一步详细的说明。
如图4和图5所示,以终端为手机为例,终端具有TOF(飞行时间)相机,包括发射装置401、接收装置402、传感器403和镜头。其中,发射装置401用于向用户、具体是人脸投射红外光;接收装置402,用于接收发射装置投射出的红外光在遇到障碍物如被拍摄物体404如(3D屏幕)3Dsurface的阻挡反射回的反射光;传感器403,用于根据发射的红外光和反射光之间的时间差或相位差,计算出被拍摄物体404如3Dsurface的相对于TOF模组之间的距离,该距离即可视为拍摄场景内各个被拍摄物体的深度信息。TOF相机的一次曝光(发射红外光)可视为一次拍摄过程。本实施例中的被拍摄物体404是用户、具体是用户的人脸。
可以理解,图4为TOF相机设置在终端正面的示意图;TOF相机在正面设置位置可以为任何合理的位置,不限定于图4所示。
本发明实施例中,经红外光的投射得到红外图像。经红外光的投射可得到深度图像的原理请参见如下内容。
其中,利用发射的红外光和发射光之间的时间差也即脉冲调制法计算深度信息的原理是:如图6所示,传感器403记录在一次曝光时红外光的发射时间、记录该红外光的反射波的返回时间,计算得到二者的时间差,再乘以上光速,得到拍摄物体的深度信息。
其中,利用发射的红外光和发射光之间的相位差也即利用连续波调制法计算深度信息的原理是:如图7所示,至少发射一次红外光,利用发射光波信号与反射光波信号的相位变化来进行测量被拍摄物体的深度信息。具体过程请参见对步骤602的相关说明。
步骤601:针对TOF相机的一次曝光(拍摄),TOF相机采集红外光投射至人脸的图像,得到采集图像;
步骤602:基于脉冲调制法或连续波调制法,得到深度图像和红外图像;
本申请实施例中,TOF相机采用阵列传感器,每个传感器(象元)记录针对采集图像的其中一个像素红外光的发射相位和该红外光的反射光的相位,计算出二者的相位差并利用计算出采集图像的各个像素的深度信息,由采集图像的各个像素的深度信息即可得到深度图像。以上为曝光一次发射一束红外光为例。
如果曝光一次发射四次红外光,预先设定相邻两个发射的红外光的相位相差为90度,这样便于计算。假定该次曝光发射的红外光和反射光之间的相位差用表示,利用公式计算出该次曝光的相位差。利用公式计算该次曝光被拍摄物体与相机之间的距离。其中,Q1~Q4表示该次曝光的各次经发射-反射的光能量值;c为光束值;由于使用的发射波是红外波段,需要进行高频率调制,f为调制频率,可取值为任何合理的取值如20兆赫兹(MHz);arctan为反正切函数。本领域技术人员应该而知,与结构光相比,虽然投射的红外光也需要进行调制,但是本申请实施例中的确定眼球在显示屏上的位置与编解码图案并无关系,与投射的红外光和其反射光的时间差或相位差有关。在工程上与编码或解码图案相比,对时间差或相位差的记录与计算更易于实现。且红外光是激光的全面照射,与结构光的局部照射而言,能够获得更为准确的人脸图像。
由于Q1、Q2、Q3和Q4代表该次曝光的能量,红外图像表示的是能量值,红外图像的像素由Q1~Q4的绝对值之和而得。具体实现过程请参见现有相关说明,此处不赘述。
步骤603:对红外图像进行人脸检测;
本步骤中,将红外图像中是人脸的那部分图像从红外图像中识别出来。
步骤604:对人脸的面部特征点进行识别,继续执行步骤605和/或步骤606;
本步骤中,对人脸图像中表征为五官部位的特征点进行识别。特别的,识别出眼睛部位的特征点。
步骤605:确定眼睛部位、具体是眼球的特征点在当前红外图像中的位置;基于眼球的特征点在连续多帧红外图像中的位置,确定眼球运动轨迹;
可以理解,红外图像由采集图像而得来,同一拍摄物体在采集图像和红外图像中的位置并未发生变化。各拍摄物体在采集图像中的位置可由拍摄物体在红外图像中的位置来表示。
利用眼球部位的特征点在当前红外图像中的位置的确定方法,确定眼球部位的特征点在连续多帧采集图像中的位置。基于眼睛部位特征点在各自采集图像中的位置,得到眼球部位在采集图像中的变化轨迹,从而得到多帧采集图像中眼球的运动轨迹。
步骤606:截取当前红外图像中的眼部区域图像,计算眼部区域图像在当前红外图像中的占用比例;基于多张眼部区域图像在多帧红外图像中的占用比例,确定眨眼动作;
可以理解,红外图像由采集图像而得来,同一拍摄物体在采集图像的占用比例与该采集图像在红外图像中的占用比例一致。各拍摄物体在采集图像中的占用比例可由拍摄物体在红外图像中的占用比例来表示。
如前述内容所示,在闭眼情况下眼部区域将被眼皮遮挡,占用采集图像的比例小于眼睛睁开的情况下眼部区域图像占采集图像的比例。如果一采集图像中的眼部区域图像占用该采集图像的比例未达到预设的比例阈值如10%,则认为是闭眼状态;如果达到该比例阈值则认为是睁眼状态。两幅相邻图像中一张认为是睁眼状态,另一张认为是闭眼状态,则可认为是眨眼动作。
此外,还可以对采集的多张图像根据眼部区域图像占用比例的判断,确定眨眼几次,如眨眼一次、二次、五次等。
本领域技术人员应该而知,前述的步骤605和606无严格的先后顺序,还可以同时进行。此外,可以理解,不同的眼部动作可代表着不同的操作指令。例如,眼球从眼睛的左/右边移动至右/左边代表打开/关闭选定对象;从上/下边移动至下/上边代表上滑/下滑;眨眼代表切换页面。其中,对于眨眼动作而言,可以根据眨眼次数的不同来区分不同的操作指令,例如眨眼一次代表从主界面进入至一应用界面;眨眼二次代表从该应用界面退至主界面。
以上步骤603~606为针对红外图像进行眼部动作确定的过程。眼部动作的确定过程仅依据红外图像而实现,在工程上仅需将红外光投射至被拍摄物体表面即可获得红外图像,易于获取和工程实现,可行性高。通过对注视位置的追踪和定位,实现了对期望操作的对象的自动选取。无需手动选择期望操作的对象,即可实现对期望操作对象的选取与自动操作,为一种解放用户的双手即可实现期望操作的方案,可大大提升用户的使用体验。
步骤607:将深度图像转换为点云数据;
本领域技术人员应该理解,坐标系包括像素坐标系和世界坐标系。其中,深度图像、红外图像均采用像素坐标系。不同的采集图像(深度图像、红外图像)均使用各自的像素坐标系,不方便将表示同一部位的特征点找出。为方便图像像素的处理,将深度图像转换为点云数据,点云数据可由矩阵来表示,矩阵中的各个元素表示拍摄对象基于TOF的拍摄方位在现实世界的坐标(在世界坐标系下的坐标)。
步骤608:依据红外图像,获得用户在当前观看姿态下用户的眼球、具体是虹膜中心注视于显示屏的估计位置;依据点云数据,对估计位置进行修正,得到用户的目光在显示屏上的注视位置。
这里,预先求得用户在预定观看姿态(理想情况)下如用户的面部与终端保持平行的状态下,注视点相对于显示屏的所有位置关系。在用户的面部与终端保持平行的状态下,引导用户分别观看显示屏的左上角、右上角、左下角、右下角,在观看以上四个地方时记录用户的瞳孔中心相对于眼睛轮廓的位置关系。举个例子,在用户观看左上角时,相当于用户的注视位置为显示屏的左上角(用户的注视点相对于显示屏的位置),记录此时用户的瞳孔中心相对于眼睛轮廓的位置。以此类推,记录于用户的注视位置为显示屏的右上角、左下角、右下角时,用户的瞳孔中心相对于眼睛轮廓的相应位置。本领域技术人员应该而知,根据用户观看显示屏的四个角时的规律,可得到用户观看显示屏的所有位置时用户的瞳孔中心相对于眼睛轮廓的位置关系,并记录在用户保持为预定观看姿态情况下用户的瞳孔中心相对于眼睛轮廓的位置关系与注视点在显示屏上的位置之间的映射关系。
此外,由于红外光投射至眼球,眼球可进行反光,反光点称为耀点。本领域技术人员应该而知,在图像处理中,耀点不会随着眼球的运动而运动。与前述类似的方法,可确定在用户观看显示屏的所有位置时用户的瞳孔中心相对于耀点的位置关系,并记录在用户保持为预定观看姿态情况下用户的瞳孔中心相对于耀点的位置关系与注视点在显示屏上的位置之间的映射关系。
在使用时,在红外图像中计算出当前红外图像中用户的瞳孔中心相对于眼睛轮廓/耀点的位置,并依据前述的映射关系中的至少一种,查找与在该瞳孔中心相对于眼睛轮廓/耀点的位置下,用户在显示屏上的注视点位置。
应该理解,前述的映射关系为用户在保持预定观看姿态下的映射关系,在实际应用中用户的观看姿态可能会发生变化,在观看姿态发生变化的情况下,依据在观看姿态发生变化的情况下采集到的红外图像,计算出的用户的瞳孔中心相对于眼睛轮廓/耀点的位置存在一定的偏差,该偏差由实际观看姿态与预定观看姿态不同而导致。如图9所示为人脸在世界坐标系(X-Y-Z:Pitch-Yaw-Roll)中的示意图,用户的实际观看姿态可以相对于预定观看姿态产生至少一个轴向的平移和/或旋转。为了计算出在用户的实际观看姿态下注视位置,将依据映射关系得到的位置作为估计位置,依据人脸的点云数据,计算用户的实际观看姿态相对于预定观看姿态产生的平移和/或旋转量,并基于平移和/或旋转量对估计位置做一定的补偿。举个例子,用户的实际观看姿态为低头观看手机,而依据映射关系确定出的估计位置假定为显示屏的上方中心位置(在用户的面部与终端保持平行的状态下的注视点位置),并将其作为估计位置;计算当前低头观看姿态下用户的头部相对于预定观看姿态产生的旋转量,并依据旋转量以一定的补偿比例(旋转量与补偿比例具有的比例关系)对估计位置进行补偿,如补偿后得到的注视点位置为显示屏的距离上方中心位置处向下移动10个像素点的位置,该位置即为在实际观看姿态下用户在显示屏上的实际注视位置。以上所述的补偿过程请参见现有相关说明。
此外,还可以依据深度图像的点云数据,进行面部图像的三维模型的构建,在构建出的人脸三维模型中,计算出在世界坐标系中瞳孔的位置,在世界坐标系中,人脸轴线(沿着与人脸垂直的方向做垂线)与显示屏的交点即为注视点。
以上步骤607-608为确定注视位置的过程。利用TOF相机发射的红外光投射至用户的人脸采集到的图像,得到有关人脸的深度图像和红外图像,并基于深度图像和红外图像获得注视位置。结合人脸上的各点距离终端的距离和/或灰度值对注视位置进行识别,可提高注视位置的识别准确性。此外,不需要对红外光进行图案的编解码,复杂度不高,工程上易于实现。另外,该过程考虑了实际情况与理想情况的偏差,并利用补偿技术得到在实际观看姿态下用户在显示屏上的注视点位置。既符合实际应用情况,又能够保证注视位置的计算准确性。注视位置的计算准确至少可保证对用户期望操作的对象的选取准确性,达到在显示屏显示多个对象的情况下利用目光即可准确选取出期望操作的对象的有益效果,做到了对用户双手的真正解放。
步骤609:在至少两帧采集图像的红外图像中分别获取表征用户的五官部位中的至少一相同部位、如眼睛部位的特征点在各自采集图像中的位置;依据获得的位置和点云数据,获得所述至少一相同部位、如眼睛部位在所述至少两帧采集图像的偏移量;依据所述偏移量确定所述用户的头部运动轨迹(头部姿态估计)。
本步骤中,用户的头部运动轨迹可以是任何合理的头部动作,例如基于至少两帧采集图像的分析用户产生了点头、摇头、抬头的等头部姿态(动作)。具体的,以采集两帧采集图像为例,在第一帧采集图像的红外图像中确定眼睛部位的特征点(特征点1)的位置,在第二帧采集图像的红外图像中确定眼睛部位的特征点(特征点2)的位置。如果多帧图像期间用户产生点头、摇头、抬头的动作,则眼睛部位的特征点位置在两个图像中的位置将会不同。在不同的情况下,通过这两帧采集图像的深度图像所转换的点云数据得到用户具体产生了哪个/些动作。在点云数据中,由第一帧深度图像转换的点云矩阵的大小与由第二帧深度图像转换的点云矩阵的大小相同。且两个点云矩阵中的各个元素位置为对应。基于两个点云矩阵中各个元素的取值,对转换矩阵T进行计算。在技术层面上,AT=B,A、B、T均代表矩阵(简化表示),A为由第一帧深度图像转换的点云矩阵,B为由第二帧深度图像转换的点云矩阵。由于A、B两个点云矩阵中的元素取值均为已知,则根据公式T=B/A,就可得到转换矩阵T。通俗地来讲,转换矩阵T的计算表示了第一帧采集图像如何变化到第二帧采集图像,也即第二帧采集图像是如何通过第一帧采集图像中的各拍摄物体的平移和/或转换得到的。依据转换矩阵可确定眼睛部位产生在两帧采集图像中产生的偏移。例如,用户的眼部在第二帧采集图像中相对于第一帧采集图像沿着X轴正向、Y轴正向或Y轴负向产生了对应的偏移。
参照如图10~12所示的示意图,如果经过对转换矩阵T的计算,得到第二帧采集图像是由第一帧采集图像中的各拍摄物体沿着X轴正向变化得到的,则识别为头部运动轨迹为摇头动作。如果得到第二帧采集图像是由第一帧采集图像中的各拍摄物体沿着Y轴正向变化得到的,则识别为头部运动轨迹为抬头动作。如果得到第二帧采集图像是由第一帧采集图像中的各拍摄物体沿着Y轴负向变化得到的,则识别为头部运动轨迹为点头动作。其中,抬头或点头动作如图10所示;摇头动作如图11和图12所示。
以上步骤609为针对深度图像和红外图像进行头部运动轨迹确定的过程。头部运动轨迹的确定过程依据红外图像和深度图像而实现,在工程上红外图像和深度图像均易于获取,可行性高。且通过红外图像和深度图像的结合确定用户眼球的操作动作,可保证操作动作确定的准确性。为一种无需手动操作,即可获得操作动作的方案,可解放用户的双手,大大提升用户的使用体验。
在步骤601~609中,利用采集到的人脸图像的深度图像和红外图像对用户的眼球进行跟踪,得到用户在显示屏上的注视位置,也即结合人脸上的各点距离终端的距离和/或灰度值对注视位置进行识别,至少可提高注视位置的识别准确性。此外,基于注视位置确定了用户期望操作的对象(显示屏上对应于注视位置的对象),也即通过用户的眼球(目光)实现了对期望操作的对象的选取。同时,基于用户的眼球动作和头部动作的识别,能够自动执行对选取的对象的指令操作,为一种解放用户的双手即可实现对象选取与操作的方案,可大大提升用户的使用体验。
前述方案中,采用TOF相机作为提取图像采集装置,具有功耗低、开孔少等优势。同时采用深度图像和红外图像进行眼球跟踪,获取准确注视点,具有环境适应性好,识别精度高,非正视状态可准确识别目光等优势。其中,开孔少能够满足全面屏对开孔限制的要求;TOF相机可主动投射红外光线,受环境变化影响小,夜晚可用,环境适应性好。基于TOF相机获得深度图像和红外图像,工程上易于实现。采用深度图像和红外图像进行眼球跟踪的方法,精度高,准确性高,且不需要编解码图案,复杂度不高,易于实现。其中,本领域技术人员可以理解,相关技术中通过结构光实现眼球跟踪的技术在物理上比通过红外光实现眼球跟踪技术需要开设的孔多。具体的,在物理上,基于结构光的眼球跟踪技术,至少需要在终端中开设三个孔,除了为光投射点阵设置用于发射光的孔、以及用于接收反射光的孔之外,还需要为泛光灯(用于为结构光技术提供环境光)设置一个孔。本申请实施例中采用TOF相机,无需泛光灯,仅需要在终端中开设两个孔,用于发射红外光的孔和接收反射光的孔,这种开孔少的方案,至少可满足全面屏的需求。
本领域技术人员应该而知,本申请实施例中基于眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。其中,所述对象可以是任何合理的能够呈现于显示屏并被操作的对象如应用APP、功能按键、页面、显示内容等。其中,所述终端对用户观看的对象的控制为一种基于眼部动作和/或头部运动轨迹的自动控制,该控制至少可使得显示屏上的至少部分显示内容发生变化,如切换显示屏上对应于注视位置的显示页面(当前页面)为其它显示页面。也即,本申请实施例基于注视位置进行操作对象的自动选定,并基于眼部动作和/或头部运动轨迹进行对操作对象的自动操作,该自动操作具体可包括:进入选定的APP或退出APP、执行页面的翻页操作、执行页面的上下滑动操作、将注视位置对应的显示内容进行突出显示(如放大显示、以不同的色彩进行显示)、对注视位置对应的目标对象进行识别、推送与识别出的目标对象相关的信息。具体可参见下面的应用场景一至四的相关描述。
本申请实施例的应用场景一:基于眼部动作和/或头部运动轨迹进行对操作对象的进入或退出操作。如图13所示的应用场景,当手机的显示屏幕亮起时,获取用户眼球在显示屏上的当前注视位置,显示屏上位于当前注视位置内的对象为书APP(由图8中的框表示),说明用户当前想要操作的对象为书APP。以眨眼动作为例,通过用户的连续两次眨眼动作,手机执行自动打开书APP进入该APP的显示界面。当检测到用户多次眨眼(>2次)执行退出该APP的操作,自动地实现APP打开或关闭的操作。以上交互采用注视位置+眨眼动作的组合来完成,可实现对选定APP的自动操作,无需手动参与,大大解放双手,通过注视位置和眨眼动作组合的方式可避免误操作。
本申请实施例的应用场景二:基于眼部动作和/或头部运动轨迹进行对操作对象执行翻页或滑动的操作。在文件阅读或者照片浏览的场景中,结合多帧图像(深度图像和红外图像)进行判断,得到用户眼球在显示屏上的当前注视位置。针对显示屏上当期注视位置处的页面,在识别出用户的摇头动作(头部水平转动)时进行左右翻页操作。在识别出用户的抬头或者点头操作(头部上下转动)进行页面上下滑动操作。以上交互采用注视位置+头部运动轨迹(头部姿态变化)的组合来完成,可以便捷的实现翻页、滑动等操作,无需手动操作,大大提升用户体验。
本申请实施例的应用场景三:基于眼部动作和/或头部运动轨迹对操作对象进行突出显示。在阅读模式下,如图14所示,可以根据检测到的用户注视位置,将显示屏上注视位置范围内的内容进行提取,并在检测到预定的眼球操作或头部操作时,并将其以显著的形式进行显示,如放大显示、色彩突出显示等,无需手动放大、手动选择色彩,即可进行突显显示,可为年老用户或者视力障碍用户带来更好的阅读体验。
本申请实施例的应用场景四:基于眼部动作和/或头部运动轨迹对操作对象进行识别、推送与识别出的目标对象相关的信息。可以对用户的注视目标进行识别(例如,识别出他注视的形状是一个红色的女士手提包)。结合用户的浏览记录提取一些框架信息,比如,用户看的都是红色、细带的手提包,并且注视点经常停留在包的发行时间上,可以推断这个用户目前就是想买一个红色的细带手提包,而且很关注它是不是新上市的潮流产品。此外,还可以通过分析瞳孔直径的变化,推断用户的情绪。基于前述内容,可以对用户实现精准的购物物品的推送。与相关技术中通过分析用户点击、分析购物车等操作获得个人喜好推送用户所喜好的物品的方案相比,利用本方案的注视位置的识别即可确定出用户喜好的物品,进而对用户实现精准的推送。在应用角度上,从对用户认知的把握与实现简易程度两个层面来讲,本方案提供的注视位置的计算方法简单易行,实用性佳,可应用于多种应用场景。
通过以上应用场景可知,本申请实施例提供的是一种新型的人机交互方式,为一种非接触式的人机交互方式,无需用户的手动参与以及语音指令的输入,仅通过对用户的目光的跟踪与定位、以及眼部动作或头部运动轨迹的识别,即可实现对显示屏上的对象的选取与操作。至少可以帮助用户在不方便使用双手的场景时执行用户的期望操作,增加便利性。同时也可帮助残障人士方便的操作终端。
本领域技术人员应该而知,前述是以通过眼部动作或头部运动轨迹中的一种动作为例进行的说明,此外,本申请实施例中还可以基于眼部动作和头部运动轨迹的组合来实现与眼部动作或头部运动轨迹这样单一动作的自动操作。例如,以前述的应用场景一为例,终端依次检测到连续两次眨眼的动作、以及抬头操作,则手机先执行自动打开书APP进入该APP的显示界面的操作,然后对APP显示界面进行上下滑动,以方便用户对APP的显示界面上的显示内容的查看。这种眼部动作和头部运动轨迹的组合可视为一种复合操作,能够至少两次执行用户对期望对象的自动操作,大大解放了用户的双手,提升了用户的使用体验。
本申请实施例还一种终端,如图15所示,所述终端包括:第一获取单元1001、第二获取单元1002、第三获取单元1003、第四获取单元1004和控制单元1005;其中,
第一获取单元1001,用于获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
第二获取单元1002,用于基于采集图像,获得所述人脸的深度图像和红外图像;
第三获取单元1003,用于依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
第四获取单元1004,用于依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
控制单元1005,用于基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
在一个可选的方案中,所述眼部动作包括眼球运动轨迹;
所述第四获取单元1004,用于在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;依据眼部在至少两帧采集图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。
在一个可选的方案中,所述眼部动作包括眨眼动作;
所述第四获取单元1004,用于在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;
依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。
在一个可选的方案中,
所述第四获取单元1004,用于在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;依据所述偏移量确定所述用户的头部运动轨迹。
在一个可选的方案中,
所述第三获取单元1003,用于依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;依据所述深度图像对所述估计位置进行修正,得到所述注视位置。
在一个可选的方案中,
所述控制单元1004,用于控制所述显示屏上的至少部分显示内容发生变化。
在一个可选的方案中,
所述第二获取单元1002,用于获得所述采集图像的各个像素的相位信息;
基于相位信息获得各个像素的深度信息;
根据深度信息得到所述深度图像。
需要说明的是,本申请实施例的终端,由于该终端解决问题的原理与前述的控制方法相似,因此,终端的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述,重复之处不再赘述。
在实际应用中,所述第一获取单元1001、第二获取单元1002、第三获取单元1003、第四获取单元1004和控制单元1005均可由中央处理单元(CPU,Central ProcessingUnit)、或数字信号处理(DSP,Digital Signal Processor)、或微处理器(MPU,MicroProcessor Unit)、或现场可编程门阵列(FPGA,Field Programmable Gate Array)等来实现;所述CPU、DSP、MPU、FPGA均可内置于终端中。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行以下步骤:
步骤101:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
步骤102:基于采集图像,获得所述人脸的深度图像和红外图像;
步骤103:依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
步骤104:依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
步骤105:基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
所述眼部动作包括眼球运动轨迹;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;
依据眼部在至少两帧采集图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
所述眼部动作包括眨眼动作;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;
依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;
依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;
依据所述偏移量确定所述用户的头部运动轨迹。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;
依据所述深度图像对所述估计位置进行修正,得到所述注视位置。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
所述对所述对象的控制至少使得所述显示屏上的至少部分显示内容发生变化。
在一个可选的方案中,该计算机程序被执行时至少执行以下步骤:
获得所述采集图像的各个像素的相位信息;
基于相位信息获得各个像素的深度信息;
根据深度信息得到所述深度图像。
可以理解,存储介质的存储计算机程序被执行时至少执行前述图1~图3以及图8所示的控制方法。还至少执行前述的控制方法的其它步骤如实施例一至三中的可选方案中的步骤。
本申请实施例还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时至少执行以下步骤:
步骤101:获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
步骤102:基于采集图像,获得所述人脸的深度图像和红外图像;
步骤103:依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
步骤104:依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
步骤105:基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
所述眼部动作包括眼球运动轨迹;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;
依据眼部在至少两帧采集图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
所述眼部动作包括眨眼动作;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;
依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;
依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;
依据所述偏移量确定所述用户的头部运动轨迹。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;
依据所述深度图像对所述估计位置进行修正,得到所述注视位置。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
所述对所述对象的控制至少使得所述显示屏上的至少部分显示内容发生变化。
在一个可选的方案中,所述处理器执行所述程序时至少执行以下步骤:
获得所述采集图像的各个像素的相位信息;
基于相位信息获得各个像素的深度信息;
根据深度信息得到所述深度图像。
可以理解,所述处理器执行所述程序时至少执行前述图1~图3以及图8所示的控制方法。还至少执行前述的控制方法的其它步骤如实施例一至三中的可选方案中的步骤。
需要说明的是,本申请实施例的存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种控制方法,其特征在于,所述方法包括:
获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
基于采集图像,获得所述人脸的深度图像和红外图像;
依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
2.根据权利要求1所述的方法,其特征在于,所述眼部动作包括眼球运动轨迹;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;
依据眼部在至少两帧采集图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。
3.根据权利要求1所述的方法,其特征在于,所述眼部动作包括眨眼动作;
所述依据红外图像,获得所述用户的眼部动作,包括:
在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;
依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。
4.根据权利要求1所述的方法,其特征在于,所述依据深度图像和红外图像,获得所述用户的头部运动轨迹,包括:
在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;
依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;
依据所述偏移量确定所述用户的头部运动轨迹。
5.根据权利要求1所述的方法,其特征在于,所述依据深度图像和红外图像,获得所述用户在显示屏上的注视位置,包括:
依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;
依据所述深度图像对所述估计位置进行修正,得到所述注视位置。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述对象的控制至少使得所述显示屏上的至少部分显示内容发生变化。
7.根据权利要求6所述的方法,其特征在于,所述基于采集图像,获得所述人脸的深度图像,包括:
获得所述采集图像的各个像素的相位信息;
基于相位信息获得各个像素的深度信息;
根据深度信息得到所述深度图像。
8.一种终端,其特征在于,包括:
第一获取单元,用于获得采集图像,所述采集图像为投射的红外光经用户人脸的图像;
第二获取单元,用于基于采集图像,获得所述人脸的深度图像和红外图像;
第三获取单元,用于依据深度图像和红外图像,获得所述用户在显示屏上的注视位置;
第四获取单元,用于依据红外图像,获得所述用户的眼部动作;和/或依据深度图像和红外图像,获得所述用户的头部运动轨迹;
控制单元,用于基于所述眼部动作和/或头部运动轨迹,对显示屏上对应于所述注视位置的对象进行控制。
9.根据权利要求8所述的终端,其特征在于,所述眼部动作包括眼球运动轨迹;
所述第四获取单元,用于在至少两帧采集图像的红外图像中分别获得所述用户的眼球在各自采集图像中的位置;依据眼部在至少两帧采集图像中的位置确定所述至少两帧采集图像中的眼球运动轨迹。
10.根据权利要求8所述的终端,其特征在于,所述眼部动作包括眨眼动作;
所述第四获取单元,用于在至少两帧采集图像的红外图像中分别获得所述用户的眼部区域图像;
依据眼部区域图像在各自采集图像中的占用比例,确定眨眼动作。
11.根据权利要求8所述的终端,其特征在于,
所述第四获取单元,用于在至少两帧采集图像的红外图像中分别获取表征所述用户的五官部位中的至少一相同部位的特征点在各自采集图像中的位置;依据所述位置和深度图像,获得所述至少一相同部位在所述至少两帧采集图像的偏移量;依据所述偏移量确定所述用户的头部运动轨迹。
12.根据权利要求8所述的终端,其特征在于,
所述第三获取单元,用于依据红外图像,获得所述用户在当前观看姿态下所述用户的虹膜中心注视于显示屏的估计位置;依据所述深度图像对所述估计位置进行修正,得到所述注视位置。
13.根据权利要求8至12任一项所述的终端,其特征在于,
所述控制单元,用于控制所述显示屏上的至少部分显示内容发生变化。
14.根据权利要求13所述的终端,其特征在于,
所述第二获取单元,用于获得所述采集图像的各个像素的相位信息;
基于相位信息获得各个像素的深度信息;
根据深度信息得到所述深度图像。
15.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述权利要求1至7任一项所述控制方法的步骤。
16.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行实现权利要求1至7任一项所述控制方法的步骤。
CN201910481155.4A 2019-06-04 2019-06-04 控制方法、终端和存储介质 Active CN110333779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910481155.4A CN110333779B (zh) 2019-06-04 2019-06-04 控制方法、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910481155.4A CN110333779B (zh) 2019-06-04 2019-06-04 控制方法、终端和存储介质

Publications (2)

Publication Number Publication Date
CN110333779A true CN110333779A (zh) 2019-10-15
CN110333779B CN110333779B (zh) 2022-06-21

Family

ID=68141190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910481155.4A Active CN110333779B (zh) 2019-06-04 2019-06-04 控制方法、终端和存储介质

Country Status (1)

Country Link
CN (1) CN110333779B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079520A (zh) * 2019-11-01 2020-04-28 京东数字科技控股有限公司 图像识别方法、设备及存储介质
CN111563432A (zh) * 2020-04-27 2020-08-21 歌尔科技有限公司 一种显示方法及增强现实显示设备
CN111657842A (zh) * 2020-06-02 2020-09-15 首都医科大学附属北京地坛医院 一种探头控制方法及探头控制装置
CN112270210A (zh) * 2020-10-09 2021-01-26 珠海格力电器股份有限公司 数据处理、操作指令识别方法、装置、设备和介质
CN112416126A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 页面滚动控制方法和装置、存储介质及电子设备
CN113504831A (zh) * 2021-07-23 2021-10-15 电光火石(北京)科技有限公司 基于人脸图像特征识别的iot设备控制方法、iot及终端设备
CN114967935A (zh) * 2022-06-29 2022-08-30 深圳职业技术学院 基于视线估计的交互方法、装置、终端设备及存储介质
CN115685616A (zh) * 2022-10-27 2023-02-03 深圳市华弘智谷科技有限公司 一种显示装置和眼动跟踪系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008164496A (ja) * 2006-12-28 2008-07-17 Toyota Central R&D Labs Inc 計測装置
CN102830797A (zh) * 2012-07-26 2012-12-19 深圳先进技术研究院 一种基于视线判断的人机交互方法及系统
CN103324290A (zh) * 2013-07-04 2013-09-25 深圳市中兴移动通信有限公司 终端设备及其眼睛操控方法
CN104571488A (zh) * 2013-10-25 2015-04-29 由田新技股份有限公司 电子文件标记方法及装置
CN104598019A (zh) * 2013-10-28 2015-05-06 欧姆龙株式会社 画面操作装置以及画面操作方法
CN108563936A (zh) * 2017-12-04 2018-09-21 深圳奥比中光科技有限公司 任务执行方法、终端设备及计算机可读存储介质
CN108647504A (zh) * 2018-03-26 2018-10-12 深圳奥比中光科技有限公司 实现信息安全显示的方法及系统
CN108764071A (zh) * 2018-05-11 2018-11-06 四川大学 一种基于红外和可见光图像的真实人脸检测方法及装置
CN108829242A (zh) * 2018-05-22 2018-11-16 深圳奥比中光科技有限公司 智能终端及其非触控式操作方法
US20180364810A1 (en) * 2013-06-20 2018-12-20 Uday Parshionikar Gesture control via eye tracking, head tracking, facial expressions and other user actions

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008164496A (ja) * 2006-12-28 2008-07-17 Toyota Central R&D Labs Inc 計測装置
CN102830797A (zh) * 2012-07-26 2012-12-19 深圳先进技术研究院 一种基于视线判断的人机交互方法及系统
US20180364810A1 (en) * 2013-06-20 2018-12-20 Uday Parshionikar Gesture control via eye tracking, head tracking, facial expressions and other user actions
CN103324290A (zh) * 2013-07-04 2013-09-25 深圳市中兴移动通信有限公司 终端设备及其眼睛操控方法
CN104571488A (zh) * 2013-10-25 2015-04-29 由田新技股份有限公司 电子文件标记方法及装置
CN104598019A (zh) * 2013-10-28 2015-05-06 欧姆龙株式会社 画面操作装置以及画面操作方法
CN108563936A (zh) * 2017-12-04 2018-09-21 深圳奥比中光科技有限公司 任务执行方法、终端设备及计算机可读存储介质
CN108647504A (zh) * 2018-03-26 2018-10-12 深圳奥比中光科技有限公司 实现信息安全显示的方法及系统
CN108764071A (zh) * 2018-05-11 2018-11-06 四川大学 一种基于红外和可见光图像的真实人脸检测方法及装置
CN108829242A (zh) * 2018-05-22 2018-11-16 深圳奥比中光科技有限公司 智能终端及其非触控式操作方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
(意)FABIO REMONDINO 等: "《飞行时间测距成像相机》", 31 August 2016, 国防工业出版社 *
ESPROS PHOTONICS CORPORATION: ""2753-Datasheet_epc660-V1.09"", 《HTTPS://WWW.PACER.CO.UK/ASSETS/USER/2753-DATASHEET_EPC660-V1.09.PDF》 *
郭宁博 等: ""基于飞行时间法的红外相机研究综述"", 《兵器装备工程学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079520A (zh) * 2019-11-01 2020-04-28 京东数字科技控股有限公司 图像识别方法、设备及存储介质
CN111563432A (zh) * 2020-04-27 2020-08-21 歌尔科技有限公司 一种显示方法及增强现实显示设备
CN111657842A (zh) * 2020-06-02 2020-09-15 首都医科大学附属北京地坛医院 一种探头控制方法及探头控制装置
CN111657842B (zh) * 2020-06-02 2021-08-31 首都医科大学附属北京地坛医院 一种探头控制方法及探头控制装置
CN112270210A (zh) * 2020-10-09 2021-01-26 珠海格力电器股份有限公司 数据处理、操作指令识别方法、装置、设备和介质
CN112270210B (zh) * 2020-10-09 2024-03-01 珠海格力电器股份有限公司 数据处理、操作指令识别方法、装置、设备和介质
CN112416126A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 页面滚动控制方法和装置、存储介质及电子设备
CN113504831A (zh) * 2021-07-23 2021-10-15 电光火石(北京)科技有限公司 基于人脸图像特征识别的iot设备控制方法、iot及终端设备
CN114967935A (zh) * 2022-06-29 2022-08-30 深圳职业技术学院 基于视线估计的交互方法、装置、终端设备及存储介质
CN115685616A (zh) * 2022-10-27 2023-02-03 深圳市华弘智谷科技有限公司 一种显示装置和眼动跟踪系统

Also Published As

Publication number Publication date
CN110333779B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110333779A (zh) 控制方法、终端和存储介质
US11495002B2 (en) Systems and methods for determining the scale of human anatomy from images
CN106133648B (zh) 基于自适应单应性映射的眼睛凝视跟踪
US12013979B2 (en) Lightweight and low power cross reality device with high temporal resolution
CN103106401B (zh) 一种具有人机交互机制的移动终端虹膜识别装置
CN112181152B (zh) 基于mr眼镜的广告推送管理方法、设备及应用
US20170115742A1 (en) Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
US9583032B2 (en) Navigating content using a physical object
CN104838326B (zh) 可佩戴的食物营养反馈系统
US9182815B2 (en) Making static printed content dynamic with virtual data
CN103475893B (zh) 三维显示中对象的拾取装置及三维显示中对象的拾取方法
US20220051441A1 (en) Multi-camera cross reality device
CN106133649B (zh) 使用双目注视约束的眼睛凝视跟踪
KR20160048801A (ko) 증강 현실을 위한 방법 및 시스템
CN109983755A (zh) 基于眼睛跟踪自动聚焦的图像捕获系统、设备和方法
CN109690617A (zh) 用于数字化妆镜的系统和方法
CN110018736A (zh) 人工现实中的经由近眼显示器界面的对象增强
US20240137665A1 (en) Lightweight cross reality device with passive depth extraction
CN106471521A (zh) 自适应眼睛伪影识别及校正系统
WO2018127782A1 (en) Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
EP3398165B1 (en) Eye gesture tracking
US10896545B1 (en) Near eye display interface for artificial reality applications
Czuszynski et al. Septic safe interactions with smart glasses in health care
WO2018122709A1 (en) Wearable augmented reality eyeglass communication device including mobile phone and mobile computing via virtual touch screen gesture control and neuron command
KR20190114602A (ko) 다중 구조 인공신경망을 이용한 가상 피팅을 수행하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant