CN117133043A - 注视点估计方法、电子设备及计算机可读存储介质 - Google Patents
注视点估计方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117133043A CN117133043A CN202310369037.0A CN202310369037A CN117133043A CN 117133043 A CN117133043 A CN 117133043A CN 202310369037 A CN202310369037 A CN 202310369037A CN 117133043 A CN117133043 A CN 117133043A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- gaze point
- user
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 15
- 230000004424 eye movement Effects 0.000 description 45
- 230000006870 function Effects 0.000 description 44
- 239000010410 layer Substances 0.000 description 25
- 238000001514 detection method Methods 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及图像处理领域,提供了一种注视点估计方法、电子设备及计算机可读存储介质。所述注视点估计方法包括:当监测到用户注视屏幕时,获取用户面部的第一图像;获取第二图像,所述第二图像为所述用户注视所述屏幕上的第一注视点位置时采集的用户面部图像;计算所述第一图像和所述第二图像之间的图像区别特征;根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置。通过上述方法,能够有效克服拍摄环境对图像质量的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种注视点估计方法、电子设备及计算机可读存储介质。
背景技术
眼动控制是一种新型的人机交互方式,其应用越来越广泛。眼动控制包括基于手机、平板等带有屏幕的电子设备的注视点控制,即先进行注视点估计,再根据估计出的注视点位置进行相应控制。
相关技术中,通过采集用户注视屏幕的图像,并对采集图像进行图像识别,以实现注视点估计。由于拍摄环境对采集图像的图像质量的影响较大,因此,通过采集图像估计出的注视点位置误差较大,估计结果稳定性和可靠性也较低。
发明内容
本申请提供一种注视点估计方法、电子设备及计算机可读存储介质,解决了现有技术中注视点估计结果误差较大、稳定性和可靠性较低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种注视点估计方法,所述方法包括:
当监测到用户注视屏幕时,获取用户面部的第一图像;
获取第二图像,所述第二图像为所述用户注视所述屏幕上的第一注视点位置时采集的用户面部图像;
计算所述第一图像和所述第二图像之间的图像区别特征;
根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置。
本申请实施例中,计算第一图像和第二图像之间的图像区别特征,相当于获取标定图像与待识别图像之间的图像区别特征。由于第一图像和第二图像对应的用户相同,因此,图像区别特征可以表示第一图像和第二图像的拍摄环境的差异。然后根据图像区别特征和第二图像对应的第一注视点位置来估计第一图像对应的第二注视点位置,相当于预先标定了一个注视点位置(第一注视点位置),以该注视点位置为基准,根据两个图像的拍摄环境的差异调整注视点位置,从而确定待识别图像对应的注视点位置。通过本申请实施例中的方法,能够有效克服拍摄环境对图像质量的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
在第一方面的一种实现方式中,所述计算所述第一图像和所述第二图像之间的图像区别特征,包括:
获取所述第一图像的第一特征信息;
获取所述第二图像的第二特征信息;
根据所述第一特征信息和所述第二特征信息,计算所述第一图像和所述第二图像之间的所述图像区别特征。
通过上述方式,可以获取到图像中像素之间的关联特征,使得计算出的图像区别特征能够更准确地反映两张图像之间拍摄环境和拍摄内容的区别,从而为后续注视点位置的确定提供可靠的数据依据。另外,上述方式中相当于只根据特征信息计算图像区别特征,针对性更强,计算量更小。
在第一方面的一种实现方式中,所述第一特征信息包括第一平面特征,所述第二特征信息包括第二平面特征;
获取所述第一图像的第一平面特征的过程包括:
获取所述第一图像中人脸的眼部特征;
获取所述第一图像中人脸的位置特征;
根据所述眼部特征和所述位置特征计算所述第一平面特征。
上述方式中,从第一图像中提取了眼部特征和人脸的位置特征,相当于提取了与视线方向相关的局部特征信息,针对性更强。无需对整张图像进行特征提取,可以有效减少计算量。
在第一方面的一种实现方式中,所述获取所述第一图像中人脸的眼部特征,包括:
获取所述第一图像中人脸的左眼特征;
获取所述第一图像中人脸的右眼特征;
根据所述左眼特征和所述右眼特征计算所述眼部特征。
用户注视屏幕时,左右眼的视线方向有所不同。上述方式中,对左右眼分别提取特征,利于后续对视线的精确估计。
在第一方面的一种实现方式中,所述第一特征信息包括第一平面特征和第一深度特征,所述第二特征信息包括第二平面特征和第二深度特征;
所述根据所述第一特征信息和所述第二特征信息,计算所述第一图像和所述第二图像之间的所述图像区别特征,包括:
根据所述第一平面特征、所述第二平面特征、所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的所述图像区别特征。
本申请实施例中,加入了深度特征,相当于考虑了用户脸部姿态的变化。不仅能够克服拍摄环境对图像质量的影响,还能够克服用户自身姿态变化的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
在第一方面的一种实现方式中,所述根据所述第一平面特征、所述第二平面特征、所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的所述图像区别特征,包括:
根据所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的第一区别特征;
根据所述第一平面特征、所述第二平面特征和所述第一区别特征,计算所述第一图像和所述第二图像之间的所述图像区别特征。
上述实现方式中,在计算平面区别特征的过程中考虑了深度特征的变化因素,相当于以平面特征为主、同时考虑了姿态的影响,更注重平面特征和深度特征之间的关联关系,从而利于后续的注视点位置估计。
在第一方面的一种实现方式中,所述根据所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的第一区别特征,包括:
根据所述第一深度特征和所述第二深度特征计算第一变化量,其中,所述第一变化量表示获取所述第一图像时用户面部的姿态与获取所述第二图像时用户面部的姿态之间的平移变化量;
根据所述第一深度特征和所述第二深度特征计算第二变化量,其中,所述第二变化量表示获取所述第一图像时用户面部的姿态与获取所述第二图像时用户面部的姿态之间的旋转变化量;
根据所述第一变化量和所述第二变化量计算所述第一区别特征。
上述实现方式中,不仅考虑了平移变化,还考虑了旋转变化,使得计算出的第一区别特征更为精确。
在第一方面的一种实现方式中,所述根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置,包括:
根据所述图像区别特征计算注视点偏差,其中,所述注视点偏差表示所述第一注视点位置与所述第二注视点位置之间的距离;
根据所述注视点偏差和所述第一注视点位置,确定所述第二注视点位置。
第二方面,本申请实施例提供了一种电子设备,电子设备包括处理器,处理器用于运行存储器中存储的计算机程序,以实现如第一方面任一种可能的实施方式提供的方法。
第三方面,本申请实施例提供了一种计算机可读存储介质,包括计算机指令,当计算机指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面任一种可能的实施方式提供的方法。
第四方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行如第一方面任一种可能的实施方式提供的方法。
可以理解地,上述提供的第二方面所述的电子设备、第三方面所述的计算机存储介质或者第四方面所述的计算机程序产品均用于执行第一方面所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
图1是本申请实施例提供的注视点估计的示意图;
图2是本申请实施例提供的一种电子设备的结构示意图;
图3是本申请实施例提供的一种电子设备的软件结构框图;
图4是本申请实施例提供的眼动控制功能选择的应用界面示意图;
图5是本申请实施例提供的电子书阅读翻页的应用场景的示意图;
图6是本申请实施例提供的注视点估计方法的流程示意图;
图7是本申请实施例提供的采集第二图像的应用场景示意图;
图8是本申请实施例提供的注视点估计方法的框架图;
图9是本申请另一实施例提供的注视点估计方法的框架图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
眼动控制是一种新型的人机交互方式,其应用越来越广泛。眼动控制包括基于手机、平板、智慧屏等带有屏幕的电子设备的注视点控制,即先进行注视点估计,再根据估计出的注视点位置进行相应控制。
在一些眼动控制的应用场景中,注视点估计可以用于对交互界面的控制。例如,用户浏览软件界面的过程中,通过持续的对用户视线进行注视点估计,判断出用户的眼部动作,然后根据判断出的眼部动作对软件界面执行相应的动作。
在另一些眼动控制的应用场景中,注视点估计还可以用于数据挖掘。例如,用户浏览软件界面的过程中,通过对用户视线进行注视点估计,获取用户注视点位置所对应的界面内容,将该界面内容标记为用户感兴趣的内容。然后搜索与该界面内容相关或相似的内容,推送给用户。
其中,注视点估计是指估算人双目视线聚焦的落点。在相关技术中,如图1所示,通过采集用户注视屏幕的图像11,并对采集图像进行图像识别,获得人双目视线在屏幕上聚焦的落点12,从而实现注视点估计。由于拍摄环境对图像的图像质量的影响较大,因此,通过拍摄图像估计出的注视点位置误差较大,估计结果稳定性和可靠性也较低。
基于此,本申请实施例提供一种注视点估计方法及电子设备,利用标定图像与拍摄图像之间的图像区别特征,以及标定图像对应的已知的注视点位置,来估计拍摄图像对应的注视点位置。通过本申请实施例中的方法,能够有效克服拍摄环境对图像质量的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
本申请实施例提供的注视点估计方法,可以应用在带有屏幕、具备拍摄功能的电子设备中。电子设备包括终端设备,终端设备也可以称为终端(terminal)、用户设备(userequipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。终端设备可以是手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、智慧屏、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对电子设备所采用的具体技术和具体设备形态不做限定。
参见图2,为本申请实施例提供的一种电子设备的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serialbus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,触摸传感器180K,环境光传感器180L等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,处理器110用于执行本申请实施例中的注视点估计方法。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
外部存储器120一般指外存储器,在本申请实施例中,外部存储器是指除电子设备的内存及处理器的高速缓存以外的储存器,该储存器一般为非易失性存储器。
内部存储器121,也可以称为“内存”,可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-OLED,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。在一些实施例中,电子设备100通过显示屏194显示用户界面。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。示例性的,摄像头193用于捕获用户注视显示屏194的图像。
电子设备100还包括各类传感器,可以将各种不同的物理信号转换为电信号。示例性的,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。陀螺仪传感器180B可以用于确定电子设备100的运动姿态。气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。骨传导传感器180M可以获取振动信号。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
示例性的,在本申请实施例中,触摸传感器180K可以检测用户对应用程序的图标的点击操作,并将检测到的点击操作传递给应用处理器,确定该点击操作用于启动或运行该应用程序,进而执行该应用程序的运行操作。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
以上是以电子设备100为例对本申请实施例做出的具体说明。应该理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
另外,在上述部件之上,运行有操作系统。如iOS操作系统、Android开源操作系统、以及Windows操作系统等。在该操作系统上可以安装运行应用程序。
电子设备100的操作系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图3是本申请实施例的电子设备100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,系统库和安卓运行时(Android runtime),以及内核层。
应用程序层可以包括一系列应用程序包。
如图3所示,应用程序包可以包括相机,图库,日历,通话,地图,电子书,购物,蓝牙,音乐,视频,短信息等应用程序。例如:电子书应用程序可以包括眼动控制功能。当电子设备上安装有包含眼动控制功能的电子书应用程序时,该电子设备可以通过眼动控制功能监测用户注视点,从而实现对电子书翻页的眼动控制。再例如:购物应用程序可以包括眼动控制功能。当电子设备上安装有包含眼动控制功能的购物应用程序时,该电子设备可以通过眼动控制功能监测用户注视点,获取用户感兴趣的内容,从而实现对用户的内容推荐。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图3所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括传感器模块180获取到的监测数据(如加速度传感器180E获取到的加速度数据等),视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒(如出行消息等)等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
本申请实施例中,应用程序框架层可以包括相机访问接口,其中,相机访问接口用于为相机应用提供应用编程接口和编程框架。
Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统层可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。其中,摄像头驱动用于驱动摄像头采集图像。
下面结合上述硬件结构及软件结构,介绍本申请实施例涉及的眼动控制功能的应用场景。
在一些应用场景中,电子设备的相机应用具备眼动控制功能。当安装在电子设备上的应用软件需要使用眼动控制功能时,应用软件调用相机应用。相机应用调用应用框架层的相机访问接口,启动相机应用,从而通过摄像头(如前置摄像头)实时拍摄用户注视屏幕的图像,并根据该图像进行注视点估计,获得用户视线在屏幕上的注视点位置,并将注视点位置发送给应用软件。应用软件根据接收到的注视点位置控制用户界面。
在另一些应用场景中,安装在电子设备上的应用软件具备眼动控制功能。当安装在电子设备上的应用软件(如电子书或购物软件等)开启眼动控制功能时,应用软件调用相机应用。相机应用调用应用程序框架层的相机访问接口,启动相机应用,从而通过摄像头(如前置摄像头)拍摄用户注视屏幕的图像,并将拍摄图像发送给应用软件。应用软件根据获取到的图像进行注视点估计,获得用户视线在屏幕上的注视点位置,再根据注视点位置控制用户界面。
应用软件的眼动控制功能可以设置为默认开启状态。例如,在应用软件开启的状态下,眼动控制功能即处于开启状态。
应用软件的眼动控制功能还可以由用户手动选择。示例性的,参见图4,是本申请实施例提供的眼动控制功能选择的应用界面示意图。如图4所示,为应用软件的设置界面40。设置界面40可以包括选择信息区域401和选择控件402。其中:
选择信息区域401,用于显示眼动控制功能的名称。如图4中的(a)所示,选择信息区域401中显示有“眼动控制”。需要说明的是,图4中所示的眼动控制功能的名称只是示例,并不用于做具体限定,实际应用中,可以将眼动控制功能的名称定义为其他内容,只要便于用户区分即可。
选择控件402,用于在用户点击/触碰时实现相应的软件功能,选择控件与上述的选择信息对应。如图4中的(a)所示,选择信息“眼动控制”后边对应一个选择控件。例如:当用户点击/触碰“眼动控制”后边对应的选择控件时,电子设备100显示如图4中的(b)所示的界面,此时,应用软件开启眼动控制功能。
示例性的,参见图5,是本申请实施例提供的电子书阅读翻页的应用场景的示意图。当电子书应用软件开启眼动控制功能,电子书应用软件通过相机应用监测用户注视屏幕的图像,然后对图像进行图像识别,获得用户视线在屏幕上的注视点位置。如图5所示的a点为t1时刻用户注视电子设备屏幕的注视点位置,b点为t2时刻用户注视点电子设备屏幕的注视点位置(t2为t1之后的时刻)。然后电子书软件通过前后帧图像各自对应的注视点位置的变化情况,判断出用户的眼部动作,从而进行相应的控制。当判断出用户眼部动作为上下移动,电子书停留在当前页面;当判断出用户眼部动作为左右移动,执行电子书翻页的动作。如图5所示,从t1时刻到t2时刻用户的注视点位置发生了变化,即前后帧图像各自对应的注视点位置由a点移动到了b点,由此可以判断出用户眼部动作为左右移动,则执行电子书翻页的动作。
需要说明的是,本申请实施例虽然以Android系统为例进行说明,但是其基本原理同样适用于基于iOS或Windows等操作系统的电子设备。
本申请实施例提供的注视点估计方法的执行主体可以为上述的电子设备(如手机),也可以为该电子设备中能够实现该注视点估计方法的功能模块和/或功能实体,并且本申请方案能够通过硬件和/或软件的方式实现,具体的可以根据实际使用需求确定,本申请实施例不作限定。下面以电子设备为例,结合附图对本申请实施例提供的注视点估计方法进行示例性的说明。
参见图6,是本申请实施例提供的注视点估计方法的流程示意图。作为示例而非限定,如图6所示,所述注视点估计方法可以包括以下步骤:
S601,当监测到用户注视屏幕时,获取用户面部的第一图像。
当眼动控制功能处于开启状态,相机应用通过电子设备的前置摄像头监测屏幕前的画面,当画面中出现人脸,采集人脸图像,对人脸图像进行初步的视线方向识别;若识别出的视线方向指向屏幕,则监测到用户注视屏幕;若识别出的视线方向未指向屏幕,则继续监测屏幕前的画面。监测过程可以在后台持续进行。
步骤601中获取用户面部的第一图像的过程是持续进行的。当监测到用户注视屏幕,可以预设的监测周期获取用户面部的第一图像。例如,当应用软件中的眼动功能处于开启状态,每隔预设时间通过手机的前置摄像头抓取一张图像。
上述的监测周期可以是应用软件自动设定的固定周期。还可以是根据电子设备的当前状态自动选择。例如,应用软件设置有3个监测周期A、B和C(A>B>C)。当电子设备当前为低电量模式时,应用软件选择监测周期C;当电子设备当前为高电量模式时,应用软件选择监测周期A。再例如,当电子设备当前为高刷新率模式时,应用软件选择监测周期A;当电子设备当前为低刷新率模式时,应用软件选择监测周期C。当然,也可以由用户手动选择监测周期。
一种实现方式中,监测用户注视屏幕的过程和获取第一图像的过程可以是两个并行的处理线程。例如,第一个线程持续地监测屏幕前的画面,当监测到用户注视屏幕,则向第二个线程发送第一信号;第二个线程接收到第一信号后,以预设的监测周期获取第一图像;当第一个线程监测到用户停止注视屏幕时,向第二个线程发送第二信号;第二个线程接收到第二信号后,停止获取第一图像。
另一种实现方式中,可由一个处理线程执行S601。例如,线程以第一周期监测屏幕前的画面,当画面中出现人脸,采集人脸图像,对人脸图像进行初步的视线方向识别;若识别出的视线方向指向屏幕,则监测到用户注视屏幕,并将当前的人脸图像作为第一图像,然后以第二周期获取屏幕前的图像;每获取一张图像,则对该图进行视线方向识别;若识别出的视线方向指向屏幕,则继续以第二周期获取屏幕前的图像;若识别出的视线方向未指向屏幕,则以第一周期监测屏幕前的画面。
S602,获取第二图像,所述第二图像为所述用户注视所述屏幕上的第一注视点位置时采集的用户面部图像。
该步骤中的第二图像可以是预先采集并存储的。示例性的,参见图7,是本申请实施例提供的采集第二图像的应用场景示意图。
一种实现方式中,可以预先采集一张第二图像。当用户开启应用软件中的眼动控制功能时,跳转到如图7中的(a)所示的用户界面70。用户界面70可以包括图像采集区域701、位于图像采集区域内的注视点702、提示框703以及操作控件704。用户根据提示框703中的提示内容注视图像采集区域内的注视点702,并在注视过程中点击/触碰操作控件704。电子设备100响应于用户点击/触碰操作控件704,通过前置摄像头拍摄屏幕前的用户人脸图像。该图像即可作为第二图像,注视点702在屏幕中的位置即为第一注视点位置。
另一种实现方式中,可以预先采集多张第二图像,不同第二图像对应的注视点位置不同。当用户开启应用软件中的眼动控制功能时,跳转到如图7中的(b)所示的用户界面71。用户界面71可以包括图像采集区域711、多个注视标识712、提示框713以及操作控件714。用户点击/触碰操作控件714之后,电子设备100响应于用户点击/触碰操作控件714,以环状依次显示注视标识712(如图7的(b)中虚线箭头的方向),以提示用户依次注视最新显示的注视标识712,同时电子设备100通过前置摄像头拍摄屏幕前的用户人脸图像。拍摄得到的多张用户人脸图像即可作为第二图像,每个注视标识在屏幕中的位置为一个第一注视点位置。通过上述方式,每当显示一个注视标识,电子设备即可获取一张与该注视标识的注视点位置相对应的第二图像。在这种实现方式中,多个注视标识可以分布在图像采集区域中的各个方向,这样可以保证采集到用户注视各个方向的第二图像。
需要说明的是,图7示出的仅为采集第二图像的示例,并不用于对采集界面、图像采集区域、注视标识等做具体限定。
实际应用中,可以在用户第一次开启眼动控制功能时采集第二图像,也可以在用户每次开启眼动控制功能时采集第二图像。当然,在眼动控制功能处于开启的状态下,也可以由用户选择重新采集第二图像。
S603,计算第一图像和第二图像之间的图像区别特征。
本申请实施例中,图像区别特征用于表示图像的特征信息之间的区别。例如,图像的RGB信息、灰度信息、深度信息、关键点特征等等。
由于第一图像和第二图像中的用户相同,因此,两种的图像区别特征可以表示第一图像和第二图像的拍摄环境的差异。
关于该步骤的实现方式详见下述实施例中的描述,在此不再赘述。
S604,根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置。
该步骤的一种实现方式中,根据图像区别特征计算注视点偏差,其中,所述注视点偏差表示所述第一注视点位置与所述第二注视点位置之间的距离;根据注视点偏差和第一注视点位置,确定第二注视点位置。
可选的,可以将图像区别特征输入到训练后的识别模型,获得注视点偏差。其中,识别模型可以采用神经网络或其他算法模型。
可选的,也可以将第一特征信息和第二特征信输入到训练后的检测模型,输出注视点偏差。其中,检测模型可以采用神经网络或其他算法模型。
上述两种方式的区别在于,识别模型的输入为图像区别特征,检测模型的输入为第一特征信息和第二特征信息。
图6实施例所述的注视点估计方法中,计算第一图像和第二图像之间的图像区别特征,相当于获取标定图像与待识别图像之间的图像区别特征。由于第一图像和第二图像对应的用户相同,因此,图像区别特征可以表示第一图像和第二图像的拍摄环境的差异。然后根据图像区别特征和第二图像对应的第一注视点位置来估计第一图像对应的第二注视点位置,相当于预先标定了一个注视点位置(第一注视点位置),以该注视点位置为基准,根据两个图像的拍摄环境的差异调整注视点位置,从而确定待识别图像对应的注视点位置。通过本申请实施例中的方法,能够有效克服拍摄环境对图像质量的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
需要说明的是,S603中,每当获取一张第一图像,计算该第一图像与第二图像之间的图像区别特征。
如S602中所述,若存在多张第二图像,则每获取一张第一图像,计算该第一图像与每张第二图像之间的图像区别特征。相应的,对于S604,分别根据计算的每一组图像区别特征及其对应的第一注视点位置,计算出一个第三注视点位置;然后根据计算出的所有第三注视点位置确定出最终的第二注视点位置。例如,可以计算所有第三注视点位置的平均值,将该平均值确定为第二注视点位置。再例如,可以计算所有第三注视点位置的中位值,将该中位值确定为第二注视点位置。
由于多张第二图像可以反映出用户各个视线方向对应的注视点位置,因此,通过将第一图像分别与多张第二图像相比对,不仅能够克服拍摄环境对注视点估计结果的影响,还能够克服用户自身的注视姿态对注视点估计结果的影响,从而有效提高了注视点估计结果的稳定性和可靠性。
S603的一种实现方式为:计算第一图像和第二图像对应的像素之间的像素差值;该像素差值作为第一图像和第二图像之间的图像区别特征。
这种方式虽然计算简单,但获得的图像区别特征仅能够反映单个像素的RGB差异。若根据图像检测人双目视线的聚焦点,还需了解图像中各像素之间的关联特征。而上述方式则忽略了图像中各个像素之间的关联特征。
为了解决上述问题,本申请实施例中,提供了S603的另一种实现方式:
I、获取第一图像的第一特征信息。
II、获取第二图像的第二特征信息。
III、根据第一特征信息和第二特征信息,计算第一图像和第二图像之间的图像区别特征。
本申请实施例中,可以利用训练后的特征提取模型获取第一图像的第一特征信息和第二图像的第二特征信息。其中,特征提取模型可以为神经网络模型或其他算法模型。
本申请实施例中,可以将第一特征信息和第二特征信息输入到训练后的检测模型中,输出图像区别特征。
通过上述方式,可以获取到图像中像素之间的关联特征,使得计算出的图像区别特征能够更准确地反映两张图像之间拍摄环境和拍摄内容的区别,从而为后续注视点位置的确定提供可靠的数据依据。另外,上述方式中相当于只根据特征信息计算图像区别特征,针对性更强,计算量更小。
实施例一
在一些实施例中,第一图像和第二图像可以为RGB图像。第一特征信息包括第一平面特征,第二特征信息包括第二平面特征。
可选的,步骤I中获取所述第一图像的第一平面特征,可以是将第一图像作为整体,获取第一图像整体的第一平面特征。
这种方式容易忽略图像中的局部特征信息。为了解决上述问题,可选的,获取所述第一图像的第一平面特征的过程包括:
获取第一图像中人脸的眼部特征;
获取第一图像中人脸的位置特征;
根据眼部特征和所述位置特征计算所述第一平面特征。
本申请实施例中,获取眼部特征的方式包括:对第一图像进行眼部识别,获取第一图像中眼部的局部图像,然后提取眼部的局部图像的特征信息,作为眼部特征。
获取位置特征的方式包括:对第一图像进行网格划分,得到网格图;识别网格图中人脸的局部图像;然后计算人脸的局部图像在网格图中的位置,作为位置特征。
一种实现方式中,可以将眼部的局部图像和网格图分别输入不同的特征提取模型,获取第一图像的眼部特征和第一图像中人脸的位置特征。其中,特征提取模型可以为神经网络模型或其他算法模型。
本申请实施例中,可以将眼部特征和位置特征拼接成一个向量或矩阵,作为第一平面特征。一种实现方式中,可以通过神经网络中的全连接层将眼部特征和位置特征拼接为平面特征。
上述方式中,从第一图像中提取了眼部特征和人脸的位置特征,相当于提取了与视线方向相关的局部特征信息,针对性更强。无需对整张图像进行特征提取,可以有效减少计算量。
同理,获取第二图像的第二平面特征的过程与第一图像的第一平面特征的过程相同,在此不再赘述。
一些实现方式中,获取所述第一图像中人脸的眼部特征,包括:
获取第一图像中人脸的左眼特征;
获取第一图像中人脸的右眼特征;
根据左眼特征和所述右眼特征计算眼部特征。
本申请实施例中,获取左眼特征的方式包括:对第一图像进行左眼识别,获取第一图像中左眼的局部图像,然后提取左眼的局部图像的特征信息,作为左眼特征。获取右眼特征的方式与获取左眼特征的方式相同,在此不再赘述。
一种实现方式中,可以将左眼的局部图像和右眼的局部图像分别输入不同的特征提取模型,获得左眼特征和右眼特征。其中,特征提取模型可以为神经网络模型或其他算法模型。
本申请实施例中,可以将左眼特征和右眼特征拼接成一个向量或矩阵,作为眼部特征。一种实现方式中,可以通过神经网络中的全连接层将左眼特征和右眼特征拼接为眼部特征。
用户注视屏幕时,左右眼的视线方向有所不同。上述方式中,对左右眼分别提取特征,利于后续对视线的精确估计。
同理,获取第二图像中人脸的眼部特征的过程与第一图像中人脸的眼部特征的过程相同,在此不再赘述。
参见图8,是本申请实施例提供的注视点估计方法的框架图。如图8所示,对于第一图像,获取第一图像中人脸的左眼特征和右眼特征,根据第一图像中的左眼特征和右眼特征计算第一图像中的眼部特征;获取第一图像中人脸的位置特征;根据第一图像中的眼部特征和人脸的位置特征计算第一图像的第一平面特征。对于第二图像,获取第二图像中人脸的左眼特征和右眼特征,根据第二图像中的左眼特征和右眼特征计算第二图像中的眼部特征;获取第二图像中人脸的位置特征;根据第二图像中的眼部特征和人脸的位置特征计算第二图像的第二平面特征。计算第一平面特征和第二平面特征之间的图像区别特征。根据图像区别特征计算注视点偏差。最后根据第二图像对应的第一注视点位置和注视点偏差计算第一图像对应的第二注视点位置。
从图8示例中可见,本申请实施例提供的注视点估计方法,将已知注视点位置的第二图像作为标定图像,计算第一图像和第二图像之间的图像区别特征,该图像区别特征可以表示第一图像和第二图像的拍摄环境的差异。然后根据图像区别特征和第二图像对应的第一注视点位置来估计第一图像对应的第二注视点位置,相当于预先标定了一个注视点位置(第一注视点位置),以该注视点位置为基准,根据两个图像的拍摄环境的差异调整注视点位置,从而确定待识别图像对应的注视点位置。通过本申请实施例中的方法,能够有效克服拍摄环境对图像质量的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。另外,计算图像区别特征的过程中,分别提取左眼、右眼的眼部特征以及人脸的位置特征,相当于充分提取了与视线方向相关的局部特征信息,无需对整张图像进行特征提取,针对性更强,可以有效减少计算量。
在上述实施例中,第一图像和第二图像均为RGB图像。该情况下,第一图像和第二图像之间的图像区别特征仅能够反映出两者的RGB区别特征。但实际应用中,用户注视屏幕时的姿态可能发生变化,而RGB区别特征无法体现图像中人脸姿态的变化,这将影响最终的注视点估计结果。
实施例二
在另一些实施例中,第一图像可以包括第一RGB图像和第一深度图像,同样的,第二图像可以包括第二RGB图像和第二深度图像。相应的,第一特征信息包括第一平面特征和第一深度特征,第二特征信息包括第二平面特征和第二深度特征。
例如,RGB图像可以由电子设备的RGB摄像头拍摄获得,深度图像可以由电子设备的深度摄像头拍摄获得。再例如,深度图像可以为三维点云图,可以由电子设备上的雷达装置探测屏幕前方获得。
可以理解的是,实际应用中,第一图像可以为第一RGB图像,且第一图像携带有第一RGB图像中每个像素点对应的三维点云信息。第二图像可以为第二RGB图像,且第二图像携带有第二RGB图像中每个像素点对应的三维点云信息。
相应的,上述步骤I获取第一图像的第一特征信息可以包括以下步骤:
获取第一RGB图像的第一平面特征;
获取第一深度图像的第一深度特征。
其中,获取第一RGB图像的第一平面特征的过程与上述实施例一中获取第一图像的第一特征信息的过程相同,在此不再赘述。
其中,第一深度特征可以包括像素点的三维坐标(当然,也可以仅包括用于表示与屏幕距离的一维坐标)。
步骤II获取第二图像的第二特征信息的步骤与步骤I获取第一图像的第一特征信息的步骤相同,在此不再赘述。
相应的,步骤III根据第一特征信息和第二特征信息,计算第一图像和第二图像之间的图像区别特征,包括:
根据第一平面特征、第二平面特征、第一深度特征和第二深度特征,计算第一图像和第二图像之间的图像区别特征。
本申请实施例中,加入了深度特征,相当于考虑了用户脸部姿态的变化。不仅能够克服拍摄环境对图像质量的影响,还能够克服用户自身姿态变化的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
一种实现方式中,根据第一深度特征和第二深度特征,计算第一图像和第二图像之间的第一区别特征;根据第一平面特征和第二平面特征,计算第一图像和第二图像之间的第二区别特征;根据第一区别特征和第二区别特征,计算第一图像和第二图像之间的图像区别特征。
可选的,可以通过训练后的检测模型计算图像区别特征。具体的:将第一深度特征和第二深度特征输入到检测模型的第一单元中,输出第一区别特征;将第一平面特征和第二平面特征输入到检测模型的第二单元中,输出第二区别特征;然后将第一区别特征和第二区别特征输入到检测模型的第三单元中,输出图像区别特征。其中,检测模型可以为神经网络模型或其他算法模型。当检测模型为神经网络模型时,第三单元可以为全连接层。
上述实现方式,将平面特征和深度特征分开计算,更加注重平面特征和深度特征各自的区别,而忽视了平面特征和深度特征之间的相互关联。
另一种实现方式中,根据第一深度特征和第二深度特征,计算第一图像和第二图像之间的第一区别特征;根据第一平面特征、第二平面特征和第一区别特征,计算第一图像和第二图像之间的图像区别特征。
可选的,将第一深度特征和第二深度特征输入到检测模型的第一单元中,输出第一区别特征;将第一区别特征、第一平面特征和第二平面特征输入到检测模型的第二单元中,输出图像区别特征。
该实现方式中,将第一平面特征、第二平面特征和第一区别特征输入到相同的检测模型单元中。与第一种实现方式中对平面特征和深度特征分开计算相比,第二种实现方式在计算平面区别特征的过程中考虑了深度特征的变化因素,相当于以平面特征为主、同时考虑了姿态的影响,更注重平面特征和深度特征之间的关联关系,从而利于后续的注视点位置估计。
本申请实施例中,第一区别特征的计算方式可以包括:
根据第一深度特征和第二深度特征计算第一变化量,其中,所述第一变化量表示获取第一图像时用户面部的姿态与获取第二图像时用户面部的姿态之间的平移变化量;
根据第一深度特征和第二深度特征计算第二变化量,其中,所述第二变化量表示获取第一图像时用户面部的姿态与获取第二图像时用户面部的姿态之间的旋转变化量;
根据第一变化量和第二变化量计算第一区别特征。
如上所述,深度特征可以包括像素点的三维坐标。示例性的,第一变化量的计算方式包括:
X2=X1+xt;
Y2=Y1+yt;
Z2=Z1+zt。
其中,(X1,Y1,Z1)为第一深度特征,(X2,Y2,Z2)为第二深度特征,T=(xt,yt,zt)表示平移向量或平移矩阵,即第一变化量。
第二变化量的计算方式包括:P=RP0。其中,P1=(X1,Y1,Z1)为第一深度特征,P2=(X2,Y2,Z2)为第二深度特征,R为旋转矩阵。
点云分别绕x、y、z轴旋转,对应的旋转角度分别为α、β和γ。三次旋转的旋转矩阵的计算方式如下:
若按照内旋方式,即z-y-x(先绕自身z轴旋转,再绕自身y轴旋转,最后绕自身x轴旋转),可得旋转矩阵R=Rx(α)Ry(β)Rz(γ)。
获得平移矩阵T和旋转矩阵R之后,根据第一变化量和第二变化量计算第一区别特征为:
上述实现方式中,不仅考虑了平移变化,还考虑了旋转变化,使得计算出的第一区别特征更为精确。
参见图9,是本申请另一实施例提供的注视点估计方法的框架图。如图9所示,对于第一图像,获取第一图像中人脸的左眼特征和右眼特征,根据第一图像中的左眼特征和右眼特征计算第一图像中的眼部特征;获取第一图像中人脸的位置特征;根据第一图像中的眼部特征和人脸的位置特征计算第一图像的第一平面特征;获取第一图像的第一深度特征。对于第二图像,获取第二图像中人脸的左眼特征和右眼特征,根据第二图像中的左眼特征和右眼特征计算第二图像中的眼部特征;获取第二图像中人脸的位置特征;根据第二图像中的眼部特征和人脸的位置特征计算第二图像的第二平面特征;获取第二图像的第二深度特征。计算第一深度特征和第二深度特征之间的第一区别特征。根据第一区别特征、第一平面特征和第二平面特征计算第一图像和第二图像之间的图像区别特征。根据图像区别特征计算注视点偏差。最后根据第二图像对应的第一注视点位置和注视点偏差计算第一图像对应的第二注视点位置。
与图8实施例相比,图9实施例中加入了深度特征。在计算平面区别特征的过程中考虑了深度特征的变化因素,相当于以平面特征为主、同时考虑了人脸姿态的影响。因此,图9实施例所述的方法,不仅能够克服拍摄环境对图像质量的影响,还能够克服用户自身姿态变化的影响,有效减少了注视点估计的误差,从而有效提高了注视点估计结果的稳定性和可靠性。
本文中描述的各个实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本申请的保护范围中。
上文主要从方法步骤的角度对本申请实施例提供的方案进行了描述。可以理解的是,为了实现上述功能,实施该方法的电子设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的保护范围。
本申请还提供一种芯片,该芯片与存储器耦合,该芯片用于读取并执行存储器中存储的计算机程序或指令,以执行上述各实施例中的方法。
本申请还提供一种电子设备,该电子设备包括芯片,该芯片用于读取并执行存储器存储的计算机程序或指令,使得各实施例中的方法被执行。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的注视点估计方法。
本实施例还提供了一种计算机程序产品,该计算机可读存储介质存储有程序代码,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的注视点估计方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的注视点估计方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种注视点估计方法,其特征在于,包括:
当监测到用户注视屏幕时,获取用户面部的第一图像;
获取第二图像,所述第二图像为所述用户注视所述屏幕上的第一注视点位置时采集的用户面部图像;
计算所述第一图像和所述第二图像之间的图像区别特征;
根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置。
2.如权利要求1所述的注视点估计方法,其特征在于,所述计算所述第一图像和所述第二图像之间的图像区别特征,包括:
获取所述第一图像的第一特征信息;
获取所述第二图像的第二特征信息;
根据所述第一特征信息和所述第二特征信息,计算所述第一图像和所述第二图像之间的所述图像区别特征。
3.如权利要求2所述的注视点估计方法,其特征在于,所述第一特征信息包括第一平面特征,所述第二特征信息包括第二平面特征;
获取所述第一图像的第一平面特征的过程包括:
获取所述第一图像中人脸的眼部特征;
获取所述第一图像中人脸的位置特征;
根据所述眼部特征和所述位置特征计算所述第一平面特征。
4.如权利要求3所述的注视点估计方法,其特征在于,所述获取所述第一图像中人脸的眼部特征,包括:
获取所述第一图像中人脸的左眼特征;
获取所述第一图像中人脸的右眼特征;
根据所述左眼特征和所述右眼特征计算所述眼部特征。
5.如权利要求2至4任一项所述的注视点估计方法,其特征在于,所述第一特征信息包括第一平面特征和第一深度特征,所述第二特征信息包括第二平面特征和第二深度特征;
所述根据所述第一特征信息和所述第二特征信息,计算所述第一图像和所述第二图像之间的所述图像区别特征,包括:
根据所述第一平面特征、所述第二平面特征、所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的所述图像区别特征。
6.如权利要求5所述的注视点估计方法,其特征在于,所述根据所述第一平面特征、所述第二平面特征、所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的所述图像区别特征,包括:
根据所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的第一区别特征;
根据所述第一平面特征、所述第二平面特征和所述第一区别特征,计算所述第一图像和所述第二图像之间的所述图像区别特征。
7.如权利要求6所述的注视点估计方法,其特征在于,所述根据所述第一深度特征和所述第二深度特征,计算所述第一图像和所述第二图像之间的第一区别特征,包括:
根据所述第一深度特征和所述第二深度特征计算第一变化量,其中,所述第一变化量表示获取所述第一图像时用户面部的姿态与获取所述第二图像时用户面部的姿态之间的平移变化量;
根据所述第一深度特征和所述第二深度特征计算第二变化量,其中,所述第二变化量表示获取所述第一图像时用户面部的姿态与获取所述第二图像时用户面部的姿态之间的旋转变化量;
根据所述第一变化量和所述第二变化量计算所述第一区别特征。
8.如权利要求1至7任一项所述的注视点估计方法,其特征在于,所述根据所述图像区别特征和所述第一注视点位置,确定获取所述第一图像时所述用户注视所述屏幕的第二注视点位置,包括:
根据所述图像区别特征计算注视点偏差,其中,所述注视点偏差表示所述第一注视点位置与所述第二注视点位置之间的距离;
根据所述注视点偏差和所述第一注视点位置,确定所述第二注视点位置。
9.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于运行存储器中存储的计算机程序,以实现如权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369037.0A CN117133043A (zh) | 2023-03-31 | 2023-03-31 | 注视点估计方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310369037.0A CN117133043A (zh) | 2023-03-31 | 2023-03-31 | 注视点估计方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117133043A true CN117133043A (zh) | 2023-11-28 |
Family
ID=88857034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310369037.0A Pending CN117133043A (zh) | 2023-03-31 | 2023-03-31 | 注视点估计方法、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133043A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271914A (zh) * | 2018-09-07 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 检测视线落点的方法、装置、存储介质和终端设备 |
CN109359512A (zh) * | 2018-08-28 | 2019-02-19 | 深圳壹账通智能科技有限公司 | 眼球位置追踪方法、装置、终端及计算机可读存储介质 |
CN110191234A (zh) * | 2019-06-21 | 2019-08-30 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN110807427A (zh) * | 2019-11-05 | 2020-02-18 | 中航华东光电(上海)有限公司 | 一种视线追踪方法、装置、计算机设备和存储介质 |
KR20200079170A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 시선 추정 방법 및 시선 추정 장치 |
CN112183160A (zh) * | 2019-07-04 | 2021-01-05 | 北京七鑫易维科技有限公司 | 视线估计方法及装置 |
CN112308932A (zh) * | 2020-11-04 | 2021-02-02 | 中国科学院上海微系统与信息技术研究所 | 一种注视检测方法、装置、设备及存储介质 |
US20210319585A1 (en) * | 2018-08-31 | 2021-10-14 | Eyeware Tech Sa | Method and system for gaze estimation |
CN113903078A (zh) * | 2021-10-29 | 2022-01-07 | Oppo广东移动通信有限公司 | 人眼注视检测方法、控制方法及相关设备 |
CN113936324A (zh) * | 2021-10-29 | 2022-01-14 | Oppo广东移动通信有限公司 | 注视检测方法、电子设备的控制方法及相关设备 |
CN114816060A (zh) * | 2022-04-23 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 基于视觉追踪的用户注视点估计和精度评估方法 |
CN115482574A (zh) * | 2022-09-29 | 2022-12-16 | 珠海视熙科技有限公司 | 基于深度学习的屏幕注视点估计方法、装置、介质及设备 |
CN115830675A (zh) * | 2022-11-28 | 2023-03-21 | 深圳市华弘智谷科技有限公司 | 一种注视点跟踪方法、装置、智能眼镜及存储介质 |
CN115862095A (zh) * | 2022-11-23 | 2023-03-28 | 上海大学 | 一种自适应视线估计方法、系统、电子设备及存储介质 |
-
2023
- 2023-03-31 CN CN202310369037.0A patent/CN117133043A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359512A (zh) * | 2018-08-28 | 2019-02-19 | 深圳壹账通智能科技有限公司 | 眼球位置追踪方法、装置、终端及计算机可读存储介质 |
US20210319585A1 (en) * | 2018-08-31 | 2021-10-14 | Eyeware Tech Sa | Method and system for gaze estimation |
CN109271914A (zh) * | 2018-09-07 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 检测视线落点的方法、装置、存储介质和终端设备 |
KR20200079170A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 시선 추정 방법 및 시선 추정 장치 |
CN110191234A (zh) * | 2019-06-21 | 2019-08-30 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN112183160A (zh) * | 2019-07-04 | 2021-01-05 | 北京七鑫易维科技有限公司 | 视线估计方法及装置 |
CN110807427A (zh) * | 2019-11-05 | 2020-02-18 | 中航华东光电(上海)有限公司 | 一种视线追踪方法、装置、计算机设备和存储介质 |
CN112308932A (zh) * | 2020-11-04 | 2021-02-02 | 中国科学院上海微系统与信息技术研究所 | 一种注视检测方法、装置、设备及存储介质 |
CN113903078A (zh) * | 2021-10-29 | 2022-01-07 | Oppo广东移动通信有限公司 | 人眼注视检测方法、控制方法及相关设备 |
CN113936324A (zh) * | 2021-10-29 | 2022-01-14 | Oppo广东移动通信有限公司 | 注视检测方法、电子设备的控制方法及相关设备 |
CN114816060A (zh) * | 2022-04-23 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 基于视觉追踪的用户注视点估计和精度评估方法 |
CN115482574A (zh) * | 2022-09-29 | 2022-12-16 | 珠海视熙科技有限公司 | 基于深度学习的屏幕注视点估计方法、装置、介质及设备 |
CN115862095A (zh) * | 2022-11-23 | 2023-03-28 | 上海大学 | 一种自适应视线估计方法、系统、电子设备及存储介质 |
CN115830675A (zh) * | 2022-11-28 | 2023-03-21 | 深圳市华弘智谷科技有限公司 | 一种注视点跟踪方法、装置、智能眼镜及存储介质 |
Non-Patent Citations (1)
Title |
---|
龚秀锋;李斌;邓宏平;张文聪;: "基于标记点检测的视线跟踪注视点估计", 计算机工程, no. 06, 20 March 2011 (2011-03-20) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553846B (zh) | 超分辨率处理方法及装置 | |
EP4109882A1 (en) | Image processing method and electronic device | |
CN111882642B (zh) | 三维模型的纹理填充方法及装置 | |
CN111400605A (zh) | 基于眼球追踪的推荐方法及装置 | |
CN112991494A (zh) | 图像生成方法、装置、计算机设备及计算机可读存储介质 | |
WO2024016564A1 (zh) | 二维码识别方法、电子设备以及存储介质 | |
CN116152122B (zh) | 图像处理方法和电子设备 | |
WO2023093169A1 (zh) | 拍摄的方法和电子设备 | |
CN111768352A (zh) | 图像处理方法及装置 | |
US20210271075A1 (en) | Information processing apparatus, information processing method, and program | |
CN115150542B (zh) | 一种视频防抖方法及相关设备 | |
WO2023216957A1 (zh) | 一种目标定位方法、系统和电子设备 | |
CN117148959B (zh) | 眼动追踪的帧率调整方法及相关装置 | |
CN116225274A (zh) | 触控操作的识别方法、装置、电子设备及存储介质 | |
CN117133043A (zh) | 注视点估计方法、电子设备及计算机可读存储介质 | |
CN117499526B (zh) | 拍摄方法、电子设备、芯片系统及计算机可读存储介质 | |
CN116382896B (zh) | 图像处理算法的调用方法、终端设备、介质及产品 | |
CN117853377B (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
EP4383191A1 (en) | Display method and electronic device | |
CN115880348B (zh) | 一种人脸深度的确定方法、电子设备及存储介质 | |
CN116700659B (zh) | 一种界面交互方法及电子设备 | |
CN117850599B (zh) | 距离确定方法、距离检测模型生成方法和距离确定系统 | |
CN118860122A (zh) | 显示方法和电子设备 | |
CN114510192B (zh) | 图像处理方法及相关装置 | |
CN111459271B (zh) | 注视偏移误差确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |