CN117750902A - 视线检测方法、眼球模型的建模方法及其装置 - Google Patents
视线检测方法、眼球模型的建模方法及其装置 Download PDFInfo
- Publication number
- CN117750902A CN117750902A CN202180100844.1A CN202180100844A CN117750902A CN 117750902 A CN117750902 A CN 117750902A CN 202180100844 A CN202180100844 A CN 202180100844A CN 117750902 A CN117750902 A CN 117750902A
- Authority
- CN
- China
- Prior art keywords
- model
- eyeball
- image
- eye
- texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000005252 bulbus oculi Anatomy 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 210000001508 eye Anatomy 0.000 claims abstract description 115
- 238000009877 rendering Methods 0.000 claims abstract description 24
- 210000003128 head Anatomy 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 24
- 238000005286 illumination Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 210000001747 pupil Anatomy 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 210000004127 vitreous body Anatomy 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000002159 anterior chamber Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004240 ciliary body Anatomy 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 210000000695 crystalline len Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- TVMXDCGIABBOFY-UHFFFAOYSA-N octane Chemical compound CCCCCCCC TVMXDCGIABBOFY-UHFFFAOYSA-N 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/113—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Heart & Thoracic Surgery (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Ophthalmology & Optometry (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供一种视线检测方法、眼球模型的建模方法及其装置,涉及人工智能领域,该检测方法包括:获取待处理图像,待处理图像包括目标对象的眼区部分;最小化视线估计图像与待处理图像的差异,得到目标对象的视线,视线估计图像是利用眼区模型覆盖眼区部分得到的,眼区模型是利用三维的眼球模型得到的,眼球模型是利用眼球的纹理图像对眼球网格进行渲染得到的。该方案中的眼球模型的建模方式简单、易于获取,所以大大降低了复杂度,降低了获取成本,且易于模仿和使用。此外,眼区模型是通用模型,所以可以适用于所有视线检测场景,可移植性好。
Description
本申请实施例涉及人工智能领域,并且更具体地,涉及一种视线检测方法及其装置。
人的视线是语言之外最重要的交互信息。这种信息对众多领域都具有价值,包括心理学、社会学、营销、机器人学、人机界面等。在车领域的人机交互中,视线跟踪技术有助于理解乘员的行为和意图,有独特的应用价值。
在一些方案中,往往需要基于深度相机在三维空间中估计视线起点与方向,从而确定出人的实现方向。但这种基于深度相机的视线追踪方法过于复杂且可移植性差。具体而言,每个视线检测系统包括常规相机、深度相机和显示屏等设备以及对应的检测模型,而该视线检测系统在使用之前需要进行检测模型的训练和设备的参数标定。具体包括:需要利用该系统中的相机采集图像以用于对检测模型进行训练,而检测模型的训练会需要大量的、有标签的、高清的眼睛图像;还需要对常规相机、深度相机和显示屏进行参数标定。因此检测模型和标定参数都只能适用于该视线检测系统,如果换到其他的视线检测系统就需要重复上述工作。甚至即使只是更换一下该系统中的某一个设备或者改变一下设备的位置都需要重新进行参数标定和重新训练检测模型。也就是说,上述这类方案复杂度和成本均过高,且可移植性太差。
在另一些方案中,可以从包括有人的图像中提取视线方向,但该方法需要用到眼睛的模型进行辅助,而眼睛的模型难以得到、复杂、获取成本过高,大多被研发者保密,外界难以获取,且即使获取了也难以模仿或使用。
因此,如何降低视线检测的复杂度是亟待解决的技术问题。
发明内容
本申请实施例提供一种视线检测方法、眼球模型的建模方法及其装置,能够降低视线检测的复杂度。
第一方面,提供一种视线检测方法,该方法包括:获取待处理图像,待处理图像包括目标对象的眼区部分;最小化视线估计图像与待处理图像的差异,得到目标对象的视线,视线估计图像是利用眼区模型覆盖眼区部分得到的,眼区模型是利用三维的眼球模型得到的,眼球模型是利用眼球的纹理图像对眼球网格进行渲染得到的。
在本申请的技术方案中,主要通过最小化视线估计图像与待处理图像之间的差异来确定视线方向,眼区模型是利用三维的眼球模型来得到的,该眼球模型的建模方式简单、易于获取,所以大大降低了复杂度,降低了获取成本,且易于模仿和使用。此外,由于用于得到视线估计图像的眼区模型是通用模型,所以可以适用于所有视线检测场景,只要能够 提供包括有眼区部分的待处理图像就可以应用本申请实施例的方法,可移植性好,普适性高。此外,与现有技术相比,由于不再需要重复训练模型和标定设备的过程,操作简单、用时缩短且成本降低。
需要说明的是,视线估计图像与所述待处理图像的差异可以理解为两个图像之间的差异,可以包括关键点重投影差异、像素差异等。可以理解的是,由于眼区部分被眼区模型覆盖了,而眼区模型与眼区部分往往会存在一些关键点位置的差异、像素差异等,所以可以通过减小二者之间的差异,使得眼区模型接近眼区部分。
结合第一方面,在第一方面的某些实现方式中,眼球网格是利用三维的人头模型得到的。本领域技术人员可以很容易得到各种人头模型,因此眼球网格也很容易得到。
在一些实现方式中,可以建立眼球网格的顶点和纹理图像中对应点的映射关系,也可以建立眼球网格的三角面和纹理图像中对应点区间的映射关系。结合第一方面,在第一方面的某些实现方式中,眼球模型是根据眼球网格与纹理图像之间的映射关系对眼球网格进行渲染得到的。
结合第一方面,在第一方面的某些实现方式中,上述眼球网格与纹理图像之间的映射关系可以是非线性的映射关系,这样可以使得眼球模型更加自然,即更加接近真实眼球的特点。
结合第一方面,在第一方面的某些实现方式中,视线估计图像与待处理图像的差异是利用能量函数表示的。在最小化视线估计图像与待处理图像的差异来得到目标对象的视线时,可以执行下面的操作:最小化能量函数,得到姿态参数,姿态参数包括视线。姿态参数可以理解为目标对象的姿态,例如眼球朝向、嘴巴开闭或头部姿态等,因此也可以看出,姿态参数包括上述视线,即眼球朝向。
结合第一方面,在第一方面的某些实现方式中,在最小化能量函数时,还可以得到以下参数中的一种或多种:脸型参数、纹理参数或光照参数。也就是说,在最小化能量函数的过程中,除了完成视线检测任务以外,还可以提供其他有用参数。脸型参数可以理解为目标对象的脸的形状、纹理参数则可以理解为目标对象的纹理,例如可以是肤色、眉毛、斑点等,光照参数可以包括以下参数中的一种或多种:光线方向、光源种类或光源颜色。
第二方面,提供一种眼球模型的建模方法,该建模方法包括:获取眼球网格和眼球的纹理图像;利用纹理图像对眼球网格进行渲染,得到眼球模型。该建模方法简单易操作,该眼球模型的建模方式简单、易于获取,所以大大降低了复杂度,降低了获取成本,且易于模仿和使用。此外,该建模方法可以得到通用的眼球模型,该眼球模型是利用顶点、拓扑结构和纹理来建立起来的,所以在用于视线检测时,这些参数可以带来图像上的像素等差异,而通过最小化图像的差异就反推出上述这些眼球模型的参数。因此利用上述方法得到的眼球模型来进行视线检测能够具有良好的可移植性。
结合第二方面,在第二方面的某些实现方式中,眼球网格是利用三维的人头模型得到的。本领域技术人员可以很容易得到各种人头模型,因此眼球网格也很容易得到。
结合第二方面,在第二方面的某些实现方式中,在利用纹理图像对眼球网格进行渲染时,可以建立眼球网格与纹理图像之间的映射关系;根据映射关系,将纹理图像的纹理渲染到眼球网格上。
结合第二方面,在第二方面的某些实现方式中,上述映射关系是非线性的。这样可以 使得眼球模型更加自然,即更加接近真实眼球的特点。
结合第二方面,在第二方面的某些实现方式中,还可以将眼球模型置入人头模型,其中,人头模型的纹理与眼球模型的纹理所在的象限不同。这样可以得到具有清晰眼球纹理的人头模型。
第三方面,提供一种视线检测装置,该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。
第四方面,提供一种眼球模型的建模装置,该装置包括用于执行上述第二方面的任意一种实现方式的方法的单元。
第五方面,提供一种计算装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面或第二方面中的任意一种实现方式中的方法。该装置可以可以为车载终端、主机、电脑、服务器、云端设备等各类需要进行视线检测的设备或系统,也可以是设置在上述设备或系统中的装置。该装置还可以为芯片。
第六方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面或第二方面中的任意一种实现方式中的方法。
第七方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。
第八方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面或第二方面中的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第二方面中的任意一种实现方式中的方法。
在本申请中,使用到的眼球模型的建模方式简单、眼球模型易于获取和使用,所以大大降低了视线估计方法的复杂度,降低了获取眼球模型的成本。此外,由于用于得到视线估计图像的眼区模型是通用模型,所以可以适用于所有视线检测场景,只要能够提供包括有眼区部分的待处理图像就可以应用本申请实施例的方法,因此,本申请的方案还具备可移植性好、普适性高的优点。本申请还提出了可以利用细节不够丰富但容易得到的三维人头模型来得到眼球网格,再对眼球网格进行渲染等处理得到眼球模型,这是一种操作简单的获取眼球模型的方法,能够进一步降低成本和简化建模过程。建立眼球网格和纹理图像之间的映射关系,则可以使得渲染效果更好。而非线性的映射关系则可以进一步提高渲染效果,使得眼球模型更加自然,即更加接近真实眼球的特点。
图1是本申请实施例的一种应用场景的示意图。
图2是本申请实施例的视线检测方法的示意性流程图。
图3是本申请实施例的人体眼球结构和眼球模型的示意图。
图4是本申请实施例的视线检测过程的示意图。
图5是本申请实施例的眼球模型的建模方法的示意性流程图。
图6是本申请实施例的人头模型和眼球网格的示意图。
图7是本申请实施例的纹理图像的示意图。
图8是本申请实施例的眼球模型的示意图。
图9是本申请实施例的包括眼球模型的人头模型的示意图。
图10是本申请实施例的一种适用场景的示意图。
图11是本申请实施例的视线检测装置的示意性框图。
图12是本申请实施例的视线检测装置的硬件结构示意图。
图13是本申请实施例的眼球模型的建模装置的示意性框图。
图14是本申请实施例的眼球模型的建模装置的硬件结构示意图。
下面将结合附图,对本申请实施例中的技术方案进行描述。
本申请实施例的视线检测方案可以用于任意的需要确定视线方向的场合,例如,可以用于智能车领域、监控领域或追踪拍摄等等。图1是本申请实施例的一种应用场景的示意图。如图1所示,将待处理图像输入到视线检测装置就可以得到目标对象的视线,待处理图像包括目标对象的眼区部分(左眼球区域或右眼球区域),该目标对象可以是人也可以是动物,目标对象的视线即为目标对象的视线方向。也就是说,该视线检测装置用于对待处理图像进行处理,得到待处理图像中的目标对象的视线方向。假设该待处理图像来自于车辆上的摄像头,该目标对象是驾驶员,则可以根据驾驶员的视线方向来推断驾驶员的意图,从而协助驾驶员控制车辆。又例如,假设该待处理图像来自于监控摄像头,该目标对象是拍摄到的行为异常人等关键人物,就可以根据关键人物的视线方向来锁定该关键人物正在注视的事物,以利于推断关键人物的下一步行动。再例如,假设该待处理图像来自于可以追踪拍摄的智能摄像机,拍摄的目标对象可以是人也可以是动物,此时就可以通不过不断获取拍摄目标对象的视线方向来调整拍摄角度,从而更精准地拍摄到目标对象的活动,例如动物自然活动的追踪拍摄。
图2是本申请实施例的视线检测方法的示意性流程图。下面对图2所示各个步骤进行介绍。
201、获取待处理图像,该待处理图像包括目标对象的眼区部分。
眼区部分即包括眼睛的部分,眼区部分可以包括左眼球,也可以包括右眼球,或者可以包括两个眼球。
应理解,在本申请实施例中,目标对象可以是人或动物等,不存在限定,为了便于理解方案,下文主要以目标对象是人为例进行介绍。
可选地,可以是利用相机、摄像头等感知设备拍摄得到上述待处理图像;也可以是从存储装置中读取上述待处理图像;还可以是利用通信接口等从互联网、车联网等网络中获取上述待处理图像。
202、最小化视线估计图像与所述待处理图像的差异,得到上述目标对象的视线,该视线估计图像是利用眼区模型覆盖上述眼区部分得到的。
应理解,由于待处理图像是二维的,所以眼区模型也是二维的。
将待处理图像的眼区部分用眼区模型覆盖之后,视线估计图像与待处理图像之间必然 存在一些差异,因此,可以通过最小化二者之间的差异来对视线估计图像进行调整,使得视线估计图像与待处理图像之间的差异尽可能小。
可选地,上述眼区模型可以是利用三维的眼球模型得到的,该眼球模型可以是利用眼球的纹理图像对眼球网格进行渲染得到的。对于眼球模型的建模方法的介绍可以参照图5相关内容,在此不再详细展开。
眼球模型可以理解为用于表示眼球且包括眼球的结构、纹理、颜色形状等信息的立体模型。为了便于理解眼球模型,下面以人为例,结合图3进行介绍,图3是本申请实施例的人体眼球结构和眼球模型的示意图。如图3所示,图3中的(a)为人体眼球结构,可以看出,眼球是两个大小不等的球状结构组成,为了便于理解可以分别用结构#1和结构#2表示,其中,较大的球状结构部分(即结构#1)主要为玻璃体,以及还包括视网膜、中央窝、视神经等;较小的球状结构部分(即结构#2)主要为前房,以及晶状体、睫状体、虹膜、角膜、瞳孔等。图3中的(a)还示出了视线方向的表示方法,即从中央窝穿过光心、瞳孔中心到眼球外部的箭头方向。图3中的(b)为人体眼球模型,可以看出该眼球模型同样是两个大小不等的球状结构,其中较大的球状结构对应的是上述结构#1,较小的球状结构对应的是上述结构#2,从图3中的(b)还可以看出,结构#1和结构#2均包括较为丰富的形状、颜色、纹理等信息,这些眼球信息同样是与图3中的(a)的各个眼球组成部分的上述信息对应的。
可选地,眼球网格可以是利用三维的人头模型得到的。本领域技术人员可以很容易得到各种人头模型,因此眼球网格也很容易得到。
可选地,上述眼球网格与所述纹理图像之间的映射关系可以是非线性的映射关系,这样可以使得眼球模型更加自然,即更加接近真实眼球的特点。由于越靠近眼球中心(瞳孔)的部分,包括的信息更丰富或者可以理解为细节更多,例如纹理更密集,颜色变化更多等等,且对于视线的确定也尤为重要,而越远离眼球中心(瞳孔)的部分,例如玻璃体的部分,包括的信息相对较少,例如纹理相对稀疏,颜色变化也较少等,且对于视线的确定影响较小,所以可以通过建立非线性的映射关系,侧重瞳孔部分的渲染,弱化对于玻璃体部分的渲染,从而有效提高眼球模型的准确性和提高运算效率。当使用这样的眼球模型时就可以有效提高视线检测的准确性。
下面介绍最小化视线估计图像与所述待处理图像的差异,该差异可以理解为两个图像之间的差异,可以包括关键点重投影差异、像素差异等,可以理解的是,由于眼区部分被眼区模型覆盖了,而眼区模型与眼区部分往往会存在一些关键点位置的差异、像素差异等,所以可以通过减小二者之间的差异,使得眼区模型接近眼区部分。
在一些实现方式中,上述差异可以利用能量函数表示,该能量函数即用于衡量上述差异。假设眼区模型(parametric eye region model)为:M=M(β,τ,θ),即M为β、τ和θ的函数,其中,M表示眼球网格的顶点位置,β表示脸型参数,τ表示纹理参数,θ表示姿态参数,则上述式子相当于,眼区模型的顶点位置为脸型参数、纹理参数、姿态参数的函数。假设神经渲染器(neural rendering)为:I=NR(M,l,k)),即I为M、l和k的函数,其中,I是渲染得到的图像,即上述视线估计图像,l表示光照参数,k表示相机参数,则上述式子相当于,视线估计图像为眼区模型、光照参数和相机参数的函数。因此,如果构造能量函数,则能量函数可以为:
E=ε
image(I
syn,I
obs)
=ε
image(NR(M,l,k),I
obs)
=ε
image(NR(M(β,τ,θ),l,k),I
obs),
其中,I
obs表示上述关键点位置的差异,I
syn表示上述像素差异,ε
image表示视线估计图像与待处理图像之间的总差异。也就是说,E最终是β、τ、θ、l和k的函数,由于上述三个函数均为可微分函数,所以,E对β、τ、θ和l均可微分,因此,最小化E就可以得到一种或多种上述参数:β、τ、θ或l,由于k为已知的参数,所以不需要求取k。
下面对上述各种参数进行介绍。姿态参数可以理解为目标对象的姿态,例如眼球朝向、嘴巴开闭或头部姿态等,因此也可以看出,姿态参数包括上述视线,即眼球朝向。脸型参数可以理解为目标对象的脸的形状、纹理参数则可以理解为目标对象的纹理,例如可以是肤色、眉毛、斑点等,光照参数可以包括以下一种或多种:光线方向、光源种类或光源颜色。
应理解,最小化上述能量函数可以求取上述所有参数,但也可以只求取其中的部分参数。例如,可以通过最小化能量函数得到姿态参数,由于该姿态参数中包括实现,所以得到姿态参数就相当于得到了目标对象的视线了。又例如,在最小化能量函数时,还得到以下一种或多种参数:脸型参数、纹理参数或光照参数。也就是说,在最小化能量函数的过程中,除了完成视线检测任务以外,还可以提供其他有用参数。
图2所示方法,主要通过最小化视线估计图像与待处理图像之间的差异来确定视线方向,眼区模型是利用三维的眼球模型来得到的,该眼球模型只需要用最为常见的建模方式就可以获取,所以大大降低了复杂度,降低了获取成本,且易于模仿和使用。此外,由于用于得到视线估计图像的眼区模型是通用模型,所以可以适用于所有视线检测场景,只要能够提供包括有眼区部分的待处理图像就可以应用本申请实施例的方法,可移植性好,普适性高。此外,与现有技术相比,由于不再需要重复训练模型和标定设备的过程,操作简单、用时缩短且成本降低。
图4是本申请实施例的视线检测过程的示意图。图4可以看作是执行图2所示方法的过程示例。如图4所示,A为待处理图像,该待处理图像包括眼睛的区域a放大后如B所示。C为将眼区部分用眼区模型覆盖之后的图像,即视线估计图像的一部分,可以看出,C除了眼区模型部分其他部分跟B、A一致,是保持不变的。D为包括有视线方向(即图中的箭头)的图像,即最小化视线估计图像与待处理图像之间的差异之后得到的调整后的视线估计图像,D明显比C更接近B。也就是说,图2所示方法就是通过最小化C与B的差异从而得到D的过程。
图5是本申请实施例的眼球模型的建模方法的示意性流程图。下面对图5所示各个步骤进行介绍。
501、获取眼球网格和眼球的纹理图像。
眼球网格可以理解为用立体的网格结构来表示眼球的轮廓结构,眼球的纹理图像用于为包括眼球的纹理信息的图像。
可选地,眼球网格可以从三维的人头模型中提取得到。人头模型即通用的三维人脸模型,是用固定的定点数和预设的拓扑结构(三角面)来表示人脸的。但目前的人脸模型在眼球纹理方面普遍清晰度不足,从而无法用于视线检测。图6是本申请实施例的人头模型 和眼球网格的示意图。如图6所示,图6中的(a)为人头模型的正视图,图6中的(b)为从图6中的(a)所示的人头模型中提取出来的眼球网格的正视图,图6中的(c)为上述眼球网格的侧视图。作为一个例子,眼球网格包括546个顶点和1088个三角面。
本领域技术人员可以利用现有的眼球纹理图像或者可以自行绘制眼球纹理图像。图7是本申请实施例的纹理图像的示意图。如图7所示,这些纹理图(a)-(c)中均包括了丰富的眼球纹理信息,且几个纹理图中的纹理均存在差异,例如瞳孔的大小、纹路、颜色等。
502、利用纹理图像对眼球网格进行渲染,得到眼球模型。
也就是说,可以将纹理图像中的眼球纹理渲染到眼球网格上,就可以得到具有眼球纹理的一个结构,该结构即为眼球模型,例如如图8所示。图8是本申请实施例的眼球模型的示意图。图8中的(a)为眼球模型的正视图,图8中的(b)为眼球模型的侧视图。
需要说明的是,在本申请实施例中,渲染是指利用例如Maya、3ds Max或Blender等各类三维制作软件携带的渲染器或者利用RenderMan、Octane、V-Ray或Arnold等独立渲染器,将制作的立体模型(例如上述眼球网格)加入纹理(例如上述眼球纹理)、绑定、动画或灯光等元素,得到渲染后的更为生动的模型(例如上述眼球模型)或动画的最终显示效果,也是三维制作中的最后一道重要程序。可以理解为,渲染是使得一个几何模型具备材质、颜色、线条等各种纹理、各类光线场景、动作等的一个过程。
可选地,可以采用下面的步骤502-1和步骤502-2来执行步骤502。
502-1、建立眼球网格和纹理图像之间的映射关系。
502-2、按照上述映射关系,将纹理图像的纹理渲染到眼球网格上。
在一些实现方式中,可以建立眼球网格的顶点和纹理图像中对应点的映射关系,也可以建立眼球网格的三角面和纹理图像中对应点区间的映射关系。
以一个包括546个顶点和1088个三角面的眼球网格为例,眼球网格包括2个对径点、32条经线和17条纬线,经线和纬线的交点以及对径点即为上述546(32*17+2)个顶点。因此映射关系可以是:2个对径点与纹理图像的中心对应,纹理图像以中心为圆点设置多个不同半径的圈,以及穿过圆心的多条直线,则这些圆圈和这些直线分别对应上述纬线和经线,这些圆圈和直线的交点对应上述处对径点以外的顶点。
可选地,为了使得眼球模型被渲染地更加近似真实眼球,上述圆圈的半径可以不等分,直线之间的夹角可以不完全相等,也就是上述映射关系是非线性的。
图5所示的建模方法简单易操作,该眼球模型的建模方式简单、易于获取,所以大大降低了复杂度,降低了获取成本,且易于模仿和使用。此外,图5所示方法可以得到通用的眼球模型,该眼球模型是利用顶点、拓扑结构和纹理来建立起来的,所以在用于视线检测时,这些参数可以带来图像上的像素等差异,而通过最小化图像的差异就反推出上述这些眼球模型的参数。因此利用图5所示方法得到的眼球模型来进行视线检测能够具有良好的可移植性。
在一些实现方式中,图5所示方法还可以包括步骤503。
503、将眼球模型置入人头模型,得到包括有眼球模型的人头模型。
可选地,可以将眼球模型的纹理置于与步骤501的人头模型的纹理不同的象限,建立人头模型的眼球顶点和眼球模型的顶点之间的对应关系,以及建立人头模型的眼球顶点的纹理映射,就可以将眼球模型置入到人头模型中了。例如,可以将步骤501的人头模型的 纹理置于第三象限,将眼球模型的纹理置于第二象限。
但应理解,在一些情况下,该人头模型可以是步骤501所述人头模型,但在另一些情况下,该人头模型也可以是不同于步骤501的其他人头模型。图9是本申请实施例的包括眼球模型的人头模型的示意图。从图9可以看出,人头模型的眼睛部分具有了清晰的细节,因此该人头模型是可以用于进行视线检测等需要清晰眼球纹理的场景。图9中的(a)为人头模型的正视图,图9中的(b)为各种视线方向下的人头模型的正视图。这是现有的人头模型所不具备的。
图10是本申请实施例的一种适用场景的示意图。图10是将本申请实施例应用于车辆的一个示例,该车辆可以是普通汽车、电动汽车、新能源车、货车、客车等等各类车辆。如图10所示,从设置在车辆前部A处的摄像头可以拍摄到包括驾驶员的图像,该图像即为上述待处理图像,该待处理图像中的目标对象即为驾驶员。下面举例两个具体使用场景。
场景一:显示屏的休眠唤醒。在该场景中,当驾驶员的视线不在显示屏(例如图10中的显示屏B)上时,可以让显示屏暂时不显示或休眠,从而降低功耗,当检测到驾驶员的视线方向指向显示屏时再唤醒显示屏进行显示。即假设利用本申请实施例的方案得到驾驶员的视线方向是显示屏,如图10中(a)所示视线方向(箭头PQ的方向)是从驾驶员指向交通灯C,此时可以看到显示屏B是不显示(不呈像)的;如图10中(b)所示视线方向(箭头MN的方向)是从驾驶员指向显示屏B,此时就可以推测驾驶员想要看显示屏中的内容,则将显示屏的显示功能唤醒。
场景二:交通灯的放大显示功能。在驾驶过程中,经常会遇到交通灯较远导致无法看清楚交通灯的颜色或无法看清计时的数字,此时就可以在检测到驾驶员的视线方向指向交通灯的时候,将交通灯进行局部放大实时显示在显示屏B上,方便驾驶员观察。例如图10中(a)所示,假设视线方向(箭头PQ的方向)是从驾驶员指向前方车窗外的交通灯C,此时就可以推测驾驶员想要看清交通灯的信息,则将交通灯进行局部放大实时显示在显示屏B上,如图10中的(b)所示。
但应理解,图10只是给出了两个简单示例,在实际中,本申请实施例提供的视线检测方案可以用于任何需要获知驾驶员视线方向的场景,还可以适用于任何其他需要获知目标对象的视线方向的场景,不再一一列举。
图11是本申请实施例的视线检测装置的示意性框图。图11所示的装置2000包括获取单元2001和处理单元2002。
获取单元2001和处理单元2002可以用于执行本申请实施例的视线检测方法,具体地,获取单元2001可以执行上述步骤201,处理单元2002可以执行上述步骤202。
应理解,上述装置2000中的处理单元2002可以相当于下文中的装置3000中的处理器3002。
图12是本申请实施例的视线检测装置的硬件结构示意图。图12所示的视线检测装置3000(该装置3000具体可以是一种计算机设备)包括存储器3001、处理器3002、通信接口3003以及总线3004。其中,存储器3001、处理器3002、通信接口3003通过总线3004实现彼此之间的通信连接。
存储器3001可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器3001可以存储程序, 当存储器3001中存储的程序被处理器3002执行时,处理器3002和通信接口3003用于执行本申请实施例的视线检测方法的各个步骤。
处理器3002可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的视线检测装置中的单元所需执行的功能,或者执行本申请方法实施例的视线检测方法。
处理器3002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的视线检测方法的各个步骤可以通过处理器3002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器3002还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器3001,处理器3002读取存储器3001中的信息,结合其硬件完成本申请实施例的视线检测装置中包括的单元所需执行的功能,或者执行本申请方法实施例的视线检测方法。
通信接口3003使用例如但不限于收发器一类的收发装置,来实现装置3000与其他设备或通信网络之间的通信。例如,可以通过通信接口3003获取上述待处理图像。
总线3004可包括在装置3000各个部件(例如,存储器3001、处理器3002、通信接口3003)之间传送信息的通路。
图13是本申请实施例的眼球模型的建模装置的示意性框图。图13所示的装置4000包括获取单元4001和处理单元4002。
获取单元4001和处理单元4002可以用于执行本申请实施例的眼球模型的建模方法,具体地,获取单元4001可以执行上述步骤501,处理单元4002可以执行上述步骤502。处理单元4002还可以执行上述步骤503。
获取单元4001还可以集成在处理单元4002中。
应理解,上述装置4000中的处理单元4002可以相当于下文中的装置5000中的处理器5002。
图14是本申请实施例的眼球模型的建模装置的硬件结构示意图。图16所示的装置5000(该装置5000具体可以是一种计算机设备)包括存储器5001、处理器5002、通信接口5003以及总线5004。其中,存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。
存储器5001可以是ROM,静态存储设备,动态存储设备或者RAM。存储器5001可以存储程序,当存储器5001中存储的程序被处理器5002执行时,处理器5002和通信接口5003用于执行本申请实施例的眼球模型的建模方法的各个步骤。
处理器5002可以采用CPU,微处理器,ASIC,GPU或者一个或多个集成电路,用于 执行相关程序,以实现本申请实施例的眼球模型的建模装置中的单元所需执行的功能,或者执行本申请方法实施例的眼球模型的建模方法。
处理器5002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的视线检测网络的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器5002,还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001,处理器5002读取存储器5001中的信息,结合其硬件完成本申请实施例的眼球模型的建模装置中包括的单元所需执行的功能,或者执行本申请方法实施例的方法。
通信接口5003使用例如但不限于收发器一类的收发装置,来实现装置5000与其他设备或通信网络之间的通信。例如,可以通过通信接口5003获取上述眼球网格和纹理图像。
总线5004可包括在装置5000各个部件(例如,存储器5001、处理器5002、通信接口5003)之间传送信息的通路。
应注意,尽管图12所示的装置3000、图14所示的装置5000仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置3000、装置5000还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置3000、装置5000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置3000、装置5000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图12、图14中所示的全部器件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同装置来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(USB flash disk,UFD),UFD也可以简称为U盘或者优盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (25)
- 一种视线检测方法,其特征在于,包括:获取待处理图像,所述待处理图像包括目标对象的眼区部分;最小化视线估计图像与所述待处理图像的差异,得到所述目标对象的视线,所述视线估计图像是利用眼区模型覆盖所述眼区部分得到的,所述眼区模型是利用三维的眼球模型得到的,所述眼球模型是利用眼球的纹理图像对眼球网格进行渲染得到的。
- 如权利要求1所述的方法,其特征在于,所述眼球网格是利用三维的人头模型得到的。
- 如权利要求2所述的方法,其特征在于,所述眼球模型是根据所述眼球网格与所述纹理图像之间的映射关系对所述眼球网格进行渲染得到的。
- 如权利要求3所述的方法,其特征在于,所述映射关系是非线性的。
- 如权利要求1至4中任一项所述的方法,其特征在于,所述视线估计图像与所述待处理图像的差异是利用能量函数表示的,所述最小化视线估计图像与所述待处理图像的差异,得到所述目标对象的视线,包括:最小化所述能量函数,得到姿态参数,所述姿态参数包括所述视线。
- 如权利要求5所述的方法,其特征在于,在最小化所述能量函数时,得到以下至少一种参数:脸型参数、纹理参数或光照参数。
- 一种眼球模型的建模方法,其特征在于,包括:获取眼球网格和眼球的纹理图像;利用所述纹理图像对眼球网格进行渲染,得到眼球模型。
- 如权利要求7所述的方法,其特征在于,所述眼球网格是利用三维的人头模型得到的。
- 如权利要求7或8所述的方法,其特征在于,所述利用所述纹理图像对眼球网格进行渲染,包括:建立所述眼球网格与所述纹理图像之间的映射关系;根据所述映射关系,将所述纹理图像的纹理渲染到所述眼球网格上。
- 如权利要求9所述的方法,其特征在于,所述映射关系是非线性的。
- 如权利要求8至10中任一项所述的方法,其特征在于,所述方法还包括:将所述眼球模型置入所述人头模型,所述人头模型的纹理与所述眼球模型的纹理所在的象限不同。
- 一种视线检测装置,其特征在于,包括:获取单元,用于获取待处理图像,所述待处理图像包括目标对象的眼区部分;处理单元,用于最小化视线估计图像与所述待处理图像的差异,得到所述目标对象的视线,所述视线估计图像是利用眼区模型覆盖所述眼区部分得到的,所述眼区模型是利用三维的眼球模型得到的,所述眼球模型是利用眼球的纹理图像对眼球网格进行渲染得到的。
- 如权利要求12所述的装置,其特征在于,所述眼球网格是利用三维的人头模型得 到的。
- 如权利要求13所述的装置,其特征在于,所述眼球模型是根据所述眼球网格与所述纹理图像之间的映射关系对所述眼球网格进行渲染得到的。
- 如权利要求14所述的装置,其特征在于,所述映射关系是非线性的。
- 如权利要求12至15中任一项所述的装置,其特征在于,所述视线估计图像与所述待处理图像的差异是利用能量函数表示的,所述处理单元具体用于:最小化所述能量函数,得到姿态参数,所述姿态参数包括所述视线。
- 如权利要求16所述的装置,其特征在于,在所述处理单元用于最小化所述能量函数时,得到以下至少一种参数:脸型参数、纹理参数或光照参数。
- 一种眼球模型的建模装置,其特征在于,包括:获取单元,用于获取眼球网格和眼球的纹理图像;处理单元,用于利用所述纹理图像对眼球网格进行渲染,得到眼球模型。
- 如权利要求18所述的装置,其特征在于,所述眼球网格是利用三维的人头模型得到的。
- 如权利要求18或19所述的装置,其特征在于,所述处理单元具体用于:建立所述眼球网格与所述纹理图像之间的映射关系;根据所述映射关系,将所述纹理图像的纹理渲染到所述眼球网格上。
- 如权利要求20所述的装置,其特征在于,所述映射关系是非线性的。
- 如权利要求19至21中任一项所述的装置,其特征在于,所述处理单元还用于:将所述眼球模型置入所述人头模型,所述人头模型的纹理与所述眼球模型的纹理所在的象限不同。
- 一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1至6或者权利要求7至11中任一项所述方法的指令。
- 一种计算装置,其特征在于,所述装置包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如权利要求1至6或者权利要求7至11中任一项所述的方法。
- 一种计算机程序产品,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求1至6或者权利要求7至11中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/110419 WO2023010301A1 (zh) | 2021-08-04 | 2021-08-04 | 视线检测方法、眼球模型的建模方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117750902A true CN117750902A (zh) | 2024-03-22 |
Family
ID=85155019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180100844.1A Pending CN117750902A (zh) | 2021-08-04 | 2021-08-04 | 视线检测方法、眼球模型的建模方法及其装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117750902A (zh) |
WO (1) | WO2023010301A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194838A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社国際電気通信基礎技術研究所 | 視線方向推定装置および視線方向推定方法 |
US9649026B2 (en) * | 2014-11-21 | 2017-05-16 | Disney Enterprises, Inc. | Coupled reconstruction of refractive and opaque surfaces |
CN110363555B (zh) * | 2018-04-10 | 2024-04-09 | 释空(上海)品牌策划有限公司 | 基于视线跟踪视觉算法的推荐方法和装置 |
CN109271914B (zh) * | 2018-09-07 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 检测视线落点的方法、装置、存储介质和终端设备 |
CN110363133B (zh) * | 2019-07-10 | 2021-06-01 | 广州市百果园信息技术有限公司 | 一种视线检测和视频处理的方法、装置、设备和存储介质 |
US11010951B1 (en) * | 2020-01-09 | 2021-05-18 | Facebook Technologies, Llc | Explicit eye model for avatar |
CN111882627A (zh) * | 2020-07-20 | 2020-11-03 | 广州市百果园信息技术有限公司 | 图像处理方法、视频处理方法、装置、设备和存储介质 |
-
2021
- 2021-08-04 CN CN202180100844.1A patent/CN117750902A/zh active Pending
- 2021-08-04 WO PCT/CN2021/110419 patent/WO2023010301A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023010301A1 (zh) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jaritz et al. | Sparse and dense data with cnns: Depth completion and semantic segmentation | |
JP6695503B2 (ja) | 車両の運転者の状態を監視するための方法及びシステム | |
Gecer et al. | Ganfit: Generative adversarial network fitting for high fidelity 3d face reconstruction | |
CN109003325B (zh) | 一种三维重建的方法、介质、装置和计算设备 | |
WO2022165809A1 (zh) | 一种训练深度学习模型的方法和装置 | |
JP6987508B2 (ja) | 形状推定装置及び方法 | |
CN113366491B (zh) | 眼球追踪方法、装置及存储介质 | |
JP2023545200A (ja) | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 | |
US8884968B2 (en) | Modeling an object from image data | |
CN114041175A (zh) | 一种用于使用真实感合成数据估计头部姿势和视线的神经网络 | |
CN112365604A (zh) | 基于语义分割和slam的ar设备景深信息应用方法 | |
CN113628327A (zh) | 一种头部三维重建方法及设备 | |
JP2023521593A (ja) | 視線追跡のための方法 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
CN112669448B (zh) | 基于三维重建技术的虚拟数据集开发方法、系统及存储介质 | |
CN114450719A (zh) | 人体模型重建方法、重建系统及存储介质 | |
CN111192223A (zh) | 人脸纹理图像的处理方法、装置、设备及存储介质 | |
WO2020208976A1 (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
CN111260765B (zh) | 一种显微手术术野的动态三维重建方法 | |
CN111382618A (zh) | 一种人脸图像的光照检测方法、装置、设备和存储介质 | |
WO2021109118A1 (en) | Object re-identification using pose part based models | |
WO2014170757A2 (en) | 3d rendering for training computer vision recognition | |
CN114373043A (zh) | 一种头部三维重建方法及设备 | |
Courty et al. | A new application for saliency maps: Synthetic vision of autonomous actors | |
CN114387392A (zh) | 一种根据人影重建三维人体姿态的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |