CN113939851A - 用于估计用户的眼睛相关几何参数的方法和系统 - Google Patents
用于估计用户的眼睛相关几何参数的方法和系统 Download PDFInfo
- Publication number
- CN113939851A CN113939851A CN202080027077.1A CN202080027077A CN113939851A CN 113939851 A CN113939851 A CN 113939851A CN 202080027077 A CN202080027077 A CN 202080027077A CN 113939851 A CN113939851 A CN 113939851A
- Authority
- CN
- China
- Prior art keywords
- image
- eye
- pixel
- user
- segmentation map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003709 image segmentation Methods 0.000 claims abstract description 56
- 210000001508 eye Anatomy 0.000 claims description 149
- 230000011218 segmentation Effects 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 210000000744 eyelid Anatomy 0.000 claims description 22
- 210000000554 iris Anatomy 0.000 claims description 16
- 210000003786 sclera Anatomy 0.000 claims description 14
- 210000004087 cornea Anatomy 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 210000001747 pupil Anatomy 0.000 claims description 10
- 210000005252 bulbus oculi Anatomy 0.000 claims description 9
- 210000003128 head Anatomy 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- 238000012549 training Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000437273 Auricularia cornea Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000720 eyelash Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/32—Determination of transform parameters for the alignment of images, i.e. image registration using correlation-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/759—Region-based matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
用于估计用户的眼睛相关几何参数的方法,包括以下步骤:a.检索对应于眼睛的图像的一个输入图像观察;b.使用学习机计算多个图像分割图,以便将每个像素分类成一个眼睛区域;c.通过几何参数的集合生成用户的眼睛的图像几何模型;d.将图像几何模型与图像分割图进行比较;e.计算指示所述输入图像观察是否对应于几何模型的模型对应性值;f.如果在步骤e)下计算的值低于最佳值,则重复步骤c至e,其中针对每次迭代改变一个参数,直到所述模型对应性值达到最佳值,以及g.从用户的眼睛的最新模型检索眼睛相关的几何参数。
Description
技术领域
本发明涉及用于估计用户的眼睛相关几何参数、特别是注视估计(即用户注视方向的估计)的方法和系统,尤其是用于人机接口、虚拟现实、健康护理以及用于移动应用。
背景技术
诸如用户的注视方向的眼睛相关的几何参数提供了人类行为的重要线索。注视方向及其移动是视觉注意力以及人的给定思想和精神状态的指标。
因此,注视估计对像人类-机器人-交互(HRI)、虚拟现实(VR)、社会交互分析或健康护理之类的领域提供支持。随着移动电话上感知功能的发展,注视估计可以此外为移动场景中更广泛的应用集合提供支持。
注视估计可以划分为两个主类,即几何方法和基于外观的方法。几何方法依赖于眼睛的几何模型,其参数通常通过称为瞳孔中心和角膜反射或PCCR方法的普通方法从提取自眼睛图像的几何特征来估计。这些模型可以非常精确,但是由于它们对鲁棒的特征提取的依赖性,经常需要眼睛的高分辨率图像,从而限制了用户的移动性和这样的方法的适用性。
Guestrin和Eizenman的工作(EEE Transactions on biomedical engineering 53(6),1124-1133,2006年6月)详细描述了基于瞳孔中心和角膜反射策略估计眼睛几何参数的理论。作者涵盖了光源和多个相机的不同配置,所述配置可以导致头部移动的不变性,或者在校准策略的需求方面更好的特性。
另一方面,基于外观的方法直接将眼睛图像映射到注视方向,并且近年来,大数据集的数据收集和深度学习已经帮助取得了很大进展。然而,虽然这些方法可以更好地处理低分辨率图像,但由于缺乏明确的眼睛模型,它们也可能遇到使模型适应特定用户的困难,从而无法获得非常准确的结果。
在K. A. Funes Mora和J.-M Odobez的“Geometric generative gaze estimation (g3e) for remote rgb-d camera”(CVPR, pp 1773-1780, 2014)中的工作试图调和这两套方法。它依赖于几何生成模型,根据眼球参数的给定几何配置,该几何生成模型能够生成彩色眼睛图像。这样的模型的推断过程能够基于眼睛图像样本的观察来检索几何参数,该眼睛图像样本的观察可以用已知的凝视点来增强。推断过程将依赖于似然性图,该似然性图包括每个像素属于虹膜、巩膜或眼睑皮肤区域的似然性。从应用于像素颜色的高斯混合模型中获得似然性图,并用手将似然性图初始化。似然性图也可以理解为眼睛图像的颜色驱动分割。然而,由于低图像分辨率和生成复杂阴影图案的眼睛区域的凹面性质,此类颜色模型难以应用于眼睛图像的视频。该工作也是WO 2015/192879中公开的发明的一个实施例。
Proenca Hugo等人的 “Segmenting the periocular region using a hierarchical graphical model fed by texture/shape information and geometrical constraints”(International Conference on Biometrics, IEEE, 2014, 第1-7页,XP032714791)中的工作公开了一种用于眼周区域的图像标记算法,该算法根据由两个阶段组成的模型辨别七个分量(虹膜、巩膜、睫毛、眉毛、头发、皮肤和眼镜),所述两个阶段即:
1)使用若干个神经网络从训练集推断每个图像位置和感兴趣类的后验概率。每个神经网络被配置为检测一个分量,并从输入数据接收局部统计(纹理和形状描述符);
2)将基于数据局部外观的后验与几何约束和分量的邻接先验相组合,以馈送由像素和分量层组成的分层马尔可夫随机场(MRF)。
在更精确地检索用户的眼睛相关几何参数方面存在改进的空间,这特别适用于高和低图像分辨率二者。
因此,本发明的目的是提供用于以更好准确度估计用户的眼睛相关几何参数(例如眼睛注视方向)的方法和系统。
本发明的另一个目的是即使对于用户的眼睛的不良图像质量也提供用于用户的眼睛相关几何参数(例如眼睛注视方向)的鲁棒估计的方法和系统。
本发明的另外目的是提供在图像分类和分割中具有改进性能的方法和系统。
发明内容
根据本发明,这些目的借助于一种用于估计用户的眼睛相关几何参数的方法来实现,该方法包括以下步骤:
a.检索对应于用户的眼睛的图像的至少一个输入图像观察,该用户的眼睛的图像包括独特的眼睛区域;
b.使用学习机来计算一个或多个图像分割图,以便将所述输入图像观察的每个像素分类为多个独特眼睛区域中的至少一个;
c.通过几何参数的集合生成用户的眼睛的图像几何模型;
d.将图像几何模型与至少一个图像分割图进行比较;
e.基于该比较,计算指示所述至少一个输入图像观察是否对应于用户的眼睛的几何模型的模型对应性值;
f.如果在步骤e下计算的值低于最佳值,则重复步骤c至e,其中在步骤c下改变几何参数的集合中的至少一个参数,以针对步骤c至e的每次迭代生成用户的眼睛的新图像几何模型,直到所述模型对应性值达到最佳值,以及
g.从已经生成的用户的眼睛的最新图像几何模型检索眼睛相关的几何参数。
在实施例中,通过提供从监督、半监督或无监督校准过程获得的数据来增强至少一个输入图像观察。
在有利的实施例中,所述眼睛相关的几何参数对应于用户的眼睛注视方向,并且其中:
-步骤c下的用户的眼睛的图像几何模型对应于注视一个特定方向的用户的眼睛,
-在步骤c下改变几何参数的集合中的所述至少一个参数,以针对步骤c至e的每次迭代生成注视另一方向的用户的眼睛的新图像几何模型,直到所述模型对应性值达到所述最佳值,以及
-在步骤g下,从所述最新图像几何模型检索注视方向。
在实施例中,从用户的眼睛的所述图像几何模型计算至少一个参数分割图。参数分割图的每个像素被分类成多个独特眼睛区域中的至少一个。
参数分割图的每个像素可以指示例如该像素属于至少一个独特眼睛区域的至少一个概率、对数概率或分数。
可以从图像几何模型计算多个参数分割图。每个参数分割图可以指示例如图像几何模型的投影的每个像素属于哪个独特眼睛区域,或者与图像几何模型的投影的每个像素相关联的该像素属于一个独特眼睛区域的概率、对数概率或分数。
在实施例中,步骤d包括将分配给至少一个图像分割图的每个像素的概率、对数概率或分数与具有相同坐标的至少一个参数分割图的像素的值进行比较。
在实施例中,用于估计用户的眼睛相关几何参数的方法可以包括:
-根据图像几何模型,从至少一个参数分割图确定每个像素应该属于的独特区域;
-作为步骤d的部分,从至少一个图像分割图确定对应于该独特区域的像素对应性值,并指示该像素属于该独特区域的概率、对数概率或分数;
-作为步骤e的部分,将所述像素对应性值相加在一起以提供所述模型对应性值。
在实施例中,从用户的眼睛的图像几何模型计算图像几何模型的至少一个软参数分割图。至少两个、优选至少三个值被分配给软参数分割图的每个像素。这些值表示每个像素对应于图像几何模型的独特眼睛区域中的每一个的概率、对数概率或分数。
可以将至少两个、优选至少三个值分配给图像分割图的每个像素。所述至少三个值表示每个像素对应于所述至少一个输入图像观察的独特眼睛区域中的每一个的概率、对数概率或分数。
在实施例中,通过将分配给参数分割图的每个像素的至少三个值中的每一个与分配给具有相同坐标的图像分割图的每个像素的对应的至少三个值中的每一个相乘,软参数和图像分割图被合并在一起。对于分割图的每个像素,将相乘的值相加,以提供模型对应性值。
可以为每个图像分割图中的每个像素计算概率、对数概率或分数的加权和,其中概率与图像分割图的对应像素的对应值相关联。
在实施例中,独特眼睛区域优选地是从包括角膜、瞳孔、虹膜、巩膜和眼睑的组中选择的三个独特眼睛区域。
在实施例中,图像分割图是图像概率图,其指示与每个像素相关联的该像素属于一个独特眼睛区域的概率、对数概率。
在实施例中,图像分割图是指示与每个像素相关联的该像素属于一个独特眼睛区域的分数的图像分数图。
在实施例中,学习机包括分割神经网络,其被配置为基于至少一个输入图像观察来生成图像分割图。
分割神经网络可以例如包括被配置为生成用于输入的图像分割图的多个层。
分割神经网络可以例如包括如下一个编码-解码或沙漏层或者编码-解码或沙漏层的序列:其被配置为实现输入的变换,使得图像分割具有与输入相同的分辨率,或者至少可以在图像分割图和输入之间建立像素对应性。
在实施例中,几何参数的集合包括至少以下各项中的多个参数:眼球旋转中心、视轴偏移、眼球半径、角膜半径、角膜缘半径、瞳孔半径、眼睑开口或形状以及左眼和/或右眼角。
在实施例中,检索对应于具有独特眼睛区域的用户的眼睛的图像的至少一个输入图像观察的步骤包括预处理来自图像帧的图像。图像的预处理可以包括以下各项中的一个或多个图像调整或校正:亮度调整、对比度调整、白平衡调整、姿态头部调整、噪声去除、缩放和/或裁剪。
本发明的另一方面涉及一种用于估计眼睛相关几何参数的装置,包括:
-用于捕获用户的面部的相机;
-存储用户特定的眼睛和面部几何参数的数据库,以及
-计算系统,包括存储计算机程序的存储器,该计算机程序被配置为执行如以上描述的方法。
本发明的另外方面涉及存储计算机程序的计算机可读存储介质。该计算机程序包括被配置为执行如以上描述的方法的算法集。
附图说明
借助于通过示例给出并由各图图示的若干个实施例的描述,将更好地理解本发明,其中:
图1图示了根据本发明的实施例的用于跟踪用户的眼睛注视方向的方法的流程图,
图2图示了根据本发明的实施例的方法的详细流程图,
图3示意性地图示了用户的眼睛的几何模型的参数分割过程,
图4示意性地图示了使用分割神经网络对用户的眼睛的图像的分割过程,
图5示意性地图示了用户的眼睛注视方向的评估过程,
图6示意性地图示了眼睛的几何结构,以及
图7示意性地图示了根据本发明的实施例的用于估计用户的眼睛注视方向的装置。
具体实施方式
图1图示了用于估计用户的眼睛相关几何参数的方法的一般概念的流程图。通过图示方法的主要步骤a至g来估计用户的眼睛相关几何参数。虽然根据本发明的方法特别适用于估计用户的眼睛注视方向,但然而它也可以用于估计诸如眼睑的开口程度之类的其他眼睛相关的几何参数。
在步骤a下,首先捕获用户的眼睛的眼睛图像或一系列眼睛图像。眼睛图像可以是例如彩色图像、红外图像、幅度图像、图像数据预处理版本的灰度图像和/或那些图像的任何组合。可以使用预处理步骤对眼睛图像进行预处理,诸如裁剪图像、缩放图像、调整颜色、对比度、白平衡和/或亮度、去除噪声、改进清晰度等。在一个实施例中,预处理包括头部姿态校正,以便校正头部的旋转角度和位置,以及相机视点或眼睛的比例。预处理还可以由来自立体相机、结构化光相机、飞行时间相机或其他深度感测设备的深度测量来支持。在一个实施例中,基于面部区域的3d模型和/或面部区域周围的深度测量来估计头部姿态校正。捕获的并且可能预处理的图像此后被称为输入图像观察10。
可以通过提供诸如凝视点之类的地面实况数据、通过检索诸如眼球半径、头部位置等(参见图3和图5结合图6)之类的底层的用户特定几何结构,来增强所捕获的用户的眼睛的眼睛图像或一系列眼睛图像。该信息可能仅可用于输入眼睛图像的子集,并且可以从显式或隐式校准过程获得。例如,用户被指示注视空间中的某些点。替代地,观察或引发给定的行为,允许检索近似的凝视点,或者可以使用诸如观察到的内容之类的上下文信息。凝视点然后可以表示为概率分布,而不是单个点。
在实施例中,输入图像观察可以捕获眼睛区域之外的区域,并且可以包含整个身体、整个面部或者同时包含双眼的区域。
然后,输入图像观察10的每个像素被分类为有限数量的独特眼睛区域、例如两个或三个独特眼睛区域中的一个,诸如眼睑、角膜或巩膜。角膜区域可以理解为包括瞳孔、虹膜和角膜缘一起的区域。取决于应用,可能需要更独特的眼睛区域。例如,输入图像观察10的每个像素可以被分类为第四独特区域、即以上三个独特眼睛区域和单独用于瞳孔测量应用的瞳孔的附加独特区域中的一个。分类优选地用诸如神经网络12之类的学习机来执行,并且在图2和图4中所示作为步骤b的部分,结果分成多个图像分割图NS1、NS2、NS3。每个图像分割图与一个独特眼睛区域相关联,并且可以包括例如在概率图中,该概率图指示输入图像观察10的每个像素属于对应的独特眼睛区域的概率、对数概率或分数。
在步骤c下,基于如图1中所示的特定几何配置,独立地生成图像几何模型,例如如图2中所示的注视一个特定方向的用户的眼睛的参数的集合。参考图6,这些参数可以例如包括或作为眼睛参数(诸如眼球半径Re、角膜半径Rc、左眼和/或右眼角等)以及与注视方向相关或关于其他参数的其他参数(诸如例如眼球旋转Pc、视轴偏移k、距Pc的节点距离(d))的任何组合。此外,在优化过程期间,参数的集合可以是固定的,而其他参数被修改以找到它们的最佳值。诸如给定人群的眼球大小的标准偏差之类的统计或信息也可以用作模型对应性值计算的部分,以类似于WO 2015/192879的方式作为先验或正则化项。
图像几何模型可以是具有关于大小、位置、视轴和其他几何值的特定几何配置以及注视一个特定方向的眼睛的3D或数学模型,以及眼睑形状和开口的2D或3D表示,然后通过将该模型投影到投影平面上将其表示为2D图像,所述投影平面例如是垂直于相机指向方向的平面或从相对于头部坐标系的预定义位置指向的平面。
在实施例中,例如在校准时段期间,可以从注视已知方向的用户的眼睛的图像集计算图像几何模型,以便确定独立于注视方向的用的户眼睛的参数。校准可以是监督的、无监督的或部分监督的。也可以在没有用户眼睛的任何图像的情况下检索用户的眼睛的几何模型的参数子集。例如,最初可以使用用户独立的模型,例如从来自不同用户的多个眼睛图像生成的模型。在实施例中,几何模型是通过内插来自不同用户的模型来生成的,所述不同用户与该用户共享一些共同特征,诸如性别、种族、年龄等。在实施例中,几何模型的固定参数可以是用户独立的,并且由几何统计集来定义,该几何统计集可以从在先的研究或者从用户集的训练数据检索。
然后将用户在第一假设几何配置下的图像几何模型与学习机提供的分割图NS1、NS2、NS3进行比较(步骤d)。在要找到的几何配置是注视方向的情况下,如果该方法用于在一系列帧中眼睛跟踪眼睛的方向,则第一注视方向可以是例如先前确定的眼睛注视方向。注视方向确定几何模型的可变参数(眼球旋转pc、视轴偏移k、距Pc的节点距离(d))的第一集合。
第一几何配置参数也可以从先验知识信息获得,先验知识信息诸如是在某些人口统计群组上计算的眼球几何结构的统计。
该比较导致模型对应性值,该模型对应性值指示输入图像观察10是否对应于注视所选特定方向的用户的眼睛的几何模型。
重复步骤c至e,其中在步骤c下改变几何参数的集合,以针对步骤c至e的每次迭代生成用户的眼睛的新图像几何模型,其目的是增加模型对应性值,直到所述值达到最佳值。关于大多数优化算法,对一个或多个几何参数迭代地应用小的改变以便更接近最佳值。例如,所述一个或多个参数的值可以增加或减少,以试图达到最佳值。
为了达到最佳值,可以根据图像观察模型考虑几何参数的集合的后验分布来改变几何参数的集合中的可变参数。由于后验分布难以解析地导出,因此变分贝叶斯公式可以用作寻找适当的光学几何配置的近似推断技术。
可以使用替代优化策略,诸如网格搜索策略、像马尔可夫链蒙特卡罗(MCMC)这样的采样方法、牛顿法、梯度下降、随机梯度下降或可以有助于快速找到最佳几何配置的其他策略。
当指示图像观察模型对应于图像几何模型的可能性的模型对应性值达到最佳值时,在步骤g下,从已经生成的最新图像几何模型检索用户的眼睛的注视方向或任何其他感兴趣的眼睛几何参数。
存在各种方法来确定输入图像观察10对应于图像几何模型的可能性,如下文详细讨论的。
在有利的实施例中,并且参考图2、图4和图5,输入图像观察10通过分割神经网络12,以辨别输入图像观察10的独特眼睛区域。在本发明的上下文中,输入图像观察10的分割允许在包括角膜/虹膜区域、巩膜区域、瞳孔区域和眼睑区域的一组区域中辨别若干个语义区域。语义区域的使用允许将注视过程和用户眼睛几何结构与环境或感测条件解耦合。
分割导致多个图像分割图NS1、NS2、NS3,每个图像分割图指示一个输入图像观察的像素属于一个语义区域、即属于诸如例如虹膜、巩膜、瞳孔或眼睑之类的独特眼睛区域的概率。
在实施例中,分割图可以不具有概率解释,但是仍然递送表示为对于像素而言属于独特区域中的任一个的可能性的值。这样的非概率测量在这里可以称为分数。
在优选实施例中,每个图像分割图NS1、NS2、NS3是概率图,其指示每个像素处该像素属于对应的独特眼睛区域的概率。例如,如图4中所示,可以为眼睑建立第一图像分割图NS1,并且第一图像分割图NS1指示输入图像观察10的每个像素属于眼睑的概率、对数概率或分数;可以为瞳孔/角膜建立第二分割图NS2,并且第二分割图NS2指示输入图像观察10的每个像素属于瞳孔/角膜的概率;可以为巩膜建立第三分割图NS3,并且第三分割图NS3指示输入图像观察10的每个像素属于巩膜的概率等。
更特别地,参数分割PS导致参数分割图的集合,每个参数分割图包含几何模型的单个独特眼睛区域,其不同于属于其他两个参数分割图的单个独特眼睛区域。例如,如图3中所示,第一、第二和第三参数分割图PS1、PS2、PS3各自包含分别对应于眼睑区域20a、虹膜/角膜区域20b和巩膜区域20c的几何模型的部分,以便确定哪些像素属于这些眼睛区域中的每一个。
例如,如果第一参数分割图PS1上的像素1属于眼睑区域,则无论第二和第三分割图PS2、PS3包含什么,该像素都将被分配给眼睑区域。如果像素不在眼睑区域20a中,诸如像素2、3,则如果它也落在虹膜/角膜区域内,则它将被分配给虹膜/角膜区域20b。否则,它将被分配到巩膜区域20c。因此,每个参数分割图PS1、PS2、PS3的每个像素都通过几何参数的集合的直接和确定性函数被分配给具有相同坐标的图像几何模型10的对应独特眼睛区域。
分割神经网络12生成三个图像分割图NS1、NS2、NS3。每个图像分割图NS1、NS2、NS3向其像素中的每一个分配属于输入图像观察10的独特眼睛区域的概率、对数概率或分数离散值。换句话说,每个图像分割图可以被看作概率模型,该概率模型提供了关于其像素中的每一个和具有相同坐标的输入图像观察10的对应像素属于相同的独特眼睛区域的可能性的估计。如上面解释的,第一、第二和第三图像分割图NS1、NS2、NS3是概率模型,例如分别用于输入图像观察10的角膜区域、巩膜区域和眼睑区域。每个图像分割图NS1、NS2、NS3的每个像素被分配有属于与具有相同坐标的输入图像观察的像素相同的独特眼睛区域的概率或对数概率离散值。输入图像观察的每个像素的分类(概率分配)由学习机、例如由神经网络来执行,并且可以取决于例如其颜色、亮度、空间环境、区域间关系和位置。
如图5中图示的,在用户注视方向的评估过程中,将对应的参数分割图PS1、PS2、PS3的眼睑区域20a、虹膜/角膜区域20b和巩膜区域20c的每个像素与具有相同坐标的对应的图像分割图NS1、NS2、NS3的像素进行比较,以确定输入图像观察10与图像几何模型对应的可能性。更特别地,仅在所述每个像素的估计的独特眼睛区域(即,角膜/虹膜区域、巩膜区域和眼睑区域)对应于分配给对应参数分割图PS1、PS2、PS3的具有相同坐标的对应像素的独特眼睛区域(即,角膜/虹膜区域、巩膜区域和眼睑区域)的情况下,才选择每个图像分割图NS1、NS2、NS3的每个像素的概率或对数概率离散值。
将选择的概率或对数概率离散值相加在一起,以提供一个值,该值指示输入图像观察对应于注视一个特定方向的用户的眼睛的几何模型的概率。如果该值低于最佳值,则使用如上讨论的所选择的优化步骤生成一个或多个新的图像几何模型,以找到适当的光学几何配置,直到以上值达到最佳值。
在另一个有利的实施例中,代替为图像几何模型的每个独特眼睛区域生成硬参数分割图,计算图像几何模型的单个软参数分割图。
三个离散值被分配给软参数分割图的每个像素。这些离散值各自表示软参数分割图的每个像素对应于图像几何模型的三个独特眼睛区域中的一个的概率或对数概率,所述三个独特眼睛区域优选为角膜/虹膜区域、巩膜区域和眼睑区域。
并行地,分割神经网络12生成输入图像观察10的单个软图像分割图。至少三个离散值被分配给软图像分割图的每个像素。这些离散值各自表示软图像分割图的每个像素对应于输入图像观察10的至少三个对应的独特眼睛区域中的一个的概率或对数概率,所述至少三个对应的独特眼睛区域优选为角膜/虹膜区域、巩膜区域和眼睑区域。
然后,通过将分配给参数分割图的每个像素的所述三个离散值的每一个与分配给具有相同坐标的软图像分割图的每个像素的对应三个值的每一个相乘,将软参数和图像分割图合并在一起。所述分割图的每个像素的相乘值之和指示模型对应性值对应于图像几何模型的可能性。每像素,这可以看作由软图像分割图给出的概率的加权和,其中权重由软参数分割图给出。
在逐像素乘法步骤之前,软图像和/或参数分割图可以通过像对数、鲁棒估计器这样的函数进行变换。此外,变换可以使得乘法不再必要,并且取而代之执行加法或减法。
根据该实施例的用户的眼睛注视方向和其他眼睛相关的几何参数的估计可以实现更好的结果准确度,因为使用软参数和图像分割图可以更好地辨别位于独特眼睛区域的相邻边缘上的像素。
在实施例中,该方法包括独立于图像数据,仅基于针对预期几何结构的先验知识,计算给定几何配置()的可能性的步骤。在WO 2015/192879(其内容特此通过引用并入)中讨论的针对预期几何结构的先验知识(也称为先验项)可以进一步与由图像分割图和参数分割图给出的估计加法地或乘法地组合。
分割神经网络12包括被配置为生成用于输入的图像分割图的多个层。神经网络可以由如下一个编码-解码或沙漏层或者编码-解码或沙漏层的序列组成:其实现输入的变换,使得图像分割具有与输入相同的分辨率。或者至少可以在图像分割图和输入之间建立像素对应性。
神经网络可以例如包含在标准卷积神经网络(CNN)中使用的卷积层,该标准卷积神经网络(CNN)被设计成利用最少的预处理直接从像素图像识别视觉模式。该网络可以有利地用残差神经网络(ResNET)架构来增强,该残差神经网络(ResNET)架构可以让网络去往更深入而梯度不消失,以增强图像分割过程的性能。
CNN可以例如包括三个部分——编码器、ResNET构建块和解码器。编码器被配置为提取上下文信息并将其压缩到特征图中,并且包括三个卷积层。在每个卷积层中,执行反射填充以放大图像,因此在卷积算子下大小保持相同。在第二和第三卷积层中使用步幅来收缩图像。
分割神经网络12可以包括例如六个ResNET构建块。在每个构建块中,存在两个卷积层,并且每个卷积层后面是批标准化和校正线性单元(ReLU)。最终ReLU的输出被添加到构建块的输入特征图。六个RestNET构建块被一个接一个地连结。特征图的大小保持相同,因为在块内没有进行池化和步幅。
遵循ResNET构建块的解码器适于扩展特征图并推断像素类别。它包含带有步幅的两个去卷积层。两个去卷积层后面都是批标准化和ReLU单元。解码器被配置为推断和恢复客观信息。ResNET构建块延伸编码器以改善特征图。
分割神经网络可能先前已经用UnityEYE训练过,UnityEYE是可以合成具有不同皮肤、不同眼睛形状和不同虹膜位置的各种年龄图像的工具。一些数据可以用于训练,而其他数据可以用于验证或测试。可以使用用于合成数据生成的其他工具。
分割神经网络训练也可以通过使用来自诸如RGB、红外、SWIR或任何其他变体之类的多个模态的训练数据来增强,前提是像素类的注释可用于样本。
分割神经网络也可以首先在复杂的架构下训练,但是其知识通过蒸馏策略转移到更紧凑的网络。
图7示意性地图示了用于估计用户的眼睛注视方向的装置。该装置可以包括计算系统30,诸如个人计算机、服务器、智能电话、可穿戴计算机或诸如例如谷歌眼镜的光学头戴式显示器。诸如相机的图像捕获元件32连接或集成到计算系统30,用于检索用户的面部的图像。数据库34被用作计算系统30的部分,用于存储用户特定的参数。计算系统30进一步包括存储计算机程序的计算机可读存储介质36,该计算机程序包括分割神经网络的算法集。
必须注意,取决于实施例,根据本发明的方法的某些步骤可以以不同的顺序执行,或者可以同时执行而不是顺序执行。
在不脱离如所附权利要求书中限定的本发明的范围的情况下,对本发明的描述的实施例的各种修改和变型对本领域技术人员来说将是显然的。例如,可以实现其他方法来确定输入图像观察10对应于图像几何模型的可能性。
Claims (23)
1.一种用于估计用户的眼睛相关几何参数(θ)的方法,包括以下步骤:
a.检索对应于用户的眼睛的图像的至少一个输入图像观察(10),该用户的眼睛的图像包括独特的眼睛区域;
b.使用学习机来计算一个或多个图像分割图(NS1、NS2、NS3),以便将所述输入图像观察的每个像素分类为多个独特眼睛区域中的至少一个;
c.通过几何参数的集合生成用户的眼睛的图像几何模型;
d.将图像几何模型与至少一个图像分割图进行比较;
e.基于该比较,计算指示所述至少一个输入图像观察(10)是否对应于用户的眼睛的几何模型的模型对应性值;
f.如果在步骤e)下计算的值低于最佳值,则重复步骤c至e,其中在步骤c)下改变几何参数(θ)的集合中的至少一个参数,以针对步骤c至e的每次迭代生成用户的眼睛的新图像几何模型,直到所述模型对应性值达到最佳值,并且
g.从已经生成的用户的眼睛的最新图像几何模型中检索眼睛相关的几何参数(θ)。
2.根据权利要求1所述的方法,其中通过提供从监督、半监督或无监督校准过程中获得的数据来增强所述至少一个输入图像观察(10)。
3.根据权利要求1或2所述的方法,其中所述眼睛相关的几何参数(θ)对应于用户的眼睛注视方向,并且其中:
-步骤c下的用户的眼睛的图像几何模型对应于注视一个特定方向的用户的眼睛,
-在步骤c下改变几何参数(θ)的集合中的所述至少一个参数,以针对步骤c至e的每次迭代生成注视另一方向的用户的眼睛的新图像几何模型,直到所述模型对应性值达到所述最佳值,以及
-在步骤g下,从所述最新图像几何模型检索注视方向。
4.根据任一前述权利要求所述的方法,其中从用户的眼睛的所述图像几何模型计算至少一个参数分割图(PS),其中所述参数分割图的每个像素被分类成多个独特眼睛区域(20a,20b,20c)中的至少一个。
5.根据前述权利要求所述的方法,其中所述参数分割图(PS)的每个像素指示该像素属于至少一个独特眼睛区域(20a,20b,20c)的至少一个概率、对数概率或分数。
6.根据前述权利要求所述的方法,其中从所述图像几何模型计算多个参数分割图(PS1、PS2、PS3),每个所述参数分割图指示所述图像几何模型的投影的每个像素属于哪个独特眼睛区域(20a、20b、20c),或者与所述图像几何模型的投影的每个像素相关联的该像素属于一个独特眼睛区域的概率、对数概率或分数。
7.根据权利要求5或6所述的方法,其中所述步骤d 包括将分配给至少一个图像分割图(NS1、NS2、NS3)的每个像素的概率、对数概率或分数与具有相同坐标的至少一个参数分割图(PS)的像素的值进行比较。
8.根据权利要求5至7中任一项所述的方法,包括:
-根据图像几何模型,从至少一个参数分割图(PS)确定每个像素应该属于的独特区域(20a,20b,20c);
-作为步骤d的部分,从至少一个图像分割图(NS1、NS2、NS3)确定对应于该独特区域的像素对应性值,并指示该像素属于该独特区域的概率、对数概率或分数;
-作为步骤e的部分,将所述像素对应性值相加在一起以提供所述模型对应性值。
9.根据任一前述权利要求所述的方法,其中从用户的眼睛的所述图像几何模型计算图像几何模型的至少一个软参数分割图,至少两个、优选至少三个值被分配给所述软参数分割图的每个像素,所述值表示每个像素对应于所述图像几何模型的所述独特眼睛区域中的每一个的概率、对数概率或分数。
10.根据权利要求9所述的方法,其中至少两个、优选至少三个值被分配给所述图像分割图的每个像素,所述至少三个值表示每个像素对应于所述至少一个输入图像观察(10)的所述独特眼睛区域中的每一个的概率、对数概率或分数。
11.根据权利要求10所述的方法,其中通过将分配给参数分割图的每个像素的所述至少三个值中的每一个与分配给具有相同坐标的图像分割图的每个像素的对应至少三个值中的每一个相乘来将所述软参数和图像分割图合并在一起,并将所述分割图的每个像素的相乘值相加,以提供所述模型对应性值。
12.根据权利要求11所述的方法,包括为每个图像分割图中的每个像素计算概率或对数概率或分数的加权和的步骤,其中概率与图像分割图的对应像素的对应值相关联。
13.根据任一前述权利要求所述的方法,其中所述独特眼睛区域优选地是从包括角膜、瞳孔、虹膜、巩膜和眼睑的组中选择的三个独特眼睛区域。
14.根据任一前述权利要求所述的方法,其中所述图像分割图是图像概率图,其指示与每个像素相关联的该像素属于一个独特眼睛区域的概率或对数概率。
15.根据权利要求1至13中任一项所述的方法,其中所述图像分割图是指示与每个像素相关联的该像素属于一个独特眼睛区域的分数的图像分数图。
16.根据任一前述权利要求所述的方法,其中所述学习机包括分割神经网络(12),其被配置为基于所述至少一个输入图像观察(10)生成所述图像分割图(NS1、NS2、NS3)。
17.根据前述权利要求所述的方法,其中所述分割神经网络包括被配置为生成用于输入的图像分割图的多个层。
18.根据前述权利要求所述的方法,其中所述分割神经网络包括如下一个编码-解码或沙漏层或者编码-解码或沙漏层的序列:其被配置为实现输入的变换,使得图像分割具有与所述输入相同的分辨率,或者至少可以在图像分割图和所述输入之间建立像素对应性。
19.根据任一前述权利要求所述的方法,其中所述几何参数的集合包括至少以下各项中的多个参数:眼球旋转中心、视轴偏移、眼球半径、角膜半径、角膜缘半径、瞳孔半径、眼睑开口或形状以及左眼和/或右眼角。
20.根据任一前述权利要求所述的方法,所述步骤a 包括预处理来自图像帧的图像,所述预处理包括亮度调整、对比度调整、白平衡调整、噪声去除、缩放和/或裁剪。
21.根据任一前述权利要求所述的方法,所述步骤a 包括预处理来自图像帧的图像,所述预处理包括姿态头部调整。
22.一种用于估计眼睛相关几何参数(θ)的装置,包括:
-相机(32),用于捕获用户的面部;
-数据库(34),存储用户特定的眼睛和面部几何参数,以及
-计算系统(30),包括存储计算机程序的存储器(36),所述计算机程序被配置为执行任一前述权利要求所述的方法。
23.一种存储计算机程序的计算机可读存储介质,所述计算机程序包括被配置为执行权利要求1至21中任一项所述的方法的算法集。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH4872019 | 2019-04-10 | ||
CH00487/19 | 2019-04-10 | ||
PCT/IB2020/053252 WO2020208494A1 (en) | 2019-04-10 | 2020-04-06 | Method and system for estimating eye-related geometric parameters of a user |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113939851A true CN113939851A (zh) | 2022-01-14 |
Family
ID=66175100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080027077.1A Pending CN113939851A (zh) | 2019-04-10 | 2020-04-06 | 用于估计用户的眼睛相关几何参数的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220148333A1 (zh) |
EP (1) | EP3953859A1 (zh) |
JP (1) | JP2022527818A (zh) |
CN (1) | CN113939851A (zh) |
WO (1) | WO2020208494A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546214A (zh) * | 2022-12-01 | 2022-12-30 | 广州视景医疗软件有限公司 | 一种基于神经网络的集合近点测量方法和装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4233004A1 (en) | 2020-10-23 | 2023-08-30 | Eyeware Tech SA | Automated calibration method of a system comprising an external eye tracking device and a computing device |
CN112446908A (zh) * | 2020-11-18 | 2021-03-05 | 中国科学院上海技术物理研究所 | 一种基于几何纹理的热红外影像控制点提取方法 |
EP4027220A1 (en) | 2021-01-08 | 2022-07-13 | Eyeware Tech SA | Method for calibrating an eye-tracking device |
EP4113983A1 (en) | 2021-06-30 | 2023-01-04 | Eyeware Tech SA | Method for gaze tracking calibration with a video conference system |
EP4113251A1 (en) | 2021-06-30 | 2023-01-04 | Eyeware Tech SA | Calibration method of a system comprising an eye tracking device and a computing device comprising one or multiple screens |
EP4113982A1 (en) | 2021-06-30 | 2023-01-04 | Eyeware Tech SA | Method for sensing and communicating visual focus of attention in a video conference |
CN115762787B (zh) * | 2022-11-24 | 2023-07-07 | 浙江大学 | 一种眼睑疾病手术疗效评估方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3154407B1 (en) * | 2014-06-16 | 2021-06-02 | Fondation de L'institut de Recherche Idiap | A gaze estimation method and apparatus |
RU2016138608A (ru) * | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
WO2019136623A1 (en) * | 2018-01-10 | 2019-07-18 | Nokia Technologies Oy | Apparatus and method for semantic segmentation with convolutional neural network |
-
2020
- 2020-04-06 US US17/602,047 patent/US20220148333A1/en active Pending
- 2020-04-06 JP JP2021558986A patent/JP2022527818A/ja active Pending
- 2020-04-06 WO PCT/IB2020/053252 patent/WO2020208494A1/en unknown
- 2020-04-06 CN CN202080027077.1A patent/CN113939851A/zh active Pending
- 2020-04-06 EP EP20719229.5A patent/EP3953859A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546214A (zh) * | 2022-12-01 | 2022-12-30 | 广州视景医疗软件有限公司 | 一种基于神经网络的集合近点测量方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3953859A1 (en) | 2022-02-16 |
WO2020208494A1 (en) | 2020-10-15 |
US20220148333A1 (en) | 2022-05-12 |
JP2022527818A (ja) | 2022-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220148333A1 (en) | Method and system for estimating eye-related geometric parameters of a user | |
US11836943B2 (en) | Virtual face model creation based on key point | |
JP7075085B2 (ja) | 全身測定値抽出のためのシステムおよび方法 | |
US9547908B1 (en) | Feature mask determination for images | |
US10048749B2 (en) | Gaze detection offset for gaze tracking models | |
JP6411510B2 (ja) | 無制約の媒体内の顔を識別するシステムおよび方法 | |
Harezlak et al. | Towards accurate eye tracker calibration–methods and procedures | |
CN108985210A (zh) | 一种基于人眼几何特征的视线追踪方法及系统 | |
JP2017506379A5 (zh) | ||
WO2019217218A1 (en) | Training set sufficiency for image analysis | |
WO2010135617A1 (en) | Gesture recognition systems and related methods | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN111480164A (zh) | 头部姿势和分心估计 | |
Sun et al. | Real-time gaze estimation with online calibration | |
TWI780919B (zh) | 人臉影像的處理方法、裝置、電子設備及儲存媒體 | |
KR20150127381A (ko) | 얼굴 특징점 추출 방법 및 이를 수행하는 장치 | |
KR20190116052A (ko) | 딥 러닝 기반 퍼스널 컬러 진단 및 가상 메이크업 방법 및 장치 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
CN110007764B (zh) | 一种手势骨架识别方法、装置、系统及存储介质 | |
US11361467B2 (en) | Pose selection and animation of characters using video data and training techniques | |
US11158122B2 (en) | Surface geometry object model training and inference | |
US9786030B1 (en) | Providing focal length adjustments | |
KR101734212B1 (ko) | 표정 연습 시스템 | |
US20220103891A1 (en) | Live broadcast interaction method and apparatus, live broadcast system and electronic device | |
Xiong et al. | Remote gaze estimation based on 3D face structure and iris centers under natural light |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |