CN115861406A

CN115861406A - 用于确定头部特征的尺寸和距离的计算机实施方法及设备

Info

Publication number: CN115861406A
Application number: CN202211637990.0A
Authority: CN
Inventors: B·霍伊尔
Original assignee: Carl Zeiss Vision International GmbH
Current assignee: Carl Zeiss Vision International GmbH
Priority date: 2020-03-16
Filing date: 2021-03-15
Publication date: 2023-03-28
Also published as: CN115428042A; US20230014102A1; KR102556762B1; US20230116779A1; KR20220145412A; EP4118565A1; WO2021185758A1; EP3882810C0; BR112022018308A2; US11798189B2; EP3882810A1; EP3882810B1; ES2954483T3; KR20230006602A

Abstract

提供了用于确定头部特征的尺寸或距离的计算机实施方法和设备。该方法包括识别人的头部图像中的多个特征。基于该多个特征中的至少一个特征的真实尺寸的概率分布以及该多个特征中的该至少一个特征的像素尺寸，来估计该多个特征中的至少一个目标特征的真实尺寸或该多个特征中的至少一个目标特征与用于捕获该图像的相机设备之间的真实距离。

Description

用于确定头部特征的尺寸和距离的计算机实施方法及设备

本申请涉及用于基于一个或多个头部图像来确定头部特征的尺寸和距离的计算机实施方法及设备。

眼镜镜片配适或眼镜架配适领域中的各种应用需要知道头部的各种特征的尺寸。例如，DIN EN ISO 13666：2013-10的第5.29节中定义的瞳孔间距(PD)(即，当眼睛在笔直向前注视无限远处的对象时瞳孔中心之间的距离)可能既是定制眼镜架所需要的，并且在一些情况下也是使眼镜镜片自身适配于特定的人所需要的。

许多使用如眼镜架虚拟配适等技术的新近方法都依赖于从人的头部拍摄的一个或多个图像。

当拍摄人的头部图像时，从该图像中可以以像素(图像元素)为单位确定各种头部特征(如瞳孔间距)的尺寸。然而，需要进行一定的缩放来将该以像素为单位的大小转换为现实世界的大小(例如，以毫米为单位)。

在下文中，术语“真实尺寸”将用于指现实世界中特征的尺寸(以毫米、厘米等为单位)，而不是以像素为单位给出的尺寸，后一种尺寸可以直接从图像中获取，并将被称为“像素尺寸”。

在这方面，术语“特征”是指可以在图像中识别出的头部的一个或多个部位、和/或这些部位之间的关系。例如，瞳孔间距可以被视为这样的特征，以及像鼻子、耳朵、眼睛等单个部位。

已知有多种用于获得这样的缩放的常规方法。例如，US 9 265 414 B2使用与图像中的其他对象一起捕获的已知大小的对象。例如，已知大小的对象可以是塑料信用卡，该信用卡靠着要以图像捕获的头部，然后确定信用卡在图像中所跨越的像素数(其真实尺寸)。由于信用卡的真实尺寸(例如，以毫米为单位)也是已知的，这对应于实现以像素为单位的尺寸到以毫米为单位的尺寸的转换的缩放。

使用已知大小的参考对象(在这种情况下，用于虚拟试穿技术)的另一出版物是US6535233A。这些方法需要已知大小的对象，这在一些情况下可能不方便。

US 6 995 762 B1使得能够对在二维图像中发现的对象进行实体对象重建。这种方法需要知道成像对象的确切物理大小。

US 6 262 738 B1描述了一种用于从二维图像估计体积距离图的方法。该方法使用平行于和垂直于对象投影在三维空间中的物理射线，然后从产生的二维图像重建大小估计。对于这种方法，需要用于获得深度图像的特定射线。

JP 6 392 756 B2披露了一种用于通过在要测量的对象在具有已知旋转轴和已知旋转速率的平台上旋转的同时拍摄多个图像来估计对象大小的方法。对于这种方法，需要有旋转平台。

在US 2010/0 220 285 A1中披露的另一种方法中，例如通过使用超声传感器来测量用于捕获人的头部图像的相机与头部之间的距离。当知道该距离和图像中特征的像素尺寸时，对于相机的给定光学器件，可以计算出例如以毫米为单位的真实尺寸。换句话说，对于具有特定光学器件的特定相机，特征的像素尺寸取决于特征与相机的距离以及特征的真实尺寸。如果知道这三个量(即，像素尺寸、特征的真实尺寸(例如，以毫米为单位)、以及相机与特征的距离)中的两个量，就可以计算出第三个量。

对于某些应用，还需要确定特征(特别是眼睛)与相机的距离，例如，对于WO 2018/002 332 A1中描述的偏心摄影验光测量。

Kumar M S Shashi等人的“Face distance estimation from a monocularcamera[单目相机的面部距离估计]”，2013年《IEEE国际图像处理会议》，2013年9月15日，第3532-3536页，XP032966333，DOI：10.1109/ICIP2013.6738729；Sai Krishna Pathi等人的“A Novel Method for Estimating Distances from a Robot to Humans UsingEgocentric RGB Camera[用于使用自我中心RGB相机估计机器人与人类的距离的新颖方法]”，Snesors第19卷第14期，2019年7月17日，第1-13页，XP055725398，DOI：10.3390/s19143142；以及Bianco Simone等人的“A unifying representation for pixel-precisedistance estimation[像素精确距离估计的统一表示法]”，《多媒体工具和应用》，Kluwer学术出版社，美国波士顿，第78卷第10期，2018年8月24日，第13767-13786页，XP036807892，ISSN：1380-7501，DOI：10.1007/S11042-018-6568-2，各自披露了用于基于面部特征估计相机与面部之间的距离的方法。

从以上说明可以看出，用于确定图像中特征的真实尺寸或确定在拍摄图像时特征与相机的距离的传统方法具有各种缺点，如需要特定的设备(如旋转平台)或特定的照明射线、多个图像或已知尺寸的额外对象。

因此，本申请的目的是提供用于确定头部特征的真实尺寸或距离的方法和对应的设备，这些方法和设备不需要特殊的额外硬件或拍摄多个图像。

此目的通过如权利要求1或3所述的方法以及如权利要求12或13所述的设备来实现。从属权利要求限定了其他的实施例以及计算机程序、以及承载这种计算机程序的存储介质或数据信号。

根据本发明，提供了一种用于确定头部特征的尺寸或距离的计算机实施方法。该方法包括：

提供人的头部图像，

识别该图像中的多个特征，以及

基于该多个特征中的至少一个特征的真实尺寸的概率分布以及该多个特征中的该至少一个特征的像素尺寸，来估计该多个特征中的至少一个目标特征的真实尺寸或该多个特征中的该至少一个目标特征与用于捕获该图像的相机设备之间的真实距离中的至少一者。

如已经提到的，“真实”尺寸和“真实”距离是现实世界中的尺寸和距离，例如，以毫米为单位的人的瞳孔距离。像素尺寸是指可以直接从图像中获取的尺寸。例如，与瞳孔间距相对应的像素尺寸是图像中发现的瞳孔之间的以像素为单位的距离。

“该多个特征中的至少一个目标特征”是指要为其确定真实尺寸或真实距离的一个或多个特征。“该多个特征中的至少一个特征”是指用作该确定的基础的一个或多个特征。这两者不是互斥的，即，特征既可以是“该多个特征中的至少一个目标特征”，也可以是“该多个特征中的至少一个特征”，但也可以使用不同的特征作为该确定的基础和作为(多个)目标特征。

本申请意义上的概率分布是一种信息，特别地，是给出关于特征的不同真实尺寸的发生概率的信息的数学函数。其可以是这样的函数，即，该函数的积分被归一化为1，以给出数学意义上的概率。概率分布构成了关于特征的真实尺寸的先验知识。可以使用从许多头部测量的数据来获得这样的概率分布。一般来说，包括头部(特别是面部)在内的人体尺寸，在医学和生物学中已经被研究了很长时间，因此有大量的数据和概率分布可用并且已经公布。这样的出版物的示例包括Patrick Caro1ine的“The Effect of CornealDiameter on Soft Lens Fitting[角膜直径对软质镜片配适的影响]”，2016年11月17日；博客www.contamac-globa1insight.com；C.C.Gordon等人的“2012Anthropometric Surveyof U.S.Army Personnel：Methods and Summary Statistics[2012年美国陆军人员人体测量调查：方法和汇总统计]”，2012年，统计(编号NATICK/TR-15/007)；马萨诸塞州陆军纳提克士兵研究开发与工程中心，2017年6月检索自http：//www.dtic.mil/dtic/tr/fulltext/u2/a611869.pdf；B.Winn等人的“Factors Affecting Light-Adapted Pupil Size inNormal Human Subjects[影响正常人的适光瞳孔大小的因素]”，《眼科研究与视力学(Investigative Ophthalmology&Visual Science)》，1994年；或NA Dodgson的“Variationand extrema of human interpupillary distance[人类瞳孔间距的变化和极值]”，立体显示器和虚拟现实系统XI 5291，36-46，2002。

在其他实施例中，以身体为动机的数学模型可以用作概率分布函数。例如，如果已知对象(例如，耳朵)的大小分布可通过高斯正态分布很好地描述，则该数学函数(在这种情况下为高斯正态分布)可以用作概率分布，而无需根据可用数据对完整的概率分布进行建模，或者可以由实现上述计算机实施方法的计算机程序的提供者预先测量分布，在这种情况下，还可以测量不同特征的不同尺寸的分布之间的协方差。然后，可以稍后使用这些协方差，如下面将进一步描述的。换句话说，如果程序的提供者自己例如通过测量大量头部或面部上的特征获得概率分布，则还可以确定不同特征的尺寸之间的协方差(例如，较大的头部是否与较大的耳朵相关)。应当注意，当使用不同的方法来获得如上所述的概率分布时，所获得的概率分布也将变化，这取决于它们所基于的数据。这可能导致真实尺寸或真实距离的估计结果相应地变化。

通过使用仅单个特征的单个概率分布，即如果多个特征中的至少一个特征只是单个特征，则可以粗略估计目标特征的真实尺寸以及因此粗略估计真实距离(本质上，可以说，单个特征的概率分布的最大值就是该特征最可能的真实尺寸)。

因此，优选地，使用至少两个特征的相应真实尺寸的概率分布，即多个特征中的至少一个特征是至少两个特征。以这种方式，可以细化估计，从而可以获得高精度。

这样一来，只需使用图像和可用数据，就可以对真实尺寸或真实距离中的至少一个进行估计。在这方面，正如在介绍部分已经解释的那样，图像中特征的真实尺寸和特征与具有特定光学器件的特定相机设备之间的距离具有固定的关系。

识别图像中的多个特征可以以常规方式进行，即使用D1ib或open CV软件来检测面部特征(例如，参见Adrian Rosebrock于2017年4月3日在www.pyimageresearch.com上发表的文章“Facial Landmarks with Dlib，OpenCV and Python[使用Dlib、OpenCV和Python的面部标志]”，G.Bradski的“The OpenCV Library[OpenCV库]”，Dobb博士的《软件工具杂志》，2000年，或D.E.King的“Dlib-ml：A Machine Learning Toolkit[Dlib-m1：机器学习工具包]”，《机器学习研究杂志》)，或通过使用其他常规的面部分割软件，或通过使用更复杂的例如机器学习的面部压缩表示。在这样的压缩版本中，测量的尺寸在人工定义的测量方面不会立即显现，但可以通过机器学习技术进行处理。

用于识别多个特征的另一种方法从检测图像中的人的面部开始。这可以使用任何常规的面部检测方法来进行，例如Dalal，N.、Triggs，B.的“Histograms of orientedgradients forhuman detection[用于人类检测的定向梯度直方图]”中描述的方法，载于：2005年《IEEE计算机学会计算机视觉和模式识别会议》(CVPR’05)，第886-893页，第1卷，doi：10：1109/CVPR：2005：177。

在这种面部检测方法中，构建了图像金字塔，并使用定向梯度的直方图从在图像上滑动的窗口中提取特征。根据这些特征，训练了线性支持向量机分类器，它将每个窗口分类为是否包含面部。

然后，在当前讨论的方法中，一旦检测到面部，就将如Cootes，T.F.、Edwards，G.J.、Taylor,C.J.，2001年“Active appearance models[主动外观模型]”(《IEEE模式分析与机器智能汇刊》23，681-685.doi：10：1109/34：927467)的中所述的主动外观模型(AAM)应用于图像，以检测所谓的标志。通过标志检测，识别出面部上的各个点，这些点可以被标记，例如耳朵、耳朵的顶部和底部，嘴唇、眼睛和虹膜的边界。AAM是一类生成模型，其建立在可变形对象的统计、参数化概念之上，并由两部分组成：形状模型和外观模型。形状模型(也称为点分布模型)将对象定义为标志坐标数组。

在其训练期间，训练集中所有感兴趣对象的形状被对齐和标准化，例如通过Gower,J.C.，1975年“Generalized procrustes analysis[广义procrustes分析]”(《心理测量学》40，33-51)中描述的广义Procrustes分析。在本申请中，感兴趣对象是检测到的面部。之后，可以使用主成分分析(PCA)来计算这组形状的标准正交基。因此，对象s可以被形状模型定义为：

其中，

表示平均形状，p是特定于这一对象的形状参数，并且S是形状的主成分。

外观模型包括关于所定义的标志周围的图像纹理的信息，并且该外观模型的训练过程与形状模型的训练过程非常相似。第一步是从训练图像中提取信息，在该特定应用中，该信息包括图像梯度取向。接下来，将所有图像扭曲到平均形状上，以便对齐所有图像的对应标志的像素。图像对齐后，就可以使用PCA计算外观的主成分。最后，选择标志周围的斑点，并丢弃剩余信息。

然后，类似于形状模型，面部的外观a可以用向量表示法定义为：

其中，

定义了所有训练图像的平均外观，c是该图像的外观参数，并且A是外观的主成分。

然后，当前描述的特征检测方法的下一步是将模型拟合到新图像。这相当于找到使从形状模型和外观模型采样的图像纹理之间的差异最小化的一组最佳参数p和c。换句话说，给定包含感兴趣对象的图像I和对象形状s的初始猜测，那么当前外观

与在s中的点采样的图像纹理A_s之间的差异r可以定义为/>

于是，最佳模型参数由下式给出：

该成本函数可以用任何优化算法进行优化，比如梯度下降族中的算法。

根据这样获得的标志，然后可以确定特征。特别地，特征可以是所识别的标志之间的像素尺寸。例如，一旦将上述面部标志模型应用于图像，就会生成一组N个标志点。可以从该组N个标志点构建在面部上具有像素尺寸度量一组M＝N(N-1)/2-1个唯一但相关的特征。

优选地，识别以下特征中的两个或更多个，并且确定像素尺寸：

-瞳孔间距(PD)，

-眼睛的一个或两个虹膜的直径，

-眼睛瞳孔的直径，

-竖直耳长，

-一只眼睛或两只眼睛的宽度，

-头高，

-下巴底部与两眼之间的鼻子中间的距离，其被称为形态面长(Menton-Selliondistance)，

-面宽，其是在下颌顶部测量的整个面部最宽的地方，和/或

-颅宽，其是耳朵上方前额的最大宽度。

使用上述图像分析技术可以容易地获得上述特征，并且这些特征被很好地记录，使得概率分布是可用的或可以获得的。

在一些实施例中，像素尺寸可以被标准化为这些特征之一的像素尺寸。例如，一些实施例旨在基于人的图像最终确定人的瞳孔间距，并且在这种情况下，像素尺寸可以通过在像素空间中测量的瞳孔间距进行标准化，使得从这里开始使用的特征是无尺寸的，且不依赖于图像的大小。标准化的像素尺寸可以有助于以后的处理，并且可以被识别为要由后续机器学习算法使用的输入特征。

在一些实施例中，可以对特征进行自动或手动选择。如上所述，对于N个标志点，可以确定M＝＝N(N-1)/2-1个特征(点之间的距离)。对于N＝88的情况，已经产生了M＝3827个潜在输入特征。为了减少该数量，可以应用特征选择技术来从这M个特征中识别出包含S个特征的子集。

例如，可以采用最小冗余度-最大相关性(MRMR)算法来简化特征集。例如在以下文章中描述了该算法：Ding，C.、Peng，H.，2003年的“Minimum redundancy featureselection from microarray gene expression data[微阵列基因表达数据的最小冗余特征选择]”，载于：计算系统生物信息学，2003年《IEEE生物信息学会议论文集》，CSB2003，第523-528页，doi：10：1109/CSB：2003：1227396；或者Peng，H.、Long，F.、Ding，C.，2005年的“Feature selection based on mutual information criteria of max-dependency，max-relevance，and min-redundancy[基于最大依赖、最大相关和最小冗余的互信息准则的特征选择]”，《IEEE模式分析与机器智能会刊》，27，1226-1238.doi：10：1109/TPAMI：2005：159。MRMR算法通过识别那些提供最多关于目标特征的信息(并且因此是最相关的)的特征，同时丢弃彼此冗余的特征(即那些与其他特征最相关的特征)来进行特征选择。在Cover，T.M.、Thomas，J.A.，1991年的“Elements of Information Theory[信息论基础]”(美国威力出版公司)中描述的互信息(MI)可以用作测量相关性和冗余度的相关指标。目标特征是最终要从人的图像中确定的特征，例如，要用于配适眼镜架的瞳孔间距(PD)。

对整个特征组合空间进行穷举式搜索在计算上很昂贵。如上述Peng等人所述，可以实施贪婪前向搜索算法。按照MI值和瞳孔间距对初始特征集进行排序，并选择前P个特征，其中P>S且P<<M。然后对该包含P个特征的集合进行分析，以识别最终特征集S。如果特征既使与目标特征的总相关性最大化，同时又使与S中已存在的其他特征的总冗余度最小化，则将特征从P添加到S。在实践中，在将特征集增加到S大小的每一步中，添加导致最大互信息差d_MI的特征。量d_MI被定义为

其中，S是特征集，PD是瞳孔间距(以mm为单位，这里作为目标特征的示例)，并且I(_；_)是互信息运算。

可以选择一定大小的最终特征向量，以允许从相对较少的标记数据(例如S＝20)中估计协方差矩阵。

在本发明的一个方面，基于像素尺寸以及所识别特征的概率分布，可以根据以下方程(5)获得从图像中的特征估计的每毫米像素数pix per mm的概率分布P(pix per mm|d，θ)：

在方程(5)中，d_i是跨越多个特征中的至少一个特征中的第i＝1，2，……，N个特征的像素数，换句话说，是第i个特征的像素尺寸。π(θ_i)表示特征i的真实尺寸θ_i的概率分布和/或其与其他测量的像素尺寸的协方差。P(d_i|pixper mm，θ_i)是产生在给定π(θ_i)的情况下基于pix per mm和θ_i来测量d_i的似然的运算子。为了进一步解释，这里，d_i是面部平面(该平面垂直于相机设备，并且与相机设备的物理距离基本上相同，这对于面部图像至少是近似成立的)中特征i的相应尺寸的像素数，pix per mm是可以被视为对每毫米有多少个像素的当前或首次估计的变量，并且θ_i是特征i的大小，以物理单位表示。π(θ_i)作为概率分布表示在进行测量之前关于特征i的大小分布的先验知识、以及可选地该分布与其他测量的像素尺寸的协方差(例如，如上所述)。θ_i可以通过将d_i乘以pix per mm以真实尺寸(例如，以毫米为单位)计算。

换句话说，P(d_i|pix per mm，θ_i)是考虑到以像素为单位的测量结果，在给定由π(θ_i)表示的先验知识的情况下，将特征i视为大或小的概率。π(θ_i)可以如上所述基于公共数据库、测量结果等获得。基本思想是，观察pix per mm的不同值以确定pix per mm的合理值是哪些，从而使所有特征的真实尺寸具有合理的大小。举一个非常简化的数字示例，π(θ_i)可以表示特征i的真实尺寸θ_i为2mm的概率是0.25，为3mm的概率是0.5，并且为4mm的概率是0.25。如果di是6个像素，则基于特征i估计每mm 2个像素的概率是0.5，每mm 3个像素的概率是0.25，并且每mm 1.5个像素的概率是0.25。这仅是非常简单的数字示例。方程(5)现在结合了对多个特征i的此类估计。

在本发明的另一个方面，计算P(pix per mm|d，θ)，即使用图像中的特征基于要测量的特征的d和θ而测量的每毫米像素数的概率分布。P(pix per mm|d，θ)可用于图像中的任何目标特征，并且可以基于MCMC(蒙特卡洛马尔可夫链)式概率空间探索或其他实施例中的概率分布的数学组合来估计。方程(5)通过乘法给出了这样的数学组合。特别地，当涉及多个概率分布时，该计算是较高维度的计算，其需要大量的计算能力、内存或两者。在这样的情况下，可以以某种方式对概率分布进行采样，例如使用上述的MCMC方法，该方法是解决统计学中此类问题的标准方法。该方法例如在W.Hastings的“Monte Carlo samplingmethods using Markov chains and their applicatiohs[使用马尔可夫链的蒙特卡洛采样方法及其应用]”，《生物统计》，第57卷，第97-109页中进行了描述。

对于单个特征(例如，i＝1)的单个测量结果，P(pix per mm|d，θ)可能仅基于π(θ_i)(i＝1)，但随着测量结果数量的增加(i>1)，P(pix per mm|d，θ)变得更加准确(例如，通过使用多个特征的尺寸)。∝指示比例关系。

本质上，方程(5)表示，有了某些先验信息π(θ_i)，就可以获得估计P(pix per mm|d，θ)。

另一种确定P(pix per mm|d，θ)并最终确定像瞳孔间距这样的目标特征的大小的方法是使用机器学习技术，包括如以下文章描述的scikit-learn：Pedregosa，F.、Varoquaux，G.、Gramfort，A.、Michel，V.、Thirion，B.、Grisel，O.、Blondel，M.、Prettenhofer，P.、Weiss，R.、Dubourg，V.、Vanderplas，J.、Passos，A.、Coumapeau，D.、Brucher,M.、Perrot，M.、Duchesnay,E.，2011年的“Scikit-learn：Machine learning inPython[Scikit-learn：Python中的机器学习]，，《机器学习研究杂志》，12，2825-2830；K近邻和高斯过程的实施方式，如以下文章描述的：Rasmussen，C.、Williams，C.，2006年的“Gaussian Processes for Machine Learning[用于机器学习的高斯过程]”。“AdaptiveComputation and Machine Learning[自适应计算和机器学习]”可以用于回归，麻省理工学院出版社，美国马萨诸塞州坎布里奇。

在瞳孔间距作为目标特征的情况下，可以针对给定的面部形状X(face)计算p(PD|X(face)，S)，即瞳孔间距的真实尺寸的概率分布。p(PD|X(face)可以被视为上述方程(5)的特例，特定于目标特征，在这种情况下是瞳孔间距PD。下面将给出高斯过程的确定示例。高斯过程允许在没有训练数据的数据空间区域中使用先验信息。它还提供了预测值的全概率分布函数，而不仅仅是点预测。使用特征和关于特征的真实尺寸的信息作为输入数据。

高斯过程的目标是通过推广高斯分布来对函数的属性进行建模。也就是说，假设数据由从面部图像测量的特征X构成，则{X；PD}可以通过一些未知的函数f来建模，并添加一些噪声，使得PD_i＝f(x_i)+ε(这里的输入X将是面部形状向量，并且输出PD将是瞳孔间距)，那么f本身可以被视为随机变量。这里，该变量将遵循多元高斯分布，其平均值和协方差定义为：

其中，m(x)定义了均值函数，并且κ(x；x’)是核函数或协方差函数。

m(x)＝E[f(x)] (7)

k(x；x)＝E[(f(x)-m(x))(f(x′)-m(x′))^T] (8)

通常，均值设置为零，并且协方差的选择应足够灵活以捕获数据。这里，如果协方差以矩阵形式写为K，则随机变量f的似然将为

实际上，这意味着两个输入向量x1和x2之间的协方差应该与它们的对应输出值PD1和PD2之间的协方差非常相似——换句话说，具有相似面部形状的两个人应该有相似的瞳孔间距。使用描述瞳孔间距的先验的高斯分布来初始化函数f，例如基于瞳孔间距统计数据的先验信息。将数据点添加到高斯过程中，这些高斯过程根据贝叶斯定理更新f上的分布，如以下方程(9)所示。这对应于用标记的数据集训练模型的过程。

现在，既然通过训练数据约束了分布f，就可以获得目标值PD_或新的输入点x_的估计。为此，需要预测分布。在高斯过程的背景下，这将是定义如下的高斯分布：

其中，

定义了噪声方差，假设每个数据点的噪声与其他数据点无关。

对于内核K，例如，可以使用指数内核、线性内核、matern32内核、matern52内核或其线性组合。优选地，使用指数二次内核，其给出了良好的结果，且其定义如下：

其中，l是特性长度尺度，并且

是信号方差。这些参数的值以及σ_n的值被设置为它们的最大似然估计值，这可以使用通过scikit-leam提供的优化方法获得。

高斯过程或任何其他机器学习方法可以通过训练数据进行训练，其中，真实尺寸是已知的(例如通过其他手段测量)，使得具有像素尺寸的图像以及来自训练数据的特征的真实尺寸都被用来近似描述方程(5)中的概率的函数。

因此，回到方程(5)，可以确定给出图像中每毫米像素数的尺度，结果，可以确定任何特征的真实尺寸，例如瞳孔间距。通过上述像素尺寸、真实尺寸和相机设备信息之间的关系，也可以确定与相机设备的距离。

在一些实施例中，基于关于人的额外信息来选择概率分布(例如，方程(5)中的π(θ_i))。以这种方式，可以使用比针对所有人类的一般概率分布更具体的概率分布。这样的额外信息可以例如包括性别(男性或女性，或其他性别分数)、种族(高加索人、亚洲人等)、体型或年龄。例如，当性别、年龄和种族已知时，可以使用特定于该组合的概率分布。类似的考虑也适用于体型。这样的额外信息可以例如由人或另一用户输入。在一些实施例中，还可以从图像中导出额外信息。例如，可以通过图像分析获得对种族或性别的估计。

在一些实施例中，也可以使用多个图像来代替单个图像，并且可以使用识别多个图像中的特征来提高精度。

然后，估计的真实尺寸或距离可以用于例如眼镜架的配适、眼镜片的制造或像最初提到的验光那样的眼睛检查。

此外，提供了一种计算机程序，其包含指令，这些指令当在处理器上执行时使得执行以上任何一种方法。

还提供了一种对应的存储介质，特别是有形存储介质，如存储这种计算机程序的存储器设备、硬盘、DVD或CD，以及一种传输这种计算机程序的数据载体信号。

此外，提供了一种对应的设备，该设备包括：

用于提供人的头部图像的装置，

用于识别图像中的多个特征的装置，以及

用于基于该多个特征中的至少一个特征的真实尺寸的概率分布以及该至少一个特征的像素尺寸来估计这些特征中的至少一个特征的真实尺寸和这些特征中的至少一个特征与用于捕获该图像的相机设备之间的真实距离中的至少一者的装置。

该设备可以被配置为执行以上任何一种方法。

如上所讨论的技术不限于确定与头部特征相关的尺寸和距离的应用，而是可以普遍地用于确定图像中特征的真实尺寸。在这样的应用中，与如上所讨论的方法和设备相比，人的头部的图像被一般图像代替，并且图像中的特征可以是图像中的任何对象，如树、人、汽车等。同样对于这样的对象，关于尺寸的概率分布是可用的或可以测量的。在这种情况下，额外信息可以例如是汽车的品牌、树的种类等。否则，可以应用如上所讨论的技术。

将参照附图来对另外的实施例进行描述，在附图中：

图1是根据实施例的设备的框图，

图2是展示了根据实施例的方法的流程图，

图3是展示了人的各种头部特征的简图，以及

图4展示了风景图像中的各种特征。

图1是根据实施例的设备的框图。图1的设备包括相机设备10和计算设备11。相机设备10包括一个或多个光学元件和图像传感器，以用于捕获人的头部图像。图像被提供给计算设备11。计算设备11包括一个或多个处理器。计算设备11可以是个人计算机，或者也可以包括彼此通信的多个单独的实体，以执行将在下面参照图2进一步描述的方法。在一些实施例中，相机设备10和计算设备11可以集成在单个设备中，例如，智能电话或平板计算机。为了执行接下来将描述的图2的方法，对计算设备11进行相应编程。

图2是本发明的方法的一个实施例的示意性框图。在20处，提供人的头部图像。在图1的实施例中，图像由相机设备10提供。

在21处，识别图像中的多个特征。图3中示出了特征的一些示例。图3所示的特征包括瞳孔间距30、虹膜直径33、眼宽31、竖直耳长36、形态面长34、面宽35、颅宽38、或头高37。

回到图2，在22处，提供关于人的额外信息。如以上所解释的，这样的额外信息的示例包括体型、性别、年龄、种族等。

在23处，如上所述，基于多个特征中的至少一个、优选地至少两个特征的真实尺寸的概率分布以及多个特征中的至少一个、优选地至少两个特征的像素尺寸，来估计多个特征中的至少一个目标特征的真实尺寸或多个特征中的至少一个目标特征与相机设备10之间的真实距离中的至少一者。

如上所述，本文所讨论的技术可以从如图3所示的头部特征扩展到图像中其他特征的尺寸估计。图4中示出了示例。这里，提供了包括树40、汽车41、交通标志42、人45、狗46和街道47在内的场景。对于所有这些类型的对象，存在典型的尺寸或尺寸的大小概率分布。图像43中的这些特征或对象的像素尺寸取决于它们的真实尺寸以及与拍摄图像43的相机设备44在z方向的距离。使用概率分布和额外信息，例如，树40的种类、人45的性别、种族或年龄、狗46的品种、汽车41的品牌或类型等，可以确定这样的真实尺寸和/或在z方向的距离。

一些实施例由以下示例来限定：

示例1.一种用于估计或确定头部特征的尺寸或距离的计算机实施方法，该方法包括：

提供(20)人的头部图像，

识别(21)该图像中的多个特征(30-38)，

其特征在于，

基于该多个特征(30-38)中的至少一个特征的真实尺寸的概率分布以及该多个特征(30-38)中的该至少一个特征的像素尺寸，来估计(23)该多个特征(30-38)中的至少一个目标特征的真实尺寸或该多个特征(30-38)中的该至少一个目标特征与用于捕获该图像的相机设备(10)之间的真实距离中的至少一者。

示例2.如示例1所述的方法，其特征在于，该多个特征中的该至少一个特征包括该多个特征中的至少两个特征。

示例3.如示例1或2所述的方法，其特征在于，这些特征(30-38)包括取自由以下各项构成的组的一个或多个特征：

-瞳孔间距(30)，

-虹膜直径(33)，

-瞳孔直径，

-竖直耳长(36)，

-形态面长(34)，

-面宽(35)，

-颅宽(38)，

-眼宽(31)，以及

-头高(37)。

示例4.如示例1至3中任一项所述的方法，其特征在于，该估计包括根据下式计算该图像的每毫米像素数pix per mm的概率分布P(pix per mm|d，θ)

其中，d_i是跨越第i＝1，2，……，N个特征的像素数，π(θ_i)表示特征i的真实尺寸θ_i的概率分布和/或其与其他测量的像素尺寸的协方差，并且P(d_i|pixel per mm，θ_i)是给出了在给定该概率分布π(θ_i)的情况下值为pix per mm的d_i的真实尺寸θ_i的概率的运算。

示例5.如示例1至4中任一项所述的方法，进一步包括提供关于该人的额外信息，并基于该额外信息来选择这些概率分布。

示例6.如示例5所述的方法，其特征在于，提供该额外信息包括接收该额外信息作为用户输入，和/或

包括基于该图像来确定该额外信息。

示例7.如示例5或6所述的方法，其特征在于，该额外信息包括该人的性别、该人的年龄、该人的种族或该人的体型中的一项或多项。

示例8.如示例1至7中任一项所述的方法，其中，估计这些特征(30-38)中的至少一个特征的至少一个真实尺寸包括估计该人的瞳孔间距。

示例9.如示例1至8中任一项所述的方法，其特征在于，提供图像包括提供多个图像，其中，该估计(23)是基于该多个图像进行的。

示例10.如示例1至9中任一项所述的方法，其特征在于以下中的一项或多项：

-基于该估计(23)将眼镜架配适于该人的头部，

-基于该估计(23)来制造眼镜片，或者

-基于该估计(23)执行眼睛检查。

示例11.一种设备，包括：

用于提供人的头部图像的装置(10)，

用于识别该图像中的多个特征(30-38)的装置，

其特征在于，

用于基于该多个特征(30-38)中的至少一个特征的真实尺寸的概率分布以及该多个特征(30-38)的像素尺寸来估计这些特征(30-38)中的至少一个特征的真实尺寸和这些特征(30-38)中的至少一个特征与用于捕获该图像的装置(10)之间的真实距离中的至少一者的装置。

示例12.一种计算机程序，包括指令，这些指令当在一个或多个处理器上执行时使得执行如示例1至10中任一项所述的方法。

示例13.一种数据载体，包括如示例12所述的计算机程序。

示例14.一种数据信号，包括如示例12所述的计算机程序。

示例15.一种设备(11)，包括至少一个处理器和如示例12所述的计算机程序，该计算机程序被存储用于在该至少一个处理器上执行。

Claims

1.一种用于估计或确定头部特征的尺寸或距离的计算机实施方法，该方法包括：

提供（20）人的头部图像，

识别（21）该图像中的多个特征（30-38），

其特征在于，

基于包括高斯过程的机器学习方法，来计算该图像的每毫米像素数的概率分布，

基于该多每毫米像素数的概率分布以及该多个特征（30-38）中的该至少一个特征的像素尺寸，来估计（23）该多个特征（30-38）中的至少一个目标特征的真实尺寸或该多个特征（30-38）中的该至少一个目标特征与用于捕获该图像的相机设备（10）之间的真实距离中的至少一者。

2.如权利要求1所述的方法，其中所述机器学习方法基于所述真实尺寸是已知的训练数据来训练。

3.如权利要求1或2所述的方法，其中所述目标特征是瞳孔间距（30）。

4.如权利要求3所述的方法，其中所述方法包括更新多元高斯分布。

5.如权利要求4所述的方法，其中所述更新根据

来执行，其中f是所述多元高斯分布，X表示所述多个特征并且PD是所述瞳孔间距并且p是概率函数。

6.如权利要求4或5所述的方法，还包括基于所述多元高斯分布来估计所述瞳孔间距。

7.如权利要求1至6中任一项所述的方法，其特征在于，这些特征（30-38）包括取自由以下各项构成的组的一个或多个特征：

- 瞳孔间距（30），

- 虹膜直径（33），

- 瞳孔直径，

- 竖直耳长（36），

- 形态面长（34），

- 面宽（35），

- 颅宽（38），

- 眼宽（31），以及

- 头高（37）。

8.如权利要求1至7中任一项所述的方法，进一步包括提供关于该人的额外信息，并基于该额外信息来选择这些概率分布。

9.如权利要求8所述的方法，其特征在于，提供该额外信息包括接收该额外信息作为用户输入，和/或包括基于该图像来确定该额外信息。

10.如权利要求8或9所述的方法，其特征在于，该额外信息包括该人的性别、该人的年龄、该人的种族或该人的体型中的一项或多项。

11.如权利要求1至10中任一项所述的方法，其特征在于，提供图像包括提供多个图像，其中，该估计（23）是基于该多个图像进行的。

12.如权利要求1至11中任一项所述的方法，其特征在于以下中的一项或多项：

- 基于该估计（23）将眼镜架配适于该人的头部，

- 基于该估计（23）来制造眼镜片，或者

- 基于该估计（23）执行眼睛检查。

13.一种设备，包括：

用于提供人的头部图像的装置（10），

用于识别该图像中的多个特征（30-38）的装置，

其特征在于，

用于基于包括高斯过程的机器学习方法来计算该图像的每毫米像素数的概率分布的装置，以及

用于基于该每毫米像素数的概率分布以及该多个特征（30-38）的像素尺寸来估计这些特征（30-38）中的至少一个特征的真实尺寸或这些特征（30-38）中的至少一个特征与用于捕获该图像的相机设备（10）之间的真实距离中的至少一者的装置。

14.如权利要求13所述的设备，其中，该设备被配置为执行如权利要求1至12中任一项所述的方法。

15.一种计算机程序，包括指令，这些指令当在一个或多个处理器上执行时使得执行如权利要求1至12中任一项所述的方法。