CN108140105A

CN108140105A - 具有脸部表情检测能力的头戴式显示器

Info

Publication number: CN108140105A
Application number: CN201680054111.8A
Authority: CN
Inventors: 俞基勋; 朴正运
Original assignee: Beeali Virtual Reality Technology Co Ltd
Current assignee: Beeali Virtual Reality Technology Co Ltd
Priority date: 2015-09-29
Filing date: 2016-09-26
Publication date: 2018-06-08
Also published as: KR20180112756A; WO2017058733A1; KR102136241B1; JP6742405B2; US20170091535A1; JP2018538593A; DE112016004437T5; US10089522B2; US20180365484A1

Abstract

实施方式涉及使用头戴式显示单元来实时地检测用户的脸部表情，该头戴式显示单元包括捕捉用户的眼睛区域的2D相机(例如，红外相机)以及捕捉包括嘴唇、下巴和脸颊的用户下脸部特征的深度相机或其它2D相机。处理由第一相机和第二相机捕捉到的图像以提取与脸部表情相关联的参数。可发送或处理所述参数，使得能够获得包括脸部表情的用户的数字表示。

Description

具有脸部表情检测能力的头戴式显示器

对相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求提交于2015年9月29日的美国临时专利申请序列号62/234,478以及提交于2016年5月16日的美国临时专利申请序列号62/337,261的优先权，上述专利申请的全部内容通过引用并入本文中。

技术领域

本公开内容一般地涉及用于检测用户的脸部表情以在虚拟现实或增强现实环境中使用的头戴式显示单元。

背景技术

虚拟现实(VR)和增强现实(AR)是用于诸如游戏、教育、医疗和社交网络服务等应用的新兴领域，因为VR和AR实现了沉浸式逼真的生活体验。这些应用中的一些涉及社交平台，该社交平台使用户能够通过显示在显示装置上的用户自己的3D表示(例如，头像)与其他用户进行交互。通过使用户能够通过对现实的虚拟或增强版本与其他用户进行交互，可以增强这些应用的用户体验。

在人类交互中，脸部表情向其他人传递关于个人情绪状态的大量信息。为了在用户之间提供更加丰富的交互，可以开发用户的3D表示以显示用户的脸部表情。通过这种方式，可以将更多的关于用户精神状态的信息有效地传达给VR或AR环境中的其他用户。

发明内容

实施方式涉及通过使用头戴式显示器来检测脸部表情。第一图像由头戴式显示器上的第一图像捕捉装置捕捉。第一图像包括用户的脸的上部。第二图像由头戴式显示器上的第二图像捕捉装置捕捉。第二图像包括用户的脸的下部。处理第一图像和第二图像以提取表示用户的脸部表情的脸部表情参数。

在一个实施方式中，第一图像捕捉装置包括一对红外相机。第二图像捕捉装置包括以下中的一者：深度相机；彩色相机；红外相机；或两个立体相机。

在一个实施方式中，对第一图像和第二图像进行处理，以至少从第一图像中检测与用户的眼睛和用户的眉毛相关联的标记位置，并且从第二图像中检测与用户的脸的下部相关联的标记位置。

在一个实施方式中，所提取的脸部表情参数被应用于用户的数字表示以生成用户的图形表示。

在一个实施方式中，通过捕捉并处理表示用户的中性脸的校准图像来执行校准。

在一个实施方式中，通过下述方法来执行校准：基于校准图像来生成个性化中性脸网格，并且通过将变形传递技术应用于个性化中性脸网格来构建个性化跟踪模型。

在一个实施方式中，基于个性化跟踪模型将混合形状模型拟合到第一图像和第二图像中的标记位置以获得脸部表情参数。

在一个实施方式中，实时地处理第一图像和第二图像以获得脸部表情。

实施方式还涉及包括第一捕捉装置、第二捕捉装置、显示装置和主体的头戴式显示单元。第一捕捉装置捕捉包括眼睛区域的用户的脸的上部。第二捕捉装置处于第一捕捉装置下方的位置并且捕捉用户的脸的下部。显示装置向用户显示图像。主体安装有第一捕捉装置和第二捕捉装置以及显示装置。

在一个实施方式中，第二捕捉装置被安装在从主体朝着用户的脸的下部延伸的延伸构件上。

在一个实施方式中，头戴式显示单元还包括可滑动安装件，第二捕捉装置被安装在该可滑动安装件上。

在一个实施方式中，显示装置包括第一显示器和第二显示器。第一显示器向用户的左眼显示左侧图像，并且第二显示器向用户的右眼显示右侧图像。

在一个实施方式中，第一捕捉装置包括一对相机，其中，该对相机中的每个相机被安装于主体的相对侧。

在一个实施方式中，第一捕捉装置包括安装在主体的中间的相机。

在一个实施方式中，第二捕捉装置被直接安装到主体上。

在一个实施方式中，主体具有用以包围眼睛区域的凸出的上部。

在一个实施方式中，显示装置包括一对不同的显示单元，并且第一捕捉装置包括这一对显示单元之间的两个相机。

实施方式还涉及包括头戴式显示单元和计算装置的虚拟现实系统。计算装置可通信地耦接至头戴式显示单元。计算装置从头戴式显示单元接收第一图像和第二图像，并且处理第一图像和第二图像以提取表示用户的脸部表情的脸部表情参数。

附图说明

图1是示出根据一个实施方式的用于捕捉并处理用户的脸部表情的系统的框图。

图2A是根据一个实施方式的图1的头戴式显示单元的示意图。

图2B是示出根据一个实施方式的用于捕捉用户的眼睛区域的图像的2D相机的示意图。

图2C是示出根据一个实施方式的头戴式显示单元相对于用户的脸的部件的示意图。

图2D是示出根据另一实施方式的头戴式显示单元的示意图。

图2E是示出根据另一实施方式的具有立体图像传感器的头戴式显示单元的示意图。

图2F是示出根据另一实施方式的具有可滑动立体图像传感器的头戴式显示单元的示意图。

图2G是示出根据一个实施方式的在主体的中间顶部中具有2D相机的头戴式显示单元的示意图。

图2H是示出根据一个实施方式的具有用以包围2D相机的凸出的上部的头戴式显示单元的示意图。

图2I是示出根据一个实施方式的使用图2G或图2H的头戴式显示单元来捕捉用户的眼睛区域的示意图。

图2J是示出根据一个实施方式的将一对2D相机放置在头戴式显示单元中的显示装置之间的示意图。

图2K是示出根据一个实施方式的容纳移动装置的头戴式显示单元的示意图。

图3是示出根据一个实施方式的连接至头戴式显示单元以用于确定脸部表情的计算装置的框图。

图4是根据一个实施方式的计算装置中的软件模块的框图。

图5A至图5C是示出根据一个实施方式的被跟踪以确定脸部表情的脸部标记的图。

图6是示出根据一个实施方式的在用户的数字表示中使用脸部表情的总体处理的流程图。

图7是示出根据一个实施方式的检测用户的脸部表情的处理的流程图。

具体实施方式

仅作为说明，附图和以下描述涉及优选实施方式。应该注意的是，从以下讨论中，在不脱离所要求保护的原理的情况下，可以容易地将本文中公开的结构和方法的可替选实施方式识别为可以采用的可行性替选。

现在将详细参考若干实施方式，附图中示出了这些实施方式的示例。注意，只要可行，相同或相似的附图标记在附图中就可以使用，并且可以指示相同或相似的功能。仅出于说明目的，附图描绘了所公开的系统(或方法)的实施方式。在不脱离本文中描述的原理的情况下，可以采用对本文中示出的结构和方法的可替选实施方式的以下描述。

实施方式涉及使用头戴式显示单元来实时地检测用户的脸部表情，该头戴式显示单元包括用于捕捉包括眼睛区域的用户的脸的上部的图像捕捉装置(例如，红外相机)以及用于捕捉包括鼻子、嘴唇、下巴和脸颊中的至少一个的用户下脸部特征的其它图像捕捉装置(例如，深度相机)。处理由第一图像捕捉装置和第二图像捕捉装置捕捉到的图像以提取与脸部表情相关联的参数。所述参数可以被发送或处理，使得能够生成包括脸部表情的用户的数字表示。

如本文中所描述的眼睛区域是指覆盖眼睛和眼睛上方的眉毛的脸部区域。

脸部表情检测系统的示例架构

图1是示出根据一个实施方式的用于捕捉并处理用户的脸部表情的系统100的框图。除了其它部件以外，系统100还可以包括头戴式显示器(HMD)102以及与HMD 102通信的计算装置108。HMD 102与计算装置108结合使用以检测用户的姿势、检测用户的脸部表情以及向用户显示图像。

计算装置108可以经由有线或无线通信与HMD 102通信。可以从计算装置108发送用于在HMD 102处再现的图像和声音数据120。HMD 102还将指示用户头部的姿势并且包括与脸部表情相关联的捕捉图像的信息110发送至计算装置108。

如下面参照图2C详细示出的，HMD 102被穿戴在用户的头上。除了其它部件以外，HMD 102可以包括一个或更多个2D相机104、一个或更多个深度相机105以及一个或更多个显示器106。为了简洁起见，本文省略了显示器106及其操作模块的细节。每个2D相机104捕捉用户的脸的眼睛区域，并且可以被实施为红外相机或RGB相机(具有或不具有照明灯)。每个眼睛区域包括眼睛和眉毛。另一方面，深度相机105生成用于包括鼻子、嘴唇、脸颊和下巴中的至少一个的用户下脸部特征的深度图像。

如下面参照图7详细描述的，计算装置108处理由红外相机104和深度相机105生成的图像以确定用户的脸部表情。还可以使用2D RGB相机或2D红外(TR)相机而不是使用深度相机105。

尽管在图1中计算装置108被示出为与HMD 102分开，但是计算装置108可以是HMD102的一部分。

头戴式显示器的示例

图2A是根据一个实施方式的HMD 102的示意图。HMD 102包括主体202以及从主体202向下延伸的竖直延伸构件204。主体202安装有2D相机104、显示器106和其它传感器(例如陀螺仪)。

HMD 102和竖直延伸构件204可以经由能够调节由深度相机105捕捉到的用户的脸的区域的机构联接。还可以使用水平延伸或者以倾斜取向延伸的构件而不是竖直延伸构件来安装深度相机105。深度相机105提供：(i)3D深度图；以及(ii)捕捉区域的2D彩色图像或红外图像。除了其它原因以外，使用深度相机105捕捉用户下脸部特征是有利的，因为可以以高精度获得关于下脸部特征的三维几何信息。还可以使用2D彩色相机而不是使用深度相机105来捕捉用户下脸部特征。可以在计算装置108处处理由2D彩色相机捕捉到的彩色图像以生成关于下脸部特征的3D几何信息。

HMD 102还可以附接至带212，使得用户可以将HMD 102固定到用户的头部。

如图2A中所示，一对2D相机104被放置在主体202的前壁的上方角落中以捕捉用户的脸的相应区域(即，左眼区域和右眼区域)。在可替选实施方式中，可以将一对2D相机放置在HMD 102的侧壁203处。2D相机104还可以紧挨着显示器106放置。

显示器106可以包括两个不同的显示模块：一个用于向用户的左眼显示左侧图像，另一个用于向用户的右眼显示右侧图像。两个显示器106可以在物理上分离。可替选地，可以将单个显示模块分成两个不同的显示区域，以用于分别显示左侧和右侧图像。

图2B是示出根据一个实施方式的用于捕捉表示包括眼睛和眉毛的用户的脸220的眼睛区域的图像的2D相机104的示意图。2D相机104被安装在HMD 102的主体202中，当用户穿戴HMD 102时，2D相机104面向用户的脸部。具体来说，2D相机104捕捉用户的脸的一个或两个眼睛区域。

红外相机可以用作2D相机104。除了其它原因以外，使用红外相机来捕捉眼睛和眉毛周围区域的图像是有利的，因为：(i)红外相机可以充分捕捉脸部特征而无需与用户的皮肤接触；以及(ii)红外相机可以在HMD 102被用户穿戴时由于阻挡了外部光而可能发生的低光条件下工作。

在一个实施方式中，2D相机104可以配备有鱼眼镜头以捕捉宽视场。由于从2D相机到用户的眼睛和眉毛的距离很短(通常在5厘米以内)，因此鱼眼镜头用于捕捉整个眼睛区域。深度相机105也配备有鱼眼镜头以捕捉宽视场。

图2C是示出根据一个实施方式的HMD 102的部件相对于用户的脸220的放置的示意图。图2C的HMD 102具有一对2D相机104，一个2D相机104捕捉左眼区域，另一个2D相机104捕捉右眼区域。2D相机的中心轴线244相对于竖直平面254形成角度α。角度α可以在30°至45°的范围内以捕捉眼睛区域。

图2D是根据另一实施方式的HMD 102B的示意图。HMD 102B与图2A的HMD 102类似，但是具有安装件204B，相机105B附接在安装件204B上以捕捉用户的脸的下部的图像。安装件204B短于图2A的竖直延伸构件。相机105B可以是深度相机或者可以是RGB/灰度相机。还可以将一个或更多个红外或可见光源(未示出)附接至安装件204B，以使得相机105B能够捕捉用户的脸的下部的更好的图像。在可替选实施方式中，HMD 102不包括单独的安装件或竖直延伸构件，而是具有直接安装到主体202上的相机105B。

图2E是根据另一实施方式的HMD 102C的示意图。HMD 102C与图2D的HMD 102B类似，但是具有安装在安装件204C上的立体相机105B。两个立体相机105B都捕捉用户的脸的下部的图像。由计算装置108处理捕捉图像以确定用户的脸部表情。

图2F是根据一个实施方式的HMD 102D的示意图。HMD 102D与图2E的HMD 102C类似，但是具有相对于主体202可滑动的安装件222A、222B。安装件222A、222B安装有相机105D，相机105D可以是IR相机或灰阶相机。通过使支架222A、222B能够相对于主体202滑动，可以调整支架222A、222B的位置以更好地捕捉用户的脸的下部。在一些实施方式中，安装件222A、222B由用户手动移动。在其它实施方式中，安装件222A、222B由致动器(例如，电动机，未示出)自动调节。

图2G是根据一个实施方式的HMD 102E的示意图。除了单个2D相机104位于主体202的中心处以外，HMD 102D与图2A的HMD 102类似。如下面参照图2I所描述的，单个2D相机104捕捉用户的脸的左眼和右眼区域。

图2H是根据一个实施方式的HMD 102F的示意图。除了主体202具有向上突出的边缘233以外，HMD 102F与图2G的HMD 102E类似。向上突出的边缘233使得用户的脸的眼睛区域能够被完全包围在主体202下方。

图2I是示出使用图2G的HMD 102E或者图2H的HMD 102F中的单个2D相机104捕捉两侧的眼睛区域的示意图。为了增大由2D相机104捕捉到的脸部的区域，可以在2D相机104中使用鱼眼镜头。

图2J是示出根据一个实施方式的使用两个单独的2D相机104J来捕捉两侧的眼睛区域的示意图。与图2C中的2D相机104不同，2D相机104J被放置在显示器106之间。2D相机104J的中心轴线247相对于竖直平面254形成角度β，使得两个2D相机104J都面向脸部的眼睛区域。将2D相机104J放置在显示器106之间的许多优点之一在于，可以减小HMD的尺寸(特别是宽度W)。

尽管上面参照图2A至图2J描述的HMD在上面被描述为使用专用显示器106来向每只眼睛显示图像，但是在其它实施方式中，显示器可以被实施为单独的移动装置(例如，智能手机)的显示装置。例如，图2K是具有用于容纳移动装置261的槽263的HMD 102G的示意图。移动装置261可以被插入到主体202的槽263中，使得移动装置的显示装置起到HMD 102G的显示器的作用。如图2K中所示的槽263，并且还可以采用不同配置的槽。在图2K的实施方式中，显示器106以及计算装置108由移动装置261实施。

用于确定脸部表情的示例计算装置

图3是示出根据一个实施方式的连接至HMD 102以用于确定脸部表情的计算装置108的框图。除了其它部件以外，计算装置108可以包括存储器302、处理器304、HMD接口306、显示器308、用户接口310以及连接这些部件的总线301。计算装置108可以包括其它部件例如网络接口以与其它计算装置(未示出)通信。

如下面参照图4详细描述的，存储器302是存储软件模块的非暂态计算机可读存储介质。存储在存储器302中的指令由处理器304执行以执行与脸部表情检测以及生成包含所检测到的脸部表情的用户的数字表示相关联的操作。

处理器304执行存储在存储器302中的各种指令并且控制计算装置108中的其它部件的操作。计算装置108可以包括多于一个的处理器。

HMD接口306是用于与HMD 102通信的硬件、软件、固件或其组合。HMD接口306使得计算装置108能够发送图像和声音数据120以供在HMD 102处再现，并且还可以接收信息110，信息110与用户头部的姿势以及与来自HMD 102的脸部表情相关联的捕捉图像相关联。HMD接口306可以与一个或更多个通信协议兼容。

显示器308用于向用户展示和呈现图像。图像可以包括与HMD 102的操作相关联的信息。

用户接口310是使得用户能够与计算装置108交互的硬件、软件、固件或其组合。用户接口310可以包括指示装置(例如鼠标)和键盘。

图4是根据一个实施方式的计算装置108中的软件模块的框图。除了其它软件组件以外，存储器302还存储操作系统406、脸部表情检测模块410和应用模块440。存储器302还可以包括图4中未示出的各种其它软件模块。

操作系统406是负责管理计算装置108中可用的资源的软件模块。可用的操作系统可以包括例如IOS、WINDOWS、LINUX、ANDROID和MAC OS。

脸部表情检测模块410是基于从2D相机104接收的2D图像(例如，红外图像)402以及从深度相机105接收的图像404来检测用户的脸部表情的软件模块。图像404可以包括由深度相机105生成的深度图像以及彩色或灰度图像二者。通过处理红外图像402和图像404，脸部表情检测模块410生成指示用户的脸部表情的脸部表情(FE)参数424。

脸部表情检测模块410可以包括子模块，子模块包括但不限于眼睛和眉毛跟踪模块414、下脸部跟踪模块418和FE参数生成器422。眼睛和眉毛跟踪模块414基于标记位置来确定2D图像402中的瞳孔的中心、眼睛轮廓和眉毛轮廓。用具有瞳孔、眼睛轮廓和眉毛轮廓的标记的注释的训练图像样本来预先训练眼睛和眉毛跟踪模块414。这样的注释可以手动执行。示例性标记在图5A和图5B中被示出为“X”点。

眼睛和眉毛跟踪模块414可以采用跟踪算法。跟踪算法可以使用例如本领域公知的(i)监督下降方法(SDM)、(ii)可变形模型拟合、(iii)主动外观建模或者(iv)深度学习技术。作为对用户的眼睛和眉毛的跟踪结果，眼睛和眉毛跟踪模块414生成指示眼睛和眉毛的位置和形状的标记位置415。当使用鱼眼镜头捕捉2D图像时，眼睛和眉毛跟踪模块414还可以使图像变平坦，以在执行跟踪算法之前去除由于使用鱼眼镜头而引起的2D图像中的失真。

类似地，下脸部跟踪模块418基于图像404来跟踪下巴和脸颊周围的用户的鼻子、嘴唇、下巴，脸颊和脸部轮廓中的至少一个的姿势。为了跟踪用户下脸部的标记，下脸部跟踪模块418还可以使用跟踪算法，例如使用本领域公知的(i)监督下降方法(SDM)、(ii)可变形模型拟合、(iii)主动外观建模或者(iv)深度学习技术中的一种。例如，在图5C中示出了用户的脸的下部中的标记。通过跟踪用户的脸的下部中的标记，下脸部跟踪模块418生成包括鼻子、嘴唇、下巴和脸颊中的至少一个的下脸部特征的标记位置419。检测下巴和脸颊轮廓的众多优点之一是，可以明确捕捉下巴和脸颊的动作。检测下巴和脸颊轮廓还有助于稳健地跟踪相对于相机的头部位置，这对于嘴唇跟踪来说并且不容易。

FE参数生成器422从深度相机接收标记位置415、419以及3D深度图。如下面参照图6详细描述的，FE参数生成器422存储在校准处理期间获得的个性化3D脸部表情模型的模型。如下面参照图7详细描述的，FE参数生成器422还执行标记位置415、419和3D深度图到3D脸部表情模型这一模型的拟合，以提取共同指示穿戴HMD 102的用户的脸部表情的脸部表情(FE)参数424。

应用模块440基于以FE参数424的形式检测到的脸部表情来执行各种操作。应用模块440可以包括映射模块442、图形表示存储装置446和虚拟现实(VR)/增强现实(AR)模块448。图形表示存储装置446存储用户的一个或更多个数字表示。映射模块442从图形表示存储器446中检索用户的数字表示，并将FE参数424(例如，混合形状权重值)实时地传送到所接收的用户的数字表示，以生成用于VR/AR中的数据模块448。

VR/AR模块448可以根据FE参数424(例如，混合形状)或者基于所传送的混合形状权重与用户的数字表示的表情参数空间之间的语义映射函数来生成具有脸部表情的用户3D图形表示。VR/AR模块448可以是用于执行各种服务的软件模块的一部分或者结合这些软件模块一起工作，所述各种服务包括例如基于脸部表情的社交网络服务、游戏、网上购物、视频通话和人机接口。

尽管在图4中将脸部表情检测模块410和应用模块440描述为被实施为软件模块，但是这些模块可以被实施为集成电路(IC)部件。

检测脸部表情的处理

图6是示出根据一个实施方式的在用户的数字表示中使用脸部表情的总体处理的流程图。首先，在用户穿戴HMD 102之后执行606校准。在一个实施方式中，使用在线校准处理来为HMD 102的用户构建个性化跟踪模型。在校准期间，用户保持中性脸部姿势达预定量的时间(例如，几秒)，同时2D相机104和/或深度相机105捕捉多个深度图像和2D彩色图像或红外图像。

作为校准处理的一部分，脸部表情检测模块410接收这些图像，并且应用3D体积模型创建处理，以使用相关联的脸部颜色信息为脸部的下半部分创建平滑的3D体积脸部网格。创建平滑的三维体积脸部网格的处理在本领域是公知的(例如，2011年，在2011年第10届IEEE国际研讨会上，Richard A.Newcombe等人在Mixed and augmented reality(ISMAR)中发表的“KinectFusion:Real-time Dense Surface Mapping and Tracking”，其全部内容通过引用并入本文中)。脸部表情检测模块410还对眼睛区域图像和下脸部图像执行2D标记检测以对眼睛的中心和周围、眼线、眉线、唇线、鼻线和脸部轮廓(例如，下巴和脸颊线)进行定位。脸部表情检测模块410可以对多个捕捉图像上的2D标记求平均，以减轻2D标记检测中的噪声伪影。在二维图像中使用3D体积脸部网格和2D脸部标记位置，FE参数生成器422通过下述方法来构建个性化中性脸模型：(i)估计模板中性脸模型的刚性姿势，然后(ii)使中性脸的线性主要成分来分析(PCA)模型扭曲，以适应体积网格和2D标记。

具体地，FE参数生成器422利用个性化中性模型M的线性PCA形变版本，以使用以下等式在世界坐标中表示脸部网格：

W(w，R，t)＝RM(w)+t (2)

其中，w表示形变模型的线性权重向量，R是旋转矩阵，t是平移向量。FE参数生成器422通过使以下能量项最小化来迭代地确定w和(R,t)：

其中，α、β、γ代表拟合项的权重；如等式(4)所定义的，C_pl是用于使体积网格V与脸部网格W之间的点到面误差最小化的拟合项；如等式(5)所定义的，C_m是用于使嘴、鼻子和轮廓的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项；如等式(6)所定义的，C_r是用于使右眼区域的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项；以及如等式(7)所定义的，C_l是用于使左眼区域的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项。C_pl定义如下：

其中，v_i是脸部网格W的第i个顶点，是体积网格V上最接近的点，并且n_i是体积网格V上v_i处的表面法线。C_m定义如下：

其中，u_j是被跟踪的2D脸部特征的位置，并且π_m(v_j)是对应的网格顶点v_j到用户的嘴、鼻子和轮廓周围的相机空间中的投影。C_r定义如下：

其中，u_j是被跟踪的2D脸部特征的位置，π_r(v_j)是对应的网格顶点v_j到右眼区域的相机空间中的投影。C_l定义如下：

其中，u_j是被跟踪的2D脸部特征的位置，π_r(v_j)是对应的网格顶点v_j到左眼区域的相机空间中的投影。

在构造了个性化中性脸部网格之后，如本领域所公知的，通过经由变形传递(deformation transfer)从模板脸部的表情混合形状将变形进行传递来获得个性化脸部表情模型(混合形状模型)。例如Robert W.Sumner等人在ACM Transactions on Graphics(TOG)23.3(2004)的“Deformation transfer for triangle meshes”的第309页至第405页中描述了通过变形传递将变形从表情混合形状进行传递的示例方法。可替选地，可以通过应用双线性脸部模型来获得个性化脸部表情模型，该双线性脸部模型将脸部几何形状、身份和脸部表情的跨度编码成多阶数据张量。例如，在Chen Cao等人在ACM Transactions onGraphics(TOG)33.4(2014)中的“Displaced dynamic expression regression for real-time facial tracking and animation”中，描述了应用双线性脸部模型来构建个性化脸部表情模型的示例方法，该文献的全部内容通过引入并入本文中。

如果对于右眼和左眼二者只使用一个相机，则将C_r和C_l合并到一个等式中。

在执行校准之后，如下面参照图7详细描述的，跟踪和处理用户的脸部特征的2D图像和深度图像以检测610用户的脸部表情。

然后将所检测到的脸部表情应用616于用户的数字表示以合并到用户的图形表示中。所生成的图形表示可以由计算装置108或者通过网络(例如因特网)与计算装置108通信的远程计算装置以现实的虚拟或增强版本显示。

图7是示出根据一个实施方式的检测脸部表情的处理的流程图。首先，如上面参照图4详细描述的，从2D图像中确定710与眼睛区域相关联的标记位置422。如上面参照图4详细描述的，通过处理IR或RGB图像和/或3D相机的深度图像来生成720与用户下脸部特征相关联的标记位置。

通过使用标记位置(以及可选地使用3D深度图数据)，生成730用于用户的整个脸部的FE参数424。在一个实施方式中，FE参数生成器422基于标记位置415来生成混合形状参数作为FE参数424，以指示诸如张嘴、微笑和吹气之类的表情，同时基于标记位置419来生成混合参数作为FE参数424的一部分，以指示睁眼/闭眼和眉毛上扬/下沉。

为了计算FE参数424，将所跟踪的标记位置415组合为输入约束，并基于输入约束对FE表情参数执行拟合。拟合操作可以涉及两部分：(1)刚性稳定化(rigidstabilization)；以及(2)表情参数跟踪。可以可替选地在刚性稳定化和表情参数跟踪之间执行优化操作，直到刚性姿势值和参数值都收敛为止。

对于刚性稳定化，允许脸部的刚性姿势相对于相机移动。当用户作出脸部表情时，颊肌可以向前和向上推动头戴式耳机，导致脸部相对于相机的相对刚性姿势随时间而变化。当姿势被锁定时，刚性运动在表情参数跟踪上产生伪影，并且因此可以获得由于不相关的刚性运动因素导致的不正确的参数值。此外，当用户进行快速的头部运动时，即使头戴式耳机紧紧地附着到脸部，头戴式耳机也可能相对于脸部滑动。此类事件可能会使所固定的头部姿势假设无效，并且在表情跟踪中产生伪影。为了适应头部相对于头戴式耳机的重新定位，执行刚性稳定化以计算头部相对于刚性地固定在头戴式耳机上的相机的相对姿势。

在一个实施方式中，在校准阶段期间使用刚性迭代最接近点(ICP)算法来确定头部的初始刚性姿势。但是在切换到跟踪模式之后，初始刚性姿势被用作锚点，允许该锚点在有限的范围内扰动以适应对头戴式耳机的相对头部运动。还可以对跟踪模式开始时的几个图像帧执行刚性ICP以确定头部的初始刚性姿势，以考虑头部姿势与HMD的偏移，特别是在用户脱下HMD并且再次穿戴HMD之后。然后，通过再次执行刚性ICP来重新初始化刚性姿势。在确定初始刚性姿势之后，可以使用附加约束来执行刚性ICP，使得旋转的偏航、翻滚、俯仰以及平移x、y、z值不偏离超过初始刚性姿势的给定极限，同时使用所跟踪的标记位置和输入深度图作为输入约束。

为了获得FE参数424，基于标记位置415、419(如果使用3D相机，则还有深度图)对个性化跟踪模型执行拟合。如在校准处理中一样，假定捕捉相机被刚性地固定在头戴式耳机上，并且假定关于其相对姿势(即，旋转和平移)的参数是已知的。FE参数生成器422可以基于标记位置415、419(如果使用3D相机，则还有深度图)来执行拟合操作以获得FE表情参数。

个性化线性模型是从个性化中性脸部模型M导出的一组脸部表情形状(例如，微笑和张嘴)。在一个实施方式中，FE参数生成器422利用个性化线性表情模型(即，混合形状模型)B来表示脸部网格W，如在世界坐标中用于执行拟合优化的等式(8)所示：

W(e)＝RB(e)+t (8)

其中，e是混合模型的线性权重向量，R是旋转矩阵，t是根据刚性稳定化步骤计算得到的平移向量。FE参数生成器422处的跟踪处理通过使下面的能量项最小化来迭代地找到最优的e：

其中，α、β、γ表示拟合项的权重；如等式(10)所定义的，是用于使深度图与脸部网格W之间的点到面误差最小化的拟合项。如等式(11)所定义的，C^* _m是用于使嘴、鼻子和轮廓的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项。如等式(12)所定义的，C*_r是用于使右眼区域的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项。并且如等式(13)所定义的，C^* _l是用于使左眼区域的2D脸部特征标记与脸部网格W的对应顶点之间的点到点误差最小化的拟合项。定义如下：

其中，v_i是脸部网格W的第i个顶点，p_i是深度图上的与v_i相同相机空间坐标的点，n_i是p_i处的表面法线。C^* _m定义如下：

其中，u_j是所跟踪的2D脸部特征的位置，π_m(v_j)是对应的网格顶点v_j到嘴的相机空间中的投影。C*_r定义如下：

其中，u_j是所跟踪的2D脸部特征的位置，π_r(v_j)是对应的网格顶点v_j到右眼区域的相机空间中的投影。C^* _l定义如下：

其中，u_j是所跟踪的2D脸部特征的位置，π_i(v_j)是对应的网格顶点v_j到左眼区域的相机空间中的投影。如果对于右眼和左眼二者只使用一个相机，则将C_r和C_l合并到一个等式中。

在一个实施方式中，FE参数生成器422输出由等式(8)中的e表示的混合形状权重值作为FE参数，该FE参数共同表示作为跟踪处理的结果而生成的所检测到的用户的脸部表情。

在一个或更多个实施方式中，可以实时地执行图7的步骤以处理从相机接收的每组图像402和404。此外，如图7所示的步骤和步骤顺序仅为说明性的。例如，确定710标记位置的步骤和确定720 3D深度图数据的步骤可以以相反顺序执行或者可以并行地执行。

虽然本文中示出和描述了本发明的具体实施方式和应用，但应该理解的是，本发明不限于本文中公开的精确构造和部件，并且在不脱离如所附权利要求书限定的本发明的精神和范围的情况下，在本发明的方法和装置的布置、操作和细节中，可以进行各种修改、改变和变型。

Claims

1.一种用于检测脸部表情的方法，所述方法包括：

由头戴式显示器上的第一图像捕捉装置捕捉包括用户的眼睛区域的用户的脸的上部的第一图像；

由所述头戴式显示器上的第二图像捕捉装置捕捉包括用户的脸的下部的用户的第二图像；以及

处理所述第一图像和所述第二图像以提取表示用户的脸部表情的脸部表情参数。

2.根据权利要求1所述的方法，其中，所述第一图像捕捉装置包括一对红外相机，并且所述第二图像捕捉装置包括以下中的一者：深度相机；彩色相机；红外相机；或两个立体相机。

3.根据权利要求1所述的方法，处理所述第一图像和所述第二图像包括：

从所述第一图像中检测与用户的眼睛和用户的眉毛相关联的标记位置；以及

从所述第二图像中检测与用户的脸的下部相关联的标记位置。

4.根据权利要求1所述的方法，还包括：将所提取的脸部表情参数应用于用户的数字表示以生成用户的图形表示。

5.根据权利要求1所述的方法，还包括：通过捕捉并处理表示用户的中性脸的校准图像来执行校准。

6.根据权利要求5所述的方法，其中，执行校准包括：

基于所述校准图像来生成个性化中性脸网格，以及

通过将变形传递技术应用于所述个性化中性脸网格来构建个性化跟踪模型，并且

其中，对所述第一图像和所述第二图像的处理包括：基于所述个性化跟踪模型将至少混合形状模型拟合到所述第一图像和所述第二图像中的标记位置，以获得所述脸部表情参数。

7.根据权利要求6所述的方法，其中，对所述第一图像和所述第二图像的处理是实时地执行的。

8.一种头戴式显示单元，包括：

第一捕捉装置，所述第一捕捉装置被配置成捕捉包括眼睛区域的用户的脸的上部；

第二捕捉装置，所述第二捕捉装置处于所述第一捕捉装置下方的位置并且被配置成捕捉用户的脸的下部；

显示装置，所述显示装置被配置成向用户显示图像；以及

主体，所述主体被配置成安装所述第一捕捉装置和所述第二捕捉装置以及所述显示装置。

9.根据权利要求8所述的头戴式显示单元，其中，所述第二捕捉装置被安装在从所述主体朝着用户的脸的下部延伸的延伸构件上。

10.根据权利要求8所述的头戴式显示单元，其中，所述第一图像捕捉装置包括一对红外相机，并且所述第二图像捕捉装置包括以下中的一者：深度相机；彩色相机；红外相机；或两个立体相机。

11.根据权利要求8所述的头戴式显示单元，还包括可滑动安装件，所述第二捕捉装置被安装在所述可滑动安装件上。

12.根据权利要求8所述的头戴式显示单元，其中，所述显示装置包括第一显示器和第二显示器，其中，所述第一显示器被配置成向用户的左眼显示左侧图像，并且所述第二显示器被配置成向用户的右眼显示右侧图像。

13.根据权利要求8所述的头戴式显示单元，其中，所述第一捕捉装置包括一对相机，该对相机中的每个相机被安装于所述主体的相对侧。

14.根据权利要求8所述的头戴式显示单元，其中，所述第一捕捉装置包括安装在所述主体的中间的相机。

15.根据权利要求8所述的头戴式显示单元，其中，所述第二捕捉装置被直接安装到所述主体上。

16.根据权利要求8所述的头戴式显示单元，其中，所述主体具有用以包围所述眼睛区域的凸出的上部。

17.根据权利要求1所述的头戴式显示单元，其中，所述显示装置包括一对不同的显示单元，并且所述第一捕捉装置包括该对显示单元之间的两个相机。

18.一种虚拟或增强现实系统，包括：

头戴式显示单元，包括：

第一捕捉装置，所述第一捕捉装置被配置成捕捉包括眼睛区域的用户的脸的上部的第一图像，

第二捕捉装置，所述第二捕捉装置处于所述第一捕捉装置下方的位置并且被配置成捕捉用户的脸的下部的第二图像，

显示装置，所述显示装置被配置成向用户显示图像，以及

主体，所述主体被配置成安装所述第一捕捉装置和所述第二捕捉装置以及所述显示装置；以及

计算装置，所述计算装置可通信地耦接至所述头戴式显示单元并且被配置成：

从所述头戴式显示单元接收所述第一图像和所述第二图像，并且

19.根据权利要求18所述的虚拟或增强现实系统，其中，所述计算装置被配置成：

20.根据权利要求18所述的虚拟或增强现实系统，其中，所述计算装置还被配置成通过以下步骤来执行校准：

基于所述校准图像来生成个性化中性脸网格；

其中，所述计算装置被进一步配置成：通过基于所述个性化跟踪模型将至少混合形状模型拟合到所述第一图像和所述第二图像中的标记位置来处理所述第一图像和所述第二图像，以获得所述脸部表情参数。