CN108021847A

CN108021847A - 用于识别脸部表情的装置和方法、图像处理装置和系统

Info

Publication number: CN108021847A
Application number: CN201610951434.9A
Authority: CN
Inventors: 孙东慧; 吴波; 李献; 胡琦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2018-05-11
Anticipated expiration: 2036-11-02
Also published as: US20180121716A1; CN108021847B; US10783357B2

Abstract

本发明提供一种用于识别脸部表情的装置和方法、图像处理装置和系统。一种用于识别图像的脸部区域中的脸部的表情的装置包括：被构造为检测图像的脸部区域中的脸部的特征点的单元；被构造为基于检测到的特征点来确定脸部区域中的脸部的脸部形状的单元；被构造为基于确定的脸部形状和预先定义的形状组来确定脸部区域中的脸部所属的组的单元；以及被构造为基于与确定的组对应的预先生成的第一模型和从脸部区域中的至少一个区域提取的特征来确定脸部区域中的脸部的表情的单元，其中，所述至少一个区域是在与确定的组对应的预先生成的第一模型中标记出的区域。根据本发明，将提高脸部表情识别的准确度。

Description

用于识别脸部表情的装置和方法、图像处理装置和系统

技术领域

本发明涉及图像处理，尤其涉及例如用于识别脸部表情的装置和方法、图像处理装置和系统。

背景技术

在传统的脸部表情识别技术中，典型的方法是从图像中的一些区域提取特征，然后通过使用这些特征和预先生成的表情模型来识别对应的脸部表情。在一种实现方式中，从中提取特征的区域是通常产生脸部表情的区域。并且，通过使用基于学习的方法从多个样本图像与预先生成的表情模型一起生成这种区域。例如，图1A所示的虚线表示的区域是与预先生成的表情模型一起生成的对应区域。

与上述技术对应的一种典型的脸部表情识别方法在“学习用于表情分析的有效脸部区域”(Lin Zhong,Qingshan Liu,Peng Yang,Bo Liu,Junzhou Huang,DimitrisN.Metaxas:Learning active facial patches for expression analysis.CVPR 2012,2562-2569)中被公开。并且，此典型的方法主要公开以下操作：针对一个输入图像，首先，检测输入图像中的脸部的特征点；第二，基于检测到的特征点确定脸部的脸部姿态；第三，基于确定的脸部姿态确定脸部所属的姿态组；以及最后，基于与确定的姿态组对应的预先生成的表情模型和从在与确定的姿态组对应的预先生成的表情模型中标记出的区域提取的提取特征，来确定脸部的表情。

也就是说，在上述的典型方法中，针对各个脸部姿态组，预先生成对应的表情模型，并且，在对应的预先生成的表情模型中标记出相对于该脸部姿态组通常产生脸部表情的对应区域。一般地，通过使一个脸部的几个脸部肌肉运动而产生该脸部的一种表情。并且，针对具有不同脸部形状的脸部，生成对应表情的脸部肌肉的运动范围将不同。也就是说，针对具有不同的脸部形状的脸部，通常产生脸部表情的对应区域(即，区域的位置和/或区域的大小)将不同。例如，如图1A所示的脸部的脸部形状是“椭圆形”脸部形状，如图1B所示的脸部的脸部形状是“方形”脸部形状，并且，如图1C所示的脸部的脸部形状是“圆形”脸部形状。其中，如图1A至图1C所示的虚线表示的区域是通常产生脸部表情的区域。换句话说，针对属于一个脸部姿态组的具有不同脸部形状的脸部，从中提取用于脸部表情识别的特征的区域的位置和/或大小将不同。

然而，在上述典型的方法中，不管脸部的脸部形状是否不同，只要脸部属于同一脸部姿态组，将从脸部的相同区域中提取用于脸部表情识别的特征。因此，有时候，提取的特征对于脸部表情识别是不可靠的，这将导致降低脸部表情识别的准确度。

发明内容

因此，鉴于上面的背景技术中的记载，本公开旨在解决上述问题。

根据本发明的一个方面，提供一种用于识别输入图像的脸部区域中的脸部的表情的装置，所述装置包括：特征点检测单元，其被构造为，检测输入图像的脸部区域中的脸部的特征点；脸部形状确定单元，其被构造为，基于检测到的特征点，来确定脸部区域中的脸部的脸部形状；组确定单元，其被构造为，基于确定的脸部形状和预先定义的形状组，来确定脸部区域中的脸部所属的组，其中，所述预先定义的形状组中的一个对应于至少一个预先生成的第一模型；以及表情确定单元，其被构造为，基于与确定的组对应的预先生成的第一模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的第一模型中标记出的区域。

利用本发明，将提高脸部表情识别的准确度。

根据以下参照附图的描述，本发明的进一步的特性特征和优点将是显而易见的。

附图说明

包含在说明书中并构成本说明书的一部分的附图，示出本发明的实施例，并与本描述一起用于解释本发明的原理。

图1A至图1C示意性地示出具有不同脸部形状的脸部的示例性样本图像。

图2是示意性地示出可以实现根据本发明的实施例的技术的硬件结构的框图。

图3是示出根据本发明的第一实施例的用于识别脸部表情的装置的结构的框图。

图4示意性地示出根据本发明的由特征向量表示的脸部形状和预先生成的形状组的中心之间的示例性距离。

图5示意性地示出根据本发明的用于从一个区域提取深度特征的图3所示的表情确定单元340的示例性处理。

图6示意性地示出根据本发明的用于从一个区域提取深度特征和颜色特征的图3所示的表情确定单元340的示例性处理。

图7示意性地示出根据本发明的用于确定脸部表情的图3所示的表情确定单元340的示例性处理。

图8示意性地示出根据本发明的第一实施例的用于识别脸部表情的流程图。

图9示意性地示出三维方向中的示例性脸部。

图10是示出根据本发明的第二实施例的用于识别脸部表情的装置的结构的框图。

图11示意性地示出一个预先定义的形状组中的示例性的预先定义的姿态组。

图12示意性地示出根据本发明的第二实施例的用于识别脸部表情的流程图。

图13是示出根据本发明的第三实施例的用于识别脸部表情的装置的结构的框图。

图14示意性地示出一个预先定义的姿态组中的示例性的预先定义的形状组。

图15示意性地示出根据本发明的第三实施例的用于识别脸部表情的流程图。

图16是示意性地示出用于生成可用于本发明的第一模型的生成方法的流程图。

图17示意性地示出根据本发明的与一个预先定义的形状组对应的预先生成的第一模型的示例性结构。

图18是示意性地示出用于生成可用于本发明的第二模型的生成方法的流程图。

图19是示意性地示出用于生成可用于本发明的第三模型的生成方法的流程图。

图20示出根据本发明的示例性图像处理装置的布置。

图21示出根据本发明的示例性图像处理系统的布置。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应该注意，下面的描述实质上仅仅是说明性的、示例性的，并且，决不意图限制本发明及其应用或用途。实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围，除了另有具体说明。另外，本领域的技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中应当是本说明书的一部分。

请注意，相似的附图标记和字母指的是附图中的相似的项目，因此，一旦项目在一附图中被定义，它就不必在下面的附图中被讨论。

在上述典型方法中，在脸部表情识别的过程中，将不考虑脸部形状之间的差异。通过分析和实验，发明人发现，在脸部表情识别的过程中，在考虑脸部形状之间的差异的情况下，相对于具有不同的脸部形状的脸部，在预先生成对应的表情模型时，从中提取用于脸部表情识别的特征的区域将被预先生成为不同区域。例如，相对于具有不同脸部形状的脸部，对应区域是具有不同位置和/或具有不同大小的区域。其中，在下文中，例如，这种区域被称为“显著区域(salient region)”。因此，针对具有不同的脸部形状的脸部，将提高脸部表情识别的准确度。

另外，相比于二维(2D)图像，除了2D方向上的信息(例如，坐标(x,y)上的信息)以外，三维(3D)图像还可以提供3D方向上的信息(例如，坐标(z)上的信息)。因此，从3D图像估计的脸部形状的准确度高于从2D图像估计的脸部形状的准确度。因此，在针对3D图像的脸部表情识别期间，由于可以使用具有较高准确度的脸部形状之间的差异，所以可以进一步提高脸部表情识别的准确度。

换句话说，不管2D图像还是3D图像，相对于具有不同脸部形状的脸部，“显著区域”将更加准确。因此，将提高基于从“显著区域”提取的特征的脸部表情识别的准确度。

(硬件结构)

首先将参照图2描述可以实现下文中描述的技术的硬件结构。图2是示意性地示出可以实现根据本发明的实施例的技术的硬件结构200的框图。

例如，硬件结构200包括中央处理单元(CPU)210、随机存取存储器(RAM)220、只读存储器(ROM)230、硬盘240、输入设备250、输出设备260、网络接口270和系统总线280。此外，硬件结构200通过例如个人数字助理(PDA)、移动电话、膝上型计算机、台式计算机或其他合适的电子设备实现。

在一种实现方式中，根据本发明的脸部表情识别由硬件或固件构成，并且，被充当硬件结构200的模块或组件。例如，下文中将参照图3详细地描述的装置300、下文中将参照图10详细地描述的装置1000或者下文中将参照图13详细地描述的装置1300充当硬件结构200的模块或组件。在另一种实现方式中，根据本发明的脸部表情识别由在ROM 230或硬盘240中存储且由CPU 210执行的软件构成。例如，下文中将参照图8详细地描述的过程800、下文中将参照图12详细地描述的过程1200或者下文中将参照图15详细地描述的过程1500充当在ROM 230或硬盘240中存储的程序。

CPU 210是任何合适的可编程的控制设备(例如，处理器)，并且，通过执行在ROM230或硬盘240(例如，存储器)中存储的各种应用程序来执行下文中要描述的各种功能。RAM220被用来临时地存储从ROM230或硬盘240加载的程序或数据，并且也被用作这样的空间，在该空间中，CPU 210执行各种过程，例如，实施下文中将参照图3至图19详细地描述的技术以及其他可用功能。硬盘240存储多种信息，例如，操作系统(OS)、各种应用、控制程序和预先生成的模型，其中，预先生成的模型是例如下文中将描述的第一模型、第二模型和第三模型。

在一种实现方式中，输入设备250被用来允许用户与硬件结构200交互。在一个实例中，用户可以通过输入设备250来输入图像。在另一个实例中，用户可以通过输入设备250触发本发明的对应的脸部表情识别。此外，输入设备250可以采用各种形式，例如，按钮、键盘或触摸屏。在另一种实现方式中，输入设备250被用来接收从例如图像获取设备的特殊电子设备输出的图像。

输出设备260被用来向用户显示识别结果(例如，脸部表情识别结果)。而且，输出设备260可以采用各种形式，例如，阴极射线管(CRT)或液晶显示器。

网络接口270提供用于连接硬件结构200到网络(例如，图21所示的网络2120)的接口。例如，硬件结构200可以经由网络接口270与经由网络连接的其他电子设备(例如，图21所示的图像获取装置2110)进行数据通信。作为另选方案，可以为硬件结构200提供无线接口，以进行无线数据通信。系统总线280可以提供用于向CPU 210、RAM 220、ROM 230、硬盘240、输入设备250、输出设备260和网络接口270等，从它们或在它们之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线280并不限于任何特定的数据传输技术。

上述的硬件结构200仅仅是说明性的，并且，决不意图限制本发明、其应用或用途。而且，为了简单起见，在图2中只示出一个硬件结构。然而，也可以根据需要使用多种硬件结构。

(脸部表情识别)

接下来将参照图3至图15描述用于脸部表情识别的结构。

图3是示出根据本发明的第一实施例的用于识别脸部表情的装置300的结构的框图。其中，图3中的一些块或全部块可以由专用的硬件实现。

如图3所示，根据本发明的第一实施例的装置300包括：特征点检测单元310、脸部形状确定单元320、组确定单元330和表情确定单元340。

另外，图3所示的存储设备350存储下文中将描述的预先生成的第一模型，其中，在预先生成的第一模型中标记出对应的“显著区域”。在一种实现方式中，存储设备350是图2所示的ROM 230或硬盘240。作为另选方案，存储设备350是经由系统总线或网络(未示出)与装置300连接的服务器或外部存储设备。

首先，图2所示的输入设备250获取从特殊电子设备(例如，图像获取装置)输出或由用户输入的图像。如上所述，获取的图像可以是2D图像和/或3D图像。在本实施例中，3D图像将被取为示例，并且，获取的3D图像是具有脸部区域的3D脸部图像。其次，输入设备250经由系统总线280将获取的3D图像传输到特征点检测单元310。

如图3所示，特征点检测单元310通过系统总线280从输入设备250获取所获取的3D图像，并且检测获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的特征点(即，3D脸部特征点)。其中，在本发明，特征点的数量不是固定的。一般地，检测到越多的特征点，脸部形状可以被确定得越准确。

另外，可以通过使用用于从3D图像检测特征点的现有方法来从输入的3D图像的脸部区域检测特征点。例如，在本发明，特征点检测单元310通过使用在“一种新颖的3D脸部的脸部特征点定位方法”(Peng Guan,Yaoliang Yu,and Liming Zhang Int.Conf.on ImageProcessing,ICIP,2007)中公开的方法来检测脸部的特征点。

然后，脸部形状确定单元320基于检测到的特征点来确定脸部区域中的脸部的脸部形状。在一种实现方式中，脸部形状确定单元320确定通过链接检测到的特征点的3D坐标而获得的特征向量作为对应的脸部形状。例如，在特征点检测单元310检测到N个特征点的情况下，对应的特征向量被表示为F(x₁,y₁,z₁,…,x_N,y_N,z_N)。在另一种实现方式中，脸部形状确定单元320基于检测到的特征点和预先生成的形状模型来确定脸部形状。例如，预先生成的形状模型是回归模型。

如上所述，除了2D方向上的信息(例如，坐标(x,y)上的信息)以外，从3D图像检测到的特征点还提供3D方向上的信息(例如，坐标(z)上的信息)。因此，基于这些特征点确定的脸部形状更加准确。另外，在本发明，确定的脸部形状由例如上述的特征向量表示。

在确定脸部形状之后，组确定单元330基于确定的脸部形状和预先定义的形状组来确定脸部区域中的脸部所属的组，其中，预先定义的形状组对应于存储设备350中存储的至少一个预先生成的第一模型。换句话说，在此第一实施例中，确定的组是脸部区域中的脸部的脸部形状所属的形状组。其中，预先生成的第一模型和对应的预先定义的形状组是通过使用下文中将参照图16详细地描述的生成方法获得的。如上所述，不同脸部的脸部形状可以是“椭圆形”脸部形状、“方形”脸部形状、“圆形”脸部形状等。因此，预先定义的形状组可以是“椭圆形”形状组、“方形”形状组、“圆形”形状组等。取“椭圆形”形状组为例，对应的预先生成的第一模型包括以下模型中的至少一个：例如，用于识别“生气”表情的模型、用于识别“喜悦”表情的模型、用于识别“恐惧”表情的模型等。

在一种实现方式中，如图3所示，组确定单元330包括形状组选择单元331。更具体地，在脸部形状确定单元320确定对应的脸部形状之后，形状组选择单元331基于确定的脸部形状和预先定义的形状组的中心之间的距离来选择预先定义的形状组中的一个作为确定的组。

例如，如图4所示，点“F”表示确定的脸部形状的特征向量。形状组1、形状组2、…….、形状组i表示预先定义的形状组。点“C1”表示形状组1的中心，点“C2”表示形状组2的中心，并且，点“Ci”表示形状组i的中心。其中，在生成下文中将参照图16详细地描述的、对应的预先生成的第一模型时，将确定预先定义的形状组的中心。线段“D1”、线段“D2”、…….、线段“Di”表示对应的两个点之间的距离。

针对特征向量“F”，形状组选择单元331首先计算特征向量“F”和各个中心(即，“C1”、“C2”、……、“Ci”)之间的对应距离，然后选择其中心和特征向量“F”之间的距离最小的预先定义的形状组作为确定的组。如图4所示，特征向量“F”和点“C2”之间的距离是最小的，因此，形状组2将被选择作为确定的组。换句话说，脸部形状由特征向量“F”来表示的脸部被确定属于形状组2。

在组确定单元330确定对应的组(即，对应的形状组)之后，表情确定单元340基于存储设备350中存储的对应于确定的组的预先生成的第一模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，所述至少一个区域是在对应于确定的组的预先生成的第一模型中标记出的区域。换句话说，从中提取用于脸部表情识别的特征的区域即是上述的“显著区域”。如上所述，在生成下文中将参照图16详细地描述的、对应的预先生成的第一模型时，将预先生成这些“显著区域”。

更具体地，首先，表情确定单元340从各个“显著区域”提取对应的特征。

在一种实现方式中，针对各个“显著区域”，提取的特征是获取的3D图像中的脸部的深度特征。其中，深度特征即是脸部的3D特征，并且，从获取的3D图像中的脸部的深度通道提取。图5示意性地示出根据本发明的用于从一个显著区域提取深度特征的图3所示的表情确定单元340的示例性处理。在此示例性处理中，梯度特征将被提取作为深度特征。

针对图5所示的显著区域，首先，表情确定单元340从此显著区域的深度通道确定对应的梯度图像。其次，表情确定单元340将梯度图像划分成具有相同大小的几个块，其中，被划分的块的数量和被划分的块的大小不是固定的。如图5所示，在此示例性处理中，例如，被划分的块的数量是16。然后，表情确定单元340从各个被划分的块计算对应的梯度特征来获得此显著区域的对应的深度特征。例如，表情确定单元340从各个被划分的块计算方向梯度直方图(Histogram of Oriented Gradients,HOG)特征，然后链接所有的HOG特征作为此显著区域的对应的深度特征。其中，例如，可通过使用如“用于人检测的方向梯度直方图”(Dalal N,Triggs B.Histograms of oriented gradients for human detection,IEEEConference on Computer Vision&Pattern Recognition.2013:886-893)中公开的方法的现有方法来计算各个被划分的块的HOG特征。作为另选方案，替代HOG特征，也可以计算其他种特征来获得此显著区域的对应的梯度特征，例如，局部二值模式(Local BinaryPattern,LBP)特征、尺度不变特征变换(Scale Invariant Feature Transform,SIFT)特征。另外，替代梯度特征，也可以提取其他种特征作为此显著区域的对应的深度特征，例如，纹理特征。

另外，除了3D特征以外，3D图像中的脸部还包括2D特征。因此，为了提高脸部表情识别的准确度，除了3D特征(即，上述的深度特征)以外，脸部的2D特征也可以用于脸部表情识别。在另一种实现方式中，针对各个“显著区域”，提取的特征是获取的3D图像中的脸部的深度特征和颜色特征。其中，颜色特征即是脸部的2D特征，并且，从获取的3D图像中的脸部的RGB通道提取。图6示意性地示出根据本发明的用于从一个显著区域提取深度特征和颜色特征的图3所示的表情确定单元340的示例性处理。在此示例性处理中，梯度特征将被提取作为深度特征，并且，纹理特征将被提取作为颜色特征。

针对图6所示的显著区域，首先，表情确定单元340分别从此显著区域提取梯度特征和纹理特征。然后，表情确定单元340将梯度特征和纹理特征组合为此显著区域的对应特征。

针对梯度特征，由于对应的处理与如图5所述的处理相同，所以这里将不重复详细描述。针对颜色特征，首先，表情确定单元340将此显著区域的RGB通道转换为灰度图像，其中，此灰度图像具有与RGB通道相同的大小。其次，表情确定单元340将灰度图像划分成具有相同大小的几个块，其中，被划分的块的数量和被划分的块的大小不是固定的。如图6所示，在此示例性处理中，例如，被划分的块的数量是16。然后，表情确定单元340从各个被划分的块提取对应的纹理特征来获得此显著区域的对应的颜色特征。例如，表情确定单元340从各个被划分的块提取LBP特征，然后，链接所有的LBP特征作为此显著区域的对应的颜色特征。其中，例如，可以通过使用如“利用局部二值模式的脸部识别”(Ahonen T,Hadid A, M.Face Recognition with Local Binary Patterns,Computer Vision-ECCV 2004,European Conference on Computer Vision,Prague,Czech Republic,May11-14,2004.Proceedings.2014:469-481)中公开的方法的现有方法来提取各个被划分的块的LBP特征。作为另选方案，替代LBP特征，也可以提取其他种特征来获得此显著区域的对应的纹理特征，例如，HOG特征、SIFT特征。另外，替代纹理特征，也可以提取其他种特征作为此显著区域的对应的颜色特征，例如，颜色直方图。

然后，在表情确定单元340从各个“显著区域”提取对应的特征之后，表情确定单元340基于对应于确定的组的预先生成的第一模型和提取的特征来确定脸部区域中的脸部的表情。如上所述，一个预先定义的形状组对应于至少一个预先生成的第一模型，并且，对应的预先生成的第一模型包括以下模型中的至少一个：例如，用于识别“生气”表情的模型、用于识别“喜悦”表情的模型、用于识别“恐惧”表情的模型等。也就是说，确定的组对应于至少一个预先生成的第一模型，并且，各个预先生成的第一模型可以是二值分类器，其中，一个二值分类器可以判断脸部的表情是什么，例如“喜悦”表情或其他表情。取对应于K个预先生成的第一模型的确定的组为例，图7示意性地示出用于确定脸部的表情的图3所示的表情确定单元340的示例性处理。其中，图7所示的第一模型1至第一模型k是对应于确定的组的预先生成的第一模型，并且，被存储在图3所示的存储设备350中。

如图7所示，首先，基于提取的特征和各个第一模型，表情确定单元340获得具有置信度的一个对应识别结果。取第一模型1为例，对应的识别结果是具有对应的置信度的“生气”表情。然后，表情确定单元340确定具有最高置信度的识别结果作为脸部的表情。

最后，在表情确定单元340确定获取的3D图像中的脸部的表情之后，表情确定单元340经由系统总线280将识别结果(即，确定的表情)传输到图2所示的输出设备260，用于向用户显示识别结果。

接下来，将参照图8描述由图3所示的装置300的结构执行的整体处理。图8示意性地示出根据本发明的第一实施例的用于识别脸部表情的流程图800。

如上所述，首先，图2所示的输入设备250获取从电子设备(例如，图像获取装置)输出或由用户输入的图像。在本实施例中，3D图像将被取为示例，并且，获取的3D图像是具有脸部区域的3D脸部图像。其次，输入设备250经由系统总线280将获取的3D图像传输到特征点检测单元310。

然后，如图8所示，在特征点检测步骤S810中，特征点检测单元310通过系统总线280从输入设备250获取所获取的3D图像，并且检测获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的特征点(即，3D脸部特征点)。

在脸部形状确定步骤S820中，脸部形状确定单元320基于检测到的特征点来确定脸部区域中的脸部的脸部形状。例如，通过链接检测到的特征点的3D坐标获得的特征向量被确定为对应的脸部形状。

在组确定步骤S830中，组确定单元330基于确定的脸部形状和预先定义的形状组来确定脸部区域中的脸部所属的组，其中，预先定义的形状组对应于存储设备350中存储的至少一个预先生成的第一模型。在此第一实施例中，确定的组是脸部区域中的脸部的脸部形状所属的形状组。

在表情确定步骤S840中，表情确定单元340基于存储设备350中存储的对应于确定的组的预先生成的第一模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，至少一个区域是在对应于确定的组的预先生成的第一模型中标记出的区域。

在本发明的上述的第一实施例中，在生成预先生成的第一模型时，并且，在识别图像中的脸部的表情时，考虑不同脸部的脸部形状。因此，相对于具有不同脸部形状的脸部，从中提取用于识别脸部的表情的特征的“显著区域”将更加准确。此外，如上所述，除了2D方向中的信息以外，3D图像也可以提供3D方向中的信息。由此，从3D图像估计的脸部形状更加准确。因此，从中提取用于识别脸部表情的特征的“显著区域”将甚至更加准确。因此，将提高根据第一实施例的脸部表情识别的准确度。

考虑到除了不同脸部的脸部形状将影响上述的“显著区域”的准确度以外，不同脸部的脸部姿态也将影响上述的“显著区域”的准确度。为了进一步提高脸部表情识别的准确度，下文中将描述考虑不同脸部的脸部形状和不同脸部的脸部姿态二者的脸部表情识别。其中，脸部的脸部姿态由脸部相对于坐标的旋转角表示。取3D图像为例，脸部的脸部姿态由脸部相对于3D方向的旋转角表示。例如，图9所示的脸部的脸部姿态由偏航角(Yaw angle)、俯仰角(Pitch angle)和滚动角(Roll angle)表示。其中，偏航角是脸部相对于3D方向的x坐标的旋转角，俯仰角是脸部相对于3D方向的y坐标的旋转角，并且，滚动角是脸部相对于3D方向的z坐标的旋转角。

图10是示出根据本发明的第二实施例的用于识别脸部表情的装置1000的结构的框图。其中，图10中的一些块或全部块可以由专用的硬件实现。

在此第二实施例中，3D图像也将被取为示例。将图10与图3进行比较，图10所示的装置1000的主要差异如下：

第一，装置1000还包括脸部姿态确定单元1010。

第二，除了脸部的脸部形状以外，组确定单元1020在确定获取的3D图像的脸部区域中的脸部所属的组时还考虑脸部的脸部姿态。

第三，除了不同脸部的脸部形状以外，在生成存储设备1030中存储的预先生成的第二模型时，还考虑不同脸部的脸部姿态。

更具体地，如图10所示，在特征点检测单元310检测到获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的特征点之后，并且，在脸部形状确定单元320确定脸部区域中的脸部的脸部形状之后，脸部姿态确定单元1010基于检测到的特征点来确定脸部区域中的脸部的脸部姿态。其中，可以通过使用用于确定3D图像中的脸部姿态的现有方法来确定脸部姿态。例如，在本发明，脸部姿态确定单元1010通过使用在“基于脸部特征点和线性回归的3D脸部姿态估计”(Qiu L M.3D Face Pose Estimation Based on Face FeaturePoints and Linear Regression[J].Journal of Sanming University,2008)中公开的方法来确定脸部姿态。

然后，组确定单元1020基于确定的脸部形状、确定的脸部姿态、预先定义的形状组和预先定义的形状组中的预先定义的姿态组来确定脸部区域中的脸部所属的组，其中，预先定义的形状组中的预先定义的姿态组对应于存储设备1030中存储的至少一个预先生成的第二模型，并且，预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于3D方向的旋转角的角度范围。换句话说，在此第二实施例中，确定的组是脸部区域中的脸部的脸部形状和脸部的脸部姿态二者所属的形状组中的姿态组。其中，预先生成的第二模型、对应的预先定义的形状组和对应的预先定义的姿态组是通过使用下文中将参照图18详细地描述的生成方法获得的。

如上所述，不同脸部的脸部姿态将影响上述“显著区域”的准确度，并且，脸部的脸部姿态可以由偏航角、俯仰角和滚动角表示。因此，一个预先定义的姿态组可以由偏航角的角度范围、俯仰角的角度范围和滚动角的角度范围表示。另外，针对上述的“显著区域”的准确度，脸部的滚动角的作用可以通过图像旋转处理来被消除，因此，预先定义的姿态组通常由偏航角的角度范围和俯仰角的角度范围表示。图11示意性地示出一个预先定义的形状组(例如，形状组i)中的示例性的预先定义的姿态组。如图11所示，各个矩形区域表示一个预先定义的姿态组。取形状组i中的偏航角的角度范围是(0°,15°)且俯仰角的角度范围是(0°,15°)的姿态组为例，对应的预先生成的第二模型也包括以下模型中的至少一个：例如，用于识别“生气”表情的模型、用于识别“喜悦”表情的模型、用于识别“恐惧”表情的模型等。

在一种实现方式中，如图10所示，组确定单元1020包括形状组确定单元1021和姿态组选择单元1022。更具体地，首先，形状组确定单元1021基于由脸部形状确定单元320确定的脸部形状与预先定义的形状组的中心之间的距离来确定预先定义的形状组中的一个。其中，形状组确定单元1021的处理类似于如图3所述的形状组选择单元331的处理，因此，这里将不重复详细描述。然后，姿态组选择单元1022通过将确定的脸部姿态与确定的预先定义的形状组中的预先定义的姿态组的角度范围进行比较来选择确定的预先定义的形状组中的预先定义的姿态组中的一个作为确定的组。

取图11所示的输入图像为例，假设脸部姿态确定单元1010确定输入图像中的脸部的脸部姿态的偏航角是5°，并且，输入图像中的脸部的脸部姿态的俯仰角是0°，假设形状组确定单元1021确定输入图像的脸部的脸部形状属于预先定义的形状组i，因为脸部的偏航角和脸部的俯仰角都落入在角度范围(0°,15°)中，所以姿态组选择单元1022将选择其偏航角的角度范围是(0°,15°)和俯仰角的角度范围是(0°,15°)的预先定义的姿态组作为确定的组。

在组确定单元1020确定对应的组(即，形状组中的姿态组)之后，表情确定单元340基于存储设备1030中存储的对应于确定的组的预先生成的第二模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，所述至少一个区域是在对应于确定的组的预先生成的第二模型中标记出的区域。换句话说，从中提取用于脸部表情识别的特征的区域即是上述的“显著区域”。并且，在生成下文中将参照图18详细地描述的、对应的预先生成的第二模型时，将预先生成这些“显著区域”。

另外，由于图10所示的特征点检测单元310、脸部形状确定单元320和表情确定单元340与图3所示的特征点检测单元310、脸部形状确定单元320和表情确定单元340相同，所以这里将不重复详细描述。

接下来，将参照图12描述由图10所示的装置1000的结构执行的整体处理。图12示意性地示出根据本发明的第二实施例的用于识别脸部表情的流程图1200。

将图12与图8进行比较，图12所示的流程图1200的主要差异如下，其中，也将取3D图像为例：

第一，流程图1200还包括脸部姿态确定步骤S1210。

第二，除了脸部的脸部形状以外，组确定步骤S1220在确定获取的3D图像的脸部区域中的脸部所属的组时还考虑脸部的脸部姿态。

更具体地，如图12所示，在脸部形状确定步骤S820中脸部形状确定单元320确定获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的脸部形状之后，在脸部姿态确定步骤S1210中，脸部姿态确定单元1010基于检测到的特征点来确定脸部区域中的脸部的脸部姿态。

在组确定步骤S1220中，组确定单元1020基于确定的脸部形状、确定的脸部姿态、预先定义的形状组和预先定义的形状组中的预先定义的姿态组来确定脸部区域中的脸部所属的组，其中，预先定义的形状组中的预先定义的姿态组对应于存储设备1030中存储的至少一个预先生成的第二模型，并且，预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于3D方向的旋转角的角度范围。在此第二实施例中，确定的组是脸部区域中的脸部的脸部形状和脸部的脸部姿态二者所属的形状组中的姿态组。

然后，在表情确定步骤S840中，表情确定单元340基于存储设备1030中存储的对应于确定的组的预先生成的第二模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，所述至少一个区域是在对应于确定的组的预先生成的第二模型中标记出的区域。

另外，由于图12所示的步骤S810至S820和S840与图8所示的步骤S810至S820和S840相同，所以这里将不重复详细描述。

在本发明的上述第二实施例中，在组确定处理期间，首先将确定脸部的脸部形状所属的形状组，然后，将在确定的形状组中确定脸部的脸部姿态所属的姿态组。作为另选方案，在组确定处理期间，可以首先确定脸部的脸部姿态所属的姿态组，然后，可以在确定的姿态组中确定脸部的脸部形状所属的形状组。图13是示出根据本发明的第三实施例的用于识别脸部表情的装置1300的结构的框图。其中，图13中的一些块或全部块可以由专用的硬件实现。

在此第三实施例中，3D图像也将被取为示例。将图13与图10进行比较，图13所示的装置1300的主要差异在于组确定单元1310的处理和存储设备1320中存储的预先生成的第三模型。

更具体地，如图13所示，在脸部形状确定单元320确定获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的脸部形状之后，并且，在脸部姿态确定单元1010确定脸部区域中的脸部的脸部姿态之后，组确定单元1310基于确定的脸部形状、确定的脸部姿态、预先定义的姿态组和预先定义的姿态组中的预先定义的形状组来确定脸部区域中的脸部所属的组，其中，预先定义的姿态组中的预先定义的形状组对应于存储设备1320中存储的至少一个预先生成的第三模型，并且，预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于3D方向的旋转角的角度范围。换句话说，在此第三实施例中，确定的组是脸部区域中的脸部的脸部形状和脸部的脸部姿态二者所属的姿态组中的形状组。其中，预先生成的第三模型、对应的预先定义的形状组和对应的预先定义的姿态组是通过使用下文中将参照图19详细地描述的生成方法而获得的。

如上所述，针对3D图像，预先定义的姿态组通常由偏航角的角度范围和俯仰角的角度范围表示。图14示意性地示出一个预先定义的姿态组中的示例性的预先定义的形状组。取图14所示的其偏航角的角度范围是(0°,15°)且其俯仰角的角度范围是(0°,15°)的预先定义的姿态组为例，各个椭圆形区域表示此预先定义的姿态组中的一个预先定义的形状组。

在一种实现方式中，如图13所示，组确定单元1310包括姿态组确定单元1311和形状组选择单元1312。更具体地，首先，姿态组确定单元1311通过将确定的脸部姿态与预先定义的姿态组的角度范围进行比较来确定预先定义的姿态组中的一个。然后，形状组选择单元1312基于确定的脸部形状与确定的预先定义的姿态组中的预先定义的形状组的中心之间的距离，来选择确定的预先定义的姿态组中的预先定义的形状组中的一个作为确定的组。其中，形状组选择单元1312的处理类似于如图3所述的形状组选择单元331的处理，因此，这里将不重复详细描述。

取图14所示的输入图像为例，假设脸部姿态确定单元1010确定输入图像中的脸部的脸部姿态的偏航角是5°且输入图像中的脸部的脸部姿态的俯仰角是0°，姿态组确定单元1311将确定输入图像中的脸部的脸部姿态属于其偏航角的角度范围是(0°,15°)且其俯仰角的角度范围是(0°,15°)的预先定义的姿态组。并且，假设输入图像中的脸部的脸部形状属于预先定义的形状组i，形状组选择单元1312将选择确定的预先定义的姿态组中的预先定义的形状组i作为确定的组。

在组确定单元1310确定对应的组(即，姿态组中的形状组)之后，表情确定单元340基于存储设备1320中存储的对应于确定的组的预先生成的第三模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，所述至少一个区域是在对应于确定的组的预先生成的第三模型中标记出的区域。换句话说，从中提取用于脸部表情识别的特征的区域即是上述的“显著区域”。并且，在生成下文中将参照图19详细地描述的、对应的预先生成的第三模型时，将预先生成这些“显著区域”。

另外，由于图13所示的特征点检测单元310、脸部形状确定单元320、脸部姿态确定单元1010和表情确定单元340与图10所示的特征点检测单元310、脸部形状确定单元320、脸部姿态确定单元1010和表情确定单元340相同，所以这里将不重复详细描述。

接下来，将参照图15描述由图13所示的装置1300的结构执行的整体处理。图15示意性地示出根据本发明的第三实施例的用于识别脸部表情的流程图1500。

将图15与图12进行比较，图15所示的流程图1500的主要差异在于组确定步骤S1510的处理以及存储设备1320中存储的预先生成的第三模型。其中，也将取3D图像为例。

更具体地，如图15所示，在脸部形状确定单元320在脸部形状确定步骤S820中确定获取的3D图像(即，输入的3D图像)的脸部区域中的脸部的脸部形状之后，并且，在脸部姿态确定单元1010在脸部姿态确定步骤S1210中确定脸部区域中的脸部的脸部姿态之后，在组确定步骤S1510中，组确定单元1310基于确定的脸部形状、确定的脸部姿态、预先定义的姿态组和预先定义的姿态组中的预先定义的形状组来确定脸部区域中的脸部所属的组，其中，预先定义的姿态组中的预先定义的形状组中对应于存储设备1320中存储的至少一个预先生成的第三模型，并且，预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于3D方向的旋转角的角度范围。换句话说，在此第三实施例中，确定的组是脸部区域中的脸部的脸部形状和脸部的脸部姿态二者所属的姿态组中的形状组。

然后，在表情确定步骤S840中，表情确定单元340基于存储设备1320中存储的对应于确定的组的预先生成的第三模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情。其中，所述至少一个区域是在对应于确定的组的预先生成的第三模型中标记出的区域。

另外，由于图15所示的步骤S810至S820、S840和S1210与图12所示的步骤S810至S820、S840和S1210相同，所以这里将不重复详细描述。

在本发明的上述的第二实施例和第三实施例中，在生成预先生成的第二模型/第三模型时，并且，在识别图像中的脸部的表情时，考虑不同脸部的脸部形状和不同脸部的脸部姿态二者。因此，相对于具有不同脸部形状和具有不同脸部姿态的脸部，从中提取用于识别脸部的表情的特征的“显著区域”将更加准确。此外，如上所述，除了2D方向中的信息以外，3D图像也可以提供3D方向中的信息。因此，从3D图像估计的脸部形状更加准确。从而，从中提取用于识别脸部表情的特征的“显著区域”将甚至更加准确。因此，将进一步提高根据第二实施例和第三实施例的脸部表情识别的准确度。

(第一/第二/第三模型生成)

在本发明的上述的第一实施例中，考虑不同脸部的脸部形状。为了生成可用于本发明的对应的第一模型，可以通过使用参照图16的生成方法从多个样本图像预先生成第一模型。图16是示意性地示出用于生成可用于本发明的第一模型的生成方法的流程图1600。参照图16的生成方法也可以通过图2所示的硬件结构200来执行。

如图16所示，首先，如图2所示的CPU 210通过输入设备250获取由制造者输入的多个样本图像。其中，基于经验或先验知识，标记出各个样本图像中的脸部区域。在下文中，将取3D样本图像为例。

然后，在步骤S1610中，CPU 210检测在多个3D样本图像中标记出的脸部区域中的脸部的特征点。如上所述，也可以通过使用用于从3D图像检测特征点的现有方法来从标记的脸部区域检测特征点。

在步骤S1620中，CPU 210基于检测到的特征点来确定标记的脸部区域中的脸部的脸部形状。如上所述，针对一个标记的脸部区域中的一个脸部，通过链接对应的检测到的特征点的3D坐标获得的特征向量可以被确定为对应的脸部形状。另外，也可以基于对应的检测到的特征点和预先生成的形状模型，来确定对应的脸部形状。

在步骤S1630中，CPU 210通过使用如K-均值法(K-means method)、FCM(Fuzzy C-Means，模糊C均值)法等现有的聚类方法对标记的脸部区域中的脸部的脸部形状进行聚类。其中，在聚类处理期间，针对各个聚类的结果，对于此聚类的结果将自动地生成对应的中心。并且，具有对应的中心的聚类结果被视为预先定义的形状组。

在步骤S1640中，针对各个预先定义的形状组，CPU 210基于对应的3D样本图像，生成对应的预先生成的第一模型，其中，这些3D样本图像的标记的脸部区域中的脸部的脸部形状属于该预先定义的形状组。其中，各个预先生成的第一模型包括具有标记的区域的至少一个分类器，并且，所述分类器基于从对应的3D样本图像当中的对应的标记的区域提取的特征而生成。

如上所述，各个预先定义的形状组对应于至少一个预先生成的第一模型，并且，各个预先生成的第一模型可以识别指定的表情(例如，“生气”表情)。图17示意性地示出与一个预先定义的形状组对应的预先生成的第一模型的示例性结构。如图17所示，此预先定义的形状组对应于k个预先生成的第一模型，并且，各个预先生成的第一模型包括具有标记的区域的n个分类器。也就是说，各个预先生成的第一模型是对应的n个分类器的总体。另外，本领域的技术人员将理解，上述的示例性结构仅仅是示范性的而不是限制性的。例如，各个预先生成的第一模型可以包括不同数量的分类器。

在一种实现方式中，针对一个预先生成的第一模型，此预先生成的第一模型的分类器中的至少一个是通过例如在“具有AdaBoost的实时脸部表情识别”(Y.Wang,H.Ai,B.Wuand C.Huang,“Real Time Facial Expression Recognition with AdaBoost”,Proc.17thInt',l Conf.Pattern Recognition,2004)中公开的方法的现有boosting方法生成的。

更具体地，首先，CPU 210对对应的3D样本图像进行加权。例如，在此预先生成的第一模型是用于识别“生气”表情的模型的情况下，对应的3D样本图像是相对于“生气”表情的3D样本图像。另外，可以基于经验或先验知识来设置各个3D样本图像的加权因子。

其次，CPU 210从各个加权的3D样本图像获得至少一个候选区域。例如，通过使用图像扫描方法来获得候选区域，其中，图像扫描方法的主要构思是利用预定大小的扫描窗口扫描各个3D样本图像并从3D样本图像的原点以预定的步长宽度(step width)移动该扫描窗口。

然后，针对加权的3D样本图像当中的具有相同位置的候选区域，CPU 210基于从这些候选区域提取的特征来生成具有分类误差的候选分类器。其中，分类误差表示错误分类结果的数量与3D样本图像的数量之比。另外，通过使用诸如支持向量机(Support VectorMachine，SVM)的现有机器学习方法来生成各个候选分类器。并且，如上所述，提取的特征是例如脸部的深度特征(即，3D特征)和/或脸部的颜色特征(即，2D特征)。

最后，CPU 210选择具有最小的分类误差的候选分类器作为此预先生成的第一模型的一个分类器。其中，如下的区域被视为此分类器的标记区域(即，上述的“显著区域”)，该区域的位置对应于用来生成此分类器的候选区域的位置。

在本发明的上述的第二实施例和第三实施例中，考虑不同脸部的脸部形状和不同脸部的脸部姿态二者。为了生成可用于本发明的对应的第二模型和第三模型，可以通过使用参照图18的生成方法从多个样本图像预先生成第二模型，并且，可以通过使用参照图19的生成方法从多个样本图像预先生成第三模型。

图18是示意性地示出用于生成可用于本发明中的第二模型的生成方法的流程图1800。参照图18的生成方法也可以通过图2所示的硬件结构200来执行。在下文中，也将取3D样本图像为例。

将图18与图16进行比较，在CPU 210在步骤S1630中获得预先定义的形状组之后，在步骤S1810中，针对各个预先定义的形状组，CPU 210基于标记的脸部区域中的如下的脸部的检测到的特征点，来确定标记的脸部区域中的脸部的脸部姿态，该脸部的脸部形状被聚类到此预先定义的形状组。如上所述，也可以通过使用用于确定3D图像中的脸部姿态的现有方法来确定对应的脸部姿态。

在步骤S1820中，针对各个预先定义的形状组，CPU 210基于脸部相对于3D方向的旋转角的预先定义的角度间隔对标记的脸部区域中的脸部的对应的脸部姿态进行分组，并将分组结果视为此预先定义的形状组中的预先定义的姿态组。如上所述，一个预先定义的姿态组可以由偏航角的角度范围、俯仰角的角度范围和滚动角的角度范围表示。取各个旋转角的角度间隔是15°为例，示例性的预先定义的姿态组可以是其偏航角的角度范围是(0°,15°)、俯仰角的角度范围是(0°,15°)和滚动角的角度范围是(0°,15°)的组。

然后，在步骤S1830中，针对各个预先定义的形状组中的各个预先定义的姿态组，CPU 210基于对应的3D样本图像生成对应的预先生成的第二模型，其中，这些3D样本图像的标记的脸部区域中的脸部的脸部形状属于此预先定义的形状组，并且，这些3D样本图像的标记的脸部区域中的脸部的脸部姿态属于此预先定义的姿态组。其中，各个预先生成的第二模型包括具有标记的区域(即，上述的“显著区域”)的至少一个分类器，并且，所述分类器基于从对应的三维样本图像当中的对应的标记的区域提取的特征而生成。

由于图18所示的步骤S1610至S1630与图16所示的步骤S1610至S1630相同，并且，图18所示的步骤S1830的处理与图16所示的步骤S1640的处理相同，所以这里将不重复详细描述。

图19是示意性地示出用于生成可用于本发明的第三模型的生成方法的流程图1900。参照图19的生成方法也可以通过图2所示的硬件结构200来执行。在下文中，也将取3D样本图像为例。

将图19与图18进行比较，图19所示的流程图1900的主要差异在于首先确定姿态组，然后确定各个姿态组中的对应的形状组，而不是首先确定形状组，然后确定各个形状组中的对应的姿态组。

如图19所示，在CPU 210在步骤S1610中检测到脸部的特征点之后，在步骤S1910中，CPU 210基于检测到的特征点来确定标记的脸部区域中的脸部的脸部姿态。

在步骤S1920中，CPU 210基于脸部相对于3D方向的旋转角的预先定义的角度间隔来对标记的脸部区域中的脸部的脸部姿态进行分组，并将分组结果视为预先定义的姿态组。

在步骤S1930中，针对各个预先定义的姿态组，CPU 210基于标记的脸部区域中的如下的脸部的检测到的特征点，确定标记的脸部区域中的脸部的脸部形状，该脸部的脸部姿态被分组到此预先定义的姿态组中。

在步骤S1940中，针对各个预先定义的姿态组，CPU 210对标记的脸部区域中的脸部的对应的脸部形状进行聚类，并且，将具有中心的聚类结果视为此预先定义的姿态组中的预先定义的形状组。

然后，在步骤S1950中，针对各个预先定义的姿态组中的各个预先定义的形状组，CPU 210基于对应的3D样本图像生成对应的预先生成的第三模型，其中，这些3D样本图像的标记的脸部区域中的脸部的脸部姿态属于此预先定义的姿态组，并且，这些3D样本图像的标记的脸部区域中的脸部的脸部形状属于此预先定义的形状组。其中，各个预先生成的第三模型包括具有标记的区域(即，上述的“显著区域”)的至少一个分类器，并且，所述分类器基于从对应的3D样本图像当中的对应的标记的区域提取的特征而生成。

由于图19所示的步骤S1610与图16所示的步骤S1610相同，图19所示的步骤S1910至S1920的处理与图18所示的步骤S1810至S1820的处理，并且，步骤S1930至S1950的处理与图16所示的步骤S1620至S1640的处理相同，所以这里将不重复详细描述。

(图像处理装置或系统)

在上述实施例中，由图2所示的输入设备250获取的图像是具有脸部区域的图像。也就是说，在上述实施例中，假设从该图像已经检测到脸部区域。然而，一般地，从电子设备(例如，图像获取装置)输出或由用户输入的图像是尚未检测到脸部区域的图像。因此，作为上述脸部表情识别的示例性应用，接下来将参照图20描述示例性图像处理装置。图20示出根据本发明的示例性图像处理装置2000的布置。

如图20所示，根据本发明的图像处理装置2000包括检测装置2010和图3所示的上述装置300或图10所示的上述装置1000或图13所示的上述装置1300。在一个实例中，检测装置2010和装置300/1000/1300可以经由系统总线(未示出)相互连接。在另一个实例中，检测装置2010和装置300/1000/1300可以经由网络(未示出)相互连接。

首先，检测装置2010接收从电子设备(例如，图像获取装置)输出或由用户输入的图像。然后，检测装置2010通过使用例如预先生成的脸部检测器从接收到的图像检测至少一个脸部区域。并且，预先生成的脸部检测器可以被存储在图3所示的存储设备350、图10所示的存储设备1030或者图13所示的存储设备1320中。例如，检测到的脸部区域包括可以表示接收到的图像上的脸部位置的四个点(即，左上点，左下点，右上点和右下点)。

然后，装置300/1000/1300根据参照图3至图15的上述描述来识别检测到的脸部区域中的脸部的表情。

另外，作为上述图像处理装置2000的示例性应用，接下来将参照图21描述示例性图像处理系统。图21示出根据本发明的示例性图像处理系统2100的布置。

如图21所示，根据本发明的图像处理系统2100包括图像获取装置2110和上述的图像处理装置2000，其中，图像获取装置2110和上述的图像处理装置2000经由网络2120相互连接。作为另选方案，图像获取装置2110和上述的图像处理装置2000也可以经由系统总线(未示出)相互连接。另外，图像处理装置2000包括检测装置2010和上述的装置300/1000/1300。

首先，图像获取装置2110获取例如人的至少一个图像。例如，图像获取装置2110是3D图像获取设备。

然后，图像处理装置2000通过网络2120从图像获取装置2110获取图像。并且，图像处理装置2000根据参照图20的上述描述，从获取的图像检测脸部区域，并且识别检测到的脸部区域中的脸部的表情。

取应用上述的图像处理系统2100的3D服装店为例，在客户正试穿各种衣服的情况下，在试穿活动期间，图像获取装置2110将获取该客户的对应的3D图像，并且，图像处理装置2000将识别此客户的表情。因此，基于识别的各个客户的表情，3D服装店可以分析例如哪种衣服最受欢迎，这对于3D服装店做出相应的销售决策有用的。

上述的所有的单元都是用于实现本公开中所述的处理的示例性的和/或优选的模块。这些单元可以是硬件单元(例如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(例如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在进行某一处理的步骤时，可以存在用于实现该同一处理的对应的功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案都包括在本申请的公开中，只要它们所构成的技术方案是完整的且适用的即可。

可以通过很多方式来实施本发明的装置和方法。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。本方法的步骤的上述顺序仅旨在是说明性的，并且，本发明的方法的步骤不局限于上述具体描述的顺序，除非另有具体说明。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域技术人员应该理解，上述示例仅旨在是说明性的，而不限制本发明的范围。本领域的技术人员应该理解，可以在不脱离本发明的范围和精神的情况下对上述实施例进行修改。本发明的范围由所附权利要求限定。

Claims

1.一种用于识别输入图像的脸部区域中的脸部的表情的装置，所述装置包括：

特征点检测单元，其被构造为，检测输入图像的脸部区域中的脸部的特征点；

脸部形状确定单元，其被构造为，基于检测到的特征点，来确定脸部区域中的脸部的脸部形状；

组确定单元，其被构造为，基于确定的脸部形状和预先定义的形状组，来确定脸部区域中的脸部所属的组；以及

表情确定单元，其被构造为，基于与确定的组对应的至少一个预先生成的第一模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的第一模型中标记出的区域。

2.根据权利要求1所述的装置，其中，所述组确定单元包括：

形状组选择单元，其被构造为，基于确定的脸部形状与预先定义的形状组的中心之间的距离，来选择预先定义的形状组中的一个，作为所述确定的组。

3.根据权利要求2所述的装置，其中，所述预先生成的第一模型通过以下步骤而生成：

检测在多个样本图像中标记出的脸部区域中的脸部的特征点；

基于检测到的特征点，来确定标记的脸部区域中的脸部的脸部形状；

对标记的脸部区域中的脸部的脸部形状进行聚类，并且，将具有所述中心的聚类结果视为预先定义的形状组；

针对各个预先定义的形状组，基于对应的样本图像，生成对应的预先生成的第一模型，其中，这些样本图像的标记的脸部区域中的脸部的脸部形状属于此预先定义的形状组；

其中，各个预先生成的第一模型包括具有标记的区域的至少一个分类器，并且，所述分类器基于从对应的样本图像当中的对应的标记的区域提取的特征而生成。

4.根据权利要求1所述的装置，所述装置还包括：

脸部姿态确定单元，其被构造为，基于检测到的特征点，来确定脸部区域中的脸部的脸部姿态；

其中，所述组确定单元基于确定的脸部形状、确定的脸部姿态、预先定义的形状组和预先定义的形状组当中的预先定义的姿态组，来确定脸部区域中的脸部所属的组，其中，所述预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于坐标的旋转角的角度范围；并且

所述表情确定单元基于与确定的组对应的至少一个预先生成的第二模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的所述预先生成的第二模型中标记出的区域。

5.根据权利要求4所述的装置，其中，所述组确定单元包括：

形状组确定单元，其被构造为，基于确定的脸部形状与预先定义的形状组的中心之间的距离，来确定预先定义的形状组中的一个；

姿态组选择单元，其被构造为，通过将确定的脸部姿态与确定的预先定义的形状组中的预先定义的姿态组的角度范围进行比较，来选择确定的预先定义的形状组中的预先定义的姿态组中的一个，作为所述确定的组。

6.根据权利要求5所述的装置，其中，所述预先生成的第二模型通过以下步骤而生成：

针对各个预先定义的形状组，基于标记的脸部区域中的脸部形状被聚类到此预先定义的形状组中的脸部的检测到的特征点，确定标记的脸部区域中的脸部的脸部姿态；

针对各个预先定义的形状组，基于脸部相对于坐标的旋转角的预先定义的角度间隔对标记的脸部区域中的脸部的对应的脸部姿态进行分组，并将分组结果视为此预先定义的形状组中的预先定义的姿态组；

针对各个预先定义的形状组中的各个预先定义的姿态组，基于对应的样本图像生成对应的预先生成的第二模型，其中，这些样本图像的标记的脸部区域中的脸部的脸部形状属于此预先定义的形状组，并且，这些样本图像的标记的脸部区域中的脸部的脸部姿态属于此预先定义的姿态组；

其中，各个所述预先生成的第二模型包括具有标记的区域的至少一个分类器，并且，所述分类器基于从对应的样本图像当中的对应的标记的区域提取的特征而生成。

7.根据权利要求3或权利要求6所述的装置，其中，所述预先生成的第一模型中的或者所述预先生成的第二模型中的至少一个分类器通过以下步骤而生成：

对对应的样本图像进行加权；

从各个加权的样本图像获得至少一个候选区域；

针对加权的样本图像当中的具有相同位置的候选区域，基于从这些候选区域提取的特征，来生成具有分类误差的候选分类器；

选择具有最小分类误差的候选分类器作为相应的分类器；

其中，位置对应于用来生成此分类器的候选区域的位置的区域被视为此分类器的标记区域。

8.根据权利要求1或权利要求4所述的装置，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征。

9.根据权利要求1或权利要求4所述的装置，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征和颜色特征。

10.一种用于识别输入图像的脸部区域中的脸部的表情的装置，所述装置包括：

组确定单元，其被构造为，基于确定的脸部形状、确定的脸部姿态、预先定义的姿态组和预先定义的姿态组当中的预先定义的形状组，来确定脸部区域中的脸部所属的组，其中，所述预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于坐标的旋转角的角度范围；以及

表情确定单元，其被构造为，基于与确定的组对应的至少一个预先生成的模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的模型中标记出的区域。

11.根据权利要求10所述的装置，其中，所述组确定单元包括：

姿态组确定单元，其被构造为，通过将确定的脸部姿态与预先定义的姿态组的角度范围进行比较，来确定预先定义的姿态组中的一个；

形状组选择单元，其被构造为，基于确定的脸部形状与确定的预先定义的姿态组中的预先定义的形状组的中心之间的距离，来选择确定的预先定义的姿态组中的预先定义的形状组中的一个，作为所述确定的组。

12.根据权利要求11所述的装置，其中，所述预先生成的模型通过以下步骤而生成：

基于检测到的特征点，来确定标记的脸部区域中的脸部的脸部姿态；

基于脸部相对于坐标的旋转角的预先定义的角度间隔对标记的脸部区域中的脸部的脸部姿态进行分组，并将分组结果视为预先定义的姿态组；

针对各个预先定义的姿态组，基于标记的脸部区域中的脸部姿态被分组到此预先定义的姿态组中的脸部的检测到的特征点，确定标记的脸部区域中的脸部的脸部形状；

针对各个预先定义的姿态组，对标记的脸部区域中的脸部的对应的脸部形状进行聚类，并将具有所述中心的聚类结果视为此预先定义的姿态组中的预先定义的形状组；

针对各个预先定义的姿态组中的各个预先定义的形状组，基于对应的样本图像生成对应的预先生成的模型，其中，这些样本图像的标记的脸部区域中的脸部的脸部姿态属于此预先定义的姿态组，并且，这些样本图像的标记的脸部区域中的脸部的脸部形状属于此预先定义的形状组；

其中，各个预先生成的模型包括具有标记的区域的至少一个分类器，并且，所述分类器基于从对应的样本图像当中的对应的标记区域提取的特征而生成。

13.根据权利要求10所述的装置，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征。

14.根据权利要求10所述的装置，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征和颜色特征。

15.一种用于识别输入图像的脸部区域中的脸部的表情的方法，所述方法包括：

特征点检测步骤，检测输入图像的脸部区域中的脸部的特征点；

脸部形状确定步骤，基于检测到的特征点，来确定脸部区域中的脸部的脸部形状；

组确定步骤，基于确定的脸部形状和预先定义的形状组，来确定脸部区域中的脸部所属的组；以及

表情确定步骤，基于与确定的组对应的至少一个预先生成的第一模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的第一模型中标记出的区域。

16.根据权利要求15所述的方法，所述方法还包括：

脸部姿态确定步骤，基于检测到的特征点，来确定脸部区域中的脸部的脸部姿态；

其中，在所述组确定步骤中，基于确定的脸部形状、确定的脸部姿态、预先定义的形状组和预先定义的形状组当中的预先定义的姿态组，来确定脸部区域中的脸部所属的组，其中，所述预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于坐标的旋转角的角度范围；并且

在所述表情确定步骤中，基于与确定的组对应的至少一个预先生成的第二模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的第二模型中标记出的区域。

17.根据权利要求15或权利要求16所述的方法，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征和颜色特征。

18.一种用于识别输入图像的脸部区域中的脸部的表情的方法，所述方法包括：

组确定步骤，基于确定的脸部形状、确定的脸部姿态、预先定义的姿态组和预先定义的姿态组当中的预先定义的形状组，来确定脸部区域中的脸部所属的组，其中，所述预先定义的姿态组表示所述预先定义的姿态组中的脸部相对于坐标的旋转角的角度范围；以及

表情确定步骤，基于与确定的组对应的至少一个预先生成的模型、和从脸部区域中的至少一个区域提取的特征，来确定脸部区域中的脸部的表情，其中，所述至少一个区域是在与确定的组对应的预先生成的模型中标记出的区域。

19.根据权利要求18所述的方法，其中，针对三维图像，提取的特征是输入图像中的脸部的深度特征和颜色特征。

20.一种图像处理装置，所述图像处理装置包括：

检测装置，其被构造为从输入图像检测至少一个脸部区域；

根据权利要求1至14中的任一项所述的装置，其被构造为识别检测到的脸部区域中的脸部的表情。

21.一种图像处理系统，所述图像处理系统包括：

图像获取装置，其被构造为获取至少一个图像；

图像处理装置，其包括：

检测装置，其被构造为从获取的图像检测至少一个脸部区域；