CN103425964A

CN103425964A - 图像处理设备、图像处理方法及计算机程序

Info

Publication number: CN103425964A
Application number: CN2013101796269A
Authority: CN
Inventors: 藤原达雄
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-05-22
Filing date: 2013-05-15
Publication date: 2013-12-04
Anticipated expiration: 2033-05-15
Also published as: US20130314437A1; CN103425964B; US9443325B2; JP5895703B2; JP2013242757A

Abstract

提供一种图像处理设备、图像处理方法以及计算机程序，该图像处理设备包括：模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；偏离区域检测部，在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与模型信息具有差异；以及投影部，在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

Description

图像处理设备、图像处理方法及计算机程序

技术领域

本公开内容涉及通过其对输入图像中包括变形部分的对象形状进行识别与估计的一种图像处理设备、图像处理方法以及计算机程序，并且具体地涉及通过其将预先获取的多个形状信息分解成基空间（basis space）以及通过执行到基空间上的投影和反向投影（back projection）对输入图像中所包括的对象形状中的任何一个进行识别与估计的一种图像处理设备、图像处理方法以及计算机程序。

背景技术

“主动形状模型（ASM）”和“主动外观模型（AAM）”被认为是对视觉事件建模的技术。这些技术使用按照如下方式所执行的预学习：通过统计分析（诸如主成分分析（PCA）或独立成分分析（ICA））使多个给定的形状信息（在面部图像中限定的多个特征点的位置（坐标）、像素值（诸如亮度值）等）被分解成（投影至）多个基空间并且被登记（例如，参见：T.F.Cootes and C.J.Taylor,“Active shape models”,In D.Hogg andR.Boyle,editors,3rd British Machine Vision Conference,pages266-275,Springer-Verlag,Sept.1992;以及T.F.Cootes,G.J.Edwards,and C.J.Taylor,“Active Appearance Models”,in Proc.European Conference onComputer Vision1998(H.Burkhardt & Neumann Ed.s).Vol.2,pp.484-498,Springer,1998）。另外，该技术使得可以通过对所登记的基空间进行组合（对所登记的基空间执行反向投影）来表示某一形状，并且因此可以对包括变形部分的对象（诸如面部）的形状进行识别与估计。而且，ASM/AAM使得可以按照变形的方式（例如，人的面部朝向发生改变、或眼睛或嘴巴中的任何一个的打开程度发生改变）来表示面部。

例如，提出了一种通过使用AAM按照下面的方式来设置形状模型和纹理模型的图像处理设备。独立地设置示出面部纹理的特定特征的特定特征模型，并且对于除特定特征之外的纹理设置校正纹理模型。然后，将特定特征模型和校正纹理模型相互组合以由此设置具有高的准确度和效率的纹理模型（例如，参见JP2010-244321A）。

还提出了一种通过使用AAM按照下面的方式对图像中所包括的面部的特征部分进行定位的图像处理设备。将纹理校正应用至参考面部图像和目标面部图像中的至少一个以使得参考面部图像与目标面部图像的面部纹理彼此接近，然后基于参考面部图像和目标面部图像中已经经历了纹理校正的面部图像来计算特征部分的可靠性（例如，参见JP2010-244318A）。

ASM/AAM具有以下优点：重复对任意形状分布的投影和反向投影导致了接近于预先所登记的形状的输出（即，成形的输出）。另外，ASM/AAM使得可以轻易地并且快速地实施从输入图像中所包括的面部区域追踪或拟合主要特征部分（面部部分）的处理。

然而，通过其将预先获取的多个形状信息分解成基空间并且通过对该基空间进行组合来表示某一形状的方法（诸如ASM/AAM）具有下面的缺点。

（1）当输入图像中的目标对象的形状（特征点）的一部分位于很大程度地偏离原始位置的位置处时，该对象的整个形状受偏离值影响并且发生移位。

（2）当通过使用图像中的局部特征量来对形状（特征点）的位置进行估计时，难以对缺乏特征（诸如边缘或纹理）的区域进行定位。

发明内容

期望提供一种图像处理设备、图像处理方法以及计算机程序，该图像处理设备、图像处理方法以及计算机程序是优异的，并且即使输入图像中所包括的形状的一部分位于很大程度地偏离原始位置的位置处，也能够通过对从多个形状信息预先获取的基空间进行组合来准确地识别与估计该形状，而不受偏离点的影响。

还期望提供一种图像处理设备、图像处理方法以及计算机程序，该图像处理设备、图像处理方法以及计算机程序是优异的，并且甚至能够通过对从多个形状信息预先获取的基空间进行组合来准确地识别与估计包括缺乏特征的区域的形状。

根据本技术的实施方式，提供一种图像处理设备，该图像处理设备包括：模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；偏离区域检测部，在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与模型信息具有差异；以及投影部，在对该偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式，基空间可以包括预先获取的多个形状信息的平均形状和基成分（basis component），并且偏离区域检测部可以在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与平均形状具有差异。

根据本技术的实施方式，模型信息可以包括纹理模型和在其中形状信息被分解成基空间的形状模型，该形状信息与在目标对象的形状中限定的多个特征点的坐标位置有关，该纹理模型与特征点中的每个特征点的纹理信息有关。图像处理设备还可以包括纹理模型匹配处理部，其基于成本计算来在输入图像中搜索每个特征点的位置，该成本是输入图像与纹理模型之间的纹理信息的差异，并且偏离区域检测部可以将具有等于或高于预定阈值的成本的特征点中的任意特征点判定为偏离点，该成本由纹理模型匹配处理部所计算。

根据本技术的实施方式，提供一种图像处理设备，该图像处理设备包括：模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；偏离区域检测部，在输入图像中的目标对象的形状中检测预先指定的偏离区域；以及投影部，在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式，模型信息可以包括纹理模型和在其中形状信息被分解成基空间的形状模型，该形状信息与在目标对象的形状中限定的多个特征点的坐标位置有关，该纹理模型与特征点中的每个特征点的纹理信息有关。缺乏纹理信息的特征点中的任意特征点可以被预先指定为偏离点。

根据本技术的实施方式，图像处理设备还可以包括纹理模型匹配处理部，该纹理模型匹配处理部基于成本计算来在输入图像中搜索每个特征点的位置，该成本是输入图像与纹理模型之间的纹理信息的差异。纹理模型匹配处理部可以省略用于被预先指定为偏离点的特征点的处理。

根据本技术的实施方式，模型信息获取部可以获取通过主成分分析或独立成分分析将预先获取的多个形状信息分解成的基空间作为模型信息。

根据本技术的实施方式，提供一种图像处理方法，该图像处理方法包括：获取在其中预先获取的多个形状信息被分解成基空间的模型信息；在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与模型信息具有差异；以及在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式，提供一种图像处理方法，该图像处理方法包括：获取在其中预先获取的多个形状信息被分解成基空间的模型信息；在输入图像中的目标对象的形状中检测预先指定的偏离区域；以及在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式，提供一种图像处理设备，该图像处理设备包括：图像输入部，输入包括目标对象的图像；偏离区域检测部，在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与在其中预先获取的多个形状信息被分解成基空间的模型信息具有差异；处理请求部，将关于所检测到的偏离区域的信息传送至服务器，并且请求服务器通过将形状投影到基空间上来进行对输入图像中的目标对象的形状进行估计的处理；以及处理结果接收部，从服务器接收对输入图像中的目标对象的形状进行估计的结果，该结果是通过在对形状中的偏离区域进行掩盖之后将该形状投影到基空间上而获得的。

根据本技术的实施方式，提供一种图像处理设备，该图像处理设备包括：图像输入部，输入包括目标对象的图像；处理请求部，将关于预先指定的偏离区域的信息传送至服务器，并且请求服务器通过将形状投影到将预先获取的多个形状信息分解成的基空间上来进行对输入图像中的目标对象的形状进行估计的处理；以及处理结果接收部，从服务器接收对输入图像中的目标对象的形状进行估计的结果，该结果是通过在对形状中的偏离区域进行掩盖之后将该形状投影到基空间上而获得的。

根据本技术的实施方式，提供一种以计算机可读格式描述的计算机程序，该计算机程序使计算机用作：模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；偏离区域检测部，在输入图像中的目标对象的形状中检测偏离区域，该偏离区域与模型信息具有差异；以及投影部，在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式，提供一种以计算机可读格式描述的计算机程序，该计算机程序使计算机用作：模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；偏离区域检测部，在输入图像中的目标对象的形状中检测预先指定的偏离区域；以及投影部，在对偏离区域进行掩盖之后将输入图像中的目标对象的形状投影到基空间上。

根据本技术的实施方式的计算机程序是以计算机可读格式描述的计算机程序，使得可以在计算机上执行预定处理。换句话说，通过将根据实施方式的计算机程序中的任意程序安装在计算机上，在计算机上施加协同动作，并且可以获得与根据实施方式的前述图像处理设备相同的操作和效果。

根据本文中所公开的技术，提供一种图像处理设备、图像处理方法以及计算机程序，该图像处理设备、图像处理方法以及计算机程序是优异的并且能够按照以下方式准确地识别与估计输入图像中所包括的形状：通过在对形状中很大程度地偏离原始位置的区域进行掩盖之后执行到基空间上的投影来消除由于覆盖对象、光照或阴影的影响导致形状偏离的现象。

另外，根据本文中所公开的技术，提供一种图像处理设备、图像处理方法以及计算机程序，该图像处理设备、图像处理方法以及计算机程序是优异的，并且即使输入图像中所包括的形状包括缺乏特征的区域也能够在对偏离区域进行掩盖之后通过执行到基空间上的投影来准确地识别与估计该形状。

本文中所公开的技术的其它要求、特征以及优点将在基于实施方式（稍后描述）和附图的更加详细的说明书中变得明显。

附图说明

图1是示意性地示出可适用本文中所公开的技术的实施方式的图像处理设备100的硬件配置的图；

图2是示意性地示出在图像处理设备100上所执行的图像处理程序的功能配置的图；

图3是示出通过对多个学习坐标的坐标向量执行主成分分析所获取的平均向量s₀和形状向量s₁，s₂，…的图；

图4是示出如何在形状s与基空间之间执行投影和反向投影的图；

图5是用于说明预先学习的纹理模型（局部纹理模型）的图；

图6是示意性地示出识别与估计处理部220的功能配置的图；

图7是用于说明在面部区域与局部纹理模型之间所执行的匹配处理的图；

图8示出了说明作为具有用手覆盖面部的一部分的主体的个人的输入图像中的偏离点的图像；

图9是示出包括对偏离点进行掩盖的识别与估计处理的序列的流程图；

图10示出了说明对输入图像执行图9中所示的识别与估计处理的结果的视图，该输入图像包括转向各个方向、表情发生改变以及用手部分地覆盖的面部的形状；

图11是示出包括对预先指定的偏离点进行掩盖的识别与估计处理的序列的流程图；

图12是示出了说明对输入图像执行图11中所示的识别与估计处理的结果的视图，该输入图像包括转向各个方向以及表情发生改变的面部的形状；

图13是示出图像处理设备100协同服务器对对象的形状执行识别与估计处理的系统的配置示例的图；

图14是示出图像处理设备100协同服务器对对象的形状执行识别与估计处理的系统的配置示例的图；以及

图15示出了说明面部转向各个方向时所拍摄的个人的学习图像的视图。

具体实施方式

在下文中，将参照附图详细地描述本公开内容的优选实施方式。

图1示意性地示出了可适用本文中所公开的技术的实施方式的图像处理设备100的硬件配置。图1中所示的图像处理设备100包括中央处理单元（CPU）110、存储部120、通信部130、图像输入部140、图像输出部150、操作部160以及显示部170。

CPU110通过执行各种程序代码以及图像处理程序来控制图像处理设备100中的各个部分的操作。

存储部120基于以下概念：存储部包括内部存储器（诸如随机存取存储器（RAM）和只读存储器（ROM））、大容量存储装置（诸如硬盘驱动器）以及数字通用光盘（DVD）记录和再现设备等。大容量存储设备存储操作系统、程序代码（诸如由CPU110所执行的图像处理程序）以及在图像识别中所使用的预学习数据和各种数据的文件。CPU110通过将程序代码载入RAM中来执行大容量存储设备中的程序代码。

通信部130由网络接口等构成，并且用于执行：各种应用程序和图像处理程序以及预学习数据和其它数据的文件的下载；由图像处理设备100所获取的预学习数据的上载或由图像处理设备100所获取的预学习数据到网络设备的传输；图像处理的执行结果（例如，对输入图像进行识别的结果）的上载或图像处理的执行结果（例如，对输入图像进行识别的结果）到网络设备的传输，等等。

图像输入部140由摄像装置或扫描仪构成，并且用于输入作为图像处理（诸如对象的形状的识别与估计）的目标的图像。然而，处理目标图像可以通过通信部130而从网络上的另外的设备获取。

图像输出部150由打印机等构成，并且执行：将从图像输入部140所输入的图像记录在纸或另外的介质上，打印图像识别结果，等等。然而，对于稍后描述的图像处理（对象的形状的识别与估计等）不一定要提供图像输出部150。

操作部160由使用户能够进行操作的处理器（诸如键盘、鼠标、按钮以及触摸板）构成，并且用于：指示各种应用程序和图像处理程序中的任意程序的启动，在预学习中手动地输入数据（例如，在学习图像上设置特征点），以及执行其它设置处理。

显示部170由液晶显示器等构成，并且用于：显示从图像输入部140所输入的图像，显示对输入图像所执行的图像识别处理的结果（包括预先学习的数据、处理中的数据、输入图像的识别与估计结果），等等。

图1中所示的图像处理设备100与例如个人计算机、移动电话、多功能终端（诸如智能手机或平板电脑）或诸如打印机的装置相对应。图像处理设备100按照CPU110执行程序的方式来执行处理（诸如对象形状的识别与估计）。然而，代替由图像处理设备100自身执行识别与估计处理的全部，在一些情况下图像处理设备100请求网络上的另外的设备（诸如服务器）来执行识别与估计处理的一部分或全部，而其自身仅执行识别与估计处理的一部分（诸如显示输入图像或处理结果）。

在根据本实施方式的图像处理设备100中，CPU110执行预定的图像处理程序。因此，多个形状信息被分解成基空间，对于某一输入形状执行到基空间上的投影和反向投影以对包括变形部分的对象的形状执行识别与估计处理。如前所述，ASM和AAM被认为是此类的技术，并且具有以下特征：通过执行到基空间上的投影和反向投影来形成某一形状分布以因此获得接近于预先登记的形状的输出。在下文中，通过采用人类面部图像作为包括变形部分的对象形状的示例来给出描述。

图2示意性地示出了用于实施这样的处理的图像处理程序200的功能配置。图2中所示的图像处理程序200包括：预学习部210，执行预学习；以及识别与估计处理部220，基于预学习对输入图像中所包括的面部图像执行识别与估计处理。

预学习部210接收用于预学习的大量学习图像。学习图像不仅从图像输入部140输入，而且在一些情况下还通过通信部130从外部获取，以及进一步从用作存储部120的盘再现设备读取。

将面部图像准备为学习图像以包括假定的各种属性，诸如种族、性别、表情以及方向（面向前方、面向前方张开嘴巴、面向前方闭合一只眼睛、面向侧方、面向上方以及面向下方）（参见图15）。将各种面部图像准备为学习图像使得可以更适当地执行建模并且因此提高识别与估计处理的准确度。

预学习部210首先对每个学习图像执行标注，即，设置特征点。特征点是示出面部图像的特征部分的位置的点。特征部分包括在人类面部上的眉毛、眼睛、鼻肌、鼻孔、嘴巴以及面部的轮廓上的多个点（诸如，端点和通过将两个端点之间的部分分成N个而获取的点）。这里“轮廓上的多个点”指的是例如轮廓的端点或通过将两个端点之间的部分分成N个而获取的点。图15（F）示出了在特征部分的轮廓上所设置的特征点。例如，在眉毛、眼睛、鼻子、嘴巴以及面部的轮廓上限定了53个特征点。限定的特征点可以在查看学习图像时由操作者手动地设置或者可以通过图像处理自动地设置。

通过设置特征点来获取指示每个学习图像的每个特征点的位置的坐标信息。换言之，为每个学习图像获取基于53个特征点的坐标值的坐标向量。

随后，预学习部210计算形状模型。具体地，使由每个学习图像中的特征点的坐标值构成的坐标向量经受统计分析（诸如主成分分析（PCA）或独立成分分析（ICA）），并且该坐标向量被分解成基空间s₀，s₁，s₂，…，以及将通过特征点的位置识别的面部形状建模为如下面的公式（1）所示的形状模型s：

s = s_{0} + Σ_{i = 1}^{n} p_{i} s_{i} \cdot \cdot \cdot (1)

这里，在通过依据主成分分析等对学习图像的坐标向量进行分解所获取的基空间s₀，s₁，s₂，…中，s₀代表面部的形状模型s的平均向量（表示平均形状的坐标向量），并且s_i代表与通过主成分分析所获取的第i个基成分相对应的形状向量。在主成分分析中，采用与具有高的分布程度的主成分相对应的预定数目（在以上公式（1）中为n）的基成分作为形状向量，其中该预定数目是按照分布程度的降序而确定的。形状向量s_i代表与通过主成分分析所获取的第i个主成分相对应的基向量（basis vector），并且是互相正交的正交向量。图3是示出通过对多个学习坐标的坐标向量执行主成分分析所获取的平均向量s₀和形状向量s₁，s₂，…的图。

另外，在以上公式（1）中，p_i代表表示在通过对平均形状s₀和形状向量s₁，s₂，…进行组合来建立形状模型中的第i个形状向量s_i的权重的基系数（形状参数）。总而言之，形状模型s通过对平均形状s₀和每个形状向量s_i进行组合（注意，基系数p_i控制基向量s_i的组合）来表示各种面部形状中的任意面部形状。将输入形状s分解成基成分被称为投影到基空间上。反之，根据基成分生成形状s被称为反向投影。图4示出了如何在输入的面部图像的形状s与由平均形状s₀和形状向量s₁，s₂，…构成的基空间之间执行投影和反向投影。

由预学习部210所获取的平均形状s₀和每个形状向量s_i被作为预学习数据而存储在存储部120中，并且被用于对输入图像执行识别与估计处理。

随后，预学习部210设置纹理模型。如何表示该纹理模型依赖于ASM和AAM而变化。

ASM使用表示每个特征点的局部亮度分布信息的局部纹理模型。具体地，对于在特征部分（诸如眉毛、眼睛、鼻子、嘴巴或面部）的轮廓上所设置的每个特征点，预先学习在相对于轮廓的法线方向上的平均亮度梯度作为纹理模型。图5在其左侧示出了在特征部分的轮廓上所设置的特征点的法线。另外，图5在其右侧示出了在面部的轮廓上的特征点中的某一特征点的通过使用在法线方向上的亮度分布信息所表示的局部纹理模型。在图5中所示的示例中，通过使用特征点的像素以及在该特征点的像素相对于轮廓的法线方向上的每一侧的两个像素的一维局部亮度分布信息来建立纹理模型。

另一方面，AAM使用全局纹理模型。具体地，使由学习图像的像素组x中的每个像素的亮度值构成的亮度值向量（注意，对除平均形状之外的区域进行掩盖）经受主成分分析，并且该亮度值向量被分解成平均面部图像A₀（x）和纹理向量Ai（x），其中纹理向量Ai（x）被分解作为基成分，以及通过对平均面部图像A₀（x）和纹理向量Ai（x）进行组合（注意，系数λ_i控制和纹理矢量Ai（x）的组合）来表示面部纹理A（x），如下面的公式（2）所示：

A (x) = A_{0} (x) + Σ_{i = 1}^{m} λ_{i} A_{i} (x) \cdot \cdot \cdot (2)

预先学习的纹理模型被存储在存储部120中，并且被用于对输入图像执行识别与估计处理。注意，这里省略了对计算纹理模型的方法的详细描述。

以此方式，在被预学习部210获取为预学习数据之后，纹理模型被存储在存储部120中并且被用于对输入图像执行识别与估计处理。

识别与估计处理部220通过使用前述的预学习数据对输入图像执行面部图像的识别与估计处理，以输出输入图像中所包括的面部图像的形状。

图6示意性地示出了识别与估计处理部220的功能配置。图6中所示的识别与估计处理部220包括面部检测部610、纹理模型匹配处理部620以及形状模型成形部630。

面部检测部610根据由图像输入部140等所输入的输入图像来检测包括面部图像的面部区域，并且根据该面部区域来检测预先限定的53个特征点。因为在实施本文中所公开的技术时，可以按照任意形式执行检测面部区域的处理，所以这里省略了对该处理的详细描述。

纹理模型匹配处理部620通过将所检测出的面部区域与预先学习的纹理模型进行匹配来执行搜索每个特征点的处理。具体地，纹理模型匹配处理部620计算通过预学习所获取的每个纹理模型与输入图像的像素（被假定为对应于该纹理模型）之间的亮度差异等作为成本，并且执行搜索具有最低成本的坐标位置的处理。这里，参照图7来描述局部纹理模型与面部区域之间进行的匹配处理。

如已经描述过的，基于在特征部分（诸如眉毛、眼睛、鼻子、嘴巴或面部）的轮廓上所设置的对应的特征点的一维局部亮度分布信息来构成每个纹理模型，该一维局部亮度分布信息属于特征点的像素以及在该特征点的像素相对于轮廓的法线方向上的每一侧的两个像素。

同时，在纹理模型匹配处理部620中所输入的输入图像包括作为纹理数据的像素的亮度值。因此，仅对每个特征点的法线方向上的亮度梯度执行一维搜索，以检测展现出相对于预先学习的亮度梯度所计算的最低成本的像素位置作为输入图像上的特征点。

图7在其左侧示出了在特征部分的轮廓上所设置的特征点的法线。另外，图7在其右侧示出了在输入图像上的面部的轮廓上的某一特征点的亮度分布信息、局部纹理模型以及成本。在特征点的法线方向上获取亮度分布信息。通过使用预先学习的特征点的像素以及在该特征点的像素的每一侧的两个像素的亮度分布信息来建立局部纹理模型。以像素为单位，以在法线方向上扫描纹理模型来连续地计算成本。在特征点中具有最低成本的位置是匹配像素。

根据下面的公式（3）表示输入图像（特征点）g_s的成本f（g_s），例如：

f (g_{s}) = {(g_{s} - \overset{&OverBar;}{g})}^{T} S_{g}^{- 1} (g_{s} - \overset{&OverBar;}{g}) \cdot \cdot \cdot (3)

其中，g_s表示输入样本，

表示平均亮度梯度，以及S_g表示方差-协方差矩阵。

以上公式（3）使用马哈拉诺比斯（Mahalanobis）距离作为距离指标。使用单位矩阵作为方差-协方差矩阵S_g会导致更简单的平方距离之和。

与在全局纹理模型与面部区域之间的匹配处理相反，将由特征点所围绕的区域分成网格形式的子区域，并且执行二维搜索以寻找具有与网格中的每个子区域的亮度分布接近的亮度分布的区域，以及因此检测出每个特征点。然而，ASM或AAM的技术中的任何一种可以用于实施本文中所公开的技术。换言之，可以对局部纹理模型和全局纹理模型中的任何一种执行面部区域的匹配处理。这里省略对后者的匹配处理的详细描述。

形状模型成形部630在由已经经历了前述匹配处理的特征点构成的形状s与由平均形状s₀和形状向量s₁，s₂，…构成的基空间之间执行投影和反向投影。然后，形状模型成形部630对基系数（即，每个形状向量s_i的形状参数p_i）进行优化以形成形状模型s。

其后，将纹理模型匹配处理部620和形状模型成形部630所执行的处理重复若干次。因此，形状模型可以与输入图像中所包括的面部图像相匹配，并且可以获取接近于与学习形状等同的形状的形状（即，类似面部的形状），即可以获取成形的形状。

然而，通过其将预先获取的多个形状信息分解成基空间并且通过对基空间进行组合来表示某一形状的方法（诸如ASM/AAM）具有下面的第一缺点。具体地，当输入图像中的目标对象的形状（特征点）的一部分位于很大程度地偏离原始位置的位置时，该对象的整个形状受偏离值影响并且发生移位。

可以采用在目标对象被部分地覆盖的区域中的特征点作为本文中提到的偏离点的示例。图8示出了作为具有用手覆盖面部的一部分的主体的个人的输入图像中的圆形偏离点。如果纹理模型匹配处理部620不考虑如图8中所示的在鼻子和嘴唇的轮廓上的若干特征点被手覆盖的状态来执行处理，则很大程度地偏离鼻子和嘴唇的原始轮廓的位置会被检测为特征点。

另外，可以采用超出屏幕框架的区域中的特征点作为偏离点的另一示例。在此情况下，在目标对象（诸如面部）的一部分的区域没有位于屏幕框架内的情况下捕获图像。当纹理模型匹配处理部620对不存在于输入图像中的特征点执行处理时，与前述的覆盖面部的一部分的情况类似，很大程度地偏离原始位置的位置会被检测为特征点。

因此，在本实施方式中按照下面的方式消除上述第一缺点。检测并掩盖可能是偏离点的这种特征点，以使得形状模型成形部630执行到基空间上的投影。

偏离点是在输入图像中不具有信息的特征点，即，被覆盖或部分地超出屏幕框架的目标对象。出于此原因，要由纹理模型匹配处理部620所计算的最低成本（诸如亮度差异）被假定具有大的数值。因此，当在搜索输入图像中的每个特征点的坐标位置的处理中由纹理模型匹配处理部620为特征点所计算的最低成本等于或大于预定阈值时，该特征点可以判定为偏离点。

图9示出了包括对偏离点进行掩盖的识别与估计处理的序列的流程图，该识别与估计处理由识别与估计处理部220所执行。

首先，在输入图像中设置最初的点群坐标（步骤S901）。具体地，该设置与将平均面部形状s₀布置在由面部检测部610从输入图像所检测到的面部区域中相对应。

然后，作为针对每个特征点的处理（S902至S907），纹理模型匹配处理部620在预先学习的纹理模型与在输入图像中所设置的特征点之间执行匹配处理（步骤S903）。具体地，对于在输入图像中所设置的每个特征点，将与在预学习中所获取的纹理模型的亮度差异等计算为成本，并且执行搜索具有最低成本的坐标位置的处理。

这里，判定所计算的最低成本是否低于预定阈值（步骤S904）。然后，如果最低成本低于预定阈值（在步骤S904中为是），则执行将在输入图像中最初设置的特征点移动至具有最低成本的坐标位置的普通处理（步骤S906）。

另一方面，如果最低成本等于或大于预定阈值（在步骤S904中为否），则将输入图像中的特征点判定为偏离点，并且执行掩盖处理（步骤S905）。具体地，在掩盖处理中，在输入图像中的特征点的坐标值和在投影中所使用的对应的基成分全部被设置为0，以由此消除可能会施加于由用于后面处理的形状模型成形部630所执行的投影和基系数的计算中的偏离点的影响。如果一旦通过将输入图像投影到基空间上而获取了加权系数，则即使对于被基成分所掩盖的点，此后所执行的普通反向投影也会导致接近于原始坐标值的坐标值的输出。

然后，在对于步骤S901中所设置的所有最初点完成由纹理模型匹配处理部620所进行的最低成本位置的移动或掩盖处理之后，用于后面处理的形状模型成形部630执行将输入图像投影到基空间上以及基空间的反向投影，以对基系数p_i进行优化（步骤S908）。以此方式，识别与估计处理部220输出输入图像中所包括的形状模型的每个特征点的坐标值。

图10示出对输入图像执行图9中所示的识别与估计处理的结果，该输入图像包括转向各个方向、表情发生改变以及用手部分地覆盖的面部的形状。在图10中，通过使用三维立方体示出了所估计的面部姿势，并且在鼻子和嘴唇的所估计的轮廓上画出线条。发现了即使用手部分地覆盖面部，也可以通过在掩盖处理之后由形状模型成形部630执行投影和反向投影来使所覆盖的特征点成形为位于接近于原始位置的位置处，以便对接近于原始面部形状整体的面部形状进行估计。具体地，即使在如图10（D）所示的嘴唇被完全覆盖的情况下，也可以通过对未被覆盖的特征部分（诸如眼睛和鼻子）的其它特征点（未被掩盖）进行处理来对接近于原始面部形状整体的包括被掩盖的特征点的面部形状进行估计。

根据图9中所示的处理序列，除如图8和图10中所示的在覆盖区域中的特征点之外，在由于阴影或照明的亮度变化因素而很大程度地偏离原始位置的位置处检测的特征点、在超出屏幕框架的区域中的特征点等被检测为偏离点并且被掩盖，然后执行到输入图像的基空间上的投影和反向投影。因此，如同在覆盖区域中的前述特征点一样，也可以在消除偏离点的影响的同时对接近于原始形状的形状进行估计。

另外，通过其将预先获取的多个形状信息分解成基空间并且通过对基空间进行组合来表示某一形状的方法（诸如ASM/AAM）具有下面的第二缺点。当通过使用图像中的局部特征量来对形状（特征点）的位置进行估计时，难以对缺乏特征（诸如边缘或纹理）的区域进行定位。

例如，在面部图像中的鼻子的尖端的坐标等不仅缺乏纹理而且缺乏边缘。出于此原因，当纹理模型匹配处理部620基于成本（诸如在通过预学习获取的纹理模型与输入图像之间的亮度差异）的计算来单独搜索鼻子的尖端时，难以对鼻子的尖端进行定位。

因此，在本实施方式中按照下面的方式消除第二缺点。在单独搜索特征点中难以对其进行定位的特征点（诸如面部图像中的鼻子的尖端）被指定为偏离点并且典型地对其进行掩盖。在典型地对难以定位的特征点进行掩盖之后所执行的投影使得可以对特征点的位置进行估计。

图11示出了包括对预先指定的偏离点进行掩盖的识别与估计处理的序列的流程图，该识别与估计处理由识别与估计处理部220所执行。

首先，在输入图像中设置最初的点群坐标（步骤S1101）。具体地，该设置与将平均面部形状s₀布置在由面部检测部610从输入图像所检测到的面部区域中相对应。

然后，作为针对每个特征点的处理（S1102至S1107），纹理模型匹配处理部620检查特征点是否为被指定为偏离点的点（步骤S1103）。

这里，对于不是被预先指定为偏离点的特征点的特征点（在步骤S1103为否），纹理模型匹配处理部620相对于预先学习的纹理模型执行匹配处理（步骤S1105）。具体地，对于在输入图像中所设置的每个特征点，将与在预学习中所获取的纹理模型的亮度差异等计算为成本，并且执行搜索具有最低成本的坐标位置的处理。然后，执行将在输入图像中最初设置的特征点移动至具有最低成本的坐标位置的普通处理（步骤S1106）。

另一方面，对于被预先指定为偏离点的特征点（在步骤S1103中为是），典型地执行掩盖处理（步骤S1104）。具体地，在掩盖处理中，将在输入图像中的特征点的坐标值和在投影中所使用的对应的基成分全部设置为0，以由此消除可能会施加于由用于后面处理的形状模型成形部630所执行的投影和基系数的计算中的偏离点的影响。如果一旦通过将输入图像投影到基空间上而获取了加权系数，则即使对于被基成分所掩盖的点，此后所执行的普通反向投影也可以导致接近于原始坐标值的坐标值的输出。

然后，在对于步骤S1101中所设置的所有最初点完成由纹理模型匹配处理部620所进行的最低成本位置的移动或掩盖处理之后，用于后面处理的形状模型成形部630执行将输入图像投影到基空间上以及基空间的反向投影，以对基系数p_i进行优化（步骤S1108）。以此方式，识别与估计处理部220输出输入图像中所包的形状模型的每个特征点的坐标值。

图12示出对输入图像执行图11中所示的识别与估计处理的结果，该输入图像包括转向各个方向以及表情发生改变的面部的形状。在图12中，通过使用三维立方体示出了所估计的面部姿势，并且在鼻子和嘴唇的所估计的轮廓上画出线条。通常，难以对缺乏边缘和纹理的鼻子的尖端进行定位。然而，发现可以通过以下方式来适当地估计面部姿势：将这样的特征点预先指定为偏离点；对该特征点进行掩盖以省略相对于纹理模型的匹配处理；以及对形状模型执行投影和反向投影。

图像处理设备100与例如个人计算机、移动电话、多功能终端（诸如智能手机或平板电脑）或诸如打印机的设备相对应。虽然图像处理设备100可以执行在图9或图11中所示的用于对象形状（面部图像）的识别与估计处理的全部，但是也可以将处理的一部分或全部委托给外部装置（诸如网络上的服务器）。

在图13中所示的系统配置示例中，图像处理设备100被配置成仅通过使用摄像装置等输入图像，并且请求服务器执行对对象形状（诸如输入图像的面部）进行识别与估计的整个处理，以及该服务器被配置成发送回对该形状进行识别的结果。

另外，在图14中所示的系统配置示例中，图像处理设备100被配置成：通过使用摄像装置等输入图像；检测输入图像中的偏离点或预先指定偏离点；以及在传送输入图像和关于偏离点的信息时请求服务器进行对对象形状进行识别与估计的处理。替选地，图像处理设备100可以将包括所掩盖的偏离点的目标对象的形状模型传送至服务器，以请求服务器在形状模型与基空间之间进行投影和反向投影。同时，该服务器被配置成对偏离点进行掩盖以执行识别与估计处理，并且将对该形状进行识别的结果发送回图像处理设备100。

此外，本技术还可以如下配置。

（1）一种图像处理设备，包括：

模型信息获取部，获取在其中预先获取的多个形状信息被分解成基空间的模型信息；

偏离区域检测部，在输入图像中的目标对象的形状中检测偏离区域，所述偏离区域与所述模型信息具有差异；以及

投影部，在对所述偏离区域进行掩盖之后将所述输入图像中的目标对象的形状投影到所述基空间上。

（2）根据（1）所述的图像处理设备，

其中，所述基空间包括预先获取的所述多个形状信息的平均形状和基成分，并且

其中，所述偏离区域检测部在所述输入图像中的所述目标对象的形状中检测偏离区域，所述偏离区域与所述平均形状具有差异。

（3）根据（1）所述的图像处理设备，

其中，所述模型信息包括纹理模型以及在其中形状信息被分解成基空间的形状模型，所述形状信息与在所述目标对象的形状中限定的多个特征点的坐标位置有关，所述纹理模型与所述特征点中的每个特征点的纹理信息有关，

其中，所述图像处理设备还包括纹理模型匹配处理部，所述纹理模型匹配处理部基于成本计算在所述输入图像中搜索每个特征点的位置，所述成本是所述输入图像与所述纹理模型之间的所述纹理信息的差异，以及

其中，所述偏离区域检测部将具有等于或大于预定阈值的成本的所述特征点中的任意特征点判定为偏离点，所述成本由所述纹理模型匹配处理部所计算。

（4）一种图像处理设备，包括：

偏离区域检测部，在输入图像中的目标对象的形状中检测预先指定的偏离区域；以及

（5）根据（4）所述的图像处理设备，

其中，缺乏所述纹理信息的所述特征点中的任意特征点被预先指定为偏离点。

（6）根据（5）所述的图像处理设备，还包括：

纹理模型匹配处理部，基于成本计算在所述输入图像中搜索每个特征点的位置，所述成本是所述输入图像与所述纹理模型之间的所述纹理信息的差异，

其中，所述纹理模型匹配处理部省略用于被预先指定为所述偏离点的所述特征点的处理。

（7）根据（1）或（4）所述的图像处理设备，

其中，所述模型信息获取部获取通过主成分分析或独立成分分析将所述预先获取的多个形状信息分解成的所述基空间作为模型信息。

（8）一种图像处理方法，包括：

获取在其中预先获取的多个形状信息被分解成基空间的模型信息；

在输入图像中的目标对象的形状中检测偏离区域，所述偏离区域与所述模型信息具有差异；以及

在对所述偏离区域进行掩盖之后将所述输入图像中的目标对象的形状投影到基空间上。

（9）一种图像处理方法，包括：

在输入图像中的目标对象的形状中检测预先指定的偏离区域；以及

在对所述偏离区域进行掩盖之后将所述输入图像中的目标对象的形状投影到所述基空间上。

（10）一种图像处理设备，包括:

图像输入部，输入包括目标对象的图像；

偏离区域检测部，在输入图像中的所述目标对象的形状中检测偏离区域，所述偏离区域与在其中预先获取的多个形状信息被分解成基空间的模型信息具有差异；

处理请求部，将关于所述检测到的偏离区域的信息传送至服务器，并且请求所述服务器通过将所述形状投影到所述基空间上来进行对所述输入图像中的目标对象的形状进行估计的处理；以及

处理结果接收部，从所述服务器接收对所述输入图像中的目标对象的形状进行估计的结果，所述结果是通过在对所述形状中的偏离区域进行掩盖之后将所述形状投影到所述基空间上而获得的。

（11）一种图像处理设备，包括：

图像输入部，输入包括目标对象的图像；

处理请求部，将关于预先指定的偏离区域的信息传送至服务器，并且请求所述服务器通过将所述形状投影到将预先获取的多个形状信息分解成的基空间上来进行对输入图像中的所述目标对象的形状进行估计的处理；以及

（12）一种以计算机可读格式描述的计算机程序，所述计算机程序使计算机用作：

（13）一种以计算机可读格式描述的计算机程序，所述计算机程序使计算机用作：

本领域内技术人员应当理解，依赖于设计需求和其它因素，可以在所附权利要求或其等同方案的范围内进行各种修改、组合、子组合以及改造。

虽然本文主要描述了使用ASM/AAM的实施方式，但是本文中所公开的技术的主旨不限于此。本文中所公开的技术也适用于各种类型的图像处理技术，其中预先获取的多个形状信息被分解成基空间，并且在包括在输入图像中的对象的某一形状与基空间之间执行投影和反向投影。

此外，虽然本文中主要描述了对面部图像进行识别与估计的实施方式，但是本文中所公开的技术的主旨不限于此。本文中所公开的技术也适用于对包括变形部分的其它各种对象形状进行识别与估计的处理。

总而言之，已经以示例性方式描述了本文中所公开的技术，不应当以限制性的方式理解本文的内容。应当考虑权利要求的范围来理解本文中所公开的技术的主旨。

本公开内容包含与2012年5月22日向日本专利局所提交的日本优先权专利申请JP2012-116366中所公开的主题有关的主题，其全部内容通过引用合并至本文中。

Claims

1.一种图像处理设备，包括：

2.根据权利要求1所述的图像处理设备，

3.根据权利要求1所述的图像处理设备，

4.一种图像处理设备，包括：

5.根据权利要求4所述的图像处理设备，

6.根据权利要求5所述的图像处理设备，还包括：

7.根据权利要求1所述的图像处理设备，

8.一种图像处理方法，包括：

9.一种图像处理方法，包括：

10.一种图像处理设备，包括：

图像输入部，输入包括目标对象的图像；

11.一种图像处理设备，包括：

图像输入部，输入包括目标对象的图像；

12.一种以计算机可读格式描述的计算机程序，所述计算机程序使所述计算机用作：

13.一种以计算机可读格式描述的计算机程序，所述计算机程序用于使所述计算机用作：