CN1977286A

CN1977286A - 对象识别方法及其设备

Info

Publication number: CN1977286A
Application number: CNA2005800216170A
Authority: CN
Inventors: 铃木崇士; 森克彦; 真继优和
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-28
Filing date: 2005-06-27
Publication date: 2007-06-06
Anticipated expiration: 2025-06-27
Also published as: US20070242856A1; EP1774470B1; WO2006001525A1; EP1774470A1; US7912253B2; CN1977286B; JP4217664B2; JP2006011978A; EP1774470A4

Abstract

特征提取单元(23)提取包括在图像中的感兴趣对象的特征。局部区域设置单元(24)设置包括获得对象的形状所需的特征群的局部区域和包括获得位置关系所需的特征群的局部区域。特征向量生成单元(25)计算所设置的局部区域中的特征向量数据。对象识别单元(26)基于特征向量来判断感兴趣对象是不同对象中的哪一个。

Description

对象识别方法及其设备

技术领域

本发明涉及一种用于识别包括在图像中的对象的技术。

背景技术

为了在本部分解释对象识别的现有技术，将以通过识别所获取的面部图像而进行的身份识别为例。一般说来，有两种使用面部图像进行身份识别的方法。

第一种方法是模式匹配方法，该方法捕获面部作为由各像素的浓度值的二维阵列表示的图像模式，并且通过匹配图像模式进行识别。以使用PCA(Principal Component Analysis，主成分分析)的本征脸(eigenface)方法(例如，见美国专利号5,164,992)作为模式匹配方法的典型例子，并在下面说明本征脸方法的基本框架。

本征脸方法将PCA应用于大量面部图像的浓度值模式以获得被称作本征脸的标准正交基(orthonormal basis)。使用该标准正交基，将KL(Karhunen-Loeve)展开应用于任意面部图像的浓度模式以获得该模式的维度上压缩的向量。最后，使用该向量作为用于识别的特征向量，通过输入模式的特征向量和预先登记的登记模式的特征向量之间的统计处理进行识别。已说明了本征脸方法的基本框架。该基于PCA的方案必须从大量面部图像中预先获得本征脸(平均脸)，且用于生成本征脸的面部图像的光照变化和空间布局变化会影响精度。

作为第二种方法，存在通过匹配特征向量进行识别的基于特征的方法，该特征向量通过提取表示面部的眼睛、嘴巴和鼻子等特征的特征点用数值表示特征的形状及其空间布局关系。以基于动态链接结构(Dynamic link architecture)的方案(例如，见美国专利号6,356,659)作为基于特征的方法的典型例子，并在下面解释该方案的基本框架。

在该方案中，将伽柏(Gabor)滤波器用于获取作为特征向量的局部纹理(local texture)信息，该伽柏滤波器从设置在面部模式上的大量采样点(例如眼睛、嘴巴、鼻子和面部轮廓)中提取浓度特征的周期性和方向性。计算将采样点和节点关联起来的图，并且通过将特征向量用作采样点的空间布局信息和与采样点相对应的节点的属性值来创建该图。通过弹性变形在输入模式和预先登记的登记模式图之间的节点中的空间布局信息、并选择具有最高相似度的登记模式，来实现该识别处理(Dynamic graphmatching，动态图匹配)。已说明了基于动态链接结构的方案的基本框架。

然而，由于基于动态链接结构的方案在计算采样点处的属性值时需要复杂的数值计算，并且需要动态图匹配的处理，因此操作成本依赖于这些处理过程而上升。

发明内容

考虑到上述问题做出了本发明，本发明的目的是提供一种用于简单地进行对象的单独识别的技术。

为了获得本发明的目的，例如，本发明的图像处理方法包括以下配置。

即，一种用于执行识别包括在图像中的对象的处理的图像处理方法，其特征在于，该方法包括：

检测步骤，用于检测包括在图像中的感兴趣对象的特征；

设置步骤，用于设置局部区域，该局部区域包括所述检测步骤中检测到的特征中的、获得对象的形状和位置关系所需的特征群；以及

判断步骤，用于基于在设置步骤中对感兴趣对象设置的局部区域的特征群，来判断感兴趣对象是不同个体中的哪一个。

为了获得本发明的目的，例如，本发明的图像处理设备包括以下配置。

即，一种用于执行单独识别包括在图像中的对象的处理的图像处理设备，其特征在于，该图像处理设备包括：

检测部件，用于检测包括在图像中的感兴趣对象的特征；

设置部件，用于设置局部区域，该局部区域包括由所述检测部件检测到的特征中的、获得对象的形状和位置关系所需的特征群；以及

判断部件，用于基于由设置部件对感兴趣对象设置的局部区域中的特征群，来判断感兴趣对象是不同个体中的哪一个。

通过以下结合附图的说明，本发明的其它特征和优点将显而易见，在全部附图中，相同的附图标记表示相同或者相似的部件。

附图说明

包括在说明书中并且构成说明书一部分的附图，示出了本发明的实施例，并且与说明书一起用来解释本发明的原理。

图1是示出根据本发明第四实施例的图像处理设备的基本配置的框图；

图2是示出根据本发明第一实施例的图像处理设备的基本配置的框图；

图3是用于识别包括在所拍摄的图像中的人脸的处理的流程图；

图4是示出在本发明第一实施例中使用的神经网络的结构的图；

图5A～5H示出将从图像中的人脸中提取的特征；

图6是用于解释步骤S 308中的归一化处理的图；

图7A～7C是用于解释局部区域的设置的图；

图8A是示出特征向量的结构的例子的图；

图8B示出根据本发明第二实施例的局部区域；

图9示出特征和局部区域之间的关系；

图10示出通过叠加第二级的各检测模块的所有检测输出分布而生成的分布；

图11示出包括图10所示的各分布的局部区域；以及

图12是示出根据本发明第三实施例的神经网络的结构的图。

具体实施方式

现在根据附图详细说明本发明的优选实施例。

第一实施例

该实施例将解释一种提取包括在图像中的对象、基于对象特征的特征点生成包括形状信息和空间布局信息的用于识别的高阶特征向量、并且将高阶特征向量与通过学习算法生成的模型数据库进行匹配以识别该对象的技术。

图2是示出根据该实施例的图像处理设备的功能配置的框图。如图2所示，假定将根据该实施例的图像处理设备应用于摄像设备，该摄像设备包括图像输入单元20、图像输出单元21、对象检测单元22、特征提取单元23、局部区域设置单元24、特征向量生成单元25、以及对象识别单元26。在该实施例中，这些单元通过硬件来实现。然而，这些单元可以以程序的形式存储在摄像设备的ROM中，并且该摄像设备的CPU可以执行这些程序。

由包括镜头和CCD、CMOS等摄像元件的摄像系统(未示出)所拍摄的图像信号被输入到图像输入单元20。

图像输入单元20通过白平衡校正等已知的校正处理对来自摄像系统的图像信号进行校正，并且将校正后的图像信号输出到图像输出单元21和对象检测单元22。

图像输出单元21将来自图像输入单元20的图像信号输出到CRT、液晶显示器等显示装置(未示出)。通过这种方式，将基于由摄像系统拍摄的图像信号的图像显示在该显示装置的显示屏上。

对象检测单元22包括模仿人的神经回路的神经芯片等专用芯片，或者FPGA、ASIC等通用芯片。对象检测单元22检测包括在来自图像输入单元20的图像中的对象。

如在对象检测单元22中一样，特征提取单元23包括模仿人的神经回路的神经芯片等专用芯片，或者FPGA、ASIC等通用芯片。特征提取单元23具有提取由对象检测单元22检测到的对象的特征的功能。

局部区域设置单元24包括图像处理专用处理器或者通用处理器，并且执行用于在由特征提取单元23提取的特征周围设置区域的处理。

特征向量生成单元25包括图像处理专用处理器或者通用处理器，并且生成由局部区域设置单元24所设置的区域内的特征向量。

对象识别单元26包括乘积和运算电路、比较器等简单电路。对象识别单元26具有如下功能：将由特征向量生成单元25生成的特征向量作为输入值计算乘积和值，并且将该乘积和值与其自身所保持的数据库进行比较。

下面说明由具有上述配置的摄像设备执行的处理，即用于识别包括在由该摄像设备所拍摄的图像中的人脸的处理。

图3是用于识别包括在所拍摄的图像中的人脸的处理的流程图。

在步骤S300，通过图像输入单元20输入包括待识别对象的面部的图像。在步骤S301，该图像被输出到图像输出单元21和对象检测单元22。作为结果，由于图像输出单元21校正该图像并且将校正后的图像输出到显示装置(未示出)，因此从图像输出单元21输入的图像被显示在该显示装置的显示屏上。

在步骤S302，执行用于由对象检测单元22从图像输入单元20输入的图像中检测待识别的人脸的处理。作为检测方法，用户可以通过操作在摄像设备中配备的按钮(未示出)或者触摸面板型显示屏上的按钮在显示屏上直接指定面部区域，或者可以使用已知的使用面部检测模板等滤波器的模板匹配技术。

在该实施例中，使用基于神经网络的面部检测技术进行面部检测。下面说明在步骤S302执行的基于神经网络的面部检测技术。注意，该技术对于本领域技术人员来说是已知的，请参照M.Matsugu，K.Mori，et.al，“Convolutional Spiking NeuralNetwork Model for Robust Face Detection”，2002，International Conference On Neural Information Processing(CONIP02)。

图4是示出该网络的结构的图。如图4所示，该神经网络是分层神经网络，并且包括用于从低阶特征开始顺序识别高阶特征的结构。

附图标记40表示来自图像输入单元20的图像(输入图像)。附图标记41表示包括检测层41a和统合(integration)层41b的第一层(级)。附图标记42表示包括检测层42a和统合层42b的第二级。附图标记43表示包括检测层43a和统合层43b的第三级。附图标记44表示第四级。

在第一级41中，检测层41a从输入图像40中提取原始特征，统合层41b对这些原始特征进行统合。统合结果被输入到第二级42中的检测高阶特征的检测层42a。如在第一级的统合层41b中一样，统合层42b执行用于对由检测层42a检测到的特征进行统合的处理。同样，第三级43的检测层43a使用第二级42中的统合层42b的统合结果来检测高阶特征。如在第二级的统合层42b中一样，统合层43b执行用于对由检测层43a检测到的特征进行统合的处理。最后，第四级44使用第三级43的统合层43b的统合结果来检测面部。

下面使用图5A～5H说明待检测的特征。图5A～5H示出将从图像中的人脸中提取的特征。

在该实施例中，在执行面部检测处理时，在两眼的内外眼角、嘴巴的两端、眼睛和嘴巴的特征附近获取神经元的发火(firing)分布。将这些所获取的分布称作中间输出分布或者检测输出分布。

第一级41用于检测具有面部的特征信息的特征，且在该实施例中，检测层41a和统合层41b都具有八个即第一到第八检测模块。例如，第一级可能具有到亮度变化或者线段方向提取程度的检测水平。

接着，第二级42输出以下输出分布，例如：表示由图5B中的黑点所表示的右开V形边缘特征的检测输出分布、表示由图5C中的黑点所表示的左开V形边缘特征的检测输出分布、表示由图5D中的黑点所表示的线段边缘1特征的检测输出分布、以及表示由图5E中的黑点所表示的线段边缘2特征的检测输出分布。

如图5B所示，表示右开V形边缘特征的检测输出分布表示左眼的外眼角、右眼的内眼角和嘴巴的左端的检测结果。如图5C所示，表示左开V形边缘特征的检测输出分布表示右眼的外眼角、左眼的内眼角和嘴巴的右端的检测结果。通过这种方式，V形边缘特征可以有效地检测嘴巴的左端特征507和右端特征508、两眼的外眼角特征509和510、以及两眼的内眼角特征511和512，如图5A所示。

同样，线段边缘1特征和线段边缘2特征可以有效地检测眼睛的上眼睑513和下眼睑514、以及上唇515和下唇516，如图5A所示。

第三级43在接收到第二级42的特征检测结果时，输出由图5F中的黑点所表示的眼睛检测输出分布504和由图5G中的黑点所表示的嘴巴检测输出分布505。

最后，第四级44基于第三级43的眼睛和嘴巴检测结果，输出由图5H中的黑点所表示的面部检测输出分布506。

通过这种方式，较高的级(图4右侧的级)通过对由较低的级检测到的特征进行统合来执行用于检测更粗糙的特征的处理。如上所述，由于使用这种分层神经网络的特征检测是现有技术，所以不再避开更多的解释。

返回参照图3，对象检测单元22在步骤S303检查在来自图像输入单元20的图像中是否存在面部区域。通过判断例如神经元的发火分布是否具有预定值或者更大值来实现该检查处理。另外，如果在形成第四级的神经元群中存在具有等于或者高于预定值的输出的神经元组，则可以判断出“检测到面部”。

在步骤S304，特征提取单元23通过基于步骤S302中的中间神经元检测输出分布计算重心位置，来确定面部区域内的特征(例如，眼睛和嘴巴)的空间布局。通过这种方式，可以提高特征检索精度和特征提取速度。

注意，检测输出分布具有与输入图像相同的大小，并且形成检测模块的各个神经元对应于形成输入图像的像素。因此，当计算在检测模块的神经元中检测到预定特征的神经元群(即，输出值等于或者高于预定值的神经元群)的重心位置时，可以获得输入图像中该预定特征的位置。

在该实施例中，通过计算在步骤S302中检测为眼睛和嘴巴的神经元群的重心位置，获得面部区域中的眼睛和嘴巴的位置(空间布局)。然后，在所获得的位置(眼睛和嘴巴的位置)周围设置各具有任意大小的区域，并且将该区域定义为特征检索范围。该区域的大小包括待提取的特征就可以了。

在步骤S305，特征提取单元23进行输入图像的直方图校正，以提高特征提取精度。作为直方图校正方法，可以使用已知的图像处理技术。在该实施例中，通过对输入图像的G通道的范围从“20”到“150”的亮度值进行线性插值、并将20及其以下的亮度值设置成亮度值“0”、将150及其以上的亮度值设置成亮度值“255”，来实现直方图校正。注意，步骤S305中的直方图校正处理不是必需的。

在步骤S306，特征提取单元23对在步骤S304设置的检索范围应用面部特征的特征提取。作为提取方法，用户可以通过操作配备在摄像设备中的按钮(未示出)或者触摸面板型显示屏上的按钮在显示屏上直接指定面部特征，或者可以使用已知的使用面部检测模板等滤波器的模板匹配技术。在该实施例中，使用进行学习以从眼睛和嘴巴区域中检测特征的基于神经网络的技术，并计算神经元的输出分布的重心位置，从而检测图5A～5H所示的嘴巴的左右端特征和两眼的内外眼角特征。至于坐标计算，如在步骤S302中所述的一样，计算在检测模块中检测到神经元的预定特征的神经元群(即，输出值等于或者高于预定值的神经元群)的重心位置，从而获得输入图像中该预定特征的位置。

在步骤S307，特征提取单元23检查在步骤S306提取的特征的布局关系。也就是说，单元23检查所提取的特征坐标在描述对象时是否不合适。作为实际例子，在该实施例中，如果内眼角和外眼角的特征坐标低于在步骤S304提取的面部区域的中心，则判断出特征提取结果是不充分的。如果允许输入上下颠倒的面部图像，则本发明不受该条件的限制。该条件取决于系统的使用情况，但是具有给定条件的特征连续性检查单元是必不可少的。

如果在步骤S307的检查处理中判断出特征坐标是合适的，则流程进入步骤S308，并且特征提取单元23对输入图像的大小进行归一化。作为归一化方法，可以使用已知的归一化方案。在该实施例中，如图6所示，基于在步骤S306提取的两眼的内眼角位置获得内眼角距离60，应用仿射变换以对所有输入图像将该距离60设置成相同的。图6是用于解释步骤S308中的归一化处理的图。

同时，检测连接内眼角的直线的斜率61，并且应用考虑到转动的仿射变换校正来应付转动变化。注意，步骤S308中的归一化处理不是必不可少的。

在步骤S309，特征提取单元23获取反映对象的形状信息和空间布局信息的输出分布。作为获取输出分布的方法，可以将已知的模板匹配技术等的相关值分布用作形状信息，并且可以将特征点之间的欧氏(Euclidian)距离直接计算为空间布局信息。在该实施例中，使用图4所示的第一级中的一个特征的检测输出分布来提取形状信息。将第一级的一个特征用作检测输出分布的原因如下。

第一级的检测模块使用BP(Back Propagation，反向传播)方法(见M.Matsugu，K.Mori，et.al，“Convolutional SpikingNeural Network Model for Robust Face Detection”，2002，International Conference On Neural Information Processing(CONIP02))进行学习以提取第二级中所期望的特征。因此，由第一级的检测模块所提取的特征不能被唯一指定，但是第一级的检测结果在大概观察时可能具有与眼睛、鼻子、嘴巴和面部轮廓等局部特征的边缘提取处理几乎相同的检测水平。在这些模块中，第八特征检测模块的检测输出分布对各局部特征的细节进行边缘提取，并且忠实反映其形状。因此，该检测输出分布被用作用于在随后的处理中提取形状信息的信息。这就是用第一级的一个特征来提取形状信息的原因。

由于三个特征即第二级的右开V形边缘特征、左开V形边缘特征和线段边缘1特征的检测输出分布(500、501、502)检测局部特征的端部(端点、端侧)，即内眼角、外眼角、眼睑、以及嘴巴的两个端点，因此它们表示至少眼睛和嘴巴的局部特征的相对位置关系。因此，这些检测输出分布被用作用于在随后的处理中提取空间布局信息的信息。通过这种方式，空间布局信息不明确给出为各特征之间的欧氏距离等的距离间隔。

如上所述，第一级的检测结果被用作用于获得眼睛、鼻子、嘴巴以及面部轮廓等局部特征的形状信息的信息，第二级的检测结果被用作用于获得表示眼睛和嘴巴等局部特征的相对位置关系的空间布局信息的信息。

返回参考图3，在步骤S310，局部区域设置单元24对在步骤S306提取的输入图像中的特征的坐标应用仿射变换，以设置包括所述特征的区域(局部区域)。例如，将以在步骤S306提取的输入图像中的各特征的坐标为中心的矩形设置为局部区域。

局部区域具有正方形、矩形等任意形状。局部区域的大小可以任意设置，但是其大小具有重要意义。尽管局部区域的大小取决于待识别的对象的大小，但是如在本实施例中一样，当从真实环境图像中进行身份识别时，如果设置具有大尺寸的局部区域，则由于该局部区域受环境变化等噪声影响而不合适。另一方面，如果设置具有小尺寸的局部区域，则不能确定该区域是否具有识别对象所需的信息。在该实施例中，用于形状信息提取的局部区域为具有7像素(垂直)×7像素(水平)大小的正方形形状，用于空间布局信息提取的局部区域的大小为33像素(垂直)×63像素(水平)以及30像素(垂直)×23像素(水平)。这些区域大小仅是例子，可以考虑到取决于局部区域大小的影响来适当地确定区域大小。下面使用图7A～7C详细说明在本实施例中设置的局部区域。

如图7A所示，第一级的第八特征检测模块的检测输出分布700被用作用于形状信息提取的信息，且如图7B所示，对内眼角和外眼角、嘴巴的两端等的区域701设置局部区域702～707。设置局部区域的面部区域不限于此，且可以对示出个人差异的鼻孔、鼻翼、上唇和下唇设置局部区域。

另一方面，如图7B和7C所示，对由图7B中的黑点所表示的左右V形边缘检测输出分布(通过将两个V形边缘检测输出分布相加来获取左右V形边缘检测输出分布)和线段边缘1检测输出分布设置局部区域711和715，以便当内眼角距离被归一化时提取眼睛两端之间的分离度或者提取眼睛和嘴巴的布局关系。同样，在提取其它特征时，可以为其它特征区域设置局部区域。

也就是说，为了获得局部区域711，首先计算内眼角中点709。通过计算在步骤S306计算的左右内眼角位置的中点来获得内眼角中点709。以该内眼角中点709为中心，将包括左右内眼角位置和左右外眼角位置的区域计算为用于获取眼睛分离度等布局信息的局部区域711。

另一方面，为了获得局部区域715，将包括内眼角中点709和线段边缘1检测输出分布的区域计算为用于获取眼睛-嘴巴布局信息的局部区域715。由于内眼角中点709表示眼睛的空间布局，且线段边缘1特征表示嘴巴的空间布局，因此局部区域715内的检测输出分布表示眼睛和嘴巴之间的分离度，即空间布局信息。如上所述，设置局部区域。从局部区域内的检测输出分布中获取形状信息和空间布局信息。

返回参考图3，在步骤S311，特征向量生成单元25根据在步骤S310中设置的局部区域生成包括形状信息和/或空间布局信息的特征向量。如上所述，在该实施例中，形状信息使用第一级的第八特征检测模块的检测输出分布，空间布局信息使用第二级的三个特征即右开V形边缘特征、左开V形边缘特征和线段边缘1特征的检测输出分布。

可以将模板匹配等的相关值分布用作检测输出分布。然而，由于该实施例使用神经网络的检测输出分布，因此使用与局部区域中的像素相对应的神经元的发火值f。注意，发火值f落入范围0≤f≤1内。因此，将特征向量计算为具有与局部区域中的像素相对应的神经元的发火值的向量。图8A示出特征向量的结构的例子。在该实施例中，生成各特征向量以包括形状信息和空间布局信息。通过这种方式，特征向量生成单元25对各局部区域生成特征向量。

在生成特征向量时，可以对包括在矩形区域中的各特征分割该矩形区域，且可以对所分割的区域生成特征向量。

返回参考图3，在步骤S312，对象识别单元26将在步骤S311计算出的特征向量输入到预先准备的给定模型函数中以识别对象。作为数据比较方法，可以使用通过神经网络或者最近邻判断法则等已知的模式识别技术生成的模型函数进行分类。在本实施例中，使用SVM(Support Vector Machine，支持向量机)学习算法，以利用待识别的登记者和除该登记者以外的人的特征向量生成模型函数。使用SVM的原因是可以进行高速学习、泛化性能高、并且SVM得到了理论支持。下面说明SVM学习算法的模型函数的生成以及在该实施例中使用的输入数据的分类流程。

SVM学习算法在因特网上已经公开。本实施例的SVM学习算法使用在申请本发明时公开在“http://www.csie.ntu.edu.tw/～cjlin/libsvm”的libsvm-2.5。libsvm具有各种聚类类型和核函数。本实施例使用利用成本变量(cost variable)的被称作C-SVC的聚类类型，并使用线性函数作为核函数。请参考以上URL所指定的主页以获得详细内容。

首先解释模型函数的生成流程。本实施例需要登记者的图像数据和除登记者以外的人的图像数据。接着，通过与图3中的步骤S300～S311相同的处理流程，从各单独图像数据中提取所期望的特征(本实施例中两眼的内外眼角的特征和嘴巴两端的特征)周围的特征向量。然后，生成指定这些特征向量及其属性(表示这些特征向量是谁的特征向量的信息)的学习数据文件，并且通过指定了聚类类型和核函数的SVM学习算法进行学习，即模型函数的生成。

下面详细说明使用所生成的模型函数对输入进行分类的处理。模型函数具有带有多个两类分类函数的格式。例如，假定有四个登记者，他们分别是A类、B类、C类和D类，除这些登记者以外的类为E类。此时，两类分类函数是使用阈值(在生成模型函数时对两类生成该阈值)来判断A和B中的哪一个可能是输入的函数。因此，输入特征向量在所有类，即A或者B、A或者C、A或者D、A或者E、B或者C、......，之间经过两类分类，且通过多数判决处理确定最后的类。

通过该处理，可以从包括任意对象的图像中识别出人。

第二实施例

在第一实施例中，从第一级的一个特征的检测输出分布中提取各局部特征的形状信息。然而，在该实施例中，还从第二级提取形状信息。因此，除了用于生成特征向量的局部区域不同之外，该实施例的处理流程与第一实施例中的基本相同。

图8B示出根据该实施例的局部区域。图9示出特征和局部区域之间的关系。如图9所示，根据通过步骤S306中的特征提取所提取的作为特征群的左眼外眼角特征907、左眼内眼角特征901、右眼内眼角特征903、右眼外眼角特征910、嘴巴左端特征904、嘴巴右端特征906，计算作为中点群的内眼角中点902、嘴巴中点905、左眼中点908、右眼中点909。接着，参考这些中点设置局部区域912～916。更具体地，设置分别以单个眼睛的大小为范围的左眼局部区域912和右眼局部区域913、以嘴巴为范围的嘴巴局部区域914、内眼角范围的内眼角局部区域915以及眼睛-嘴巴范围的眼睛-嘴巴局部区域916。这些局部区域的实际设置目的如下。

由在提取特征向量时所使用的检测输出分布所表示的特征量是重要的。该实施例使用图4所示的第二级的检测输出分布。

在第二级中提取的特征量包括图5B中的右开V形边缘、图5C中的左开V形边缘501、图5D中的线段边缘1以及图5E中的线段边缘2。对于由图10的黑色区域所表示的“通过叠加第二级的检测模块的所有检测输出分布而形成的分布”设置局部区域(912～916)。图11示出各局部区域。下面使用图11说明局部区域的设置目的。由于左眼局部区域1100、右眼局部区域1101和嘴巴局部区域1102的检测分布表示右开V形边缘特征和左开V形边缘特征即眼睛和嘴巴的端点特征的检测分布、和线段边缘特征即上下眼睑特征和上下唇特征的检测分布，所以可以提取眼睛和嘴巴各自的形状信息。因此，可以提取质量与第一实施例的形状信息的质量相当的特征。而且，如在第一实施例中一样，从眼睛-嘴巴局部区域1103中提取眼睛和嘴巴的空间布局信息，从眼睛局部区域1104中提取眼睛的分离度的空间布局信息。已解释了设置如图9所示的局部区域的目的。

最后，从局部区域中提取输出分布，如在第一实施例中一样，生成包括形状信息和空间布局信息的高阶特征向量，并将该高阶特征向量输入到模型函数以识别对象。

第三实施例

基本处理流程与第一实施例中的相同。然而，该实施例采用基于图12所示的神经网络的检测输出分布作为特征向量生成的检测输出分布。

图12示出根据该实施例的神经网络的结构。用于特征提取的该神经网络的结构如图12所示。与在第一和第二实施例中使用的神经网络不同，添加了上下眼睑检测模块1210和1211以及上下唇检测模块1212和1213。

在该实施例中所使用的用于特征提取的神经网络1200中，如在第一实施例中一样，在接收到来自输入图像1201的第一级1202的特征检测结果时，第二级1203中的左眼内眼角检测模块1204、左眼外眼角检测模块1205、右眼内眼角检测模块1206、右眼外眼角检测模块1207、嘴巴左端点检测模块1208、嘴巴右端点检测模块1209、上眼睑检测模块1210、下眼睑检测模块1211、上唇检测模块1212以及下唇检测模块1213检测各特征。

预先配置各检测模块以学习并检测主要包括各局部特征(左右内眼角、左右外眼角、嘴巴左右端点、上下眼睑、上下唇)的各种局部特征图像。最后，图12的神经网络被用作特征提取单元和根据特征提取单元的特征检测输出分布生成特征向量的模块。因此，由于该神经网络具有已学习了各特征的各种变化的检测模块，因此可以以比第一实施例更高的精度来提取特征，该神经网络将左右V形特征检测输出分布和线段特征检测输出分布作为特征(左右内眼角、左右外眼角、嘴巴左右端点、上下眼睑以及上下唇)的提取结果进行输出。因此，检测输出分布自身足以反映各局部特征的特性。

至于用于特征向量生成的局部区域设置，可以采用与图9所示相同的方式。由于如在第二实施例中一样，可以从特征提取神经网络的结果中获得特征和中点群，因此如在第一实施例中一样，基于其坐标来设置局部区域。特征检测模块的检测输出分布被累加，并且还对该总和输出分布设置局部区域，从而提取检测输出分布。基于该检测输出分布，生成均包括形状信息和布局信息的高阶特征向量，且如在第一和第二实施例中一样，将该高阶特征向量输入到模型函数，从而识别对象。

第四实施例

已经将根据第一到第三实施例中的每个实施例的图像处理设备作为摄像设备进行了说明。也就是说，将该设备作为识别通过摄像输入的图像中的面部的设备进行了说明。在该实施例中，将该图像处理设备应用于PC(personal computer，个人计算机)、WS(workstatin，工作站)等计算机。也就是说，在第一到第三实施例中，通过摄像将图像输入到设备中。然而，在该实施例中，通过将图像从硬盘驱动器等外部存储装置装载到该设备中的RAM上、或者通过I/F由该设备从外部接收图像来获取该图像。该设备的CPU执行对该图像的识别处理。

图1是示出根据该实施例的图像处理设备的基本配置的框图。

附图标记100表示控制整个设备并且使用存储在RAM 101和ROM 102中的程序和数据执行后面说明的各处理的CPU。

附图标记101表示包括当CPU 100执行各种处理时所需的工作区域、以及用于暂时存储从外部存储装置105装载的程序和数据的区域的RAM。

附图标记102表示存储引导程序、该设备的设置数据等的ROM。

附图标记103表示包括键盘和鼠标等指示装置的操作单元，并且可以将来自用户的各种指令输入到CPU 100。

附图标记104表示包括CRT、液晶显示器等的显示装置，并且可以通过文本、图像等显示CPU 100的处理结果。

附图标记105表示包括硬盘驱动器等大容量信息存储装置的外部存储装置。外部存储装置105保存OS(operating system，操作系统)、使CPU 100实现图2所示的单元的功能的程序和数据。一些或者全部所述程序和数据在CPU 100的控制下被装载到RAM101上。同样，外部存储装置105保存包括待识别的对象的图像数据、模型函数数据等，这些在需要时在CPU 100的控制下被装载到RAM 101上。

附图标记106表示I/F。通过该I/F 106与外部设备进行数据通信。例如，可以从与I/F 106连接的数字照相机或者其它计算机下载包括待识别的对象的图像数据。注意，所下载的图像数据被输出到RAM 101、并且作为将由CPU 100处理的对象暂时存储在那里。

附图标记107表示连接上述单元的总线。

根据上述各实施例的对象的单独识别处理提供以下效果。

以身份识别为例，由于上述识别处理基于一些特征(例如眼睛、嘴巴和鼻子)而不是全部特征的局部区域，因此其受到图像数据的光照变化和转动变化的影响不大。由于通过面部检测和特征提取处理来获取面部的空间布局或者面部特征的空间布局，并且基于该信息设置局部区域，因此识别处理不受空间布局变化的影响。

因此，根据上述各实施例的识别处理相对于在本发明的背景技术中所述的预测取决于光照变化和空间布局变化的本征脸方法来说，具有很大的优势。而且，由于根据上述各实施例的识别处理使用检测输出分布作为为特征向量生成部件的神经网络的中间输出结果，其可以作为面部检测处理的一部分安装，并可以实现紧凑型系统。因此，根据上述各实施例的识别处理相对于在本发明的背景技术中所述的动态链接结构来说，在处理成本上具有优势。

其它实施例

当照相机的CPU或者MPU读出并且执行来自记录介质(或者存储介质)的程序代码时，也实现了本发明的目的，所述记录介质记录可实现上述实施例的功能的软件程序的程序代码。在这种情况下，从记录介质读出的程序代码自身实现上述实施例的功能，并且存储该程序代码的记录介质构成本发明。

上述实施例的功能不仅可以通过由照相机执行所读出的程序代码来实现，而且还可以通过由运行在照相机上的操作系统(OS)基于程序代码的指令执行的一些或者全部实际处理操作来实现。

而且，在将从记录介质读出的程序代码写入插入照相机中的功能扩展卡或者与照相机相连的功能扩展单元的存储器中之后，上述实施例的功能可以通过配置在功能扩展卡或者功能扩展单元中的CPU等执行的一些或者全部实际处理操作来实现。

当将本发明应用于记录介质时，该记录介质存储与上述流程图(功能配置)相对应的程序代码。

由于在不脱离本发明的精神和范围的情况下，可以做出本发明许多明显不同的实施例，因此应该理解，除了权利要求中所限定的以外，本发明不限于其特定的实施例。

优先权主张

本申请主张在2004年6月28号提交的日本专利申请2004-190306号的优先权，其全部内容通过引用包括在此。

Claims

1.一种图像处理方法，用于执行识别包括在图像中的对象的处理，其特征在于，该方法包括：

检测步骤，用于检测包括在所述图像中的感兴趣对象的特征；

设置步骤，用于设置局部区域，该局部区域包括所述检测步骤中检测到的所述特征中的、获得所述对象的形状和位置关系所需的特征群；以及

判断步骤，用于基于在所述设置步骤中对所述感兴趣对象设置的所述局部区域中的所述特征群，来判断所述感兴趣对象是不同个体中的哪一个。

2.根据权利要求1所述的图像处理方法，其特征在于，所述判断步骤包括以下步骤：使用在所述设置步骤中对所述感兴趣对象设置的所述局部区域中的特征向量数据作为模型函数的输入值，来判断所述感兴趣对象是不同个体中的哪一个，所述模型函数基于通过对各不同个体预先执行所述检测步骤和所述设置步骤中的处理而获得的所述局部区域中的特征向量数据。

3.根据权利要求1或2所述的图像处理方法，其特征在于，所述检测步骤包括以下步骤：使用用于检测包括在所述图像中的对象的特征的分层神经网络，来提取包括在所述图像中的所述感兴趣对象的特征。

4.根据权利要求3所述的图像处理方法，其特征在于，基于在所述分层神经网络中用于检测所述对象的局部特征的边缘的神经元群的输出分布，来得到获得所述形状所需的特征群。

5.根据权利要求3所述的图像处理方法，其特征在于，基于在所述分层神经网络中用于检测所述对象的局部特征的端部的神经元群的输出分布，来得到获得所述位置关系所需的特征群。

6.根据权利要求1～5中任一项所述的图像处理方法，其特征在于，所述判断步骤包括以下步骤：使用在所述设置步骤中对所述感兴趣对象设置的所述局部区域中的特征向量数据作为模型函数的输入值，来判断所述感兴趣对象是不同个体中的哪一个，其中使用SVM(支持向量机)学习算法，利用待识别的对象和除该对象以外的个体的特征向量生成所述模型函数。

7.根据权利要求1～6中任一项所述的图像处理方法，其特征在于，该方法还包括检查步骤，该检查步骤用于检查在所述检测步骤中检测到的预定特征的位置关系是否合适。

8.根据权利要求1～7中任一项所述的图像处理方法，其特征在于，该方法还包括归一化步骤，该归一化步骤用于基于在所述检测步骤中检测到的预定特征的位置关系对所述图像的大小和斜率进行归一化。

9.一种图像处理设备，用于执行识别包括在图像中的对象的处理，其特征在于，该设备包括：

检测部件，用于检测包括在所述图像中的感兴趣对象的特征；

设置部件，用于设置局部区域，该局部区域包括由所述检测部件检测到的所述特征中的、获得所述对象的形状和位置关系所需的特征群；以及

判断部件，用于基于由所述设置部件对所述感兴趣对象设置的所述局部区域中的所述特征群，来判断所述感兴趣对象是不同个体中的哪一个。

10.一种程序，其特征在于，该程序使计算机执行根据权利要求1～8中任一项所述的图像处理方法。

11.一种计算机可读的存储介质，其特征在于，该存储介质用于存储根据权利要求10所述的程序。