CN102460508B

CN102460508B - 图像识别方法和图像识别设备

Info

Publication number: CN102460508B
Application number: CN201080026084.6A
Authority: CN
Inventors: 吉井裕人; 真继优和
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-06-18
Filing date: 2010-06-15
Publication date: 2016-08-31
Anticipated expiration: 2030-06-15
Also published as: US10891329B2; US20120076417A1; WO2010147229A1; US20180089187A1; US9852159B2; EP2443612A1; JP2011022991A; EP2443612B1; JP5538967B2; CN102460508A; EP2443612A4

Abstract

提供了一种图像识别设备，该图像识别设备包括用于从事先登记的每个登记图像提取预定尺寸的一组登记部分图像的第一提取装置和用于从输入的新图像提取预定尺寸的一组新部分图像的第二提取装置。该设备还包括用于基于通过划分通过第一提取装置提取的一组登记部分图像形成的规则鉴别新部分图像的属性的鉴别装置和用于通过收集在输入作为该组新部分图像的元素的新部分图像时鉴别装置的鉴别结果而导出新图像的最终识别结果的收集装置。

Description

图像识别方法和图像识别设备

技术领域

本发明涉及通过使用目标的照片图像推定目标的诸如名称、类型、存在位置和取向等的信息的图像识别方法。这里提到的“目标”表示任意的对象，并且可以为例如人、动物、汽车、照相机、打印机和半导体基板等中的任一个。

背景技术

近年来，已存在通过对已预先学习的目标对象的图像和新拍摄的包含目标对象的图像进行图案匹配来推定目标对象的类型和存在区域的方法(例如，参见日本专利申请公开No.2002-32766的公报)。在以上的方法中，从已预先学习和登记的目标对象的图像计算本征值和本征矢量。已制成这样的设备，即通过将从新拍摄的图像切出的图像投影到其本征矢量可通过更少的模型识别目标对象。还公开了通过使用通过划分已预先学习并登记的目标对象的图像获得的部分学习图像进一步提升识别率的设备。

但是，根据由以上的方法表示的图像的图案匹配方法，存在花费长时间来进行识别的问题。特别地，如果要鉴别的类别的数量非常多，则存在识别时间剧增的问题。例如，现在假定存在1000种类型的目标对象(例如，登记了1000个人的脸)并且存在对于每一目标对象从各个角度拍摄的(每个对象)100个(也包含轮廓等)学习图像。因此，总共存在100000个学习图案。因此，即使可10nsec进行一个登记图像和新照片图像的图像比对，也需要1秒以获得最终的识别结果。

关于这里提到的登记图像，例如，设想围绕目标对象的外接矩形的内部。关于新照片图像，设想包含登记图像的大尺寸的图像。因此，一个登记图像和新照片图像的图像比对不是简单的一对一对应关系的图像图案匹配，而包含用于规定目标对象存在于新照片图像中的哪个部分的位置规定任务。具体而言，例如，通过利用滑动窗口切割新照片图像并且对各切出的图像和登记图像进行匹配，实现图像比对。因此，虽然依赖于登记图像和新照片图像中的每一个的像素的数量，但是，前面的10nsec的图像比对时间可被视为在图像已被以就当前计算机处理速度而言非常高的速度处理的情况下获得的时间。

并且，在现有技术中，根据以上提到的使用部分学习图像的图像匹配方法，典型地出现识别时间剧增的问题。例如，现在假定一个学习图像被划分成100(＝10×10)个重叠部分图像，由于要被匹配的登记图像的数量增加100倍，因此，计算时间也简单地增加100倍。在以上的例子的情况下，需要100秒的时间。

即使通过以上的方法通过使用本征矢量减少维数，虽然可以减少距离计算的计算时间，但是，由于不能省略适于减少维数的矢量计算，因此，最终不能实现总图像识别的高速度。根本没有解决必须进行次数与登记图像的类型的数量相同的图像比对的基本问题。

发明内容

根据本发明的一个方面，提供一种图像识别方法，该图像识别方法包括：第一提取步骤，从事先登记的每个登记图像提取预定尺寸的登记部分图像的集合；第二提取步骤，从输入的新图像提取预定尺寸的新部分图像的集合；鉴别步骤，基于通过划分在第一提取步骤中提取的登记部分图像的集合所形成的规则鉴别新部分图像的属性；以及收集步骤，通过收集在输入作为新部分图像的集合的元素的新部分图像时鉴别步骤中的鉴别结果而导出新图像的最终识别结果。

参照附图从示例性实施例的以下详细描述，本发明的其它特征和方面将变得清晰。

附图说明

图1是示出一个实施例的图像识别设备的处理构成的示图。

图2A和图2B是示出该实施例的图像识别方法的处理过程的流程图。

图3是示出信息处理设备的硬件构成的例子的示图。

图4是用于描述部分图像属性鉴别步骤的示图。

图5是用于描述登记部分图像组的示图。

图6是示意性地示出学习图像的示图。

图7是用于描述学习步骤的特定处理的示图。

图8是用于描述划分部分图像集合的方法的示图。

图9是用于描述第二实施例中的部分图像结果收集步骤的示图。

图10A和图10B是用于描述第三实施例的示图。

图11是用于描述第三实施例的流程图。

图12是用于描述第四实施例中的部分图像尺寸决定步骤的流程图。

图13是用于描述第四实施例中的部分图像尺寸决定步骤中的尺寸评价方法的示图。

图14是用于描述第五实施例中的部分图像尺寸决定步骤中的尺寸评价方法的示图。

图15是示意性地示出第五实施例中的部分图像尺寸决定步骤中的操作的方法的示图。

图16是示出第六实施例中的处理过程的流程图。

图17是示出第六实施例中的通过分类树的识别处理过程的流程图。

图18A和图18B是用于描述第六实施例中的投票方法的示图。

图19是用于描述第六实施例中的投票时的权重分布的示图。

具体实施方式

以下将参照附图描述本发明的实施例。

图1是用于描述根据实施例的图像识别设备的基本处理构成的示图。图2A和图2B是示出根据实施例的图像识别方法的处理过程的流程图。

首先，在部分图像尺寸决定单元101中预先决定要被切出的部分图像的尺寸102。将在第四实施例中描述部分图像尺寸决定单元101的处理内容的细节。现在假定由部分图像尺寸决定单元101预先决定适当的部分图像尺寸102。

在登记在识别时用作比较目标的图像的情况下，基于部分图像尺寸102通过用作第一提取装置的登记部分图像集合提取单元104从登记图像103提取登记部分图像集合105。假定提取的登记部分图像集合105的数量等于每个登记图像M个，并且登记图像的数量等于N，则所有提取的登记部分图像集合105的数量等于N×M。并且，通过字典形成单元113从登记部分图像集合105形成用于识别的字典114。用于形成用于识别的字典114的处理不是必需的，而登记部分图像集合105可被原样使用并被识别。

另一方面，在识别新图像的情况下，通过用作第二提取装置的新部分图像集合提取单元107从新图像106提取部分图像尺寸102的新部分图像集合108。在部分图像属性鉴别单元109中，基于已提取的登记部分图像集合105或者基于从该登记部分图像集合105形成的字典114，鉴别构成新部分图像集合108的新部分图像中的每一个的属性。

最后，通过部分图像鉴别结果收集单元111收集作为新部分图像集合108的元素的新部分图像的鉴别结果110，使得获得最终识别结果112。在第一实施例中，部分图像鉴别结果110仅是属性的鉴别结果。但是，在第二实施例中，在部分图像鉴别结果110中包含表示部分图像的在图像中的位置的位置信息115。在第二实施例中将描述细节。

假定构成由新部分图像集合提取单元107提取的新部分图像集合108的部分图像的数量等于K。此时，如果在部分图像属性鉴别单元109中使用在日本专利申请特开No.2002-32766中呈现的被称为“模板匹配”的处理，则总共必须执行比对处理N×M×K次。此时，在部分图像属性鉴别单元109中使用登记部分图像集合105。

另一方面，在实施例所示的方法中，可通过使用所谓的机器学习使处理次数减少为K次。此时，在部分图像属性鉴别单元109中使用字典114。

一般地，上述的常数M和K之间的关系为M≠K。但是，如果登记图像的尺寸和新图像的尺寸相等，例如，如果使用包含于每一图像中的所有部分图像，则满足M＝K的关系。将在第三实施例中详细描述登记图像的尺寸和新图像的尺寸不同的情况。

将更具体地描述部分图像鉴别结果收集单元111。“属性”表示N维概率矢量(p1、p2、...、pN)。Pi表示新部分图像被包含在第i个登记图像中的概率。如果新部分图像集合108由K个部分图像构成，则存在K个N维概率矢量。最终识别结果112变为登记图像的表示平均概率中的最大概率的索引(index)，该平均概率是通过执行简单地计算那K个概率矢量的算术平均的处理或在获得其对数之后计算算术平均(与K个概率相乘的几何平均对应)的处理等获得的。

图2A是学习时的流程图，图2B是鉴别时的流程图。

在学习时，关于登记图像中的每一个执行步骤S101～S105的循环，关于各登记图像中的部分图像中的每一个执行步骤S102～S104的循环，并且形成登记部分图像集合105。步骤S101～S105的登记图像的循环被执行N次，步骤S102～S104的部分图像的循环被执行M次，并且，步骤S103的部分图像的提取被执行N×M次。

在实施例的图像识别方法中，希望地，在步骤S107中从登记部分图像集合105形成字典114。但是，实施例不限于使用所谓的机器学习的机制的方法，而可通过原样使用登记部分图像集合105执行图像匹配。

图2B是鉴别时的流程图。首先，在从新图像提取包含于新图像中的部分图像的同时执行用于鉴别部分图像的属性的循环(步骤S107～S110)。该循环被执行K次。在步骤S108中提取的部分图像是构成新部分图像集合108的一个新图像中的部分图像。

在步骤S110中，通过使用登记部分图像集合105或字典114从该新部分图像导出部分图像鉴别结果110。

在步骤S111中，收集部分图像鉴别结果110，并且，导出最终识别结果112。

图3是示出执行根据包括本实施例的所有实施例的图像识别方法的信息处理设备的构成的框图。

图像识别方法被安装到具有外部存储装置201、中央处理单元(CPU)202、存储器203和输入/输出装置204的设备中。外部存储装置201存储用于实现实施例中的处理的程序、通过照相机拍摄的登记图像和通过使用登记图像形成的字典114等。外部存储装置201还具有用于保持由实施例导出的目标对象的识别结果的功能。CPU 202执行图像识别方法的程序并且控制该设备的各单元。存储器203临时存储由CPU 202使用的程序、子程序和数据。输入/输出装置204从照相机取得图像，与用户交互作用，或者将图像识别结果输出到另一信息处理设备。虽然一般使用照相机作为输入装置，但是，可以使用诸如扫描仪的装置。还存在用户通过输入/输出装置发出用于执行程序以实现实施例的图像识别方法的触发的情况。还存在用户通过输入/输出装置观看结果或者控制程序的参数的情况。还存在用于控制作为输出目的地的机器人的装置的情况。

将通过使用图4详细描述部分图像属性鉴别单元109的处理。在该实施例的图像识别方法中，设想称为机器学习的方法。在这种情况下，部分图像属性鉴别单元109的处理被分成学习阶段和识别阶段这两个阶段。

在学习阶段中，通过学习单元302从登记部分图像集合301形成鉴别器303。在鉴别器303中，可以使用诸如神经网络或支持矢量机的机器学习中通常使用的算法。更希望地，可以使用将在图6和随后的图中提到的使用分类树集合的方法。

鉴别器303根据部分图像的属性进行鉴别，并且其实质是采用的算法的学习之后的内部参数。具体而言，在神经网络的情况下，内部参数是所有连接的权重的集合，并且，在支持矢量机的情况下，它们是所有支持矢量的集合。在分类树的情况下，树结构的各内部节点中的鉴别参数的集合和各终端节点中的类别存在概率的集合变为内部参数。这里提到的内部节点表示具有子节点的节点。这里提到的终端节点表示不具有子节点的端节点。

在识别阶段中，在属性鉴别单元305中，通过使用鉴别器303鉴别从新图像提取的新部分图像，由此获得属性鉴别结果306。新部分图像304与构成图1中的新部分图像集合108的各元素对应。属性鉴别结果306与图1中的部分图像鉴别结果110对应。

虽然在图3中的属性鉴别单元305中使用表述“属性鉴别”，但是，在机器学习的领域中，它一般被称为“识别”。这是由于在属性鉴别单元305中，新部分图像和登记部分图像不被逐个比对，而基于已存储所有学习的登记部分图像组的信息的鉴别器303导出新部分图像与登记部分图像的类似程度。

在实施例中，存在多个新部分图像304，并且还存在多个属性鉴别结果306。通过在图1中的部分图像鉴别结果收集单元111中收集它们，获得最终识别结果112。在属性鉴别单元305中有意不使用表述“识别”的原因是要强调没有获得最终识别结果。

根据现有技术中的图案匹配方法，在属性鉴别单元305中，登记部分图像集合105和新部分图像集合108的所有组合的每一个的处理是必需的。另一方面，在实施例中，基本上必须进行次数与新部分图像集合108的元素的数量一样多的处理。

随后，将通过使用图5描述登记部分图像集合105。从一个登记图像(学习图像)提取M个部分图像。它们被称为部分图像集合。虽然构成部分图像集合的部分图像未必重叠，但是希望从原始学习图像广泛地提取它们以使得它们重叠。

例如，假定学习图像的尺寸等于100×100个像素并且部分图像的尺寸等于50×50个像素。现在，假定不考虑像素之间的中间位置(称为子像素)，则从一个学习图像提取的所有部分图像的数量等于2601 (＝51×51)。现在假定提取非重叠的部分图像，则总共获得4(＝2×2)个部分图像。

希望部分图像集合由包含于所有的2601个部分图像中的尽可能大(例如，一半或更大)的多个部分图像构成。作为最终学习(登记)部分图像组，获得每M个被标记为同一类别(与登记图像的指数同义)上的登记部分图像，即，总共获得M×N学习部分图像。

下面，将描述学习算法。图6是示意性地示出学习单元302的处理的示图。将通过使用同一示图描述属性鉴别单元305的处理。

在实施例的学习中，形成被称为分类树的树结构的L个鉴别器。虽然L可等于1，但是，希望在10～30的范围中的数量。分类树由内部节点和终端网络构成。在内部节点中，存在鉴别表述、鉴别规则或鉴别处理前进到哪个子节点的鉴别程序。在终端节点中，保持作为识别目标的类别的存在概率。

在学习阶段中，通过使用图5所示的学习部分图像组形成二分树。由于总共存在L个分类树，因此，分类树的形成被执行L次。当形成分类树时，在各分类树的内部节点中，随机选择两个像素，并且比较像素的亮度，由此将包含于学习部分图像组中的部分图像集合分成两个部分。以下将通过使用图7详细描述以上的处理。

虽然在实施例中随机选择两个像素，但是，也能够以如下方式构成，即随机选择部分图像中的两个任意的矩形区域并且比较矩形区域的平均亮度，由此执行分支处理。也能够以如下方式构成，即使用多个准备的掩盖图案而不是矩形、随机选择存在于部分图像中的任意位置处的两个任意的类型的掩盖图案并且比较区域的平均亮度的，由此执行分支处理。

在用于通过使用分类树集合处理新部分图像的属性鉴别单元305中，用于跟踪分类树的处理被执行L次。作为参照新部分图像跟踪分类树的结果，处理最终到达终端节点L次。假定存在N个登记图像，由于通常在各终端节点中已存储N个存在概率矢量(p1、p2、...、pN)，因此，最终获得L个概率矢量。最终，在实施例中，通过执行简单地计算这L个概率矢量的算术平均的处理或计算获得它们的对数之后的算术平均(与L个概率相乘的几何平均对应)的处理等获得的平均概率变为属性鉴别单元305的最终输出。作为细化平均概率的方法，最高概率的值以外的概率可被设为0。这与这样的处理相对应，即通过所谓的L分类树的识别结果的投票而具有最高分数的类别被设为属性鉴别单元305的结果。

随后，将分析属性鉴别单元305的计算时间的量级。由于上述的分类树的数量L是恒定的，因此，它与计算时间的量级没有关系。计算时间与分类树的深度成比例，并且，其最大值与和登记的图像的数量一样多的数量的对数成比例地增加。即，在实施例的图像识别方法的情况下，即使速度慢，也只需要log(登记部分图像的数量)的量级的计算时间。另一方面，在日本专利申请特开No.2002-32766公开的现有技术中的图像比对方法中，登记部分图像的数量的量级的计算时间是必需的。

将通过使用图7描述学习单元302的具体处理。

通过递归调用子程序601的Split_a_node(S)实现分类树的形成。子程序Split_a_node(S)调用子程序602的Pick_a_random_split(S)和子程序603的Stop_Split(S)。

存在于分类树的顶部节点(根节点)中的图像是所有的登记部分图像。调用Split_a_node(S)时的S首先变为所有的登记部分图像(整个集合也是一种部分集合)。

这种递归调用子程序601的处理表示作为Split_a_node(S)的结果，登记部分图像的集合被分成两个集合S0和S1，并且执行Split_a_node(S0)和Split_a_node(S1)。

作为子程序601的Split_a_node(S)的内容，首先，调用Split_a_node(S)，并且当返回值为TRUE(真)时，节点被设为终端节点，并且递归调用结束。在终端节点中，如到此为止描述的那样存储类别的存在概率。通过从作为子程序Split_a_node中的自变数的S计数S中的登记图像的类别的数量来获得类别的存在概率。例如，如果在S的登记部分图像的集合中仅包含一定登记图像的部分图像，则类别的概率等于1，并且，其它的类别的概率等于0。

随后，如果Stop_Split(S)的返回值为FALSE(假)，则Pick_a_random_split(S)被调用Z次(例如，Z＝1000)。如果作为Pick_a_random_split(S)的返回值的划分结果(division)为OK，则完成处理循环，并且返回划分结果。在S0和S1(|S|表示包含于集合S中的元素的数量)两者中均包含一个或更多个登记部分图像的条件下，划分值为OK。

如果即使在Pick_a_random_split(S)被尝试Z次之后仍不能执行OK的划分，则节点被设为终端节点，并且递归处理结束。

如图6所示，Pick_a_random_split(S)程序随机选择图像中的两个像素并且比较它们的亮度。

子程序603的Stop_Split(S)是用于鉴别是否满足终端节点的条件的程序。entropy(S)是登记部分图像的集合S的信息熵。假定类别的存在概率为(p1、p2、...、pN)，则通过表达式-∑(pi*log(pi))计算entropy(S)。例如，假定S仅包含包含于一定登记图像中的部分图像，则熵等于0。

通过改变Stop_Split(S)的阈值的值，可以改变适于鉴别节点的使其被设为终端节点的纯度(a degree of pureness)的基准。例如，假定阈值等于0，则在终端节点中仅确定包含一定登记图像的部分图像。

在实施例中，还能够以函数Stop_Split(S)总是返回TRUE的方式构成。因此，不执行递归节点形成(发展)，而形成仅根节点及其子节点存在的结构。

下面，将通过使用图8描述子程序601的Stop_a_node(S)的操作。

假定登记部分图像的集合的元素的数量为例如16(登记部分图像的数量等于16)，则在根节点中存在写在图8的左侧的16个图像。

在根节点中随机选择两个像素，并且通过比较它们的亮度将包含于登记部分图像集合中的所有部分图像分成两个集合。在图8的例子中，在左侧子节点中保持10个部分图像，并且，在右侧子节点中保持6个部分图像。以灰色示出的图像表示没有留下的图像。

随后，在右侧子节点中，如果子程序603的Stop_Split(S)的返回值为FALSE，则发展另一下级子节点。此时，随机选择另外的两个像素，并且比较它们的亮度，由此划分集合。

在图8所示的例子中，在左侧子节点和右侧子节点中均保留三个元素。

随后，将通过使用图9描述第二实施例。

在第一实施例中，包含于一定登记图像中的所有部分图像被作为同一类别的图像进行处理。在第二实施例中，所有部分图像被作为不同类别的图像进行处理。

“类别”表示在机器学习中要鉴别的目标的类型，并且通常在图像识别的情况下表示登记图像的类型。以上提到的“包含于一定登记图像中的所有部分图像被作为同一类别的图像进行处理”表示，虽然“外观”不同，但是包含于一定登记图像中的各种类型的部分图像组被作为同一类型图像组进行处理。另一方面，“包含于一定登记图像中的所有部分图像被作为不同类别的图像进行处理”表示，虽然源自同一登记图像，但是从不同的位置提取的部分图像被作为不同类型的图像进行处理。具体而言，通过提供部分图像的位置信息，部分图像被逐个区分。

假定存在N个登记图像并且每个登记图像存在N个部分图像，那么，在第一实施例中，总共存在M×N个登记部分图像并且类别的数量等于N。在第二实施例中，则总共存在M×N个登记部分图像并且类别的数量等于M×N。

将通过使用图9描述位置信息及其使用方法的具体例子。

在图9中，假定存在登记图像A和登记图像B两个登记图像，并且每个登记图像存在3×3个非重叠部分图像。虽然在实施例中希望部分图像重叠，但是，由于它们即使不重叠也不会丧失一般性，因此，以下，为了简化描述，将描述部分图像不重叠的例子。

图9所示的虚线的箭头表示图3中的属性鉴别结果306与图1中的鉴别结果110之中的最匹配的登记部分图像和输入部分图像的组合。存在9个新部分图像，并且对于它们中的每一个存在与18(＝9+9)个登记图像匹配的结果。一般地，作为部分图像属性鉴别的结果，对于9个新部分图像中的每一个导出(p1、p2、...、p18)的18维的类别存在概率。但是，为了便于描述，在假定图示的最匹配部分图像的概率等于1并且其它的部分图像的概率等于0的情况下进行描述。通过用概率矢量(p1、p2、...、p18)计算加权平均，以下的讨论可扩展到一般的情况。

作为部分图像属性鉴别的结果，新图像的9个部分图像与A的6个部分图像和B的3个部分图像匹配。当准确匹配的部分图像的数量被假定为得分时，在第一实施例的情况下，A的分数(point)等于6，B的分数等于3，并且，新图像被识别为登记图像A。

但是，当在还包括位置信息时考虑“准确匹配的部分图像”的定义时，A的分数等于1，B的分数等于3，并且，新图像被识别为登记图像B。这是第二实施例的最简单的例子。

在这种情况下，假定新图像的正确识别结果最终为B，则第一实施例的情况错误，并且第二实施例的情况是正确的方案。

在精确计算分数的情况下，可通过使用匹配的部分图像的位置与固有地应匹配该部分图像的位置之间的距离D的函数计算分数。例如，可以使用诸如exp(-C＊D)、exp(-C＊D＊D)或1/(1+C＊D＊D)的函数(评价表达式)(C是任意的正的常数，exp是指数函数)。

以下将描述在对于分数使用exp(-C＊D)的情况下的计算式。(为了简化描述，假定D是二维的欧几里得距离并且C＝1)。

如图9所示，关于新部分图像和登记图像A的部分图像，在9个新部分图像中它们与登记图像A的6个部分图像匹配。当计算距这些位置的二维距离时，距(左上A(0、1))、(右上A(0、0))、(左中A(0、1))、(左下A(2、2))、(中下A(2、2))和(右下A(0、2))的距离分别等于√1、√4、√0、√4、√1、√4(在这种情况下，诸如“左上”的表述表示新图像中的部分图像的位置，并且，诸如A(0、1)的随后表述表示与其对应的匹配结果)。因此，A的总得分等于e^√ ¹+e^√ ⁴+e^√ ⁰+e^√ ⁴+e^√ ¹+e^√ ⁴＝1+2e^-1+3e^-2。

关于新部分图像和登记图像B的部分图像，在9个新部分图像中它们与登记图像B的3个部分图像匹配。当计算距这些位置的二维距离时，距(中上B(1、0))、(中中B(1、1))和(右中B(2、1))的距离分别等于√0、√0、√0。因此，B的总得分等于e^√ ⁰+e^√ ⁰+e^√ ⁰＝3。

虽然在本例子中通过将匹配的部分图像的得分相加导出总得分，但是，可通过将它们相乘以导出得分。

下面，将通过使用图10A、图10B和图11描述第三实施例。

在第一实施例和第二实施例中，登记图像具有矩形形状。即，矩形的内部的全部被作为登记图像处理。但是，一般地，登记图像的矩形的内部可被分成目标和背景。例如，现在假定图10A所示的目标在登记图像中具有椭圆形状。在第三实施例中，没有在图1中的登记部分图像设定提取单元104中提取登记图像中的所有部分图像，而仅提取存在目标的椭圆中的部分图像。因此，可以在不提取背景图像的情况下仅提取目标中的图像。

还可设定比要登记的部分图像被完全包含在目标中的条件更宽松的条件。例如，也可设定提取部分图像中的被目标所占据的面积等于80％或更大的部分图像的条件。

以上的操作如图11中的流程图所示。

在部分图像评价循环1101中，检查包含于图像中的所有部分图像。如以上的例子所示，例如，仅向采用的部分图像集合1102添加部分图像中的被目标占据的面积等于80％或更大的部分图像。

另一方面，在部分图像属性鉴别部分109中，在实施例中，也以与第一实施例和第二实施例类似的方式执行与从新图像提取的任意部分图像的匹配。这是因为由于包含于新图像中的目标对象是未知的，因此，预先不知道应看到新图像的哪个位置。

在第一实施例和第二实施例中，在假定登记图像的尺寸与新图像的尺寸相同的情况下描述实施例。但是，一般地，新图像比登记图像大。在图10B中描述了这一点。

例如，假定登记图像的尺寸等于100×100并且部分图像的尺寸等于20×20。在第一实施例和第二实施例中，由于新图像的尺寸与登记图像相同，等于100×100的尺寸，因此，在新部分图像集合提取单元107中提取的部分图像的数量等于6561(＝81×81)。

另一方面，在该实施例中，假定新图像的尺寸等于200×200，则新部分图像集合提取单元107中提取的部分图像的数量等于32761(＝181×181)。

考虑从新图像提取所有的登记图像并且进行匹配(通过所谓的“滑动窗口”的登记图像的匹配)的情况。假定登记图像的尺寸等于100×100并且新图像的尺寸等于200×200，则匹配被执行10201(＝101×101)次。另一方面，在使用以上的部分图像的情况下，匹配次数也仅增加约3倍。因此，如果部分图像属性鉴别单元109的处理速度高(更准确地说，如果速度不与登记图像的数量成比例地减少)，则该实施例中的使用非常多的登记部分图像的图像识别方法可足够适于实际使用。

随后，将通过使用图12和图13描述第四实施例。在第四实施例中，实际安装部分图像尺寸决定单元101的例子。在该实施例中，通过使用所谓“交叉验证”的方法决定部分图像的尺寸。

图1中的登记图像103通过后面将描述的方法被分类为采样登记图像组1301和采样新图像组1302。虽然它一般被随机分为两个部分，但也能够以这样的方式构成，即，假定存在N个登记图像103，则它们中的一个被设为采样新图像(组)，并且，其它的图像被设为采样登记图像组。(这是所谓的“遗漏一个方法(leave one out method)”。在这种情况下，通过将采样新图像循环N次获得的识别率的值的平均值执行识别率的评价，并且，识别率评价循环1301被执行{N×(被评价的部分图像的尺寸的类型的数量)}次)。

首先，部分图像的尺寸被暂时决定为一定尺寸，采样登记图像组1301被设为登记图像103，并且执行学习。在学习单元302中执行学习。随后，采样新图像组1302的各图像被逐个设为新图像106，并且识别图像。通过收集从所有的新图像组获得的识别结果112，获得在部分图像具有预定尺寸的情况下的识别率。

图13是通过绘制在改变尺寸时识别率的差异所获得的曲线图。横轴表示部分图像尺寸，纵轴表示在该尺寸评价出的平均识别率。

在本例子中，由于部分图像尺寸在尺寸40处具有峰值，因此在最大识别率决定步骤1304中选择40，并且，最佳部分图像尺寸1305等于40。在该实施例中，通过使用在第一到第三实施例中提到的图像识别方法评价部分图像尺寸是重要的。

下面，将通过使用图14和图15描述第五实施例。

虽然在第四实施例中提到的交叉验证具有可确定高识别性能的部分图像尺寸的优点，但是，还存在需要非常大的计算机成本的缺点。在该实施例中，将描述部分图像尺寸决定单元101的更简单的处理的例子。

图14是通过适当地从图1中的登记图像103选择属于不同类别的两个登记图像并且分析它们的部分图像组之间的结构所获得的曲线图。(以下，“类别”表示登记图像的类型。例如，类别A的图像是A先生的面部图像，类别B的图像是B先生的面部图像)。

在图14的曲线图中，横轴表示部分图像的尺寸，并且纵轴表示(类别内平均距离/类别间距离)。将通过使用图15描述类别内平均距离和类别间距离。

虽然在图15中类似3三维空间地示出特性空间，但是示出它是为了便于描述。实际上，特性空间是极高维度的空间。具体而言，它是具有如部分图像的像素尺寸的数量那样多的维数的空间。在以下的描述中使用的“距离”表示欧几里得距离。实施例不限于欧几里得距离，而可使用任意的距离标度。

例如，假定登记图像103的尺寸等于100×100。还假定存在类别A和类别B的两个图像。假定部分图像的尺寸是100×100的全尺寸，则登记部分图像的数量对于各类别等于1。它们被以在图15的右侧的空间布局中布置。这里的维数等于10000(100×100)。在以下的描述中，图15中的○表示一个部分图像。为了便于描述，关于类别A和类别B的布局，将在假定左侧表示类别A并且右侧表示类别B的条件下进行描述。

“类别内平均距离”表示该类别的平均部分图像和各部分图像之间的距离的平均。在这种情况下，由于仅存在一个部分图像，因此，类别的平均部分图像变为“登记图像自身”，并且，类别内平均距离等于0。

“类别间距离”表示类别的平均部分图像之间(＝两个登记图像之间)的距离。在图15中的右侧的情况下，它表示横向箭头的长度。

最终，作为图14中的纵轴的(类别内平均距离/类别间距离)等于0，原因是其分子等于0。

当通过使用数值式描述“类别内平均距离”和“类别间距离”时，它们如下。

假定部分图像的矢量由 (i：部分图像的指数，x，y：坐标，I：坐标的像素值(实数))表达。

因此，平均部分图像(矢量) 由定义，这里，N是部分图像的数量。

类别内平均距离(标量)由定义，这里，X和Y分别是图像的横向尺寸和纵向尺寸。

类别内距离由这里，A和B是类别名称。

下面，将描述图14的曲线图的指数表示峰值的部分图像尺寸30。当部分图像的尺寸达到30×30时，类别A和B中的每一个的部分图像的数量等于5041(＝71×71)并且维度等于900(＝30×30)。

图15的中心所示的示图是900个维度的空间，并且，该示图示出部分图像如何分布。准确地说，虽然关于类别A和B中的每一个中的 ○的数量应等于部分图像的数量(＝5041)，但是，这里，由于它们不能被完全示出，因此，它们中的大多数被省略。

两个粗箭头1601和1602表示“类别内平均距离”。具体而言，如上所述，它由“类别的平均部分图像与各部分图像之间的距离的平均”定义。在该指数中使用的“类别内平均距离”被设为类别A的类别内平均距离1601和类别B的类别内平均距离1602的平均。

如图15的中心所示，当部分图像的数量大到一定的程度时，其分布扩展并且类别内平均距离增加。在图15中，“类别的扩展程度”由包围由○表示的部分图像的大的椭圆表达。

虽然“类别间距离”(横向箭头的长度)比图15中的右侧的100×100的情况小，但是，最终的指数(类别内平均距离/类别间距离)更大。

当部分图像的尺寸进一步减小(5×5)时，它们具有如图15的左侧所示的空间布局。维数等于25(＝5×5)并且类别A和B中的每一个的部分图像的数量等于9216(＝96×96)。

虽然“类别间距离”进一步缩短，但是，“类别内平均距离”减小得比它多，使得指数(类别内平均距离/类别间距离)减小。这意味着，虽然部分图像的数量增加，但其分布范围相对减小。这对应于如下情况，即部分图像的分布的文字被消灭，并且变得难以区分A的部分图像组与B的部分图像组。

上述的使用(类别内平均距离/类别间距离)的部分图像尺寸评价方法是易于与所谓的“Fisher的分离函数”混淆的概念。但是，在以上的指数和Fisher的分离函数的指数之间存在相反的关系。即，Fisher的分离函数趋向于尽可能多地减小类别中的分布范围并尽可能多地增加类别之间的分布范围。相反，在该实施例中描述的指数(类别内平均距离/类别间距离)变为尽可能多地减小类别之间的分布范围并且尽可能多地增加类别中的分布范围的指数。

由于根据这种指数看到基本上与Fisher的分离函数的性质相反的性质，因此，在普通的感觉中，当指数大时，感觉好象识别率减小。但是，根据本发明的使用部分图像的图像识别方法，当指数大时，这意味着部分图像的集合的形式具有足够有意义的结构(分布)，并且出现这种识别率最终(指数的方式)增加的现象。

以下，将通过使用图16～19描述第六实施例。

在第六实施例中，实现如下这样的技术，其中学习通过从各种方向拍摄目标对象获得的图像作为登记图像并且从包含目标对象的输入图像检测目标对象。第六实施例中的学习步骤(图4中的302)与第二实施例基本上相同。即，在图8中，使用通过从N个取向方向拍摄一个目标对象获得的N个图像作为N个登记图像。例如，获得图18B所示的图像。从它们提取多个部分图像并且设为登记部分图像。

一般地，这N个取向方向变为以规则间隔布置于网格球顶上的点指向对象的中心的方向乘以照相机或图像的面内旋转的取向方向。通过如上面提到的那样准备登记图像，即使已经以输入图像中的取向拍摄目标对象，仍可识别和检测该目标对象。这种通过机器学习执行N个登记图像的匹配的操作等同于进行N个类别的鉴别的动作。以下将在假定识别N个登记图像和N个取向类别的条件下进行描述。

可通过使用计算机制图的技术形成从例如CAD图像通过虚拟地从各种方向拍摄目标对象所获得的图像。虽然在假定存在一个目标对象的条件下描述了实施例，但是，即使存在多个目标对象，其实质也不变。

取向类别的数量增加得越多，则取向可被更详细地鉴别。即，为了关于取向实现高的分辨率，必须将登记图像的数量N设为足够大的值。但是，即使通过假定N＝2进行描述，其实质也不变。因此，为了简化描述，以下假定N＝2。目标对象是图18B所示的长方体。如图18B所示，假定两个(＝N)取向类别被设为面向右前方的取向和面向左前方的取向。为了实现高的对象识别和检测性能，还必须将部分图像的数量(M)设为一定的大值。但是，即使通过假定M＝2进行描述，由于实质也不变，因此为了简化描述，以下假定M＝2。具体而言，假定取向类别中的登记部分图像分别是图18B所示的类别1中的图像1910和1911以及类别2中的图像1913和1914。在图18B 中，登记图像中的目标对象的中心位置由类别1中的1912和类别2中的1915表示。

现在将描述对象的检测步骤。图16是示出第六实施例中的对象检测程序的流程图的示图。在对象检测步骤中，首先，当经过新输入的图像滑动窗口时，执行用于处理存在于窗口中的部分图像的程序。该循环是S1701～S1707的循环。该状态与在第三实施例的描述中使用的图10B中的操作相同的操作对应。

例如，假定登记图像的尺寸等于100×100并且部分图像的尺寸等于20×20。假定新图像的尺寸等于200×200，则在S1702中的部分图像提取步骤(与图2B中的新部分图像集合提取步骤S107相同)中提取的部分图像的数量等于32761(＝181×181)。还能够以如下方式构成，即在S1701～S1707的循环中不处理所有的32761(＝181×181)个部分图像，而采样它们中的适当的数量的部分图像，由此实现高的速度。

在该循环中，首先执行部分图像的提取(S1702)并且输入提取的部分图像，由此获得L个分类树鉴别器的鉴别结果。该循环是S1703～S1706的循环。允许将提取的部分图像识别为相应分类树的步骤是S1704。在图17中示出这种步骤的细节的流程图。

图17所示的流程图描述从根节点到叶节点或空节点跟踪分类树的步骤。分类树中的当前关注的节点被定义为当前节点。首先，根节点被设为当前节点(S1801)。随后，鉴别当前节点是否是空节点或叶节点(S1802)。如果当前节点是空节点或叶节点，则完成本子程序。

存储于叶节点中的信息是表示“位于哪个登记图像的哪个位置的部分图像”的一组信息。具体而言，它是“类别数和相对于基准位置的偏移”的集合。(以下将通过使用图18A和图18B描述偏移的细节)。

如果当前节点不是空节点也不是叶节点，则基于当前节点的查询计算分支号(S1803)。计算的分支号的子节点被设定为当前节点(S1804)。以上描述的步骤是使用分类树的识别步骤中的一般和通用的步骤。

返回图16，通过使用第i个鉴别器(分类树)的识别结果执行投票(S1705)。将通过使用图18A、图18B和图19描述该状态。在图18A中示出投票的状态。在图18B中示出学习图像的状态。由于登记图像的数量、即类别的数量等于2，因此，图18A所示的投票表面(2维片材)的数量等于2。投票表面的具体内容是添加投票的得分的2维表。该表中的表示大的值的位置表示存在这种类别的对象的可能性高的位置。

虽然在图18A的示图中显示由虚线绘制的两个长方体(1901)，但是，这意味着在输入图像中反映出该两个长方体。由于图18A仅示出投票表面，因此，通过由虚线绘制图像，表示它不是输入图像自身。(应当注意，在图18A中，在类别1和类别2的两个投票表面的相同位置处绘制该两个长方体1901)。

图18A中的附图标记1902表示当部分图像框架已滑动、即已执行图16中的步骤S1701～S1707的循环时被切出的“某一个”部分图像。假定作为部分图像1902的识别结果，它与类别1的登记图像的部分图像1910匹配(图18B)。因此，图18B中的部分图像1910和部分图像1912之间的位置关系(相对于中心位置的偏移)被读出(该信息被存储于在图17中描述的叶节点中)。在类别1的投票表面上从部分图像1902的位置对于点1904的位置执行投票。

类似地，也从部分图像1903的识别结果执行对于投票表面上的点1904的投票。从部分图像1905的识别结果执行对于类别2的投票表面上的点1904的投票。也从部分图像1906的识别结果执行对于点1907的投票。

如上所述，步骤S1705中的对于投票表面的投票表示“对于与输入图像中的部分图像类似的识别图像的类别投票表面上的对象中心位置的投票”。

虽然出于简化描述在对于对象中心的一个点执行投票的条件下描述了图18A和图18B，但一般来说，投票可被执行以便分布到图19所示的宽的区域。例如，在图19中，底面由x和y的二个维度(x和 y的二个维度与投票表面的垂直和横向的两个维度具有相同的含义)构成，并且，高度表示投票的权重。当通过方程表达时，使用钟形函数value(值)＝e^-(dx ^＊ ^dx+dy ^＊ ^dy)，这里，dx和dy是相对于中心的距离。一般地，本发明不限于这种函数，可以使用任何函数，只要它是钟形函数即可。可以使用诸如均匀间隔分布的分布函数。

虽然已在图18A和图18B中描述了对于对象中心的投票方法，但它未必总是对于对象中心的投票。即，多个基准位置被设为目标对象的3维模型，并且，可对于每个基准位置准备图18A所示的投票表面。

虽然图18A和图18B所示的例子涉及对于关于一个部分图像的一个位置或区域的投票，但是，在存储于在图17中提到的叶节点中的信息是多个类别的多个位置处的部分图像的情况下，对于各类别的投票区域执行投票。

图18A和图18B所示的投票是仅对于匹配的类别的投票表面的投票。即，部分图像1902和1903由于与类别1的部分图像匹配而被到类别1的投票表面上投票。类似地，部分图像1905和1906由于与类别2的部分图像匹配被到类别2的投票表面上投票。但是，类别1和类别2不是相当不同的类别，而具有相同的长方体(目标对象)的不同取向的含义。因此，可从部分图像1902和1903的识别结果执行对于类别2的投票表面上的点1902的投票。类似地，可从部分图像1905和1906的识别结果执行对于类别1的投票表面上的点1908的投票。

当一般描述以上的处理时，现在假定存在N个类别并且事先计算它们的所有的对的相似度或它们的距离。通过与距离对应的尺寸执行对于距离小于等于预定的阈值的相似类别的投票表面的投票。例如，假定类别之间的距离等于D，则与该距离对应的投票表示乘以Exp(-D)所示的系数的投票。(假定同一类别之间的距离等于0，那么，应当注意，这种系数等于1)。一般地，虽然通过RODRIGUES旋转的旋转角度获得取向类别之间的距离，但是，本发明不特别限于此。

当完成图16中的步骤S1701～S1707的循环时，完成对于图18A所示的各投票表面的投票并且获得各投票表面的强度分布。最终，获得各类别中、即各取向方向上的目标对象的分布。从这种信息决定一部分的取向方向和位置，并且，以下描述这种情况的例子。

计算在S1708～S1710的循环中在各类别的投票表面上出现峰值的位置(S1709)。因此，获得存在N个取向类别中的每一个的概率最高的位置及其分数。具体而言，在图18A和图18B的情况下，选择点1904作为类别1的投票表面上的峰值并且选择点1907作为类别2的投票表面上的峰值。

通过将N个取向类别的结果分类，收集投票结果(S1711)。通过收集的结果，可以识别输入图像中的存在概率高的取向方向上的对象及其位置。具体而言，在图18A和图18B的情况下，假定点1904的值比点1907的值大，那么，作为识别结果的第一候选，取向类别1中的位置被设为1904，并且，作为第二候选，取向类别2中的位置被设为1907。

图16所示的方法是收集方法的一个例子，并且，可执行任意的处理，只要可以识别目标对象的取向方向及其位置即可。例如，可以计算和收集各类别的投票表面上的多个局部峰值。例如，在图18A和图18B的情况下，除了点1904和1907以外，点1909和1909还可被包含在候选点中并且被收集。因此，例如，假定从最大的分数依次如1904、1908、1907和1909那样布置点。因此，在1904和1908的两个位置处检测取向类别1的对象。

以下将参照附图详细描述本发明的各种示例性实施例、特征和方面。应当注意，在这些实施例中阐述的部件的相对布置、数值式和数值不是要限制本发明的范围。

也可通过读出并执行记录在存储设备上的程序以执行上述的实施例的功能的系统或装置的计算机(或诸如CPU或MPU的设备)、以及通过由系统或装置的计算机通过例如读出并执行记录在存储设备上的程序以执行上述的实施例的功能而执行其各个步骤的方法，实现本发明的各方面。出于这种目的，例如通过网络或从用作存储设备的各种类型的记录介质(例如，计算机可读介质)向计算机提供程序。

虽然已参照示例性实施例说明了本发明，但应理解，本发明不限于公开的示例性实施例。以下的权利要求的范围应被赋予最宽的解释以包含所有的这样的变更方式、等同的结构和功能。

本申请要求在2009年6月18日提交的日本专利申请No.2009-145457和在2010年3月19日提交的日本专利申请No.2010-064316作为优先权，在此通过引入将它们的全部内容并入此。

Claims

1.一种图像识别方法，该方法用于通过参考对于每个部分学习图像登记有部分学习图像的类别和部分学习图像的相对位置信息的字典来识别包括在输入图像中的目标对象的类别和位置，所述部分学习图像是学习图像的一部分，部分学习图像的相对位置信息是表示部分学习图像在学习图像中的位置的位置信息，该方法包括：

第一提取步骤，从包括目标对象的输入图像提取多个部分图像；

第二提取步骤，从在第一提取步骤中提取的所述多个部分图像中的每个部分图像提取多个像素的像素值；

获得步骤，通过比较从所述多个部分图像中的每个部分图像提取的像素值来分类所述多个部分图像中的每个部分图像，并且，对于所述多个部分图像中的每个部分图像从所述字典获得与分类结果对应的部分学习图像的类别和相对位置信息；以及

识别步骤，通过对于所述多个部分图像中的每个部分图像收集结果来识别包括在输入图像中的目标对象的位置和类别。

2.根据权利要求1所述的图像识别方法，其中，所述类别是对象的取向。

3.根据权利要求1所述的图像识别方法，其中，通过使用一个或多个分类树来执行获得步骤。

4.根据权利要求1所述的图像识别方法，其中，所述学习图像是根据CAD模型生成的。

5.根据权利要求1所述的图像识别方法，还包括：投票步骤，通过使用获得步骤的结果，对于所述多个部分图像中的每个部分图像，对在与每个所获得的类别对应的每个二维表格中由相对位置信息指示的位置进行投票；

其中，识别步骤通过收集投票步骤中的结果来识别包括在输入图像中的目标对象的位置和类别。

6.根据权利要求5所述的图像识别方法，其中，识别步骤基于在与所获得的类别对应的二维表格中对于所述多个部分图像中的每个部分图像投票的结果的分布，来识别包括在输入图像中的目标对象的位置和类别。

7.根据权利要求6所述的图像识别方法，其中，识别步骤对于所获得的类别的每个类别，确定在与所获得的类别对应的二维表格中对于所述多个部分图像中的每个部分图像投票的结果的分布的峰值位置处的分数，将具有最高分数的类别识别为目标对象的类别，并且将具有最高分数的峰值位置识别为目标对象的位置。

8.根据权利要求7所述的图像识别方法，其中，获得步骤对于所述多个部分图像中的每个部分图像，从多个字典获得部分学习图像的类别和相对位置信息。

9.一种图像识别设备，该设备用于通过参考对于每个部分学习图像登记有部分学习图像的类别和部分学习图像的相对位置信息的字典来识别包括在输入图像中的目标对象的类别和位置，所述部分学习图像是学习图像的一部分，部分学习图像的相对位置信息是表示部分学习图像的在学习图像中的位置的位置信息，该设备包括：

第一提取单元，被配置用于从包括目标对象的输入图像提取多个部分图像；

第二提取单元，被配置用于从由第一提取单元提取的所述多个部分图像的每个部分图像提取多个像素的像素值；

获得单元，被配置用于通过比较从所述多个部分图像中的每个部分图像提取的像素值来分类所述多个部分图像中的每个部分图像，并且，对于所述多个部分图像中的每个部分图像从所述字典获得与分类结果对应的部分学习图像的类别和相对位置信息；以及

识别单元，被配置用于通过对于所述多个部分图像中的每个部分图像收集结果来识别包括在输入图像中的目标对象的位置和类别。