CN101138007B

CN101138007B - 图像处理系统、学习设备及方法

Info

Publication number: CN101138007B
Application number: CN200580049018XA
Authority: CN
Inventors: 铃木洋贵; 中村章; 芦原隆之; 佐部浩太郎; 藤田雅博
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-07
Filing date: 2005-12-26
Publication date: 2010-12-08
Anticipated expiration: 2025-12-26
Also published as: EP1835460A1; JP2006190201A; CN101138007A; EP1835460A4; US8582887B2; EP1835460B1; JP4613617B2; WO2006073076A1; US20090041340A1

Abstract

提供了图像处理系统、学习设备和方法，以及能够简单提取在识别过程中所用的特性量的程序。从学习模型图像中提取特性点。根据特性点提取特性量。在学习模型字典注册单元(23)中注册特性量。相似地，从包含学习模型图像中所包含的模型对象的学习输入图像中提取特性点。根据该特性点提取特性量。将特性量与在学习模型注册单元(23)中注册的特性量进行比较。作为比较的结果，在模型字典注册单元(12)中注册已变成一对最频繁的特性量作为用于识别处理的特性量。本发明可应用于机器人。

Description

图像处理系统、学习设备及方法

技术领域

本发明涉及图像处理系统、学习设备及方法和程序，并且特别地，涉及，当提取特征点特征量并为达到可靠的对象识别，在数据库中注册特征点特征量时适用的图像处理系统、学习设备及方法、和程序。

背景技术

例如，在实际应用中，许多用于使机器人能够识别对象的对象识别技术采用使用序贯相似性检测算法或互相关系数的模型匹配技术。模型匹配技术在允许要被检测对象在输入图像中无变形地出现的假定的特殊情况下是有效的，但是在识别带有不稳定观察点或照明状态下的普通图像的对象识别环境中不是有效的。

另一方面，形状匹配技术也已经被建议为针对输入图像的每一个区域的形状特征匹配对象的形状特征，通过图像分割技术从输入图像中切掉该区域。然而，在前述普通对象识别环境中区域分割的结果将不稳定，导致在输入图像中出色地描述对象形状是很困难的。特别地，当要检测的对象部分地隐藏于另一对象之后时，识别变得困难。

除了以上使用输入图像的全部或部分区域的整体特征的匹配技术之外，也已经建议了一种技术：从图像中提取特性点或边，以线路图或图表的形式表达由此形成的大量线段或边缘的相关空间位置，并基于这些线路图或图表之间的结构相似性执行匹配。特别地，这样一种技术对于特别的专门对象运行得很好，但是有时由于图像变形而导致提取稳定内部特征点结构失败，从而导致识别前述特别隐藏的对象的困难。

同样地，已经建议了一种匹配技术：从图像中提取特性点(即特征点)并使用从特征点及其本地邻近部分的图像信息中获取的特征量。在该使用特征点(不论部分图像变形都保持不变)的本地特征量匹配技术中，即使当出现图像变形或要检测的对象被部分隐藏时，实现了比上述技术更稳定的检测。用于提取不论尺度转换(scale transformation)都保持不变的特征点的已经建议的方法的实例包括：一种方法是构建图像的尺度空间(scale space)，并在每一个尺度从图像的“高斯差分(DoG)滤波器输出”的本地最大点和本地最小点提取一点作为尺度特征点，该点位置不通过的尺度方向的变化而改变(非专利文档1或非专利文档2)；以及一种方法是构建图像的尺度空间，并在每一个尺度从由Harris角检测提取的角提取一点作为特征点，该点给出尺度空间图像的“拉普拉斯高斯(LoG)滤波器输出”的本地最大值(非专利文档3)。

此外，最好在用上述方式提取的特征点中选择对于视线改变无变化的特征量。例如，Schmid和Mohr已经建议了一种匹配技术，该匹配技术确定通过Harris角检测器检测到的角为特征点，并使用特征点的邻近部分的旋转不变特征量用于匹配。(非专利文档4)

[非专利文档1]

D.Lowe，“Object recognition from local scale-invariant features”，in Proc. International Conference on Computer Vision，Vol.2，pp.1150-1157，September 20-25，1999，Corfu，Greece.

[非专利文档2]

D.Lowe，”Distinctive image features from scale-invariantkeypoints，accepted for publication in the International Journal ofComputer Vision，2004.K.Mikolajczyk，C.Schmid，Indexing based onscale invariant interest points，International Conference on ComputerVision，523-531，July 2001.

[非专利文档3]

K.Mikolajczyk，C.Schmid，”Indexing based on scale-invariantinterest points，International Conference on Computer Vision，525-531，July 2001.Schmid，C.，and R.Mohr，Local grayvalue invariants forimage retrieval，IEEE PAMI，19，5，1997，pp.530-534.

[非专利文档4]

Schmid，C.，and R.Mohr，“Local grayvalue invariants for imageretrieval，IEEE PAMI，19，5，1997，pp.530-534.

发明内容

[本发明所要解决的问题]

如上所述，对象识别领域中日益普遍的技术是这样一种方法：从要识别的对象的图像(即模型图像)和从中应检测到要识别的对象的图像(即输入图像)的每一个中提取特性点(即特征点)；从每一个特征点中提取特征点中的特征量(此后适当地称为“特征点特征量”或“特征量”)；估计模型图像的特征量集合与输入图像的特征量集合之间的相似程度(即在模型图像和输入图像之间进行匹配)；提取对应特征点集合；并基于对应特征点集合的分析在输入图像中检测模型对象。

然而，这种技术所涉及的折衷在于：随着关于执行相似程度比较的特征点数(比较的实际对象是从特征点提取的特征量，并且由于在一些情况下，从一个特征点提取出多个特征量，所以该特征点数可能与关于执行相似程度比较的特征量数不对应，但为便于解释，这里称为“特征点数”或“特征点特征量数”)增加，可以改进识别的精确度，但识别所需的时间将增加。

也就是，要求特征点数的调整(增加或减小的过程)来改进识别性能。目前，特征点数的调整一般通过调整用于特征点提取的参数执行。

因为合适的参数依靠要被识别的对象的特性(是否是普通对象、属于特定范畴的对象、或人脸)和识别环境(室外或室内，照相机分辨率等)变化，所以目前必须通过人力经验性地寻找合适的参数。因此，用于改进识别精确度的特征点数的调整不适宜地要求人力(努力)和时间。

考虑到上述情况，已经设计出本发明，并旨在能够简单设定最佳参数。

[解决问题的方式]

根据本发明的图像处理系统包括：第一特征点提取装置，用于从第一图像中提取第一特征点；第一特征量提取装置，用于从由第一特征点提取装置提取的特征点中提取第一特征量；第一存储装置，用于存储由第一特征量提取装置提取的第一特征量；第二特征点提取装置，用于从第二图像中提取第二特征点；第二特征量提取装置，用于从由第二特征点提取装置中提取的第二特征点中提取第二特征量；产生装置，用于将由第一存储装置存储的第一特征量和由第二特征量提取装置提取的第二特征量进行比较来产生作为具有相似特征量的特征点对的候选者对应特征点对；选择装置，用于基于每一个第一特征量被包含于由产生装置产生的的候选者对应特征点对中的频率从第一特征量中选择要进行存储的存储用特征量；第二存储装置，用于存储由选择装置选择的存储用特征量；第三特征点提取装置，用于从第三图像中提取第三特征点；第三特征量提取装置，用于从由第三特征点提取装置提取的第三特征点中提取第三特征量；以及检测装置，用于将由第二存储装置存储的存储用特征量与由第三特征量提取装置提取的第三特征量进行比较，来检测包含于第三图像中的模型对象。

根据本发明的学习设备包括：第一特征点提取装置，用于从第一图像中提取第一特征点；第一特征量提取装置，用于从由第一特征点提取装置提取的第一特征点中提取第一特征量；第一存储装置，用于存储由第一特征量提取装置提取的第一特征量；第二特征点提取装置，用于从第二图像中提取第二特征点；第二特征量提取装置，用于从由第二特征点提取装置提取的第二特征点中提取第二特征量；产生装置，用于将由第一存储装置存储的第一特征量和由第二特征量提取装置提取的第二特征量进行比较来产生作为具有相似特征量的特征点对的候选者对应特征点对；以及选择装置，用于基于每一个第一特征量被包含于由产生装置产生的的候选者对应特征点对中的频率从第一特征量中选择要进行存储的存储用特征量。

第二图像可以必定包含第一图像中所包含的模型图像。

可以将当第一特征点提取装置和第一特征量提取装置执行提取时使用的参数设置为空值。

第二图像可以是使特定图像经过数字处理产生的图像。

数字处理可以是尺度变换、旋转变换、相似性变换、仿射变换、投影变换、加噪、亮度变化、清晰度变化和模糊添加之一，或这些图像变换的任意组合。

根据本发明的学习方法包括：第一特征点提取步骤，从第一图像中提取第一特征点；第一特征量提取步骤，从在第一特征点提取步骤中提取的第一特征点中提取第一特征量；第一存储步骤，存储在第一特征量提取步骤中提取的第一特征量；第二特征点提取步骤，从第二图像中提取第二特征点；第二特征量提取步骤，从在第二特征点提取步骤中提取的第二特征点中提取第二特征量；产生步骤，将在第一存储步骤中存储的第一特征量与在第二特征量提取步骤中提取的第二特征量进行比较，来产生作为具有相似特征量的特征点的候选者对应特征点对；以及选择步骤，基于每一个第一特征量被包含于产生步骤产生的候选者对应特征点对中的频率从第一特征量中选择进行存储的存储用特征量。

根据本发明的程序包括：第一特征点提取步骤，从第一图像中提取第一特征点；第一特征量提取步骤，从在第一特征点提取步骤中提取的第一特征点中提取第一特征量；第一存储步骤，存储在第一特征量提取步骤中提取的第一特征量；第二特征点提取步骤，从第二图像中提取第二特征点；第二特征量提取步骤，从在第二特征点提取步骤中提取的第二特征点中提取第二特征量；产生步骤，将在第一存储步骤中存储的第一特征量与在第二特征量提取步骤中提取的第二特征量进行比较，来产生作为具有相似特征量的特征点的候选者对应特征点对；以及选择步骤，基于每一个第一特征量被包含于产生步骤产生的候选者对应特征点对中的频率从第一特征量中选择进行存储的存储用特征量。

在根据本发明的学习设备和方法和程序中，将从图像中提取的特征量用于学习和注册，且将注册的特征量与从准备的图像(也作为用作学习的图像)中提取的特征量进行比较。该比较的结果用于设置在实际识别过程中使用的特征量。

在根据本发明的图像处理系统中，进一步地，通过使用在上述方式中设置的特征量执行识别过程，用于与获取的图像相匹配来检测包含于所获取图像中的模型对象。

[发明效果]

本发明实现了特征点的提取(即特征量)。

本发明实现了用于识别的最佳特征点特征量的选择性提取，无须个人经验性地设置用于提取特征点的参数。

本发明实现了用于改进识别精确度和降低识别过程所需时间的最佳特征点数(特征量数)的设定。换句话说，当实现了特征点数的降低时，实现了识别速度的改进。

本发明实现了仅对实现出色的识别性能的具有高度贡献的特征点(特征量)的选择性提取。进一步地，使用这些选择性提取的特征点(特征量)用于识别过程，实现了识别速度和识别精确度的改进。

本发明实现了当准备模型学习用图像集合时，仅对能够鲁棒性地实现在假定识别环境中的识别的特征点的选择，并通过在识别过程中使用这些特征点实现了识别速度和识别精确度的改进。

附图说明

图1是图解根据本发明的一个实施例的系统结构的图。

图2是解释学习设备的操作的流程图。

图3是解释特征点提取的图。

图4是解释该特征点提取的图。

图5是解释将要提取的特征点特征量的图。

图6是解释涉及提取的数据的图。

图7是解释识别设备操作的流程图。

图8是图解学习设备的另一示例性结构的图。

图9是解释外层(outlier)的图。

图10是解释学习设备的另一操作的流程图。

图11是解释媒体的图。

附图标记描述

11学习设备，12模型字典注册部分，13识别设备，21特征点提取部分，23学习用模型字典注册部分，24特征点提取部分，25特征量提取部分，26特征量比较部分，27模型字典注册处理部分，31特征点提取部分，32特征量提取部分，33特征量比较部分，34模型检测确定部分，101学习设备，111轮廓(outline)移除部分。

具体实施方式

在下文中，将参照附图描述本发明的实施例。

[示例性系统结构]

图1是图解根据本发明的一个实施例的系统结构的图表。该系统由三部分组成：学习设备11，用于执行学习特征点(即特征点特征量)的处理；模型字典注册部分12，用于存储特征点特征量，即由学习设备11学习的结果；以及识别部分13，用于在输入图像之内识别模型对象。

学习部分11包括特征点提取部分21、特征量提取部分22、学习用模型字典注册部分23、特征点提取部分24、特征量提取部分25、特征量比较部分26、以及模型字典注册处理部分27。

特征点提取部分21从输入的学习用模型图像中提取特征点。特征量提取部分22提取由特征点提取部分22提取的每一个特征点的特征量。学习用模型字典注册部分23注册(即存储)由特征量提取部分22提取的模型图像的特征量集合。

特征点提取部分24从输入的学习用输入图像中提取特征点。特征量提取部分25提取由特征点提取部分24提取的每一个特征点的特征量。由特征点提取部分24和特征量提取部分25执行的处理与由特征点提取部分21和特征量提取部分22执行的处理类似，处理学习用模型图像。

特征量比较部分26将由特征量提取部分25提取的特征量与要识别的模型图像的特征量集合进行比较。模型字典注册处理部分27提取要在模型字典注册部分12中注册的特征点特征量，并将它们供给模型字典注册部分12。

注意，仅为每一个将要学习的对象准备一个学习用模型图像。仅在学习用模型字典注册部分23中保存从要学习的对象的单个学习用模型图像中提取的种子特征量(将在下面描述)，并且学习设备11的特征量比较部分26执行种子特征量集合与学习用输入图像的特征量集合的匹配。

在模型字典注册部分12中，将上述在学习设备11中学习的结果(在这种情况下，当识别设备13执行识别时，将参考关于模型图像的特征量集合)进行注册。

当将从学习用模型图像中提取的特征量集合在学习用模型字典注册部分23和模型字典注册部分12中注册时，在模型字典注册部分12中注册的特征量集合是学习之后获取的特征量，并且是当识别设备13执行识别处理时使用的最佳数据。

使用在模型字典注册部分12中注册的特征量集合执行识别处理的识别设备13包括：特征点提取部分31、特征量提取部分32、特征量比较部分33、模型检测确定部分34。

由识别设备13的特征点提取部分31、特征量提取部分32和特征量比较部分33执行的处理与由学习设备11的特征点提取部分24、特征量提取部分25和特征量比较部分26执行的处理基本类似。

在应该识别多个对象的情况下，学习设备11关于每一个对象选择并提取特征点特征量，并在模型字典注册部分12中将它们注册。也就是，模型字典注册部分12保存关于要被识别的所有对象的模型特征量，并且将识别设备 13的特征量比较部分33配置为执行要被识别的所有对象的特征量集合与输入图像的特征量集合的比较。因此，特征量比较部分26和特征量比较部分33在共享同样的算法的同时可以处理不同的数据。

自然，适当地在各部分中执行的过程中使用的参数值在这些部分之间可以是不同的。模型检测确定部分34使用从特征量比较部分33中提供的数据检测包含于输入图像中的模型对象。

注意：执行相同处理的学习设备11的单元(如特征点提取部分21和特征点提取部分24)可以被配置为可共同使用的单个单元，而不是分别提供。还要注意：学习设备11可以包括模型字典注册部分12，并且在学习设备11包括字典注册部分12的情况下，可以这样安排，使得将模型字典注册部分12与学习用模型字典注册部分23合并(或更新学习用模型字典注册部分23中的注册)。

可选择地，识别设备13可以包括模型字典注册部分12。

学习设备11、模型字典学习部分12和识别设备13经由网络彼此连接，以允许在其之间的数据交换(至少学习设备11和模型字典注册部分12，以及模型字典注册部分12和识别设备13，可以交换数据)。网络可以是有线网络或是无线网络。

[关于学习设备的操作]

下一步，参照图2的流程图，将在下面进行描述包含于如图1所示的系统中的学习设备11的操作。将要参照图2的流程图描述的过程是当注册学习用模型图像的特征量集合时执行的过程。

在步骤S11，学习设备11的特征点提取部分21获取学习用模型图像。学习用模型图像是要被识别的对象(即模型对象)的拍摄的图像。

在学习设备11中，仅为每一个要学习的对象准备一个拍摄的学习用模型图像。从该单个的学习用模型图像中，提取种子特征量集合。因此，最好学习用模型图像是在尽可能理想的拍摄环境下准备的图像。另一方面，将从多个视角拍摄的多个图像准备作为以下所描述的学习用输入图像。可选择地，可以准备通过数字处理从学习用模型图像产生的多个图像。

在步骤S11获取学习用模型图像之后，特征点提取部分21在步骤S12从学习用模型图像中提取特征点。对于由特征点提取部分21执行的处理(即用于提取特征点的技术)，已经建议了多种技术，如Harris角检测器(C. Harris和M.Stephens，“A combined corner and edge detector”，FourthAlvey Vision Conference，147-151页，1988)，SUSAN角检测(S.M.Smith和J.M.Brady.SUSAN-a new approach to low level image processing)，以及KLT特征点(Carlo Tomasi和Takeo Kanade，Detection and Trackingof Point Featrues，Carnegie Mellon University Technical ReportCMU-CS-91-132，April 1991)，并且可以应用这些技术。

此外，除了前述技术，已经建议了这样一种技术：从原始图像(在这种情况下，为学习用模型图像)产生位于带有不同分辨率或在不同尺度的多个层中的图像集合，并从该图像集合中提取对于旋转变换或尺度变换无变化的特征点，并且该技术作为涉及由特征点提取部分21执行的特征点的提取的技术是可应用的(见D.Lwe，Distinctive image features fromscale-invariant keypoints，accepted for publication in theInternational Journal of Computer Vision，2004。K.Micolajczyk，C.Schmid，Indexing based on scale invariant interest points，International Conference on Computer Vision，525-531，July2001.Schmid，C.，和R.Mohr，“Local grayvalue invariant for imageretrieval”，IEEE PAMI，19，5，1997，pp.530-534)。

[关于特征点的提取]

这里，参照图3，现在将在下面提供使用Harris角检测器的Harris-Laplacian特征点提取技术的简要描述(对于细节，见K.Mikolajczyk，C.Schmid，Indexing based on scale invariant interestpoints，International Conference on Computer Vision，525-531，July2001)。

在Harris-Laplacian特征点提取技术中，将图像I接受高斯滤波来产生图像G₁(I)。图像G₁(I)是带有不同于图像I的粗糙分辨率的图像。可以通过增加确定高斯滤波器形状的参数σ来产生带有粗糙分辨率的图像。

图像I接受产生带有比图像G₁(I)粗糙的分辨率(即通过使用带有更大σ值的高斯滤波器滤波)的高斯滤波来产生图像G₂(I)。相似地，图像I接受产生的带有比图像高斯滤波G₁(I)和G₂(I)粗糙的分辨率的图像的高斯滤波(即通过使用带有更大σ值的高斯滤波器滤波)来产生图像G₃(I)。因此，产生了每一个带有不同的分辨率的图像I、图像G₁(I)、图像G₂(I)和图像G₃(I)(注意所产生的图像的数目合适地变化)。

在每一个图像I、图像G₁(I)、图像G₂(I)和图像G₃(I)(在不同的尺度)中，特征点的候选者由角检测器提取。在该提取中，在根据Harris角度的最大点(即点(像素)，每一个在直接相邻的几个点(如9个像素)中具有最大值)中将具有Harris角度等于或大于规定的阈值(在这里将表示为“第一阈值”)的点作为特征点候选者提取出来。

在提取出特征点的上述候选者之后，产生对应于图像I、图像G₁(I)、图像G₂(I)和图像G₃(I)并由拉普拉斯滤波获取的图像。确定拉普拉斯滤波器形状的更大参数σ将使拉普拉斯滤波器输出图像带有粗糙分辨率。特别地，在这种情况下，首先，图像I接受拉普拉斯滤波来产生图像L₁(I)。

下一步，图像I接受使用具有比在产生图像L₁(I)时使用的拉普拉斯滤波器更大的σ值的拉普拉斯滤波器的滤波来产生图像L₂(I)。进一步，图像I接受使用具有更大的σ值的拉普拉斯滤波器的滤波来产生图像L₃(I)。将使用图像L₁(I)、图像L₂(I)和图像L₃(I)来提取特征点。该提取将参照图4进行描述。

在图4中，将从对应于图像L₁(I)的图像G₁(I)中提取的特征点的候选者表示为点P₁；将从对应于图像L₂(I)的图像G₂(I)中提取的特征点的候选者表示为点P₂；将从对应于图像L₃(I)的图像G₃(I)中提取的特征点的候选者表示为点P₃。在这种情况下，图像L₁(I)中的点P₁存在于与图像L₂(I)中的点P₂对应的位置，且图像L₃(I)中的点P₃存在于对应于图像L₂ (I)中的点P₂对应的位置。

在特征点的候选者中，提取满足下面条件的点作为特征点。这里，将参照其中点P₂是特征点的候选者的示例性情况进行描述。第一条件是点P₂等于或大于规定的阈值(这里，第二阈值)：点P₂≥第二阈值。

第二条件是在紧接更高的尺度和紧接更低的尺度上点P₂大于图像中的对应点(在这种情况下，点P₁和点P₃)：点P₂≥点P₁，点P₂≥点P₃。

当第一条件和第二条件都满足时，将特征点的候选者作为特征点提取。

在上述方式中，在步骤S12从学习用模型图像中提取多个特征点(图2)。

虽然已经将Harris-Laplacian特征点提取技术作为一种提取特征点的技术描述，但可以自然地应用其它技术。即使当应用另一技术提取特征点时，也可以关于特征点的提取做出以下表述：某一阈值(参数)被用于提取特征点。

在以上描述的Harris-Laplacian特征点提取技术中，当从由高斯滤波获取的图像的像素中提取特征点的候选者时，使用第一阈值，而当从由Laplacian滤波获取的图像的像素中提取特征点的候选者时，使用第二阈值。因此，当提取特征点时，以某一方式使用某一阈值(参数)。当提取特征点时，利用其它技术(而不是Harris-Laplacian特征点提取技术)使用某一参数的事实也是正确的。

参数的最佳值依靠要被识别的对象(在这种情况下，学习用模型图像)的特性(对象是否是普通对象，是否属于特定范畴的对象，或是否是人脸)和识别环境(室外或室内，摄像机分辨率等)而变化。目前，需要通过人力经验性地发现最佳参数，用于设定最佳参数。

要求人力部分地调整参数，这是因为不在系统内部估计作为参数调整的结果所获取的识别性能，从而不获得参数调整的反馈，因此，目前，系统之外的个人经验性地给出反馈。此外，存在问题在于：由于参数的调整仅对识别结果具有间接影响，因此通过对参数的操作调整特征点数不是必然地实现识别性能的所要求的改进。

也就是，存在这样的问题：耗费时间和人力来提取特征点的最佳数目，并且还存在问题：时间和人力通常不能总是保证识别性能的改进。本发明通过执行以下处理提取(设定)特征点(即特征点特征量)来解决了这种问题。

返回至图2的流程图的描述，在步骤S12通过特征点提取部分21从学习用模型图像中提取特征点之后，控制进行至步骤S13。在步骤S13，特征量提取部分22计算关于由特征点提取部分21提取的特征点的特征量。关于由特征点提取部分21提取的多个特征点中的每一个，特征量提取部分22基于特征点的邻近图像信息计算特征量。

为计算特征量，可以应用已经建议的技术，如灰度修补(其中将邻近像素的亮度值安排为构成特征量矢量)、梯度矢量、Gabor特征矢量、易操纵特征矢量(steerable jet)等。可以应用计算关于一个特征点的同种类型的多个特征量的技术。关于每一个特征量可以计算不同种类的多个特征量。没有特别的限制需要置于用于计算由特征量提取部分22提取的特征量的技术。本发明可以应用于任意应用的技术。

在步骤S13计算特征量之后，在步骤S14将所计算的特征量在学习用模型字典注册部分23中注册。在这里，在学习用模型字典注册部分23中注册的特征量将称为“种子特征点特征量集合”。

种子特征点特征量集合是在学习状态注册的特征量，用于设定最佳特征点(特征量)。为提取种子特征点特征量集合(是这样一种类型的特征量)，要求增加特征点提取部分21和特征量提取部分22的处理的以下条件。

关于特征点提取部分21，在提取特征点的过程中使用的参数值以这样一种方式设置：将要提取尽可能多的特征点。特别地，在其中根据在[关于特征点的提取]部分中描述的Harris-Laplacian特征点提取技术执行特征点的提取的情况下，设置第一阈值和第二阈值使得将要提取尽可能多的特征点。

特别地，当第二阈值被设置为0(空)时，该第二阈值是当执行从特征点候选者中提取特征点的过程时使用的阈值，所有候选者至少满足上述第一条件，其中第一条件是：在特征点的候选者中，将等于或大于第二阈值的任意候选者确定为特征点，并且结果，许多特征点将被作为候选者提取。

将具有以上特性的种子特征点特征量集合在学习用模型字典注册部分23中注册。

如果将种子特征点特征量集合用于识别过程，则由于上述原因会有许多特征点，故识别将耗费很长时间。此外，尽管特征点数很多，但是如上所述，这些特征点简单地是设置一种参数使得提取很多特征点的结果，并且不是设置一种参数使得提取最佳特征点的结果。因此在识别的精确度上，这些特征点不是必然对改进有所贡献。

同样地，在本实施例中，执行下面的过程(学习过程)来优化种子特征点特征量集合并减少特征点数，使得仅提取用于识别过程的最佳特征点(特征点特征量集合)。

返回至图2的流程图的描述，在步骤S14在学习用模型字典注册部分23中注册关于学习用模型图像的种子特征点特征量集合之后，在步骤S15特征点提取部分24获取学习用输入图像。该学习用输入图像是要被学习的对象的多个图像之一，其中从多角度或在亮度方面不同的情形下拍摄这些图像。可以预先拍摄多个这样的图像。可选择地，在步骤S11获取的该学习用模型图像可以接受大量数字处理来准备这样的图像。

当使用数字处理时应用的数字处理示例包括：尺度变换、旋转变换、相似性变换、仿射变换、投影变换、加噪、亮度变化、对比度增加、模糊添加等，以及这些图像变换的联合，它们通过数字处理用于模拟实现，由于大体的拍摄环境和拍摄位置的不同引起了图像的变化。

在学习设备11中，为每一个要被学习的对象仅准备一个拍摄的学习用模型图像。也就是，仅有一个学习用模型图像。另一方面，作为这里提到的学习用输入图像，准备了从多角度拍摄的多个图像或由数字处理产生的多个图像。

每一个学习用输入图像必定包括学习用模型图像的模型对象。

在步骤S16，特征点提取部分24从所获取的学习用输入图像中提取特征点。在步骤S17，特征量提取部分25基于由特征点提取部分24提取的每一个特征点的邻近的图像信息，计算特征量。在步骤S16和步骤S17(即由特征点提取部分24和特征量提取部分25执行的处理)执行的处理与在步骤S12和步骤S13(即由特征点提取部分21和特征量提取部分22执行的处理)基本上相同，因此忽略其描述。

将因此计算的特征量提供给特征量比较部分26。在步骤S18，特征量比较部分26将提供的特征量与在学习用模型字典注册部分23中注册并已经从学习用模型图像中提取的种子特征点特征量集合进行比较，其中该学习用模型图像是要被学习的当前对象。特别地，与根据预定对象识别技术的内部特征量匹配操作相一致，特征量比较部分26计算所提取的特征点特征量和在学习用模型字典注册部分23中注册的种子特征点特征量集合之间的相似程度，来将其之间带有高度相似的特征点特征量相关联。作为该处理的结果，产生了彼此相关联的成对的特征点集合。

当学习用输入图像包括模型对象时，将检测到与模型相关联的特征量集合。如上所述，假定在该情况下学习用输入图像包括模型对象。因此，假设将该学习用输入图像与所有学习用输入图像的匹配结果合计，并且基于该合计的结果，计算频率F(Mi)，带有该频率F(Mi)的学习用模型图像的每一个特征点特征量Mi作为对应特征点对集合的一员用于识别，具有该频率的更高值的特征点特征量可以被认为是对于实现出色的识别性能贡献更大的特征点特征量。

因此，在学习用模型图像的特征点特征量中，仅选择性地提取具有频率F(Mi)的高值的特征点特征量并将它们在模型字典注册部分12中作为模型对象的特征点特征量集合注册。

如上所述，为仅将带有高度贡献的特征点特征量(集合)在模型字典注册部分12中注册，首先执行学习用模型图像与多个学习用输入图像的匹配，使得将提取出特征点特征量集合。由于这个原因，在步骤S20确定是否所有学习用输入图像均已被处理。

如果在步骤S20确定不是所有学习用输入图像均已被处理，则控制返回至步骤S15且重复步骤15和随后的过程。作为这样重复的结果，完成了学习用模型图像与多个学习用输入图像的匹配。同时，如果在步骤S20确定所有学习用输入图像均已被处理，则控制进行至步骤S21。

在步骤S21，模型字典注册处理部分27计算频率F(Mi)，带有该频率F(Mi)的每一个特征点特征量Mi作为对应特征点对集合的一员已经用于识别，并提取具有该频率的高值的特征点特征量。关于选择特征点特征量的标准，以下方法是可能的，例如：仅提取其频率F(Mi)等于或大于预定阈值的特征点特征量Mi的方法；通过频率F(Mi)对特征点特征量进行分类，并仅提取前k个特征点特征量Mi的方法；以及通过将频率F(Mi)除以学习用输入图像的数目来确定每一个特征点特征量Mi已经在识别时使用的概率，并仅提取其该概率等于或大于预定阈值的特征点特征量Mi。可以将这样一种方法合适地应用于提取过程。

参照图5和图6，将进一步描述该提取。图5图解(示例性)在学习用模型图像和5个学习用输入图像之间的匹配结果。在图5中，用直线表示作为匹配结果而获取的对应特征点对集合。例如，学习用模型特征点特征量M1与学习用输入图像1的特征点特征量L11、学习用输入图像2的特征点特征量L22、学习用输入图像3的特征点特征量L33和学习用输入图像5的特征点特征量L52配对。

相似地，学习用模型特征点特征量M2与学习用输入图像1的特征点特征量L13、学习用输入图像2的特征点特征量L24、学习用输入图像3的特征点特征量L32和学习用输入图像5的特征点特征量L51配对。进一步，相似地，学习用模型特征点特征量M3与学习用输入图像2的特征点特征量L24和学习用输入图像4的特征点特征量L43配对。

特征量比较部分26(或可选择地，模型字典注册处理部分27)管理(暂时存储)以上数据，并且作为存储的数据是，例如，如图6所示的数据。参照图6，很明显，学习用模型图像的特征点特征量M1与4个特征点特征量相关联：特征点特征量L11、特征点特征量L22、特征点特征量L33和特征点特征量L52。也就是，该结果示出了特征点特征量的频率F(Mi)是4：频率F(M1)＝4。

相似地，很明显，特征点特征量M2的频率F(Mi)是4以及特征点特征量M3的频率F(Mi)是2：频率F(M2)＝4，以及频率F(M3)＝2。基于这些结果，当提取具有高频率值的特征点特征量时，在步骤S21模型字典注册处理部分27提取(选择)特征点特征量M1和特征点特征量M2。然后，作为步骤S22的处理，模型字典注册处理部分27在模型字典注册部分12中注册所提取的特征点特征量M1和特征点特征量M2。

在上述方式中，在学习设备11中执行特征点特征量的学习。

这种学习(提取、选择)要在模型字典注册部分12注册的特征点特征量的方式实现了对实现出色的识别性能贡献很大的特征点特征量的学习(提取、选择)。这允许用于识别的最佳特征点特征量的选择性提取，而无须个人经验性地设定在提取特征点特征量时要被设定的参数(在以上描述中，例如，第一阈值和第二阈值)。

注意，在以下描述的其中多个对象应被识别设备13识别的情况下，学习设备11关于每一个对象重复应用步骤S11到S22的处理，使得将所有要识别的对象的特征点特征量在模型字典注册部分12的模型字典中注册。

也就是，尽管现在在图2的流程图中没有示出，但是当需要处理(学习)多个学习用模型图像时，在步骤S22的处理之后，执行诸如“要学习的所有对象的学习用模型图像均已被处理？”之类的确定，并且如果否(即，如果确定不是所有要学习的对象的学习用模型图像均已被处理)，则控制返回至步骤S11，且重复步骤S11的处理和后面的处理。

将在下面描述使用上述特征点特征量来实现出色的识别性能的识别设备13的处理(图1)。

[关于识别设备的处理]

参照图7的流程图，现在将在下面描述识别设备13的处理。注意，例如将执行如下所述的识别处理的识别设备13安放于机器人等之上。

在步骤S41，识别设备13的特征点提取部分31获取要处理的输入图像。在步骤S42，特征点提取部分31从获取的输入图像中提取特征点并将所提取的特征点提供至特征量提取部分32。

在步骤S43，特征量提取部分32提取关于所提供的特征点的特征量，并将所提取的特征量提供至特征量比较部分33。参照图2的流程图，一直到该阶段的处理与上述步骤S11到S13或步骤S15到S17的处理是基本相同的，并且因此，省略了其详细描述。

注意，关于在提取特征点或提取特征量时使用的参数等，在学习设备11和识别设备13之间不需要使用相同的值，而是在其之间可以合适地使用不同值。还要注意，没有在学习设备11和识别设备13之间涉及其提取的技术本身必须完全相同的限制，而是可以在它们之间使用不同的技术。

在步骤S44，特征量比较部分33获取在模型字典注册部分12中注册的模型图像的特征点特征量。在其中模型字典注册部分12和识别设备13经由网络等彼此连接(如上所述)的情况下，经由网络获取特征点特征量。

在步骤S45，特征点特征量比较部分33将从特征量提取部分32提供的特征点特征量与从模型字典注册部分12中获取的特征点特征量进行比较。通过与图2中步骤S14或步骤S18基本相同的处理执行该比较，并且因此，省略了其详细描述。关于一个输入图像和多个模型图像(其数目对应于学习设备11中处理的学习用模型图像的数目)执行该比较的处理。可以立刻从模型字典注册部分12中同时获取多个模型图像(即关于模型图像的特征点特征量)，或可选择地，它们可以按需要分别获取。可以在设计阶段合适地确定其获取时间等。

在步骤S46，模型检测确定部分34参照由特征量比较部分33的比较结果来检测模型对象。例如，模型检测确定部分34确定具有对应特征点对数目最多的模型图像的模型对象作为被检测对象。

在上述特征点特征量的比较时，使用在模型字典注册部分12中注册的特征点特征量。这些注册的特征点特征量是学习设备11学习的结果，且如上所述，这些注册的特征点特征量是，对改进识别性能有所贡献的那些特征点特征量。也就是，因为执行比较过程时获取(参照)的注册的特征点特征量数尽可能大，以改进识别处理的识别速度，所以完成了识别速度的改进。此外，如上所述，由于仅注册有限数目的特征点特征量，故完成了比较过程所需时间的降低。

[关于学习设备的另一示例性结构]

图8是图解学习设备11的另一示例性结构的图表。为比较图8所示的学习设备101和图1所示的学习设备11，学习设备101额外包括在特征量比较部分26和模型字典注册处理部分27之间提供的外层移除部分111。

也就是，将学习设备111设置从特征量比较部分26提供的特征点特征量中移除，对应外层的特征点特征量，并将剩下的特征点特征量输出至模型字典注册处理部分27。参照图9，现在将在下面描述外层。从特征量比较部分2 6输出对应特征点对。对应特征点对可以不仅包括“特征点的真对(即内层)”，其中对应特征点的相关空间位置与在学习用模型图像中的方向不一致，而且包括“特征点的假对(即，外层)”，其存在不一致。

图9示意性地图解内层和外层。如图9所示，假设图的左右边的三角形学习用模型图像对应图的右手边的学习用输入图像中的三角形的要被检测的对象(即模型对象)，在学习用模型图像中三角形顶点附近的特征点P1到P4分别对应于要被检测的对象的特征点P11到P14。也就是，特征点P1对应于特征点P11；特征点P2对应于特征点P12；特征点P3对应于特征点P13；以及特征点P4对应于特征点P14。因此，这些候选者对应特征点对形成内层。注意，在图9中，内层由实线表示。

同时，学习用模型图像中的特征点P5位于几乎三角形内部的中央，而特征点P6位于三角形外部且邻近三角形的一边。另一方面，每一个学习用输入图像中的特征点P15(已经与特征点P5配对)，以及学习用输入图像中的特征点P16(已经与特征点P6配对)，是距离要被检测的对象很远的点。也就是，对应特征点对候选者(特征点P5和特征点P15)和候选者对应特征点对(特征点P6和特征点P16)是外层。注意在图9中，外层由虚线表示。

该对应注册点对包含这样一种外层的对应特征点对的使用，导致在模型字典注册部分12中注册的特征点特征量的精度的下降，依次可导致识别设备13的识别性能的下降。同样地，可以将学习设备101设置为包括带有额外的移除外层的技术的外层移除部分111，如图8所示，来防止精度和性能的降低。

现在将参照图10的流程图，下面描述在其中将外层移除部分111提供于学习设备101中的情况下的过程。

步骤S111到S118的处理和步骤S120到S123的处理分别与图2中步骤S11到S18和图2中步骤S19到S22的处理是基本相同的，并且因此，省略其详细描述。也就是，由包括外层移除部分111的学习设备101执行的处理，与由学习设备11执行的处理基本相同，除了在步骤S119执行的移除外层的处理之外。不必说，关于从外层已经移除的数据执行步骤S120到S123的处理。

在步骤S119执行的移除外层的处理的细节公开在日本专利申请号2004-244018中，该申请已在本申请之前提交，并且其发明是可应用的。

如上所述，根据本发明，当准备学习用图像的模型集合时并使用这些特征点(即特征量)用于识别致使识别速度和识别精确度得以改进时，可以仅选择能够在已经假定的识别环境中实现强壮识别的特征点。

[关于存储媒体]

上述一系列处理可以在硬件或软件中执行。在这种情况下，如图11所示，例如通过个人计算机形成学习设备11。

在图11中，CPU(中央处理单元)121依照存储于ROM(只读存储器)中的程序或从存储部分128载入至RAM123(随机存取存储器)的程序执行各种处理。在RAM123中，当CPU121执行多个处理所需的数据等也被合适地存储。

CPU121、ROM122和RAM123经由总线124连接。输入/输出接口125也与总线124连接。

与输入/输出接口125连接的有：由键盘、鼠标等构成的输入部分126；由诸如CRT(阴极射线管)、LCD(液晶显示器)之类的显示器和扬声器等构成的输出部分127；由硬盘等构成的存储部分128；由调制解调器等构成的通信部分129。通信部分129经由诸如因特网之类的网络执行通信过程。

驱动器130也可以按需要与输入/输出接口125连接，诸如磁盘、光盘、磁光盘、半导体存储器之类的可拆卸媒体131被合适地放置于其上。因此，将从那里读取的计算机程序如所需地安装于存储部分中。

在软件中执行一系列程序的情况下，将构成软件的程序从网络或存储媒体安装至具有专用硬件结构的计算机或，例如，通用目的的个人计算机中，当在其中安装多个程序时，该通用目的的个人计算机变得能够执行多种功能。

如图11所示，这种存储媒体可以是可拆卸媒体131，与设备机身分离地提供，用于向用户提供程序，并且具有在其上记录的程序，如磁盘(如软盘)、光盘(如CD-ROM(只读光盘存储器))或DVD(多功能数码光盘)、磁光盘(如MD(迷你盘))或半导体光盘。可选择地，以上存储媒体可以是ROM 122、包含于存储部分128中的硬盘等，它们最初包含于设备机身中，并且因此提供给用户，且它们具有在其中存储的程序。

注意，由存储在存储媒体的程序执行的步骤和在本说明书中描述的将被自然地按时间顺序地执行，按照描述的顺序而无须按照时间顺序执行。可以并行地或独立地执行一些步骤。

同样要注意，在本发明书中使用的术语“系统”表示作为由多个设备构成的整体的系统。

Claims

1.一种图像处理系统，包括：

第一特征点提取装置，用于从第一图像中提取第一特征点；

第一特征量提取装置，用于从由所述第一特征点提取装置提取的第一特征点中提取第一特征量；

第一存储装置，用于存储由所述第一特征量提取装置提取的第一特征量；

第二特征点提取装置，用于从第二图像中提取第二特征点；

第二特征量提取装置，用于从由所述第二特征点提取装置提取的第二特征点中提取第二特征量；

产生装置，用于比较由所述第一存储装置存储的第一特征量和由所述第二特征量提取装置提取的第二特征量，来产生候选者对应特征点对，作为具有相似特征量的特征点对；

选择装置，用于基于每一个第一特征量被包含于由所述产生装置产生的候选者对应特征点对中的频率，从第一特征量中选择要进行存储的存储用特征量；

第二存储装置，用于存储由所述选择装置选择的存储用特征量；

第三特征点提取装置，用于从第三图像中提取第三特征点；

第三特征量提取装置，用于从由所述第三特征点提取装置提取的第三特征点中提取第三特征量；

检测装置，用于比较由所述第二存储装置存储的存储用特征量和由所述第三特征量提取装置提取的第三特征量，来检测包含于第三图像中的模型对象。

2.一种学习设备，包括：

第一特征点提取装置，用于从第一图像中提取第一特征点；

第二特征点提取装置，用于从第二图像中提取第二特征点；

产生装置，用于比较由所述第一存储装置存储的第一特征量和由所述第二特征量提取装置提取的第二特征量，来产生候选者对应特征点对，作为具有相似特征量的特征点对；以及

选择装置，用于基于每一个第一特征量被包含于由所述产生装置产生的候选者对应特征点对中的频率从第一特征量中选择要进行存储的存储用特征量。

3.根据权利要求2的学习设备，其中第二图像必定包含第一图像中所包含的模型图像。

4.根据权利要求2的学习设备，其中将当所述第一特征点提取装置和所述第一特征量提取装置执行提取时所用参数设为空值。

5.根据权利要求2的学习设备，其中第二图像是将特定图像经过数字处理后产生的图像。

6.根据权利要求5的学习设备，其中数字处理是尺度变换、旋转变换、相似性变换、仿射变换、投影变换、加噪、亮度变化、对比度变化和模糊添加之一，或这些图像变换的任意组合。

7.一种学习方法，包括：

第一特征点提取步骤，从第一图像中提取第一特征点；

第一特征量提取步骤，从由所述第一特征点提取步骤中提取的第一特征点中提取第一特征量；

第一存储步骤，存储在所述第一特征量提取步骤中提取的第一特征量；

第二特征点提取步骤，从第二图像中提取第二特征点；

第二特征量提取步骤，从在所述第二特征点提取步骤中提取的第二特征点中提取第二特征量；

产生步骤，比较在所述第一存储步骤中存储的第一特征量和在所述第二特征量提取步骤中提取的第二特征量，来产生候选者对应特征点对，作为具有相似特征量的特征点对；以及

选择步骤，基于每一个第一特征量被包含于由所述产生步骤产生的候选者对应特征点对中的频率从第一特征量中选择要进行存储的存储用特征量。