CN1983303A

CN1983303A - 图像处理设备、方法及程序

Info

Publication number: CN1983303A
Application number: CNA2006101669719A
Authority: CN
Inventors: 浅野康治
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-12-15
Filing date: 2006-12-15
Publication date: 2007-06-20
Anticipated expiration: 2026-12-15
Also published as: US20070160294A1; JP4640155B2; KR20070064269A; EP1798666A1; US7907751B2; CN100545859C; JP2007164560A

Abstract

本发明提供了一种图像处理设备，包括提取装置、参数保持装置、环境保持装置以及判定装置。提取装置被配置为从处理对象的图像中提取可能包括识别对象的区域的特征量。参数保持装置被配置为保持关于识别对象的参数。环境保持装置被配置为保持关于识别对象的环境。判定装置被配置为基于由所述提取装置提取的特征量、在所述参数保持装置中保持的参数、以及使用在所述环境保持装置中保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。

Description

图像处理设备、方法及程序

相关申请的交叉应用

本发明包含涉及在2005年12月15日向日本专利局提交的日本专利申请JP 2005-361347的主题，在此通过引用合并其全部内容。

技术领域

本发明涉及图像处理设备、方法、以及程序，并且更具体地涉及其中结合了图像识别功能的图像处理设备、方法及程序。

背景技术

近年来，已开发并正在继续开发识别人的技术。例如，已提出这样的技术，为了管理进入和离开特殊地点，拾取试图进入该地点的人的图像，并判定该图像是否与预先登记的图像中的一个相一致。然后，如果找到一致的图像，则允许此人进入或离开该地点。

同时，对于用户而言，已经可以容易地拾取、编辑和欣赏静止画面或移动画面。从而，用户处理大量的静止画面或长时间的移动画面的机会也在增加。鉴于刚刚所述的这样的情形，已经提出将元数据应用于静止画面或移动画面，并使用元数据来执行搜索，使得用户能容易地找出想要的静止画面或移动画面。例如，在日本专利特开No.2005-39354中公开了一种所述类型的设备。

为了采用如上所述的元数据，也提出了由用户从图像或多个图像中检测或识别物体、或预先指定的类型的操作。例如，在日本专利特开No.2004-145416中公开了一种所述类型的设备。

发明内容

根据如上所述的设备，通过单独从图像(静止画面或移动画面)中提取对象，从而执行对物体、操作的检测或识别。例如，为了从包括多个不同人的图像中检测特定人，重复下面的处理。首先，从静止画面中检测看起来代表脸的部分。然后，分辨所检测到的部分是否与要检测的脸的图案一致。

这样的检测或识别有时精度不够，并且这有时导致检测或识别的低精度。

因此，想要提供一种图像处理设备和方法，其在检测的精度上有所提高。为了满足此需求，根据本发明的实施例，从图像中检测物体或操作，同时还考虑到检测对象的物体可能在图像中出现的概率。

更具体地，根据本发明的实施例，一种图像处理设备包括：提取装置，被配置为从处理对象的图像中提取可能包括识别对象的区域的特征量；参数保持装置，被配置为保持关于识别对象的参数；环境保持装置，被配置为保持关于识别对象的环境；以及判定装置，被配置为基于由提取装置提取的特征量、在参数保持装置中保持的参数、以及使用在环境保持装置中保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。

该环境可以是多个识别对象的同现概率。

可替换地，该环境可以是多个识别对象之间的时间顺序的关联概率。

判定装置可判定是否存在其中使用特征量和参数计算的得分高于预定阈值的区域，并且，在判定存在其中该得分高于预定阈值的区域时，执行关于识别对象的算术运算，该识别对象对应于除了该区域中使用该特征量、该参数以及该环境的图像之外的图像。

可配置图像处理设备，使得当设置新识别对象时，从多个所存储的图像中读出其中存在新识别对象的图像，并且判定所读出的图像是否包括不同的识别对象，然后基于判定结果计算同现概率，并基于该同现概率更新在环境保持装置中保持的、关于新识别对象的环境。

可替换地，可如下配置图像处理设备。当设置新识别对象时，从多个所存储的图像中读出其中存在新识别对象的图像，并且根据所读出的图像，计算关于新识别对象的、时间顺序的关联概率，然后基于该关联概率更新在环境保持装置中保持的、关于新识别对象的环境。

可配置图像处理设备，使得当计算出时间顺序的关联概率时，计算在拾取所读出的图像的时间点之间的差，并根据该时间差执行加权。

根据本发明的另一实施例，提供一种用于使计算机执行处理的图像处理方法或程序，包括步骤：从处理对象的图像中提取可能包括识别对象的区域的特征量；保持关于识别对象的参数；保持关于识别对象的环境；以及基于由提取步骤处的处理所提取的特征量、由参数保持步骤处的处理所保持的参数、以及使用由环境保持步骤处的处理所保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。

在该图像处理设备、方法和程序中，当要从图像或多个图像中检测预定物体或操作时，使用代表物体之间的关系的概率值、或关于操作的相关性的概率值。

使用该图像处理设备、方法和程序，能以提高的精度来识别物质或人。

附图说明

图1是示出采用本发明的实施例的图像处理设备的配置的框图；

图2是示出用于在图像处理设备中使用的物体识别的表的视图；

图3是示出用于在图像处理设备中使用的操作识别的表的视图；

图4是示出由图像处理设备执行的识别处理的流程图；

图5是示出由图像处理设备执行的另一识别处理的流程图；

图6是示出由图像处理设备执行的学习处理的流程图；以及

图7是示出可通过其执行这些处理的人计算机的配置的框图。

具体实施方式

在详细说明本发明的优选实施例之前，说明在所附权利要求中引用的一些特征与下述优选实施例的具体元件之间的对应关系。然而，该说明仅仅是为了确认在本发明的实施例的说明中公开了权利要求中所引用的、支持本发明的具体元件。因此，即使在下面的说明中未作为特征之一而引用某些具体元件(其在实施例的说明中被引用)，这也不意味着该具体元件不对应于该特征。相反，即使某些具体元件被引用为对应于之一特征的元件，也这不意味着该元件不对应于除该元件外的任何其他特征。

根据本发明的实施例，图像处理设备(例如，图1中所示的图像处理设备)包括：提取装置(例如，图1的图像特征提取部分22)，被配置为从处理对象的图像中提取可能包括识别对象的区域的特征量；参数保持装置(例如，图1的图像参数保持部分24)，被配置为保持关于识别对象的参数；环境(context)保持装置(例如，环境参数保持部分42)，被配置为保持关于识别对象的环境；以及判定装置(例如，图1的匹配部分23)，被配置为基于由提取装置提取的特征量、在参数保持装置中保持的参数、以及使用在环境保持装置中保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。

下面，参考附图说明本发明的优选实施例。

[图像处理设备的配置和动作]

图1显示采用本发明的实施例的图像处理设备的配置。图1中所示的图像处理设备被配置为从所拾取的静止画面或图像、或移动画面或图像中检测和识别具体人、物体或操作，即预先登记的具体人、物体或操作的设备。

例如，所述类型的设备可被用于允许预先登记的限定人进入预定地点的设备。为此，该设备拾取试图进入该地点的人的图像，并判定是否预先登记了此人，以判定是否允许进入。

还可将所述类型的设备用于从由用户使用数字静止相机等拾取的静止画面中、或从使用视频相机等拾取的移动画面中检测出包括了用户想要检测的人或物体的图像的静止画面或图像、或移动画面或图像的设备。应该注意到，除非另外指定，以下说明中的术语图像包括静止画面和移动画面两者。

图1中示出的图像处理设备以如上所述的方式处理图像。参考图1，如上所述的图像处理设备包括图像输入部分11、物体识别部分12、操作识别部分13、环境处理部分14、以及输出部分15。

图像处理部分11具有输入所拾取的图像、所记录的图像等图像的功能。例如，可从为管理如上所述的进入预定地点而安装的静止相机或视频相机接收所拾取的图像。同时，例如，所记录图像是由用户拾取并记录在记录介质上的图像。

将输入到图像输入部分11的图像(图像数据)提供到物体识别部分12和操作识别部分13。

物体识别部分12具有检测物体(在此，物体是包括人和物质的术语)和识别所检测的物体是否是被预先确定为检测对象的物体的功能。物体识别部分12包括区域提取部分21、图像特征提取部分22、匹配部分23、以及图像参数保持部分24。

区域提取部分21从由图像输入部分11提供给其的图像中，提取每个都存在物体的区域(在每个区域中，都包括物体的图像)，并将所提取区域中包括的信息提供到图像特征提取部分22。图像特征提取部分22从每个区域提取该区域中的图像的特征量，并将所提取的特征量提供到匹配部分23。

匹配部分23使用从图像参数保持部分24或/和环境处理部分14提供给其的参数，以判定每个区域中的图像是否是预先登记的物体的图像之一。图像参数保持部分24保持要用于由匹配部分23执行的匹配的参数(特征量)。

操作识别部分13具有检测预定物体和识别物体的操作的功能，例如，检测到检测对象的物体是人，并识别此人的行动，比如行走。操作识别部分13包括区域提取部分31、图像特征提取部分32、匹配部分33、以及图像参数保持部分34。

区域提取部分31从由图像输入部分11提供给其的图像中，提取每个都存在物体的区域(在每个区域中，都包括物体的图像)，并将所提取区域中的信息提供到图像特征提取部分32。图像特征提取部分32从每个区域提取该区域中的图像的特征量，并将该特征量提供到匹配部分33。

匹配部分33使用从图像参数保持部分34或/和环境处理部分14提供给其的参数，以识别每个区域中的图像是否正执行预定操作。图像参数保持部分34保持要用于匹配的参数(特征量)。

尽管物体识别部分12和操作识别部分13具有相互类似的配置，但是它们识别不同的对象。因此，它们使用不同的区域提取方法、不同的待提取参数、以及不同的匹配技术。

环境处理部分14处理物体识别部分12或操作识别部分13所需的环境，以识别物体或操作。环境处理部分14包括动态环境保持部分41和环境参数保持部分42。

动态环境保持部分41临时保持从输出部分15输出的识别结果，并保持时间上在之前或之后获取(拾取)的图像。如下文所述，为了提高要由物体识别部分12或操作识别部分13识别的物体或操作的识别率(识别精度)，在本实施例中，例如，当图像是处理对象时，还使用相对于该图像在时间上的之前或之后拾取的图像的信息来执行识别处理。

为此，提供了用来保持时间上之前或之后的图像的信息的动态环境保持部分41。

环境参数保持部分42例如保持朋友A和朋友B在同一图像中存在的概率等。以此方式，环境参数保持部分42保持关于一个物体(操作)与另一物体(操作)之间的关系，即，两个物体(操作)都出现的可能性或概率。

向输出部分15提供有物体识别部分12的匹配部分23的输出，或/和操作识别部分13的匹配部分33的输出，并将所接收的输出输出到未示出的另一部分，例如，如使用识别处理来读出预定图像并使得该图像被显示在显示单元上的处理部分。另外，在特定场合需要时，将输出部分15的输出提供到环境处理部分14。

现在，说明向环境参数保持部分42提供的环境参数(表)。环境参数保持部分42保持图2和3中所示的表。

图2中所示的表指示在时间上之前或之后拾取的相同图像或多个图像中可能存在两个识别对象的概率，并且主要被提供到物体识别部分12的匹配部分23。在下文中，将图2所示的表称为物体识别表61。

例如，如图2所示，在物体识别表61中，写入信息“0.3”，作为在相同图像中可能包括朋友A和朋友B的图像的概率。此概率也是在拾取了包括朋友A的图像的图像的时间之前或之后(在大约的预定时间段内)拾取的另一图像中可能包括朋友B的图像的概率。

朋友A和朋友B一般是使用图1所示的图像处理设备的用户的朋友，有可能在同一图像中包括它们的图像。在此例中，在同一图像中可能包括所述的朋友A和朋友B的图像的可能性是“0.3”。这可由下面的表达式(1)表示：

P(朋友A，朋友B)＝P(朋友B，朋友A)＝0.3 (1)

同时，尽管作为用户的朋友的朋友A和作为用户的同事的同事C都与该用户有关，但认为朋友A和同事C相互不相关。在这样的例子中，因为在同一图像中可能包括朋友A和同事C的图像的可能性较低，因此在同一图像中可能包括朋友A和同事C的图像的概率是“0.01”。这可由下面的表达式(2)表示：

P(朋友A，同事C)＝P(同事C，朋友A)＝0.01 (2)

以此方式，物体识别表61对于在同一图像中包括其图像的可能性较高的人，呈现高概率值，而对于在同一图像中包括其图像的可能性较低的人，呈现低概率值。

换言之，利用人通常按人际关系(如地区社团、业余爱好的团体、以及工作地点)属于多个团体的事实来形成物体识别表61。另外，属于相同团体的人很可能同时在一起，并将这样的可能性转换为并输入为物体识别表61的数值。

将以如上所述的方式配置的物体识别表61有效地用于由数字静止相机等拾取的图像的排列等的图像识别。

例如，假设朋友B和同事C的脸相似。另外，假设在包括朋友A的图像的图像A中，包括难于辨认是朋友B还是同事C的人的图像。在此例中，可根据如上所述的环境参数(例如，物体识别表61)进行识别，即，在同一图像中可能都包括朋友A和朋友B的图像的概率是大约“0.3”，而在同一图像中可能都包括朋友A和同事C的图像的概率是大约“0.01”。

如果在物体识别表61中描述的概率值被一起用于识别，那么可识别出上述的人是朋友B。从而，可防止向用户方面提供错误识别结果的情形。

另外，例如，当图像A包括被识别为同事C的区域(图像)时，在同一图像中可能包括朋友A和同事C的图像的可能性较低(在此例中，该概率是大约0.01)。由此，如果刚刚所述的概率值被一起使用，那么可降低向用户方面提供包括了朋友A的图像的图像中也包括了同事C的图像的错误识别结果的可能性。

这不仅用于人，也类似地用于物质。具体地，如图2所示，通常认为，在同一图像中包括用于棒球的手套和球棒的图像的可能性较高，而在同一图像中包括棒球手套和高尔夫球杆的图像的可能性较低。同样在物体识别表61中描述了这样的一种物质和另一种物质之间的关系，即表示在同一图像中包括这些物质的图像的可能性的概率值。

另外，在图2所示的物体识别表61中还描述了人和物质之间的关系。例如，如果朋友A喜欢打高尔夫球，则在包括了朋友A的图像的图像中包括高尔夫球杆的图像的可能性较高。然而，如果朋友A不喜欢打高尔夫球，则在包括朋友A的图像的图像中包括高尔夫球杆的图像的可能性较低。在物体识别表61中也描述了上述人和物质之间的关系，即表示在同一图像中包括它们的图像的可能性的概率值。

应该注意到，例如，当在图2所示的物体识别表61中，所有地方都描述了数值(概率值)时，在同一图像中包括“朋友A”和“朋友B”的图像的概率与在同一图像中包括“朋友B”和“朋友A”的图像的概率相等(上面给出的表达式(1)和表达式(2)指出了这一点)。换言之，图2所示的物体识别表61在其右上部分与左下部分之间是对称的，因此，在物体识别表61中可以只描述各部分中的一个。

图3所示的表示出了一系列操作可能发生的概率，并且被提供到操作识别部分13的匹配部分33。在下文中，将图3所示的表称为操作识别表62。

例如，操作识别表62描述了在入帧(frame-in，其代表人之类的图像进入视频相机等拾取的图像帧)之后，入帧物体(人)可能坐到沙发上的概率。在图3中，此例中的概率被描述为“0.4”。这可由下面的表达式(3)表示：

p(坐到沙发上|入帧)＝0.4 (3)

在表达式(1)到(3)中，P(A|B)表示当另一条件B发生时，发生条件A的概率。因此，表达式(3)表示在“入帧”的条件发生之后、另一条件(即，入帧的人“坐到沙发上”)可能发生的概率是“0.4”。另外，对于这样的概率值(一系列操作可能连续发生的概率)，例如，可使用由N-gram(N个字符列)近似的值。

图3所示的操作识别表62描述了在首先执行“行”中所述的项、然后执行列中所述的项时的概率值。因此，例如，在项“坐到沙发上”发生(发生该项的条件)之后、发生项“入帧”(发生该项的条件)的概率是“0.0”，如由下面的表达式(4)所给出的：

p(入帧|坐到沙发上)＝0.0 (4)

具体地，在此例中，因为坐到沙发上的人已处于入帧状态之下，所以在人坐到沙发上之后再发生人的入帧的情形不会出现。因此，这样的一系列操作的概率值是“0.0”。

以此方式，在图3所示的操作识别表62中，描述了在执行行为A之后执行行为B(执行一系列操作)的概率值。因此，与图2所示的物体识别表61不同，图3所示的操作识别表在其右上部分与左下部分之间是不对称的。

换言之，操作识别表62中的概率值被表示为p(A|B)，并且其表示在发生了条件B的情形下可能发生条件A的条件概率。在此例中，概率值表示在执行了操作B之后可能执行操作A的概率。因此，如从表达式(3)和表达式(4)所看到的，如果相对于时间颠倒了行为的顺序，则概率也呈现出不同的值。

当识别出用户的一系列操作，并识别出操作中的每一个时，以如上所述的方式配置的操作识别表62作为用于提高识别精度的表有效。例如，根据公知方法，逐个分辨多个操作，并且基于分辨的结果而逐个识别这些操作。因此，例如，在识别出“坐到沙发上”的操作之后，独立于坐到沙发上的操作而分辨下一操作。从而，在识别出“坐到沙发上”的操作之后，有时会识别出“入帧”的操作。

如上所述，认为这是不会实际发生的操作的次序。因此，如果如相关技术的方法中那样逐一识别操作，则有时会向用户提供在“坐到沙发上”之后发生“入帧”的错误识别结果。

相反，如果提供了操作识别表62，并且还在识别处理中使用操作识别表62，则由于如上面的表达式(4)所示，在识别“坐到沙发上”之后可能发生“入帧”的识别的概率是“0.0”，所以分辨出这样的操作次序不会发生。从而，可防止向用户提供错误识别结果的情形。

还可基于执行多个操作之间的时间差来对环境参数加权。例如，根据在按照下面表达式的表中保持的P的值，计算要实际使用的环境参数P’：

P’(坐到沙发上|入帧)＝α(t)P(坐到沙发上|入帧)

其中，α(t)是随着两个操作之间的时间差t单调递减的函数，并且表示该权值随着时间差t减小(即，随着两个操作之间的时间距离减小)而相对增加。这是因为，考虑到进行这样的加权的原因在于，相互之间具有小的时间差的图像相互具有高相关性。

由用户方面通过预先学习、或通过在使用过程中学习而产生如上所述的表。

例如，可通过分析预先收集的大量数据来计算涉及物体识别表61中的一种物质和另一物质的概率值、以及涉及操作识别表62中的一系列操作连续发生的概率的概率值。因此，可以通过描述如刚刚所述的、预先计算的概率值来产生表。

另外，例如，因为涉及人和另一人、或涉及人和物质的概率值在使用物体识别表61的不同用户之间而有所不同(依赖于用户)，所以优选由用户方面在使用时通过学习来产生。因此，如下文参考图6的流程图所述的，由用户方面在使用时通过学习来产生物体识别表61的一部分。

应该注意到，因为使用现有数据所产生的表也优选地反映使用该表的用户的喜好，所以当然也可执行在下文中描述的学习。

图1中示出图像处理设备的操作。描述了在环境参数保持部分42中提供的如上所述的表。

图4示出在图1所示的图像处理设备识别预定的物体或操作时的处理。

参考图4，在步骤S11，图像输入部分11(图1)输入处理对象的图像(图像数据：在下面的说明中，除非另外指出，术语图像包括作为用于显示图像的图像数据的图像数据的含义)。将向图像输入部件11输入的图像提供到物体识别部件12的区域提取部分21、以及操作识别部分13的区域提取部分13。

应该注意到，如前面对图1所示的配置的说明中所述的，物体识别部分12和操作识别部分13具有基本上相似的配置，并执行相似的处理。因此，在下面的说明中，描述物体识别部分12的处理，作为示例，而在涉及某些不同处理的地方，也适当地描述操作识别部分13的处理。

在步骤S12，区域提取部分21从向其提供的图像中检测成为识别的对象的区域。例如，如果将脸确定为识别对象，则从向区域提取部分21提供的图像中提取被分辨为脸的区域。当然，可以从一个图像提取多个区域。将所提取的区域(区域中的图像)提供到图像特征提取部分22。

在步骤S13，图像特征提取部分22从向其提供的区域内的图像中提取特征量。将所提取的特征量提供到匹配部分23。待提取的特征量和提取特征量的方式依赖于由匹配部分23执行的匹配处理。另外，当匹配部分23执行匹配处理时，其使用在图像参数保持部分24中保持的参数或在环境参数保持部分42中保持的参数，同时这些参数也依赖于匹配处理。

对于由匹配部分23执行的匹配处理(图像识别模型)，使用适合于识别对象的方法，如，例如HMM(隐藏马尔可夫模型)或SVM(矢量支持机)。然后，提取适合于如此使用的方法的特征量，并保持该参数。

在步骤S14，匹配部分23计算关于目标区域的所有组合的识别模型得分和环境得分的总分。例如，假设由区域提取部分21提取了三个区域，区域A、另一区域B、以及再一区域C。在此例中，目标区域的所有组合是如下组合：

“区域A和区域B”、“区域A和区域C”以及“区域B和区域C”。

识别模型得分是在图像参数保持部分24中保持的参数，而环境得分是在环境参数保持部分42中保持的参数。如此前所述，当物体识别部分12识别出物体时，参考在环境参数保持部分42中保持的、如图2所示的物体识别表61。

当由I来表示向匹配部分23输入的特征量，而由O来表示识别对象的物体的参数时，匹配部分23执行基于按照Bayez(贝叶斯)理论的以下表达式(5)的算术运算：

P(O|I)＝P(I|O)P(O)/P(I) (5)

其中P(I|O)表示基于使用在图像参数保持部分24中保持的参数的图像识别模型而计算的条件概率。将根据此项计算的值(得分)称为图像得分。

另外，在表达式(5)中，P(O)是基于由环境参数保持部分42保持的参数、识别对象可能出现的预先概率(advance probability)。换言之，P(O)是根据静止画面或移动画面的图像内(帧内)或图像间(帧间)的同现(cooccurrence)概率或关联概率而计算的得分，并且在下文中将被描述为环境得分。

在表达式(5)中，在由匹配部分23执行实际计算时可以忽略P(I)。换言之，可将表达式(5)修改为下面的表达式(5)’，使得可以将呈现出相对高似然性的P(I|O)P(O)的得分输出为匹配处理(得分算术运算)结果：

P(O|I)＝P(I|O)P(O) (5)’

应该注意到，在相关技术中，因为使用在图像参数保持部分24中保持的参数来执行匹配处理，所以在相关技术中执行关于项P(I|O)的算术运算(在相关技术中算术运算该图像得分)。换言之，在相关技术中，使用预先在图像参数保持部分24中作为识别对象的图像(物体)而登记的参数，以执行匹配。

在本实施例中，如从表达式(5)或(5)’所看到的，匹配部分23将P(I|O)乘以P(O)，以执行匹配。该P(O)是根据如上所述的静止画面或移动画面的帧内、帧间同现和关联概率而计算出的得分。通过乘以这样的得分(环境得分)，还可使用在一个图像中包括其图像的可能性较高的物体、或在时间上相邻的不同图像中包括其图像的物体，来执行匹配。

从而，可提高匹配的精度(识别精度)。

另外，可将表达式(5)修改为下面的表达式(6)，即可基于下面的表达式(6)来执行涉及匹配处理的算术运算：

logP＝logP(I|O)+αlogP(O) (6)

尽管表达式(6)也用于图像得分和环境得分的总分的算术运算，但根据表达式(6)的算术运算也涉及加权。在表达式(6)中，P代表总分，而α代表权值。P(I|O)和P(O)与表达式(5)中的类似。

操作识别部分13的匹配部分33也执行与物体识别部分12的匹配部分23相似的处理。然而，当要计算P(O)时，匹配部分33参考在环境参数保持部分42中保持的、如图3中所示的操作识别表62，以执行涉及操作的匹配。

另外，操作识别表62描述了在执行预定操作(称为第一操作)之后、可能执行另一预定操作(称为第二操作)的概率值。因为使用了如刚刚所述的表，所以匹配部分33需要获取关于第一操作的信息。为此，在动态环境保持部分41中保持关于第一操作的信息(关于在识别第二操作之前的时间点处识别的操作的信息)。

向动态环境保持部分41提供输出部分15的输出。具体地，还将关于操作识别部分13识别的操作的信息通过输出部分15而提供到、并保持在动态环境保持部分41中。然后，当匹配部分33参考操作识别表62时，其参考在动态环境保持部分41中保持的第一操作的信息，并从操作识别表62中读出涉及第一操作的环境参数。然后，匹配部分33使用所读出的环境参数来执行匹配处理(第二操作的识别处理)。

匹配部分23(匹配部分33)临时保持通过匹配处理计算出的得分，并选择在匹配处理结束时的时间点处具有最高值的得分。在步骤S15，将包括所选得分的组合提供到输出部分15，并进一步输出到后续处理(未示出)。

以如上所述的方式执行识别处理。

参考图5说明另一识别处理。在上面参考图4所述的识别处理中，对目标区域的所有组合计算图像得分和环境得分的总分。

相反，在下面参考图5所述的识别处理中，不对目标区域的所有组合计算总分，而是计算总分以最终确定其中要被设置为难以最终确定的识别对象的物体或操作的区域是否是识别对象。

在步骤S31，独立地计算识别结果。为了计算识别结果，首先，区域提取部分21在从图像输入部分11向其提供的图像中提取要构成识别对象的区域。将从区域提取部分21提取的区域(区域中的图像数据)提供到图像特征提取部分22。

图像特征提取部分22从向其提供的每个区域的图像中提取特征量，并将所提取的特征量提供到匹配部分23。到目前为止，执行与上面参考图4所述的处理基本上类似的处理。匹配部分23使用在图像参数保持部分24中保持的参数，以执行匹配处理。通过按照下面的表达式(7)计算得分而执行匹配处理，同时忽略P(O)，这是由于其在识别对象中概率相等：

P(O|I)＝P(I|O) (7)

使用如此计算出的得分(在此例中，图像得分)，以在步骤S32处执行判定。具体地，在步骤S32，匹配部分23判定每个图像得分是否是超出阈值的识别结果。

具体地，匹配部分23判定在向其提供的图像中是否存在构成预先登记的识别对象(在图像参数保持部分24中保持了其参数的识别对象)的物体。判定在检测区域中存在预先登记的识别对象，并且在所计算出的得分高于阈值时，确定该判定是正确的。

因此，在如刚刚所述的情况下，即，如果在步骤S32判定存在超出阈值的识别结果，则处理前进到步骤S33，在此执行以下处理：明确地将超出阈值的识别结果确定为识别结果，并且从识别对象中去除该识别结果。

在步骤S34，对剩余的区域计算图像得分。然而，因为已在步骤31处执行对各个区域的识别处理时计算了图像得分，所以可在步骤S34处的处理中使用该已计算的图像得分。

在步骤S35，对于包括已最终判定的那些组合(当处理前进到步骤S33时从识别对象去除的那些区域)的所有组合，计算环境得分。在此例中，如果存在最终判定的区域或多个区域，则可替换地，可对这样的区域计算环境得分。

例如，如果提取了区域A、另一区域B、以及再一区域C，则可使用“区域A和区域B”、“区域A和区域C”以及“区域B和区域C”的组合。由此，如果要对所有组合计算环境得分，则计算关于三种组合的环境得分。这里，如果假设区域A是最终判定的区域，则可对“区域A和区域B”、以及“区域A和区域C”这两个组合来计算环境得分。

在步骤S36，搜索呈现出最高总分的组合。具体地，使用步骤S34和S35的处理的结果，以按照表达式(5)或(6)来执行算术运算，从而计算总分。结果，在步骤S37最终判定出具有最高总分的识别结果。

以此方式，可通过图像得分最终判定的区域最终被判定为识别结果，并且，还通过使用如此的最终判定结果来计算环境得分和总分，与执行图4的流程图的处理的计算量相比，可降低涉及得分的计算量。此外，可获得与在执行图4的流程图的处理时相似的、提高了的识别精度。

同时，如上所述，在本实施例中，使用环境得分(图2所示的物体识别表61和图3所示的操作识别表62)来执行识别处理。然而，如果在识别处理中使用的表的精度低，则识别结果有可能也低。另外，如上所述，因为涉及人与另一人的概率等在不同用户之间有所不同，所以难于预先在表中计算和描述这样的概率值。

因此，参考图6说明用于物体识别表61或/和操作识别表62的产生(学习)的处理。

在步骤S51，选择图像中的登记目标区域。通过选择包括用户想要登记的物体的图像的图像，即在该图像中包括了该物体的图像的区域，来执行该选择本身。提供所选信息来执行步骤S51处的处理。

例如，可以将在显示单元(未示出)上显示的图像内的、由区域提取部分21提取的区域以如下形式显示：用矩形等围绕每个区域，并且，提供了可由用户选择以此方式来围绕区域之一的功能。然后，在步骤S51，获取由用户选择的区域的相关信息。

在步骤S52，提取所选区域的图像参数。例如，通过从所选区域的图像中提取特征量(参数)来执行该提取。在步骤S53，所提取的参数被提供到图像参数保持部分24，并由其保持。

以此方式，登记用户想要登记(已经识别)的物体。在执行该处理之后，将以此方式新登记的物体判定为检测对象(识别对象)。具体地，将新登记的物体判定为要作为如上参考图4或5所述的识别处理的识别结果而向用户方面提供的信息之一。

然后在步骤S54，读出包括登记了其参数的物体(这样的物体在下文中被称为登记物体)的图像的图像(静止画面或移动画面)。例如，读出被用户拾取的、和被记录在预定记录介质上的图像，并且判定在所读出的图像中是否包括登记物体的图像。

通过由区域提取部分21、图像特征提取部分22、匹配部分23、以及图像参数保持部分24执行的处理而进行此判定。例如，可通过与图5的步骤S31的处理相类似的处理来进行该判定。

然后，将判定为包括登记物体的图像保持一次。在步骤S55，从所保持的图像提取环境参数。具体地，所保持的图像包括登记物体的图像，并且检测其图像与登记物体的图像一起被包括在该图像中的物体。然后，提取在登记物体与所检测的物体之间的环境参数。

通过将所有可能的组合相加并计算这些组合的同现概率或关联概率，而执行环境参数的提取。然而，因为可用于学习的图像的数目是有限的，因此难以确定对于所有可组合的正确概率值。因此，可通过如下的简化方法来确定概率值：例如，响应于单独的物体的出现次数，减少(discount)其他组合的某些概率，并将这些概率分配给不存在的组合。

例外，在本实施例中，还将按时间顺序排列的图像之间的关系保持为环境参数。也可以使用这样的关于多个图像的同现概率作为环境参数，并且根据下面的表达式(8)计算该同现概率：

P(X)＝(1-α(t))p(A，X)+α(t)p(B，X) (8)

其中α(t)是加权系数，并且被设置为与获得两个图像的时间点之间的差(时间差t)相对应的值。具体地，如果时间差t小，或者换句话说，如果图像的图像提取的时间点相互接近(在连续获得两个图像的情况下)，则α(t)的值近似为0.5。相反，如果时间差t大，则α(t)的值近似为0。

执行这样的加权的原因在于，考虑到相互之间呈现小的时间差的图像，相互具有高的相关性。

以如上所述的方式确定环境参数(概率值)。

在步骤S56，使用如此确定的环境参数来更新环境参数保持部分42中保持的表(在本例中，图2中所示的物体识别表61和图3中所示的操作识别表62)。

在步骤S57中，判定执行如上所述的处理序列是否达到指定的次数。如果在步骤S57处判定重复该处理未达到指定的次数，则处理返回到步骤S54，在此重复步骤S54及其后步骤的处理。然后，如果在步骤S57判定，重复该处理达到了指定的次数，则基于图6中流程图的学习处理结束。

通过以此方式多次重复该处理，变得可以重新识别用于使用更多改善的环境参数的学习的图像数据。从而，可获得更高的识别精度，并由此获得更高精度的环境参数。

以此方式，登记了用户想要登记的物体(用户想要已经识别的物体)，并且更新了涉及登记物质的环境参数。当执行这样的更新(学习)时，可使得环境参数保持部分42中保持的每个表更适当，并且使用这样的适当的表来执行的识别处理可提供适当的识别结果。

通过以此方式执行其中使用环境参数的识别处理，可提高识别精度。

图7示出执行按照程序执行上文所述的处理序列的个人计算机的配置的示例。参考图7，所示的人计算机100包括中央处理单元(CPU)101，其根据在只读存储器(ROM)102或存储部分108中存储的程序执行各种处理。由CPU101执行的程序、数据等适当地存储进随机存取存储器(RAM)103。通过总线104将CPU 101、ROM 102和RAM 103相互连接。

将输入/输出接口105通过总线104连接到CPU 101。将包括键盘、鼠标、麦克风等的输入部分106、以及包括显示单元、扬声器等的输出部分107连接到输入/输出接口105。CPU 101根据从输入部分106输入的指令而执行各种处理。然后，CPU 101将处理结果输出到输出部分107。

将由例如硬盘驱动器形成的存储部分108连接到输入/输出接口105，并且其存储由CPU 101执行的程序、以及各种数据。通信部分109通过诸如因特网或局域网之类的网络，而与外部设备进行通信。

可通过通信部分109获取程序，并将其存储进存储部分108。

将驱动器110连接到输入/输出接口105。当向驱动器110中加载诸如磁盘、光盘、磁光盘或半导体存储器之类的可拆卸介质111时，驱动器110驱动该可拆卸介质111，以获取在该可拆卸介质111上记录的程序、数据等。在必要时，将所获取的程序或数据传送到并存储到存储部分108中。

尽管可通过硬件执行上述的处理序列，但另外也可以通过软件来执行。如果通过软件执行该处理序列，则将构成软件的程序从程序记录介质安装到在专用硬件中结合的计算机、或例如可通过安装各种程序来执行各种功能的通用个人计算机中。

其中存储了要被安装到计算机中、并被置于可由计算机执行的条件下的程序的程序存储介质，可以是例如图7中所示的、由磁盘(包括软盘)、光盘(包括CD-ROM(密致盘只读存储器)、以及DVD[数字多用盘])、磁光盘(包括MD[小型盘])形成的包装介质的形式的可拆卸介质111，其中临时或永久地存储程序的ROM 102，配置存储部分108的硬盘等。在必要时，通过使用有线或无线通信介质(如局域网、因特网、或数字卫星广播)的、作为诸如路由器和调制解调器之类的接口的通信部分109，执行将程序存储进程序存储介质。

应该注意到，在本说明书中，可以但不必要按照如所述顺序的时间次序来处理描述了在程序存储介质中记录的程序的步骤，并且包括并行或独立执行的处理，而不按时间序列处理。

尽管已使用特定术语说明了本发明的优选实施例，但这样的说明用于例证目的，并且应该理解的是，在不脱离下面的权利要求的精神和范围的前提下，可进行修改和变化。

Claims

1、一种图像处理设备，包括：

提取装置，被配置为从处理对象的图像中提取可能包括识别对象的区域的特征量；

参数保持装置，被配置为保持关于识别对象的参数；

环境保持装置，被配置为保持关于识别对象的环境；以及

判定装置，被配置为基于由所述提取装置提取的特征量、在所述参数保持装置中保持的参数、以及使用在所述环境保持装置中保持的环境而执行的算术运算的结果，判定区域中的图像是否是识别对象。

2、如权利要求1所述的图像处理设备，其中，该环境是多个识别对象的同现概率。

3、如权利要求1所述的图像处理设备，其中，该环境是多个识别对象之间的时间的顺序的关联概率。

4、如权利要求1所述的图像处理设备，其中所述判定装置判定是否存在其中使用所述特征量和所述参数计算的得分高于预定阈值的区域，以及

在判定存在其中该得分高于预定阈值的区域时，执行关于与除了该区域中使用该特征量、该参数以及该环境的图像之外的图像相对应的识别对象的算术运算。

5、如权利要求1所述的图像处理设备，其中，当设置新识别对象时，从多个所存储的图像中读出其中存在新识别对象的图像，以及

判定所读出的图像是否包括不同的识别对象，然后

基于判定结果计算同现概率，并基于该同现概率更新在所述环境保持装置中保持的、关于新识别对象的环境。

6、如权利要求1所述的图像处理设备，其中，当设置新识别对象时，从多个所存储的图像中读出其中存在新识别对象的图像，以及

根据所读出的图像，计算关于新识别对象的、时间顺序的关联概率，然后

基于该关联概率更新在所述环境保持装置中保持的、关于新识别对象的环境。

7、如权利要求6所述的图像处理设备，其中，当计算出时间顺序的关联概率时，计算在拾取所读出的图像的时间点之间的差，并根据该时间差执行加权。

8、一种图像处理方法，包括步骤：

从处理对象的图像中提取可能包括识别对象的区域的特征量；

保持关于识别对象的参数；

保持关于识别对象的环境；以及

基于由提取步骤的处理所提取的特征量、由参数保持步骤的处理所保持的参数、以及使用由环境保持步骤的处理所保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。

9、一种用于使计算机执行包括以下步骤的处理的程序：

保持关于识别对象的参数；

保持关于识别对象的环境；以及

10、一种图像处理设备，包括：

提取部分，被配置为从处理对象的图像中提取可能包括识别对象的区域的特征量；

参数保持部分，被配置为保持关于识别对象的参数；

环境保持部分，被配置为保持关于识别对象的环境；以及

判定部分，被配置为基于由所述提取部分提取的特征量、在所述参数保持部分中保持的参数、以及使用在所述环境保持部分中保持的环境而执行的算术运算的结果，判定该区域中的图像是否是识别对象。