CN101542531A

CN101542531A - 图像识别装置及图像识别方法

Info

Publication number: CN101542531A
Application number: CNA2008800006744A
Authority: CN
Inventors: 近藤敏志; 米田亚旗; 水野耕; 小椋高志
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2007-06-14
Filing date: 2008-06-12
Publication date: 2009-09-23
Anticipated expiration: 2028-06-12
Also published as: US8108408B2; CN101542531B; JPWO2008152805A1; JP5200015B2; WO2008152805A1; US20100077003A1

Abstract

提供一种图像识别装置，即便识别对象物体的数目增多，也不需要管理识别用数据库。具备：图像输入部(201)，取得识别对象图像；相似图像检索部(202)，从置于可经由因特网访问的服务器装置(206)中的、和该图像识别装置(200)无关地生成的自然产生的多幅图像之中，检索和识别对象图像相似的1幅以上的相似图像；关键字提取部(203)，从检索到的相似图像中附带的信息之中，提取能作为识别结果备选的多个关键字；关键字解析部(204)，通过解析所提取的多个关键字，至少确定1个多个关键字之中作为识别结果最相似的关键字；以及提示部(205)，输出所确定的关键字，来作为识别对象图像的识别结果。

Description

图像识别装置及图像识别方法

技术领域

本发明涉及一种识别静止图像或动态图像中所拍摄的物体(对象)的图像识别装置。

背景技术

作为图像识别的核心技术，有一种模板匹配法(例如，非专利文献1)。模板匹配法是一种预先准备各种特定形状的图像窗口(模板)，对识别对象图像使用该模板，来检验与其一致的物体是否存在于识别对象图像中的方法。

也就是说，如图1所示，以往的图像识别装置100具备：图像输入部101，取得识别对象图像；专用的数据库(识别用数据库)103，保持各种各样的模板，是图像识别所需的；识别部102，通过对照其识别用数据库中的模板和图像输入部101所取得的识别对象图像，执行识别处理；提示部104，输出其识别结果。这种以往的图像识别装置利用模板匹配法，针对人脸识别等取得了成功。

非专利文献1：D.A.Forsyth and J.Ponce，“COMPUTER VISION：AModern Approach”，22节，24.3节

但是，使用模板匹配法的以往图像识别装置有如下的课题。

作为第1课题，是在识别用数据库(预先准备好的模板集合)之中未保持与识别对象物体对应的图像时，无法进行图像识别。若使用相反的说法，就是只有保持在识别用数据库中的物体才能识别。

作为第2课题，和第1课题也相关，是要识别的对象物体数目增加，并且应保持于识别用数据库中的模板数目也增加。该课题比起识别用数据库大小其本身的问题，使用图像识别方法的图像识别系统如何制作识别用数据库更加成为问题。

发明内容

本发明用来解决上述以往的课题，其目的为提供一种图像识别装置等，即便识别对象物体的数目增多，也不需要重新制作识别用数据库，也就是说，不需要管理识别用数据库。

为了达到上述目的，本发明所涉及的图像处理装置是一种图像识别装置，以所输入的图像是否是表示某物的图像作为识别结果进行输出，其特征为，具备：图像输入部，取得识别对象图像；相似图像检索部，从置于可经由因特网访问的服务器装置中的、和该图像识别装置无关地生成的自然产生的多幅图像之中，检索和由上述图像输入部所取得的识别对象图像相似的1幅以上的相似图像；关键字提取部，从由上述相似图像检索部检索到的相似图像中附带的信息之中，提取能作为上述识别对象图像的识别结果的备选的多个关键字；关键字解析部，通过解析由上述关键字提取部所提取的多个关键字，至少确定1个上述多个关键字之中作为上述识别对象图像的识别结果最相似的关键字；以及提示部，输出由上述关键字解析部所确定的关键字，来作为上述识别对象图像的识别结果。据此，由于不像以往的图像识别装置那样具有图像识别用的专用数据库，因而即便识别对象物体的数目增多，也不需要重新制作识别用数据库，也就是说，不再需要管理识别用数据库。

这里，上述相似图像检索部以Exif文件的图像作为上述相似图像进行检索，上述关键字提取部也可以从上述Exif文件中的标题信息提取上述关键字。

上述相似图像检索部从置于上述服务器装置中的web网页检索上述相似图像，上述关键字提取部也可以以上述web网页或者和上述web网页相关联的web网页中包含的标记信息为线索，提取上述关键字。

上述相似图像检索部从置于上述服务器装置中的web网页检索上述相似图像，上述关键字提取部也可以以上述web网页或者和上述web网页相关联的web网页中包含的周边语句作为上述关键字，进行提取。

还有，作为图像识别的判断基准，上述关键字提取部提取允许重复的多个关键字，上述关键字解析部也可以对于由上述关键字提取部所提取的多个关键字的每一个，解析个数，确定个数多的关键字来作为识别结果。

上述相似图像检索部检索和上述识别对象图像相似的多幅图像来作为上述相似图像，并且对于上述多幅相似图像的每一个，计算和上述识别对象图像之间的相似度，上述关键字解析部也可以对于由上述关键字提取部所提取的多个关键字的每一个，对所附带的图像使由上述相似图像检索部计算出的相似度相对应，确定对应的相似度较高的关键字来作为识别结果，。

上述关键字提取部提取允许重复的多个关键字，上述关键字解析部还可以对于由上述关键字提取部所提取的多个关键字的每一个，解析个数，确定个数多且上述相似度较高的关键字来作为识别结果。

另外，作为识别结果的显示，上述关键字解析部确定上述个数或者上述相似度较大的多个关键字来作为上述识别结果，上述提示部也可以将由上述关键字解析部所确定的多个关键字，按上述个数或者上述相似度从大到小的顺序进行显示输出。

还有，优选的是，还具备图像指定部，从用户取得由上述图像输入部所取得的识别对象图像之中应作为识别对象的区域的指定；上述相似图像检索部检索和由上述图像指定部所取得的区域中包含的图像相似的图像。据此，可以缩小识别对象，削减对识别对象物的干扰(不需要识别的部位)，实现高准确度的图像识别。

另外，优选的是，还具备：分类数据库，对于多幅图像的模板，存储使各图像的模板所属的种类相关对应的信息；以及简单分类部，通过对照由上述图像输入部所取得的识别对象图像和存储在上述分类数据库中的图像模板，来确定上述识别对象图像属于什么样的种类；上述相似图像检索部利用上述简单分类部的分类结果来作为检索时的关键字，来检索和上述识别对象图像相似且属于上述分类结果种类的图像。据此，与只用识别对象图像检索相似图像的情形相比，由于种类信息作为辅助信息在相似图像的检索时加以利用，因而产生诸如使相似图像的检索准确度提高，检索时间得以缩短这样的效果。

另外，优选的是，还具备：详细信息数据库，对于能作为识别对象图像的图像中附带的多个附带信息的每一个，使该附带信息的详细信息相对应进行存储；以及预处理部，通过取得由上述图像输入部所取得的识别对象图像中附带的附带信息，对照所取得的附带信息和上述详细信息数据库中所登录的附带信息，来取得与由上述图像输入部所取得的识别对象图像中附带的附带信息对应的详细信息；上述相似图像检索部利用由上述预处理部所取得的详细信息来作为检索时的关键字，来检索和上述识别对象图像相似且和上述详细信息关联的图像。据此，与只用识别对象图像检索相似图像的情形相比，由于除图像之外的信息作为辅助信息在相似图像的检索时加以利用，因而产生诸如使相似图像的检索准确度提高，检索时间得以缩短这样的效果。

还有，本发明不仅仅可以作为这种图像识别装置来实现，也可以作为以这种图像识别装置具备的特征性机构为步骤的方法来实现，或作为使计算机执行那些步骤的程序来实现，或者作为存储那种程序的CD-ROM等计算机可读取的记录媒体来实现。

发明效果

根据本发明，由于不像以往的图像识别装置那样，需要具备图像识别用的专用数据库，因而即便识别对象物体的数目较多，也不需要重新制作识别用数据库，也就是说，不再需要管理识别用数据库。

另外，因为像以往的图像识别装置那样在数据库中未保持与识别对象物体对应的图像所以无法识别之类的可能性变得非常低，能够以较高的概率进行各式各样的图像识别。

因而，本发明不需要维护的人工和时间，也不需要由装置而产生的学习，且在识别对象的种类不受限定的状况下，以较高的概率识别未知的图像，在具备摄像功能的移动信息设备已普及起来的现今实用价值非常高。

附图说明

图1是表示以往图像处理装置结构的功能框图。

图2是表示本发明图像处理装置结构的功能框图。

图3是表示本发明图像处理装置动作的流程图。

图4是说明本发明图像处理装置动作的附图。

图5是表示图3的步骤S102详细情况的流程图。

图6是表示本发明图像处理装置输出例的附图。

图7是表示第1异例所涉及的图像处理装置结构的功能框图。

图8是说明第1异例所涉及的图像处理装置动作的附图。

图9是表示第2异例所涉及的图像处理装置结构的功能框图。

图10是表示第2异例所涉及的图像处理装置分类数据库数据例的附图。

图11是说明按识别对象图像和相似图像之间的相似度进行加权来识别图像的方法的附图。

图12是表示以与识别对象图像中附带的附带信息关联的详细信息作为关键字来检索相似图像的图像处理装置结构和动作的附图。

图13是表示使识别结果重叠于识别对象图像上进行显示的例子的附图。

图14是表示存储实现本发明图像处理装置之程序的记录媒体的附图。

图15是表示安装本发明图像处理装置后的各种电子设备例的附图。

图16是具备本发明图像识别装置的移动电话外观图。

图17是具备本发明图像处理装置的移动电话功能框图。

符号说明

200、400、500、600图像识别装置

201图像输入部

202相似图像检索部

203关键字提取部

204关键字解析部

205提示部

206服务器装置

401图像指定部

501简单分类部

502分类数据库

610预处理部

620详细信息数据库

具体实施方式

下面，对于本发明的实施方式，使用附图进行详细说明。

图2是表示本发明图像识别装置结构的功能框图。该图像识别装置200用来以所输入的图像是否是表示某物的图像作为识别结果进行输出，包括图像输入部201、相似图像检索部202、关键字提取部203、关键字解析部204及提示部205，例如由个人计算机以及在此执行的程序等，来实现。

图像输入部201是取得识别对象图像的处理部，例如按照用户的指定，从装置所具备的本地磁盘(未图示)，读出由数字摄像机等所拍摄并存储的静止图像或动态图像等的图像文件。

相似图像检索部202是从置于可经由因特网访问的服务器装置206中的、与该图像识别装置200无关地生成的自然产生的多幅图像之中，检索和由图像输入部201所取得的识别对象图像相似的1幅以上的图像来作为相似图像的处理部。还有，所谓“自然产生的图像”指的是，与该图像识别装置200无关地生成的图像，包括置于因特网上的Web站点内已公开的各式各样图像。另外，所谓“与图像识别装置200无关地生成的图像”指的是，包含无意图像识别而制作出的普通图像的意思，也可以包含有意图像识别而制作出的图像。另外，检索对象的服务器装置可以是任意的服务器装置，既可以是1台，又可以是多台，又可以是图像专用的web站点，又可以是此外普通的web站点。

具体而言，该相似图像检索部202例如检索Exif文件的图像来作为相似图像，或者从置于服务器装置206中的web网页检索相似图像。还有，该相似图像检索部202在检索到和识别对象图像相似的多幅图像来作为相似图像时，对于那些多幅相似图像的每一个，计算和识别对象图像之间的相似度。

关键字提取部203是从由相似图像检索部202检索到的相似图像中附带的信息之中，提取能作为识别对象图像识别结果的备选的多个关键字的处理部。这里，所谓的关键字指的是，地理名称和知名人士的名字等包含固有名词或普通名词等的单词、词组、短句、句子等。

具体而言，该关键字提取部203例如从Exif文件中的标题信息提取关键字，或以web网页或者和web网页相关联的web网页中包含的标记信息为线索来提取关键字，或以web网页或者和web网页通过链接等相关联的其他web网页中包含的周边语句作为关键字进行提取。此时，该关键字提取部203也有时从由相似图像检索部202检索到的多幅相似图像，提取允许重复的多个关键字。

关键字解析部204是通过解析由关键字提取部203所提取的多个关键字，来确定至少1个多个关键字之中作为识别对象图像的识别结果最相似的关键字的处理部。

具体而言，该关键字解析部204例如对于由关键字提取部203所提取的多个关键字的每一个，诸如(1)解析个数(也就是出现频率)，确定个数多的关键字来作为识别结果，(2)对所附带的图像使由相似图像检索部202计算出的相似度相对应，确定对应的相似度高的关键字来作为识别结果，(3)确定个数多且相似度高的关键字来作为识别结果。还有，有关这些识别结果的算法，可以由用户事先选择(设定)。

提示部205是输出由关键字解析部204所确定的关键字来作为识别对象图像识别结果的处理部及显示器等。这里，如果在关键字解析部204确定了个数或相似度较大的多个关键字来作为识别结果时，则该提示部205将由关键字解析部204所确定的多个关键字，例如按个数或相似度从大到小的顺序进行分类，加以显示输出。

下面，对于如上所构成的本实施方式中的图像识别装置200动作，进行说明。

图3是表示本实施方式中的图像识别装置200动作过程的流程图。图4是说明图像识别装置200动作所用的附图。

首先，图像输入部201取得图4(a)所示的图像10那样的识别对象图像(S101)。这里，图像输入部201既可以是摄像机等的摄像设备，也可以是预先记录了识别对象图像的记录媒体。在图像输入部201是摄像设备时，图像输入部201要在当地拍摄识别对象物体，获取识别对象物体来作为识别对象图像。另外，在图像输入部201是记录媒体时，图像输入部201通过从预先记录的图像由用户指定图像文件，来取得识别对象图像。图像输入部201所取得的识别对象图像输出给相似图像检索部202。

接下来，相似图像检索部202如同图4(b)所示的相似图像11a那样，从因特网上的服务器装置206取得识别对象图像的相似图像(S102)。

图5是该步骤S102的详细流程图。相似图像检索部202从因特网上的服务器装置206取得图像(也就是下载)(S301)。还有，服务器装置206是共享图像的站点的主服务器或普通的web服务器等。这里，将所取得的下载图像数目设为N(大于等于1)，各下载图像赋予1～N的编号进行下面的说明。

相似图像检索部202为了对N张下载图像按顺序进行处理，将表示图像编号的计数器n的值设置为1(S302)。还有，作为N，既可以是预先设定的固定值，也可以是设定初始值，此后反映下述相似度和阈值的判断结果使之继续增加(例如，相似度超过阈值的相似图像总数为预先设定的张数那样)的可变值。

下面，对N张下载图像，按顺序实施步骤S303～S305的处理。也就是说，相似图像检索部202计算识别对象图像和编号n的下载图像之间的相似度(S303)。作为相似度的例子，将使用模板匹配法中图像间的距离。这里，设为2幅图像越相似，相似度越高的值。例如，针对2幅图像，对于坐标信息、灰度信息、色信息、边缘信息、空间频率信息等计算多个特征量，将那些由多个特征量组成的向量间的距离设为相似度。

另外，在计算识别对象图像和下载图像之间的相似度时，也可以在将各幅图像分割为部分图像之后，计算识别对象图像的部分图像和下载图像的部分图像间的相似度。在这样进行了分割时，可以将各部分图像的组合之中相似度最大的相似度设为识别对象图像和下载图像的相似度。另外，结束相似度计算之后，既可以保存其相似图像，也可以将其废弃。

然后，相似图像检索部202比较相似度和指定的阈值(S304)。其结果为，在相似度比指定的阈值更大时(S304中的“是”)，相似图像检索部202将图像编号n和相似度的对保存于列表中(S305)。另一方面，在相似度比指定的阈值更小时(S304中的“否”)，跳过步骤S305的处理，向步骤S306转移处理。

在S306中，相似图像检索部202判定图像编号n是否与总下载图像数N相等，也就是说是否完成了全部下载图像的处理。其结果为，在n不等于N时(S306中的“否”)，相似图像检索部202在使n只增加1之后(S307)，再次计算相似度(S303)。另一方面，在n等于N时(S306中的“是”)，相似图像检索部202完成处理。通过如上由相似图像检索部202做出的处理，获得保持下述下载图像的编号和其相似度的对的列表，该下载图像和识别对象图像之间的相似度大于等于指定的阈值。

接下来，返回图2，关键字提取部203如同图4(b)的关键字11b那样，取得在由相似图像检索部202得到的列表中记述有编号的下载图像中附带的关键字(S103)。作为该关键字，关键字提取部203也可以从作为Exif信息直接描述在下载图像中的标记获得，如果下载图像是从图像共享站点获得的则也可以作为对其图像所赋予的标记来获得，还可以从在web网页中记述下载图像的位置周围的语句获得。另外，可以通过解析用html语言等所记述的web网页源代码，获得下载图像被记载的位置和其周围所记述的词句。这样从各下载图像得到的关键字输出给关键字解析部204。

这里，关键字提取既可以对上述列表中所记述的全部图像进行，在列表中所记载的图像数较多时，也可以对从其中选择出的图像进行。另外，有关关键字的提取方法(Exif文件的标题或是web网页的标记等)，可以由用户选择(或者事先设定)1个或者多个方法。

然后，关键字解析部204对所输入的关键字解析其频率(出现频率，也就是个数)(S104)。随后，输出根据频率选择出的关键字，来作为识别对象图像的识别结果。这里，作为根据频率选择关键字的方法，有选择频率最高的关键字的方法等。另外，选择的关键字不限于一个，也可以选择多个关键字。

最后，提示部205如图4(c)的表示例12所示，对用户提示在关键字解析部204中得到的识别结果(S105)。作为提示方法，有在显示器上将识别结果作为字符信息进行显示的方法，以及通过声音合成朗读识别结果从扬声器进行再生的方法等。另外，如图6所示，也可以从由关键字提取部203所提取的关键字之中由关键字解析部204计算出的频率多的关键字，将一定个数的关键字进行分类，加以显示。

如上所述，根据本实施方式中的图像识别装置200，通过从和该图像识别装置200无关地生成的自然产生的因特网上的图像组，选择与识别对象图像相似的图像组，解析图像组中附带的关键字频率，来选择某个关键字作为识别结果。这里，在因特网上存在拍摄过各式各样物体的图像。因而，借助于这种图像识别装置200，像以往的图像识别方法那样因为在专用的识别用数据库中未保持与识别对象物体对应的图像所以无法识别之类的可能性变得非常低。另外，根据本发明的图像识别装置，不用制作单独(专用)的数据库，就能够识别很多种类的物体。

还有，在上述实施方式中，虽然以识别对象图像的全部为对象，进行了图像识别，但是也可以只以图像的一部分为对象进行图像识别。图7是表示上述实施方式的第1异例所涉及的图像识别装置400结构的功能框图。如本图所示，本异例所涉及的图像识别装置400具有在图2所示上述实施方式的图像识别装置200内添加了图像指定部401的结构。图像指定部401以外的结构及处理内容和上述实施方式大致相同。

对图像指定部401，从图像输入部201输入包含识别对象物体在内的图像。图像指定部401如图8的图像10中点线框10a所示，确定从图像输入部201所输入的图像10之中识别对象物体映出的区域。此时的区域确定例如按照来自用户的指令进行。然后，图像指定部401将所指定区域的图像对相似图像检索部202进行输出。还有，图像指定部401既可以将用户所指定区域的图像按原状输出给相似图像检索部202，也可以在用户所指定的区域内进行图像的边界检测，只将检测出的边界内的图像输出给相似图像检索部202。

这样，根据第1异例所涉及的图像识别装置400，通过从因特网上的图像组检索与对象图像中与用户选择区域相似的图像组，解析检索到的图像组中附带的关键字频率，来选择某个关键字作为识别结果。因而，除了在上述实施方式中获得的效果之外，还产生只缩小为输入图像中的用户指定区域内所映出的物体进行图像识别这样的效果。

另外，在上述实施方式中，虽然以识别对象图像为线索，检索了相似图像，但是也可以除了识别对象图像之外，还以识别对象图像的分类(种类)信息为线索，检索相似图像。图9是表示上述实施方式的第2异例所涉及的图像识别装置500结构的功能框图。如本图所示，本异例所涉及的图像识别装置500具有在图2所示上述实施方式的图像识别装置200内添加了简单分类部501及分类数据库502的结构。简单分类部501及分类数据库502以外的结构及处理内容和上述实施方式大致相同。

对简单分类部501，从图像输入部201输入识别对象图像。简单分类部501在相似图像检索部202从因特网下载图像之前，对识别对象图像实施简单的分类。该处理例如象以往的图像识别方法那样，通过在简单分类部501中保持本地的分类数据库502，参照其分类数据库502中包含的模板，来将识别对象图像简单分类。分类数据库502例如图10所示，是登录“图像的特征(空间频率成分、轮廓形状、统计特征量及色分布等的特征)”和“种类”之间的相关联后的表。简单分类部501解析识别对象图像的空间频率成分等，检索和其解析结果一致的分类数据库502的“图像的特征”，取得对应的“种类”来作为简单分类结果。然后，简单分类部501除了识别对象图像之外，还将其简单分类结果输出给相似图像检索部202。

相似图像检索部202利用从简单分类部501所输入的简单分类结果，从因特网上的服务器取得图像(下载)。例如，以简单分类结果作为关键字来实施检索，以检索的结果得到的图像作为相似图像，或者以下述图像之中与识别对象图像相似的图像作为相似图像，进行下载，上述图像是以简单分类结果作为关键字进行检索得到的。

这样，根据第2异例所涉及的图像识别装置500，通过从因特网上的图像组，以识别对象图像的简单分类结果作为关键字来检索相似的图像组，解析其图像组中附带的关键字频率，来选择某个关键字作为识别结果。因而，除了在上述实施方式中得到的效果之外，通过预先实施简单的分类，还产生从因特网下载的图像数目被削减、下载时间的缩短、处理量的减少以及用来保持下载图像的存储量减少等的效果。

另外，在上述实施方式中，虽然由关键字提取部203所提取的关键字之中频率大的关键字被判断为识别结果，但是当进行频率的计算时，也可以按识别对象图像和相似图像之间的相似度进行加权。图11(a)～(c)是说明这种考虑根据识别对象图像和相似图像之间的相似度的加权来决定识别结果的第3异例所涉及的图像识别装置动作的附图。还有，该第3异例所涉及的图像识别装置结构基本上和图2所示上述实施方式中的图像识别装置200相同。下面，对于具有和实施方式不同的功能的结构要件，进行说明。

在第3异例所涉及的图像识别装置中，如图11(a)所示，相似图像检索部202在检索到相似图像时，事先计算识别对象图像和相似图像之间的相似度。然后，关键字解析部204在每次关键字提取部203在每幅相似图像中提取关键字时，都事先使其相似图像的相似度与所提取的关键字相关联，进行存储。例如，在图11(a)所示的例子中，使相似度S1与相似度S1的相似图像I1中所附带的关键字A、B、C、D各自相关联、使相似度S2与相似度S2的相似图像I2中所附带的关键字B、D、E各自相关联、…、使相似度Sn与相似度Sn的相似图像In中所附带的关键字F、H各自相关联，进行存储。

然后，关键字解析部204如图11(b)所示，通过对于由关键字提取部203所提取的关键字的每一个，计算将相关联的权重和ωi或者相似度代入指定函数(例如，用相似度的总和计算归一化后的权重的函数f)中所得到的权重f(Si)的合计∑ωi，来计算以相似度为权重的每一关键字的权重和ωn。最后，提示部205如图11(c)所示，作为识别结果，按权重和ωn大的顺序，和准确度(将权重和归一化成0～1范围的数值后的值)一起，显示关键字。

这样，根据第3异例所涉及的图像识别装置，因为不仅仅是所提取关键字的频率，还将按识别对象图像和相似图像之间的相似度进行加权后的频率高的关键字设为识别结果，所以与只用频率决定的方法相比，能够以更高的准确度进行图像识别。

还有，当考虑这种根据相似度的加权时，在1幅相似图像中附带的关键字个数较多时，也可以减小对那些关键字的权重。另外，也可以如同包含于Exif文件的标题信息等中的关键字那样，对于相似图像中直接附带的关键字，增大权重，或对于在web网页等中处于相似图像周边的关键字，离相似图像距离(例如，显示画面上的距离)越近，越是增大权重。这样，通过将相似图像和关键字之间的各种关系，反映为判断识别结果时的加权，使图像识别的准确度进一步得到提高。

另外，在上述实施方式及异例中，虽然只以识别对象图像为线索来检索相似图像，或以识别对象图像和从识别对象图像判明的信息(分类信息)为线索来检索相似图像，但是如果在识别对象图像中附带有附带信息时，也可以以其附带信息或者与其附带信息关联的信息作为关键字，检索相似图像。

图12是表示以与识别对象图像中附带的附带信息关联的详细信息作为关键字来检索相似图像的第4异例所涉及的图像识别装置500结构的功能框图。如本图所示，本异例所涉及的图像识别装置600具有在图2所示上述实施方式中的图像识别装置200内添加了预处理部610及详细信息数据库620的结构。

详细信息数据库620用来对于能作为识别对象图像的图像中附带的多个附带信息每一个，使附带信息的详细信息相关联进行存储。例如，是一种建筑物数据库，该建筑物数据库作为附带信息存储有表示地理地点的信息(例如，纬度及经度)，作为详细信息存储有确定存在于其地理地点附近的地标的信息(建筑物名称、设施种类等)。

预处理部610用来取得由图像输入部201所取得的识别对象图像中附带的附带信息，通过对照所取得的附带信息和详细信息数据库620中所登录的附带信息，取得与由图像输入部201所取得的识别对象图像中附带的附带信息对应的详细信息。

按上述方法构成的第4异例所涉及的图像识别装置600的动作和图12的步骤S61～S66所述的一样。首先，预处理部610取得识别对象图像中附带的附带信息(S61)。例如，在识别对象图像是摄影图像，并且收存到Exif文件时，预处理部610从其Exif文件的标题信息，取得表示摄影地点(地理地点)的信息(纬度及经度等)。然后，预处理部610通过对照所取得的附带信息和详细信息数据库620中所登录的附带信息(S62)，取得与其附带信息对应的详细信息(S63)。例如，通过以识别对象图像中所附带的摄影地点作为关键字来检索详细信息数据库620，取得其摄影地点或者其附近的建筑物名称。

然后，相似图像检索部202通过以因特网上的服务器装置206为对象，并以由预处理部610所取得的详细信息作为关键字进行检索(S64)，取得和识别对象图像相似且和详细信息关联的相似图像以及其中附带的关键字(S65)。例如，以建筑物名称作为关键字从www检索图像，并以那些图像之中和识别对象图像相似的图像作为相似图像，和附带的关键字一起取得。

然后，关键字解析部204和实施方式相同，对所取得的多个关键字解析其频率，选择频率高的关键字来作为识别结果(S66)。此时，对于和从详细信息数据库620所取得的详细信息一致或者相似的关键字，也可以加大权重来选择识别结果。最后，选择出的识别结果通过提示部205对用户进行提示。

这样，根据第4异例所涉及的图像识别装置600，由于利用识别对象图像中附带的信息来检索相似图像，因而与只从识别对象图像检索相似图像的情形相比，可以检索相似度更高的图像，或缩短相似图像的检索时间，使图像识别的识别准确度和处理速度得到提高。

还有，作为该第4异例所涉及的图像识别装置600动作例，除了以摄影地点为线索从详细信息数据库620取得摄影图像中包含的建筑物或名胜的名字之外，还可以利用季节或时间段等的附带信息。此时，由于如果是植物或昆虫，则其存在的季节和地点已被限定，因而还可以将其作为图像识别时的知识正确地使用。例如，作为识别算法，使用贝叶斯估算从多个关键字选择最相似的关键字，并且当前在识别对象图像中附带有摄影日期与时间时，对于在其摄影日期与时间所属的季节或时间段出现的植物或昆虫，将贝叶斯估算中的先验概率变为较高的值。然后，从多个关键字之中，选择贝叶斯估算中的后验概率最大的关键字，并选择该关键字来作为识别结果。这样，因为不仅仅是将识别对象图像中附带的信息利用于相似图像的检索，还作为识别时的知识(识别处理的辅助信息)加以利用，所以可以使识别准确度得到进一步提高。

另外，在上述实施方式中，虽然提示部205只显示识别结果，但是也可以使之与识别对象图像重叠来显示识别结果。此时，提示部205利用CG(Computer Graphics)技术等，来合成识别对象图像和识别结果的字符串，以便识别结果的字符串位于识别对象图像中作为识别对象的对象附近。

例如图13(a)所示，在作为识别结果获得了山的名称时，生成将其名称配置到识别对象图像中对应的山旁边的合成图像，进行显示，或如图13(b)所示，在作为识别结果获得了星座或星星的名称时，生成将其名称配置到识别对象图像中对应的星座或星星旁边的合成图像，进行显示。借此，识别对象图像和识别结果在图像上相关联，用户可以轻易确认未知的识别结果。另外，还从摄影图像自动进行景观标定，对旅行目的地的未知景观，自动取得观光信息。还有，如图13(b)所示，也可以将虽然在识别对象图像中不存在但是根据图像识别结果判明存在的星星(原本看不见，但是根据星座的位置关系判明存在的星星)，采用CG技术等和识别对象图像进行合成加以显示。

另外，在上述实施方式及异例中，虽然相似图像的检索时使用的辅助关键字以及关键字的解析(识别处理)时使用的辅助关键字是通过参照数据库自动生成的，但是也可以由用户指定。例如，也可以由用户指定识别对象图像所属的种类(“花”、“树”、“昆虫”等)。借此，用户对于识别对象图像，可以以自己所输入的信息为线索，获得更详细的信息(也就是识别结果)。

例如，在用户虽然知道自己所拍摄的图像是花但是不知道其名称时，通过使图像识别装置执行，以便利用“花”来作为相似图像检索时的辅助关键字或者关键字解析(识别处理)时的权重，就可以获得“花”的名称来作为识别结果，能够将图像识别装置作为植物辞典加以利用。

还有，上述实施方式及异例也可以通过任意组合结构要件，来实现其他方式的图像识别装置。例如，也可以通过组合上述第1异例和第2异例，在由图像指定部401指定识别对象图像区域之后，对所指定区域的图像，执行由简单分类部501做出的分类，并执行由相似图像检索部202做出的相似图像检索。

另外，也可以将上述各实施方式或异例中的图像识别装置作为由计算机执行的程序，来实现。而且，能够通过将其程序记录于软盘等记录媒体中，在独立的计算机系统中简单地实施上述各实施方式所示的处理。

图14(a)～(c)是使用软盘等记录媒体中所记录的程序，由计算机系统实现上述各实施方式的图像识别装置时的说明图。

图14(b)表示从软盘正面看到的外观、剖面结构及软盘，图14(a)表示出作为记录媒体主体的软盘物理格式例。软盘FD内置于外壳F内，在该盘片的表面，按同心圆状从外周朝向内周形成多条磁道Tr，各磁道按角度方向被分割成16个扇区Se。从而，就存储上述程序的软盘而言，在上述软盘FD上所分配的区域内记录上述程序。

另外，图14(c)表示用来在软盘FD上进行上述程序记录再生的结构。将实现图像识别方法的上述程序记录于软盘FD中时，从计算机系统Cs通过软盘驱动器写入上述程序。另外，将利用软盘内的程序实现图像识别方法的上述图像识别方法构建于计算机系统中时，通过软盘驱动器从软盘读出程序，传送给计算机系统。

还有，在上述说明中，虽然作为记录媒体使用软盘进行了说明，但是使用光盘也可以同样地进行。另外，记录媒体不限于此，只要是IC卡、ROM卡匣等可记录程序的器件，就可以同样地实施。

另外，本发明所涉及的图像识别装置不仅仅是在计算机上实现，也可以作为装入如图15所示的各种电子设备ex111～116内的功能，来实现。此时，要在各种电子设备ex111～116中附带的存储媒体(CD-ROM、软盘、硬盘等)内作为程序进行存储，或作为LSI ex117来实现。

各种电子设备ex111～116可以通过基站ex107～ex110、电话网ex104及因特网服务提供商ex102，以因特网ex101上的多个服务器ex103为对象，检索相似图像，进行图像识别。

图16是具备上述实施方式所说明的图像识别装置的移动电话ex115外观图。移动电话ex115具有：天线ex201，用来在和基站ex110之间收发电波；摄像部ex203，能够由CCD摄像机等拍摄影像或静止图像；液晶显示器等的显示部ex202，显示由摄像部ex203拍摄到的影像或由天线ex201接收到的影像等；主体部，由操作按键ex204组构成；扬声器等的声音输出部ex208，用来进行声音输出；麦克风等的声音输入部ex205，用来进行声音输入；记录媒体ex207，用来保持拍摄到的动态图像或静止图像等；插槽部ex206，能够对移动电话ex115拆装记录媒体ex207。记录媒体ex207是SD卡等在塑料外壳内放入闪存储元件后的器件，该闪存储元件是能够进行电重写和消除的作为非易失性存储器的EEPROM(Electrically Erasable andProgrammable Read Only Memory)一种。

这种移动电话ex115的功能块象图17所示的一样。在移动电话ex115中，对总体控制具备显示部ex202及操作按键ex204的主体部各单元的主控制部ex311，通过同步总线ex313，相互连接电源电路部ex310、操作输入控制部ex304、图像编码部ex312、摄像机接口部ex303、LCD(LiquidCrystal Display)控制部ex302、图像解码部ex309、多路分离部ex308、记录再生部ex307、调制解调电路部ex306、图像识别部ex314及声音处理部ex305。

电源电路部ex310若通过用户的操作，电源键变成了打开状态，则通过从备用电池对各单元供应电力，将带摄像机的数字移动电话ex115启动为可工作的状态。

移动电话ex115根据由CPU、ROM及RAM等构成的主控制部ex311的控制，把在声音通信模式时由声音输入部ex205所收集的声音信号通过声音处理部ex305变换为数字声音数据，并通过调制解调电路部ex306对其进行扩频处理，在由收发电路部ex301实施数字模拟变换处理及频率变换处理之后，经由天线ex201进行发送。另外，移动电话ex115将在声音通话模式时由天线ex201接收到的接收信号进行放大，实施频率变换处理及模拟数字变换处理，通过调制解调电路部ex306进行逆扩频处理，在由声音处理部ex305变换为模拟声音信号之后，将其经由声音输出部ex208进行输出。

再者，在数据通信模式时发送电子邮件的场合，通过主体部操作按键ex204的操作所输入的电子邮件文本数据经由操作输入控制部ex304，传送给主控制部ex311。主控制部ex311通过调制解调电路部ex306对文本数据进行扩频处理，在由收发电路部ex301实施数字模拟变换处理及频率变换处理之后，经由天线ex201发送给基站ex110。

在数据通信模式时发送图像数据的场合，将由摄像部ex203拍摄到的图像数据经由摄像机接口部ex303提供给图像编码部ex312。另外，在不发送图像数据时，也可以将由摄像部ex203拍摄到的图像数据经由摄像机接口部ex303及LCD控制部ex302直接显示于显示部ex202上。

图像编码部ex312通过将从摄像部ex203所提供的图像数据采用上述实施方式所示的图像编码装置所使用的编码方法，进行压缩编码，将其变换为编码图像数据，把它传送给多路分离部ex308。另外，此时移动电话ex115同时将在由摄像部ex203拍摄的过程中由声音输入部ex205所收集的声音，经由声音处理部ex305作为数字的声音数据传送给多路分离部ex308。

多路分离部ex308将从图像编码部ex312所提供的编码图像数据和从声音处理部ex305所提供的声音数据以指定的方式进行多路复用，通过调制解调电路部ex306对其结果得到的多路复用数据进行扩频处理，在由收发电路部ex301实施数字模拟变换处理及频率变换处理之后，经由天线ex201进行发送。

在数据通信模式时接收与主页等所链接的动态图像文件数据的场合，通过调制解调电路部ex306对经由天线ex201从基站ex110接收到的接收信号进行逆扩频处理，把其结果得到的多路复用数据传送给多路分离部ex308。

另外，为了对经由天线ex201接收到的多路复用数据进行解码，多路分离部ex308通过分离多路复用数据，将其分为图像数据的编码位流和声音数据的编码位流，经由同步总线ex313将该编码图像数据提供给图像解码部ex309，并且将该声音数据提供给声音处理部ex305。

接着，图像解码部ex309通过对图像数据的编码位流采用与上述实施方式所示的编码方法对应的解码方法进行解码，生成再生动态图像数据，将其经由LCD控制部ex302提供给显示部ex202，由此，显示例如与主页所链接的动态图像文件中包含的动态图像数据。此时声音处理部ex305同时在将声音数据变换为模拟声音信号之后，将其提供给声音输出部ex208，由此，再生例如与主页所链接的动态图像文件中包含的声音数据。

另外，图像识别部ex314是本发明所涉及的图像识别装置，对由摄像部ex203拍摄到的图像或从记录媒体ex207所读出的图像进行图像识别处理。

这样，也可以将上述实施方式所示的图像识别方法使用于上述任一个设备·系统中，如此一来，就能够获得上述实施方式所说明的效果。

另外，上述实施方式及异例所示的框图各功能块典型的是，作为LSI来实现，该LSI是一种集成电路。该LSI既可以进行单芯片化，也可以进行多芯片化(例如，也可以将除存储器之外的功能块进行单芯片化)。还有，集成电路不只限于LSI，而根据集成度的不同，也可以是IC、系统LSI、超大LSI和极大LSI。另外，集成电路化的方法并不限于LSI，也可以采用专用电路或通用处理器来实现。在LSI制造后，也可以由可编程的FPGA(FieldProgrammable Gate Array)或下述电路来实现，该电路利用可重新构成LSI内部的电路单元连接和设定的可重构·处理器。

再者，如果因半导体技术的进步或者派生的其他技术而替换为LSI的集成电路化技术出现，则当然也可以使用该技术进行功能块的集成化。生物技术的应用等在可能性方面是能实现的。

另外，上述实施方式及异例所示的框图各功能块及流程图既可以采用专用电路等的硬件来实现，也可以由处理器及程序来实现其核心的部分。

另外，本发明并不限定为上述实施方式及异例，可以在不脱离本发明宗旨的范围内，进行各种变通、修改及组合。

产业上的可利用性

本发明作为下述图像识别装置，例如可以安装于能处理图像的信息处理装置、特别是具有摄像功能的数字摄像机、移动电话、个人计算机等中，还可以作为景观标定装置，或者作为拍摄花、树、昆虫等物体并在其地点支持详细解析的解析装置，加以利用，上述图像识别装置以所输入的图像是表示某物的图像作为识别结果进行输出。

Claims

1、一种图像识别装置，以所输入的图像是否是表示某物的图像作为识别结果进行输出，其特征为，

具备：

图像输入部，取得识别对象图像；

相似图像检索部，从置于可经由因特网访问的服务器装置中的、和该图像识别装置无关地生成的自然产生的多幅图像之中，检索和由上述图像输入部所取得的识别对象图像相似的1幅以上的相似图像；

关键字提取部，从由上述相似图像检索部检索到的相似图像中附带的信息之中，提取能作为上述识别对象图像的识别结果的备选的多个关键字；

关键字解析部，通过解析由上述关键字提取部所提取的多个关键字，至少确定1个上述多个关键字之中作为上述识别对象图像的识别结果最相似的关键字；以及

提示部，输出由上述关键字解析部所确定的关键字，来作为上述识别对象图像的识别结果。

2、如权利要求1所述的图像识别装置，其特征为，

上述相似图像检索部以Exif文件的图像作为上述相似图像进行检索，

上述关键字提取部从上述Exif文件中的标题信息提取上述关键字。

3、如权利要求1所述的图像识别装置，其特征为，

上述相似图像检索部从置于上述服务器装置中的web网页检索上述相似图像，

上述关键字提取部以上述web网页或者和上述web网页相关联的web网页中包含的标记信息为线索，提取上述关键字。

4、如权利要求1所述的图像识别装置，其特征为，

上述关键字提取部以上述web网页或者和上述web网页相关联的web网页中包含的周边语句作为上述关键字，进行提取。

5、如权利要求1所述的图像识别装置，其特征为，

上述关键字提取部提取允许重复的多个关键字，

上述关键字解析部对于由上述关键字提取部所提取的多个关键字的每一个，解析个数，确定个数较多的关键字来作为识别结果。

6、如权利要求1所述的图像识别装置，其特征为，

上述相似图像检索部检索和上述识别对象图像相似的多幅图像来作为上述相似图像，并且对于上述多幅相似图像的每一个，计算和上述识别对象图像之间的相似度，

上述关键字解析部对于由上述关键字提取部所提取的多个关键字的每一个，使由上述相似图像检索部计算出的相似度与所附带的图像相对应，确定对应的相似度较高的关键字来作为识别结果。

7、如权利要求6所述的图像识别装置，其特征为，

上述关键字提取部提取允许重复的多个关键字，

上述关键字解析部还对于由上述关键字提取部所提取的多个关键字的每一个，解析个数，确定个数较多且上述相似度较高的关键字来作为识别结果。

8、如权利要求5所述的图像识别装置，其特征为，

上述关键字解析部确定上述个数或者上述相似度较大的多个关键字来作为上述识别结果，

上述提示部将由上述关键字解析部所确定的多个关键字，按上述个数或者上述相似度从大到小的顺序进行显示输出。

9、如权利要求1所述的图像识别装置，其特征为，

还具备图像指定部，从用户取得由上述图像输入部所取得的识别对象图像之中应作为识别对象的区域的指定；

上述相似图像检索部检索和由上述图像指定部所取得的区域中包含的图像相似的图像。

10、如权利要求1所述的图像识别装置，其特征为，

还具备：

分类数据库，对于多幅图像的模板，存储使各图像的模板所属的种类相对应的信息；以及

简单分类部，通过对照由上述图像输入部所取得的识别对象图像和存储在上述分类数据库中的图像模板，来确定上述识别对象图像属于什么样的种类；

上述相似图像检索部利用上述简单分类部的分类结果来作为检索时的关键字，来检索和上述识别对象图像相似且属于上述分类结果的种类的图像。

11、如权利要求1所述的图像识别装置，其特征为，

还具备：

详细信息数据库，对于能作为识别对象图像的图像中附带的多个附带信息的每一个，使该附带信息的详细信息相对应进行存储；以及

预处理部，取得由上述图像输入部所取得的识别对象图像中附带的附带信息，通过对照所取得的附带信息和上述详细信息数据库中所登录的附带信息，来取得与由上述图像输入部所取得的识别对象图像中附带的附带信息对应的详细信息；

上述相似图像检索部利用由上述预处理部所取得的详细信息来作为检索时的关键字，来检索和上述识别对象图像相似且和上述详细信息关联的图像。

12、如权利要求11所述的图像识别装置，其特征为，

上述图像是摄影图像，

上述附带信息表示进行过摄影的地理地点，

上述详细信息数据库对于多个地理地点，存储确定该地点或者位于该地点附近的地标的信息，来作为上述详细信息。

13、如权利要求12所述的图像识别装置，其特征为，

上述识别对象图像是Exif文件，

上述预处理部从包含由上述图像输入部所取得的识别对象图像在内的Exif文件中的标题信息，取得上述附带信息。

14、一种图像识别方法，以所输入的图像是否是表示某物的图像作为识别结果进行输出，其特征为，

具备：

图像输入步骤，取得识别对象图像；

相似图像检索步骤，从置于可经由因特网访问的服务器装置中的、和该图像识别方法无关地生成的自然产生的多幅图像之中，检索和在上述图像输入步骤中所取得的识别对象图像相似的1幅以上的相似图像；

关键字提取步骤，从在上述相似图像检索步骤中检索到的相似图像中附带的信息之中，提取能作为上述识别对象图像的识别结果的备选的多个关键字；

关键字解析步骤，通过解析在上述关键字提取步骤中所提取的多个关键字，至少确定1个上述多个关键字之中作为上述识别对象图像的识别结果最相似的关键字；以及

提示步骤，输出在上述关键字解析步骤中所确定的关键字，来作为上述识别对象图像的识别结果。

15、一种程序，存储于计算机可读取的记录媒体中，其特征为，

使计算机执行权利要求14所述的图像识别方法中包含的步骤。