CN104321802B

CN104321802B - 图像分析装置、图像分析系统、图像分析方法

Info

Publication number: CN104321802B
Application number: CN201280073308.8A
Authority: CN
Inventors: 渡边裕树; 广池敦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2017-04-26
Anticipated expiration: 2032-05-24
Also published as: CN104321802A; US9665798B2; JPWO2013175608A1; US20150286896A1; SG11201407749TA; JP5857124B2; WO2013175608A1

Abstract

本发明的目的在于，提供一种能够从图像数据中高速地检测检测对象物的图像分析技术。本发明的图像分析装置生成包含检测对象物的查询图像的元数据，使用该元数据将作为检索对象的图像数据预先缩小范围，然后实施物体检测。

Description

图像分析装置、图像分析系统、图像分析方法

技术领域

本发明涉及检测图像数据中包含的特定物体的技术。

背景技术

随着面向个人/企业内的IT基础设施的发展，大量多媒体数据(文本、影像/图像、声音、各种日志数据等)保存在大规模的存储器中。为了从保存的大量数据中高效地找出信息，对于各个媒体数据考虑了多种信息检索技术，并且逐渐实用化。

作为针对多媒体数据的信息检索的例子，可以想到检测图像内包含的物体和特定的区域。图像中的物体检测和区域确定相当于文本分析中的词素分析(将文本划分为单词并判定词类的方法)，在分析图像的意思时是重要的关键技术。

作为图像中的物体检测方法，非专利文献1的方法被广泛知晓，作为数字摄像机或监视系统中的面部区域检测功能已经产品化。在非专利文献1的方法中，大量采集检测对象的图像的样本，并通过机械学习生成多个基于图像的亮度值的识别器。与该识别器相连结，制作针对图像的部分区域的判别器，对图像中的部分区域无遗漏地搜索，从而确定物体区域。

目前，检测对象的物体多数情况下是人物的面部。但是，将存储器中保存的宽泛内容作为对象的情况下，希望将例如车辆、动物、建筑物、图形、各种物品等多种多样的物体作为检测对象。此外，为了对大规模的数据进行处理，需要提高分析处理效率。

关于提高分析处理效率，在下述专利文献1中公开了利用物体的存在概率来限定用于检测物体区域的、实施图像处理的区域的方法。在专利文献1的方法中，利用焦点距离及析像度等摄像系统的静态信息来决定实施图像处理的区域，如车载摄像机那样，在限定了摄像环境和摄像设备且管理着结构化的数据的环境下被认为是有效的。

现有技术文献

专利文献

专利文献1：日本特开2010-003254号

非专利文献

非专利文献1：P.Viola and M.Jones,“Robust real-time object detection”,IJCV2001,Vol.57,No.2,pp.137-154,2002.

发明的概要

发明所要解决的课题

专利文献1所记载的技术的前提是，一定程度上确定了摄像环境，并且成为图像处理的对象的数据已经结构化。但是一般来说，摄像环境和被摄体的位置不一定能够事先预测。此外，在成为图像处理的对象的数据处于点对点传输的环境中，该数据不会被结构化。在这种环境下，专利文献1所记载的方法在缩短检测物体的时间方面并不算有效。

非专利文献1所记载的技术例如在面部检测这样预先确定了检测对象物的情况下是有效的，但是在由用户逐次指定检测对象物这样的用途中，每次都需要实施样本的收集和机械学习，所以从处理时间的观点来看并不现实。

发明内容

本发明是鉴于上述课题而做出的，其目的在于，提供一种能够高速地从图像数据中检测检测对象物的图像分析技术。

解决课题所采用的技术手段

本发明的图像分析装置，生成包含检测对象物的查询(query)图像的元数据，使用该元数据将成为检索对象的图像数据缩小范围，然后实施物体检测。

发明的效果

根据本发明的图像分析装置，能够从大量图像数据中高速地提取包含任意物体的图像。

上述以外的课题、构造及效果，通过以下的实施方式的说明能够变得更加清楚。

附图说明

图1是实施方式1的图像分析系统100的构成图。

图2是表示图像数据库105的构成和数据例的图。

图3是表示数据流程的图，该数据流程用于说明生成由用户指定的查询图像的元数据、并通过该元数据将物体检测对象缩小范围的过程。

图4是说明由图像分析系统100确定图像中的物体区域的处理的流程图。

图5是说明由元数据生成部108生成查询图像的元数据的过程的图。

图6是说明由元数据生成部108生成查询图像301的元数据的处理过程的流程图。

图7是说明图4的步骤S407中的物体区域的检测方法的图。

图8是说明由物体区域检测部110检测物体的处理的流程图。

图9是说明由图像分析系统100确定图像中的物体区域的处理中的各功能部之间的处理时序的图。

图10是表示为了从图像数据库105取得包含所指定的物体的图像而使用的操作画面的构成例的图。

图11是说明扩展书目信息的例子的图。

图12是说明扩展书目信息的处理的过程的流程图。

图13是用于说明通过书目信息的扩展处理减少漏检的状况的、表示分析对象的文氏图。

图14是表示图像分析的处理时间和处理比例的关系的图表。

图15是说明通过扩充模板来提高物体检测的精度的方法的图，该模板在检索与查询图像类似的图像时使用。

图16是实施方式4的内容云系统1600的概略图。

具体实施方式

＜实施方式1：系统构成＞

图1是本发明的实施方式1的图像分析系统100的构成图。图像分析系统100的用途是，从大量图像中搜索包含用户指定的任意物体的图像。图像分析系统100具备：图像/文本存储装置101、输入装置102、显示装置103、数据存放装置104、图像数据库105、图像分析装置106。

图像/文本存储装置101是保存图像数据的存储介质，能够使用计算机外附的硬盘驱动器、NAS(Network Attached Storage)或通过SAN(Storage Area Network)等网络连接的存储器系统来构成。由图像分析系统100作为分析对象的图像数据的规模例如设想了数十万件程度的大规模。

输入装置102是鼠标、键盘、触摸器件等用于将用户操作传送给图像分析装置106的输入接口。显示装置103是液晶显示器等输出接口，用于显示图像分析装置106的图像分析结果、或者与用户进行对话操作等。数据存放装置104是记录图像分析装置106的分析结果的存储器，用于供上位的应用利用分析结果。

图像数据库105是用于保存图像的数据库管理系统。图像数据库105不仅临时保存分析对象的数据，还作为元数据生成用的词典用于分析处理自身。详细情况使用图2在后面说明。

图像分析装置106是从图像数据库105存放的图像数据中检测由用户指定的查询图像中包含的物体的装置。图像分析装置106具备：图像/文本输入部107、元数据生成部108、分析对象决定部109、物体区域检测部110、操作信息输入部111、数据输出部112。

图像/文本输入部107从图像/文本存储装置101读出图像数据库105所存放的图像数据和与其关联的书目信息，将它们建立对应地存放到图像数据库105。此外，从图像记录装置101读出包含作为检测对象的物体的查询图像，并传送给元数据生成部108和物体区域检测部110。

元数据生成部108通过将图像数据库105作为词典使用的图像识别处理，自动生成查询图像的元数据。在此，元数据指的是抽象度比图像数据更高的数据，例如是说明图像的单词、制作时刻、制作场所等信息。以下为了简化，作为“元数据＝单词”来说明，但是元数据生成部108能够生成各种元数据。对元数据赋予可靠度。生成的元数据被发送给分析对象决定部109。关于生成元数据的过程，使用图5在后面说明。

分析对象决定部109将元数据生成部108生成的元数据作为检索关键字，对图像数据库105所存放的书目信息进行检索，取得具有与检索关键字一致的书目信息的图像数据的列表。作为检索关键字使用的元数据可以根据其可靠度自动选择，也可以由用户从元数据的候选中选择。由用户选择作为检索关键字的元数据的情况下，在用户和图像分析装置106之间实施对话操作，所以经由数据输出部112向用户提示元数据候选的列表和检索结果的件数等。此外，从操作信息输入部111接受作为检索关键字使用的元数据的指定或阈值等检索参数。通过该结果得到的图像列表作为分析对象的候选被发送给物体区域检测部110。

物体区域检测部110通过图像分析处理从图像中确定拍摄有指定物体的区域的坐标。作为检测对象的物体不固定，可以由用户每次指定。此外，可以同时将多个概念的物体(例如人的面部、汽车、猫、星形记号等)作为检测对象。分析结果作为表示物体的矩形区域的坐标(例如[矩形的左上角的水平坐标、矩形的左上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标])和“物体相似性”的可靠度被发送给数据输出部112。这时，还可以将元数据生成部108生成的元数据作为检测出的物体的意思信息建立关联地输出。

操作信息输入部111从输入装置102接受用户操作，并将该信号传送给图像分析装置106。数据输出装置112接受成为图像分析的对象的图像列表、图像分析结果等，并输出至显示装置103和数据存放装置104。

图2是表示图像数据库105的构成和数据例的图。在此示出了表形式的构成例，但是数据形式任意。图像数据库105是将图像特征量和书目信息建立关联地保持的数据库，具有图像ID字段1051、图像数据字段1052、图像特征量字段1053、书目信息字段1054。

图像ID字段1051保持各图像数据的识别编号。图像数据字段1052是将图像数据以二进制形式保持的字段，用于供用户确认分析结果。图像特征量字段1053保持将图像本身具备的颜色或形状等特征数值化的、固定长度的数值矢量数据。书目信息字段1054保持与图像建立了关联的书目信息(文章、类别分类、日期时间、场所等)。书目信息字段根据需要也可以分为多个字段。

＜实施方式1：各部的动作＞

以上说明了图像分析系统100的整体构成。以下在概要地说明图像分析系统100的动作原理的基础上，说明各功能部的详细动作。

图像分析系统100使用图像识别处理从数据库105搜索包含由用户指定的查询图像中包含的物体的图像数据。单纯地说，对图像数据库105内的全部图像实施物体检测处理即可。但是，物体检测的处理速度通常较慢，所以对大量的图像组全部实施物体检测处理并不现实。

例如，假设需要每张0.5秒的图像识别处理，则100万件的图像的分析需要约140小时。如果将检测对象的物体限定为“人的正面面部”，在数据库构建时仅实施1次分析处理并沿用其结果，则能够缩短以后的处理时间，但是在检测对象物不固定而检测被指定的任意物体的情况下，必须在用户指定检测对象物之后实施分析处理，所以响应时间成为课题。

在此，图像分析系统100自动生成检测对象物体的元数据，并使用该元数据预先将成为物体检测处理的对象的图像数据缩小范围，从而缩短处理时间。

图3是说明图像分析装置106生成用户指定的查询图像的元数据并通过该元数据将物体检测对象缩小范围的过程的数据流程。如图3所示，图像数据库105处于已经登录了图像数据和书目信息的状态。

查询图像301是用户经由图像/文本输入装置107输入的查询图像。在此，假设在查询图像301中仅存在一个物体(星形)。

元数据生成部108生成查询图像301的元数据302(S301)。元数据302以带有得分(＝元数据的可靠度)的列表输出。关于元数据302的生成的详细情况，使用图5在后面说明。

分析对象决定部109将元数据生成部108生成的元数据作为检索关键字，从图像数据库105检索与检索关键字一致的书目信息，取得与条件一致的图像数据的集合303(S302)。在此示出了实施3个单词“星”“五角星”“天体”的OR检索的例子，但是根据需要也可以组合AND检索。在具备与检测对象的图像同样的元数据的图像中，包含该物体的可能性较高。

物体区域检测部110确定与查询图像301中包含的物体相似的物体存在于图像集合303内的各图像的哪个区域(S303)。本处理根据图像集合303中包含的图像数而处理时间增加。关于物体检测的详细情况，使用图7在后面说明。

检测结果304对于图像集合303内的各图像，一并显示例如检测到的物体的数量、物体的位置(检测结果304内的虚线矩形)、“物体相似性”的可靠度(检测结果304内的百分比显示)。作为检测到的各物体的意思信息，可以将步骤S301中生成的元数据建立关联地输出。数据输出部112将检测结果304画面显示在显示装置103上，或者输出到数据存放装置104。

如图3所示，图像分析系统100通过查询图像301的元数据，将检测对象物存在的可能性高的图像预先缩小范围，然后实施物体检测，所以能够缩短处理时间。

另一方面，图像的“外观印象”和书目信息在意思上未必一致。例如，如图像305那样，书目信息与检索关键字一致，但是物体的“外观印象”不同，或者如图像306那样，即使在图像中包含“外观印象”相似的物体，在书目信息中也不包含与条件一致的单词。前者是无用的图像分析处理，所以成为处理时间增加的原因，后者成为漏检的原因。用于减少漏检的方法在实施方式2中说明。

图4是说明图像分析系统100确定图像中的物体区域的处理的流程图。以下说明图4的各步骤。

(图4：步骤S401)

图像/文本输入部107将接受的图像数据和书目信息登录到图像数据库105。图像数据库105从图像数据中提取图像特征量，与书目信息建立关联地登录。提取图像特征量的处理也可以由图像/文本输入部107实施。本步骤在实施步骤S402之后的步骤之前实施即可，不需要每次都实施本流程图时实施。

(图4：步骤S402～S403)

图像/文本输入部107取得包含检测对象物的查询图像(S402)。元数据生成部108生成查询图像的元数据(S403)。详细情况使用图5在后面说明。

(图4：步骤S404)

分析对象决定部109在通过步骤S403由元数据生成部108生成的元数据中，决定为了将成为物体检测的对象的图像数据缩小范围而使用的元数据。具体地说，可以根据元数据的可靠度来机械地判定(例如按照可靠度从高到低的顺序依次在规定范围内自动选择)，经由数据输出部111将元数据向用户提示而供用户自身选择。

(图4：步骤S405)

分析对象决定部109将步骤S404中选择的元数据作为检索关键字，对图像数据库105所存放的书目信息进行检索，取得与检索关键字一致的图像数据的集合。该图像集合成为物体检测处理的对象。

(图4：步骤S406～步骤S408)

图像分析装置106对于步骤S405中取得的图像集合中包含的各图像数据实施步骤S407。在步骤S407中，物体区域检测部110在通过步骤S405取得的图像集合所包含的图像中，提取与查询图像中包含的物体类似的区域。关于物体区域的提取方法，使用图7在后面说明。

(图4：步骤S409)

数据输出部112输出由物体区域检测部110检测的物体区域的检测结果。检测结果可以按照处理顺序输出，也可以将检测到的物体的数量或可靠度作为基准而分选后输出。进而，如图3的检测结果304所示，也可以一并输出检测到的物体的个数、检测可靠度、表示检测到的物体区域的矩形等补充信息。进而，可以经由显示装置103在画面上输出，也可以将记录了检测结果及上述各补充信息的数据输出。

(图4：步骤S410)

作为检测对象的物体不再存在时(不再有用户的指示)结束，如果在查询图像内存在其他物体，或者用户新指定了查询图像的情况等而检测其他物体的情况下，回到步骤S402并实施同样的处理。

图5是说明由元数据生成部108查询图像的元数据的过程的图。以下说明图5所示的各步骤。

(图5：步骤S501)

元数据生成部108将查询图像301作为检索关键字，从图像数据库105检索与其类似的图像。类似图像检索是提取图像自身具备的颜色或形状等信息作为高维矢量信息，基于矢量间距离评价图像间的类似性，从而检索类似的图像的方法。其结果，得到“外观印象”与查询图像301相似的图像的集合501。进而，图像数据库105将图像和书目信息建立关联地保持，所以从类似图像的集合502得到书目信息的集合502。

(图5：步骤S502：过程1)

元数据生成部108提取书目信息的集合中包含的特征性单词。作为书目信息，希望附加有图像的分类码等整理后的数据，但是在附加了说明文这样的文本的情况下，在该文本中包含表现图像的意思的特征性单词的可能性也较高。在此，在本步骤中，元数据生成部108将各书目信息分解为细微数据(最小构成单位)(例：从文本分解到单词单位)，并将其看作元数据。通过以上处理，能够生成查询图像301的元数据。

(图5：步骤S502：过程2)

元数据生成部108对通过过程1生成的元数据在书目信息中出现的频度进行计数。元数据生成部108使用该出现频度，计算通过过程1生成的各元数据的得分。单纯地说，可以将出现频度作为元数据的得分而按照得分从高到低的顺序进行分选，也可以将对出现频度赋予了权重的评价指标作为得分使用。

(图5：步骤S502：得分计算方法的例1)

作为元数据的得分，可以使用TF-IDF(Term Frequency-Inverse DocumentFrequency)。TF-IDF是将元数据t的频度tf(t)和逆文本频度idf(t)相结合的评价指标。将数据库的记录数设为N、将数据库整体中包含元数据t的书目信息的频度设为df(t)时，逆文本频度idf(t)通过下述的数1表示。

【数1】

···数1

(图5：步骤S502：得分计算方法的例2)

作为元数据的得分，也可以使用概率性的评价指标。例如，对元数据t进行评价的情况下，从数据库整体随机地取得图像时，将该书目信息中包含元数据t的概率设为q(t)并从类似图像检索结果的图像集合随机地取得图像时，将该书目信息中包含元数据t的概率设为p (t)，这时能够将数2～数4所示的p (t)和q(t)的概率分布的差的尺度kl(t)作为元数据的得分使用。

【数2】

···数2

···数3

···数4

df’ (t)：在类似图像检索结果中包含元数据t的书目信息的频度

M：类似图像检索结果的图像的数量

图6是说明由元数据生成部108生成查询图像301的元数据的处理过程的流程图。以下说明图6的各步骤。

(图6：步骤S601～S602)

元数据生成部108计算查询图像301的图像特征量(S601)。元数据生成部108将步骤S601中提取的图像特征量作为检索关键字，实施类似图像检索(S602)。各图像的特征量矢量间的距离越小，图像间的类似度越高，将根据距离值进行分选的结果作为检索结果输出。

(图6：步骤S603～S607)

元数据生成部108对于步骤S602中得到的类似图像分别实施步骤S604～S606。

(图6：步骤S604～S605)

元数据生成部108从图像数据库105读出与步骤S602中得到的类似图像建立了关联的书目信息(S604)。元数据生成部108将步骤S604中取得的书目信息分解为细微的数据，并将其作为元数据(S605)。例如，书目信息为文本的情况下，实施词素分析而分解为单词单位。为了提高效率，可以在向图像数据库105登录文本时预先实施分解书目信息的处理。

(图6：步骤S606)

元数据生成部108对于在步骤S604所读出的书目信息中的、步骤S605中生成的元数据出现的频度进行计数。元数据生成部108对于步骤S603～S607的整体按照每个元数据求出累计频度。这时，为了将图像的类似度反映到元数据的频度，也可以在根据类似度赋予权重之后加到累计频度。

(图6：步骤S608)

元数据生成部108使用步骤S603～S607中求出的每个元数据的累计频度来计算元数据的得分。得分的计算方法如使用图5所做的说明。

(图6：步骤S609)

元数据生成部108按照步骤S608中计算出的得分顺序对元数据进行分选，将阈值以下的元数据除去并输出。

图7是说明图4的步骤S407中的物体区域的检测方法的图。本方法将想要检测的物体的图像作为模板，检测与模板一致的区域，从而检测在图像内存在物体的区域。

首先，提取想要检测的物体的典型图像(模板)的图像特征量，并预先保存到模板数据库704。这里所称的模板图像相当于查询图像301。模板数据库704在例如想要检测多个物体的情况下，能够保持与这些各物体对应的多个模板(检测对象物的图像)。每当想要检测的物体变化，模板数据库704所保持的模板就被重置。

物体区域检测部110被提供了作为检测物体的对象的输入图像701(图像数据库105内的图像)时，使扫描窗702的位置和尺寸变动，提取物体的候选区域703。接着，对于全部候选区域703，从模板数据库704内的多个模板中搜索特征量矢量与候选区域703的特征量矢量最相近的模板。如果找到的模板与各个候选区域703的特征量矢量间距离为规定阈值以下，则判定为候选区域703中包含该模板的物体，将该候选区域703加入到检测结果。这时，能够将最附近模板与各个候选区域703的特征量矢量间距离作为检测结果的可靠度使用。

图8是说明物体区域检测部110检测物体的处理的流程图。以下说明图8的各步骤。

(图8：步骤S800)

物体区域检测部110计算模板的特征量，并登录到模板数据库。作为检测物体的对象的输入图像701存在多个而使用同一模板实施检测处理的情况下，本步骤仅实施最初的1次即可。

(图8：步骤S801)

物体区域检测部110提取输入图像701内的候选区域703。候选区域703在每个步骤使扫描窗移动，或者通过变更尺寸来机械地提取。

(图8：步骤S802～S806)

物体区域检测部110对于全部候选区域703实施步骤S802～步骤S806。

(图8：步骤S803)

物体区域检测部110计算候选区域703的可靠度。作为可靠度的计算方法，例如如图7所示，可以使用模板的特征量和候选区域703的特征量之间的距离。

(图8：步骤S804～S805)

如果步骤S803中求出的候选区域703的可靠度为规定阈值以下，则移动到步骤S805，在此以外的情况下，跳过步骤S805(S804)。物体区域检测部110将可靠度为规定阈值的候选区域703追加到检测结果列表(S805)。

(图8：步骤S807)

物体区域检测部110输出检测结果列表并结束本处理流程。检测结果作为输入图像701内的坐标信息(例如[矩形的左上角的水平坐标、矩形的左上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标])与可靠度的组而被输出。

图9是说明图像分析系统100确定图像中的物体区域的处理中的各功能部间的处理时序的图。以下说明图9的各步骤。

(图9：步骤S901～S902)

用户经由输入装置102输入图像数据库105所存放的图像和与其建立了关联的文本(S901)。图像和文章的集合经由图像分析装置106被发送给图像数据库105。图像数据库105在从图像分析装置106接受的图像中提取特征量，并与从文本得到的书目信息建立关联地登录(S902)。步骤S901～S902相当于图4的步骤S401。

(图9：步骤S903～S906)

用户经由输入装置102输入想要检测的物体的图像(查询图像)(S903)。图像分析装置106将查询图像作为检索关键字，对图像数据库105请求类似图像检索(S904)。图像数据库105从查询图像提取图像特征量，并使用该图像特征量检索与查询图像类似的图像，将类似图像及其书目信息返回给图像分析装置106(S905)。图像分析装置106使用从图像数据库105接受的书目信息，生成查询图像的元数据，并计算其得分(S906)。

(图9：步骤S907～S908)

图像分析装置106将步骤S906中生成的元数据及其得分经由显示装置103或数据存放装置104向用户提示(S907)。用户参考元数据自身及其得分，选择为了将成为检索对象的图像缩小范围而使用的元数据(S908)。也可以省略步骤S908，例如按照得分从高到低的顺序选择元数据等，由图像分析装置106自动地选择元数据。

(图9：步骤S909～S910)

图像分析装置106将步骤S908中由用户选择的元数据作为检索关键字，向图像数据库105请求检索书目信息与检索关键字一致的图像(S909)。图像数据库105检索与检索查询相应的书目信息，并将与其建立了关联的图像返回给图像分析装置106(S910)。

(图9：步骤S911)

图像分析装置106对于从步骤S910的结果得到的各图像，实施对查询图像中包含的物体进行检测的处理，确定与查询图像类似的区域。检测结果用表示图像中的物体的矩形区域的坐标(例如[矩形的左上角的水平坐标、矩形的左上角的垂直坐标、矩形的右下角的水平坐标、矩形的右下角的垂直坐标])和“物体相似性”的可靠度来示出。检测结果经由数据输出部112输出。

图10是表示为了从图像数据库105取得包含指定的物体的图像而使用的操作画面的构成例的图。本画面能够在显示装置103上提供。用户使用输入装置102对画面上显示的光标1006进行操作，从而向操作信息输入部111发送操作信息。

图10的操作画面具有：查询图像输入区域1001、类似图像检索按钮1002、元数据生成按钮1003、类似图像显示区域1004、元数据显示区域1007、检测对象件数显示区域1008、预计处理时间显示区域1009、检测开始/中断按钮1010、检测结果显示区域1011。

用户首先将图像/文本保存装置101中保存的查询图像输入到查询图像输入区域1001。输入方法例如可以使用指定文件系统的文件路径的对话框，也可以通过拖放进行直观的输入操作。

用户点击类似图像检索按钮1002后，图像分析装置106从图像数据库105取得与查询图像类似的图像，并显示到类似图像显示区域1004。图像分析装置106使用类似图像显示区域1004中显示的类似图像的书目信息，生成查询图像的元数据。可以使用全部类似图像来生成元数据，也可以由用户确认类似图像之后指定使用哪个类似图像。用户例如使用复选框1005来指定类似图像。在图10所示的例子中，将右端的类似图像的复选框取消，指定在生成元数据时不使用该图像。

点击元数据生成按钮1003后，元数据生成部108使用选择的类似图像所附随的书目信息生成元数据，并显示到元数据显示区域1007。元数据显示区域1007一并显示各元数据在书目信息内包含的图像的件数。如果书目信息的检索速度足够快，也可以显示以各元数据单体检索书目信息时的符合图像数。

用户考虑元数据自身和得分、符合图像数等，选择为了将作为物体检测的对象的图像缩小范围而使用的元数据。用户例如使用复选框1012来选择元数据。每当复选框1012被点击，图像分析装置106检索书目信息，并将书目信息内包含被选择的元数据的图像的件数显示到检测对象件数显示区域1008。此外，对于同件数的图像实施物体检测的情况下，将预计的处理时间显示到预计处理时间显示区域1009。处理时间能够基于作为检测对象的图像的件数来估算。由此，用户能够高效地选择元数据。

点击检测开始/中断按钮1010后，分析对象决定部109使用通过以上的操作而选择的元数据，取得成为物体检测的对象的图像集合，物体区域检测部110对于该图像集合实施物体检测。物体区域检测部110实施的检测处理对于每个图像是独立的，所以可以从处理结束的图像起依次显示到检测结果显示区域1011，或者每当点击检测开始/中断按钮1010时开始/中断处理。

＜实施方式1：总结＞

如以上那样，本实施方式1的图像分析系统100仅将作为书目信息包含查询图像的元数据的图像数据作为对象来实施物体检测。由此，能够从大量的图像中高效地将作为物体检测的对象的图像缩小范围，能够高速地寻找包含用户指定的物体的图像。

本实施方式1的图像分析系统100例如在图形商标的检索或审查中，能够在判定预定新授权的图形是否在已登录的图形商标中被使用时使用。这种情况下，作为生成元数据所需的图像的书目信息，可以利用图像的分类码或说明文。

本实施方式1的图像分析系统100也可以应用于拍卖网站或购物网站。由此，能够高速地搜索包含用户指定的花纹/标志的商品。这种情况下，作为图像的书目信息，可以利用商品的名称或厂商的介绍。

本实施方式1的图像分析系统100能够应用于影像内容。由此，能够检测拍摄有名人或地标的场景和在该帧图像中的位置。这种情况下，作为图像的书目信息，可以利用隐藏式字幕或文本化的声音等。

＜实施方式2＞

在实施方式1所说明的图像分析系统100中，分析对象决定部109通过书目信息检索来将作为物体检测的对象的图像缩小范围。因此，即使实际上包含了用户指定的物体，书目信息不充分的图像也不会成为检测处理的对象，不会作为分析结果出现。以下说明通过扩展书目信息来减少检测处理对象的遗漏的方法。其他构成与实施方式1大体相同，因此以下重点说明差异点。

图11是说明扩展书目信息的例子的图。为了进行比较，在图11(a)中示出不扩展书目信息的情况的检索概念图，图11(b)示出在本实施方式2中扩展书目信息的情况的检索概念图。

如图11(a)所示，实施方式1中说明的图像分析系统100为了搜索包含查询图像301所包含的物体的图像，将“星”这一元数据作为条件来检索书目信息。结果，如图像1101那样，如果书目信息中包含“星”则成为物体检测处理的对象，但是如图像1102那样，书目信息中不包含“星”的图像不成为检测对象。但是，在图像1102中实际上包含与查询图像301类似的区域，所以图像1102成为漏检。

在此，在本实施方式2中，如图11(b)所示，对于图像数据库105所存放的图像也生成元数据。生成元数据的方法可以与生成查询图像301的元数据时使用的方法相同。新生成的元数据作为追加的书目信息预先登录到图像数据库105。图像分析装置106将成为物体检测的对象的图像缩小范围时，追加的书目信息也成为检索对象。由此，如图像1103所示，本来作为书目信息不包含“星”的图像也能够成为检索对象。

一般来说，与拍摄有单一物体的图像相比，拍摄有多个物体的图像由于物体的布局变动所导致的“外观印象”的变化较多，所以作为与查询图像类似的图像被发现的可能性变低。相反，如果找到了与查询图像之间的类似度较高且拍摄有多个物体的图像，则即便转用该类似图像的书目信息，信息量的劣化也较少。

图12是说明扩展书目信息的处理的过程的流程图。本流程图是对于图像数据库105中登录的全部图像由元数据生成部108实施的处理，是步骤S1201至步骤S1204的反复处理。本流程图例如可以在系统负荷小的时间段实施，也可以在最初向图像数据库105登录图像之后实施。以下说明图12的各步骤。

(图12：步骤S1202)

元数据生成部108使用图像数据库105所保持的现有的书目信息，生成图像数据库105内的图像的元数据。生成元数据的方法与图6所示的过程相同，例如可以使类似度的阈值比图6更严格，或者使用即便物体的布局变动也不变化的图像特征量。

(图12：步骤S1203)

元数据生成部108将步骤S1202中生成的元数据作为追加的书目信息登录到图像数据库105。

图13是用于说明通过书目信息的扩展处理来减少漏检的状况的、表示分析对象的文氏图。图13(a)是仅使用现有的书目信息时的文氏图，图13(b)是使用了扩展的书目信息时的文氏图。

在图13(a)中，集合1301表示图像数据库105中登录的全部图像的集合。不使用图像分析系统100来搜索用户指定的物体的情况下，集合1301成为图像分析的处理对象。

集合1302是包含用户指定的“星形图形”的区域的图像集合，理想情况下，图像分析系统100能够输出该集合即可。

集合1303是图像分析系统100将自动生成的“星”这一元数据作为查询实施了书目信息检索而得到的图像集合。图像分析系统100将该集合作为物体检测的处理对象。

集合1304是包含“星形图形”的图像，并且在书目信息中不包含“星”，所以不成为检测处理的对象，是成为漏检的图像集合。

集合1305是成为检测处理对象、并且包含“星形图形”的图像，所以是能够检测的图像集合。但是，实际上能否检测取决于物体检测器自身的识别性能。改善物体检测器的性能的方法使用实施方式3的图15来说明。

集合1306是在书目信息中包含“星”的图像，但是实际上不包含与用户指定的“星形图形”类似的区域，所以本来是不需要检测处理的图像集合。

如图13(b)所示，扩展了书目信息的情况下，在书目信息中包含“星”的集合变大。这时，基于类似图像检索的结果来扩展集合，所以在扩展的区域中包含“星形图形”的比例较高。其结果，虽然物体检测时间增加，但是能够减少漏检。

图14是表示图像分析的处理时间和处理比例(coverage)的关系的图表。横轴表示处理时间，纵轴表示处理比例。处理比例是表示对图13的集合1302的多大比例进行了处理的百分数。在横轴中，100表示将应该成为检索对象的全部图像、即图13的集合1302作为分析对象时的处理时间。

在图14中，假设集合1302中的集合1305所占的比例为60％，集合1302中的集合1304所占的比例为40％。通过扩展书目信息，假设集合1302中的集合1305所占的比例成为80％，集合1302中的集合1304所占的比例成为20％。此外，假设对集合1305实施物体检测时的处理时间是对全部图像集合实施物体检测时的处理时间的10分之1。

直线1401表示将全部图像集合(集合1301)作为分析对象时的处理比例的推移。从图像数据库105随机地取出图像并进行处理时，处理比例线性地增加。

折线1402是通过实施方式1中说明的方法使用元数据将分析对象缩小范围时的处理比例的推移。点1404之前表示对作为检索对象缩小了范围的图像进行的检测处理，点1404以后表示对剩余图像也实施检测处理的情况。在点1404可知，在直线1401的1/10的处理时间达成了60％的处理比例。

折线1403是通过实施方式2中说明的方法使用扩展的书目信息将分析对象缩小范围时的处理比例的推移。点1405之前表示对作为检索对象缩小了范围的图像进行的检测处理，点1405以后表示对剩余图像也实施检测处理的情况。随着检测处理对象增加，到点1405为止的处理时间与点1404相比增加，但是处理比例变高。

如图14所示，处理时间和处理比例存在折中的关系，所以需要根据用途来决定是否扩展书目信息。对图形商标进行审查的情况下，类似图像只要找到一个即可，所以将处理对象充分缩小范围后再执行检测处理，能够成为响应性高的系统。想要提高处理比例的情况下，可以最初仅使用原来的书目信息进行处理，根据必要使用追加的书目信息。

＜实施方式2：总结＞

如以上那样，本实施方式2的图像分析系统100生成图像数据库105所存放的图像的元数据，将其作为新的书目信息追加到图像数据库105，然后实施与实施方式1同样的处理。由此，在仅使用现有的书目信息的情况下成为漏检的图像也能够成为处理对象。

＜实施方式3＞

在本发明的实施方式3中，说明通过利用图像分析系统100的处理中的中间数据来提高物体检测的精度的方法。本方法作为物体检测的方法使用多个通过图7说明的模板。其他构成与实施方式1～2相同，因此以下重点说明生成查询图像的元数据时使用多个模板检索类似图像这一点。

图15是说明通过扩充在检索与查询图像类似的图像时使用的模板来提高物体检测的精度的方法的图。以下使用图15说明本实施方式3中的模板的扩充。

在利用图7说明的物体检测方法中，通过调查图像的部分区域、模板及类似度来确定物体区域。因此，作为模板仅使用查询图像301的情况下，如图像1505那样，外观印象极不相同的星形无法被检测到。此外，即便同为“星”这一概念，也无法检测到图像1506那样的“太阳图形”、图像1507那样的“行星图形”。

在此，本实施方式3的图像分析装置106将处理中生成的中间数据作为追加模板使用。具体地说，将生成查询图像301的元数据时作为与查询图像301类似的图像得到的图像群1501作为物体检测处理中的模板使用。即，不仅用户指定的物体，与其类似的物体也成为物体检测的对象。因此，在本实施方式3中，使用通过用于生成元数据的类似图像检索得到的类似图像，能够扩充成为检测对象的物体的模板。

图像分析装置106按照图6中说明的方法，检索与查询图像301类似的图像(S601～S602)。这时得到的图像群1501的外观印象与查询图像301不完全一致，但是是与用户指定的物体相近的图像，所以作为之后实施物体检测时的模板是合适的。在此，将这些类似图像登录到模板数据库1504中。模板数据库1504是临时保持实施物体检测时使用的模板的数据库，每当查询图像301改变时被重置。

图像分析装置106按照图6中说明的方法，生成查询图像301及图像群1501的元数据。由此，假设生成了例如“星”这一元数据。

图像分析装置106检索与元数据“星”一致的书目信息。其结果，得到了包含与“星”这一概念相应的图像1503的图像群1505～1507。书目信息检索的结果是包含多个物体的图像，或者如图13所说明那样包含大量噪声，但是例如可以使用图10那样的操作画面，通过用户的对话操作来选择模板。例如可以构成为，将通过书目信息检索得到的图像暂时显示在操作画面上，用户从中选择在物体检测处理中作为模板使用的图像。

图像分析装置106对图像群1505～1507使用模板数据库1504所存放的多个模板而实施物体检测。例如除了查询图像301还将图像群1501作为模板，进而用户在操作画面上指定了将图像1503作为模板的情况下，将其也作为模板使用。由此，外观印象未必与查询图像301类似的星形区域(例如图像1503那样的太阳形或土星形)也能够被检测到。

＜实施方式3：总结＞

如以上那样，本实施方式3的图像分析装置106将生成查询图像301的元数据时得到的类似图像和检索书目信息时得到的图像作为用于物体检测的扩展模板使用。由此，能够检测到概念相同但“外观印象”不同的物体。

＜实施方式4＞

在本发明的实施方式4中，说明将图像分析系统100设置在内容云系统的构成例。以下首先说明内容云系统的概要，然后说明将图像分析系统100作为分析模块设置在内容云系统的方法。图像分析系统100的构成与实施方式1～3相同。

图16是本实施方式4的内容云系统1600的概略图。内容云系统1600具有ExtractTransform Load(ETL)模块1603、内容存储器1604、检索引擎1605、元数据服务器1606、多媒体服务器1607。内容云系统在具备1个以上CPU、存储器、存储装置的一般计算机上工作，系统自身由各种模块构成。此外，各个模块有时由独立的计算机执行，这种情况下，各存储器和模块间通过网络等连接，通过经由网络进行数据通信的分散处理来实现。

应用程序1608经由网络等对内容云系统1600发送请求，内容云系统1600将与请求相应的信息发送给应用1608。

内容云系统1600接受影像数据、图像数据、文本数据、声音数据等任意形式的数据1601作为输入。数据1601例如是图形商标及其公报文本、网站的图像和HTML文本、隐藏式字幕或带有声音的影像数据等，可以是结构化的数据，也可以是非结构化数据。被输入到内容云系统1600的数据暂时存放在存储器1602中。

ETL1603监视存储器1602，向存储器1602存放了数据1601时，使与该数据相应的信息提取处理模块16031工作，将提取的信息(元数据)归档并保存到内容存储器1604。

信息提取处理模块16031例如由文本的索引模块、图像识别模块等构成。作为元数据的例子，有时刻、N-gram索引、图像识别结果(物体名、图像中的区域坐标)、图像特征量及其关联词、声音识别结果等。作为信息提取模块16031，可以使用进行任何信息(元数据)提取的所有程序，可以采用公知的技术，所以在此省略信息提取处理模块16031的说明。如果需要，也可以通过数据压缩算法对元数据压缩数据尺寸。此外，ETL1603提取信息后，也可以将数据的文件名、数据登录年月日、元数据的种类、元数据文本信息等登录到RelationalData Base(RDB)。

内容存储器1604保存由ETL1603提取的信息和临时存放到存储器1602的处理前的数据1601。

检索引擎1605在有来自应用程序1608的请求时，例如是文本检索的情况下，基于ETL1603制作的索引实施文本检索，将检索结果发送给应用程序1608。关于检索引擎1605的算法，可以应用公知的技术。检索引擎1605除了文本之外，还可以搭载检索图像、声音等数据的模块。

元数据服务器1606管理RDB中存放的元数据。例如，假设在RDB中登录了由ETL1603提取的数据的文件名、数据登录年月日、元数据的种类、元数据文本信息等。有来自应用1608的请求时，元数据服务器1606按照该请求将RDB内的信息发送给应用1608。

多媒体服务器1607将ETL1603提取的元数据彼此的信息相互建立关联，并以图表形式结构化而保存元信息。作为建立关联的一例，可以对存储器1604中存放的“苹果”这一声音识别结果将原来的声音文件、图像数据、关联词等对应关系用网络形式表现。多媒体服务器1607在有来自应用1608的请求时，将与其相应的元信息发送给应用1608。例如，有“苹果”这一请求时，基于构建的图表构造，提供将包含苹果的图像、平均物价、艺术家的曲名等在网络图表上建立了关联的元信息。

在内容云系统1600中，图像分析系统100作为ETL1603中的信息提取处理模块16031起作用。图1中的图像/文本存储装置101、数据存放装置104在图16中分别对应于存储器1602、内容存储器104。此外，图像分析装置106相当于信息提取处理模块16031。在ETL1603中设有多个信息提取处理模块16031的情况下，可以共享1台计算机的资源，也可以按照每个模块使用独立的计算机。图1的图像数据库105相当于ETL1603进行信息提取所需的词典数据16032。

＜实施方式4：总结＞

如以上那样，本发明的图像分析系统100能够作为内容云系统1600的构成要素来应用。内容云系统1600通过生成能够在各媒体数据之间共通利用的元数据，能够扩过媒体间统合信息。由此，可以期待向用户提供附加价值更高的信息。

本发明不限于上述的实施方式，还包含各种变形例。上述实施方式是为了浅显易懂地说明本发明而详细说明的，并不限于具备所说明的全部构成。此外，也可以将某实施方式的构成的一部分置换为其他实施方式的构成。此外，也可以在某实施方式的构成中加入其他实施方式的构成。此外，对于各实施方式的构成的一部分，也可以追加/删除/置换其他构成。

上记各构成、功能、处理部、处理手段等，例如可以通过设计集成电路等用硬件来实现其中的一部分或全部。此外，上述的各构成、功能等可以解释为由处理器实现各个功能的程序，通过由软件执行来实现。实现各功能的程序、表、文件等信息可以存放在存储器、硬盘、SSD(Solid StateDrive)等记录装置、IC卡、SD卡、DVD等记录介质中。

符号的说明

100：图像分析系统、101：图像/文本输入装置、102：输入装置、103：显示装置、104：数据存放装置、105：图像数据库、106：图像分析装置、107：图像/文本输入部、108：元数据生成部、109：分析对象决定部、110：物体区域检测部、111：操作信息输入部、112：数据输出部、1600：内容云系统、1602：存储器、1603：ETL模块、1604：内容存储器、1605：检索引擎、1606：元数据服务器、1607：多媒体服务器、1608：应用程序。

Claims

1.一种图像分析装置，其特征在于，具备：

图像输入部，接受查询图像数据，该查询图像数据包含作为检测对象的物体的图像；

元数据生成部，使用将图像数据及其书目信息建立对应地保持的图像数据库，生成所述查询图像数据的元数据；

分析对象决定部，从所述图像数据库保持的所述图像数据中，提取1个以上所述书目信息与所述元数据一致的图像数据；

物体区域检测部，检测所述分析对象决定部提取的1个以上的所述图像数据中的、包含所述物体的图像的区域；以及

输出部，输出所述物体区域检测部检测的结果，

所述元数据生成部使用所述图像数据库保持的其他所述图像数据，生成所述图像数据库保持的所述图像数据的元数据，并将生成的元数据作为所述书目信息追加，

所述分析对象决定部使用追加了所述元数据的所述书目信息，从所述图像数据库保持的所述图像数据中提取1个以上所述书目信息与所述元数据一致的图像数据。

2.如权利要求1所记载的图像分析装置，其特征在于，

所述元数据生成部从所述图像数据库保持的所述图像数据中检索与所述查询图像数据类似的图像数据，并使用由此得到的所述图像数据的所述书目信息来生成所述元数据。

3.如权利要求2所记载的图像分析装置，其特征在于，

所述元数据生成部使用由所述检索的结果得到的所述图像数据的所述书目信息中所述元数据出现的频度，计算所述元数据的得分，

所述分析对象决定部使用所述得分，决定在提取与所述书目信息一致的图像数据时作为检索关键字的所述元数据。

4.如权利要求3所记载的图像分析装置，其特征在于，

所述分析对象决定部按照所述得分从高到低的顺序将规定范围以内的所述元数据作为检索关键字，提取与所述元数据一致的所述书目信息所建立了对应的所述图像数据。

5.如权利要求3所记载的图像分析装置，其特征在于，

所述分析对象决定部接受元数据指定，所述元数据指定用于指定使用所述元数据中的哪一个来提取与所述书目信息一致的图像数据，提取与该指定的所述元数据一致的所述书目信息所建立了对应的所述图像数据。

6.如权利要求5所记载的图像分析装置，其特征在于，

所述图像分析装置具备显示部，该显示部显示作为由所述物体区域检测部检测包含所述物体的图像的区域的对象的、所述图像数据的件数及其检测处理时间，

所述分析对象决定部每当接受所述元数据指定，重新计算所述件数和所述检测处理时间，并在所述显示部上反映该重新计算的结果。

7.如权利要求2所记载的图像分析装置，其特征在于，

所述元数据生成部接受类似图像指定，该类似图像指定用于从由所述检索的结果得到的所述图像数据中，指定用于与所述查询图像数据相配合地生成所述元数据的图像数据，

从所述图像数据库保持的所述图像数据中，检索与所述查询图像数据类似的图像数据、以及与通过所述类似图像指定而指定的所述图像数据类似的图像数据，并使用由此得到的所述图像数据的所述书目信息来生成所述元数据。

8.如权利要求1所记载的图像分析装置，其特征在于，

所述物体区域检测部计算所述图像数据的部分区域的特征量矢量和所述查询图像数据的特征量矢量之间的矢量间距离，

根据所述矢量间距离是否为规定范围内，判定所述查询图像数据内包含的所述物体是否包含在所述部分区域内。

9.如权利要求1所记载的图像分析装置，其特征在于，

所述输出部将所述物体区域检测部在所述图像数据内检测到的所述物体的个数与所述物体区域检测部检测的结果一起输出。

10.如权利要求1所记载的图像分析装置，其特征在于，

所述输出部将所述物体区域检测部在所述图像数据内检测到的所述物体的检测可靠度与所述物体区域检测部检测的结果一起输出。

11.如权利要求2所记载的图像分析装置，其特征在于，

所述物体区域检测部从所述分析对象决定部提取的1个以上的所述图像数据中，检测包含所述物体的图像的区域、以及包含由所述元数据生成部实施所述检索而得到的所述图像数据中包含的物体的图像的区域。

12.如权利要求11所记载的图像分析装置，其特征在于，

所述物体区域检测部接受检测对象指定，该检测对象指定用于从由所述元数据生成部实施所述检索而得到的所述图像数据中，指定包含应该与所述查询图像数据中包含的所述物体相配合地检测的物体的图像数据，

从所述分析对象决定部提取的1个以上的所述图像数据中，检索包含所述物体的图像的区域、以及包含通过所述检测对象指定而指定的所述图像数据中包含的物体的图像的区域。

13.一种图像分析系统，其特征在于，具备

权利要求1所记载的图像分析装置；以及

图像数据库，将图像数据及其书目信息建立对应地保持，

所述元数据生成部使用所述图像数据库来生成所述查询图像数据的元数据。

14.一种图像分析方法，其特征在于，包括：

图像输入步骤，接受查询图像数据，该查询图像数据包含作为检测对象的物体的图像；

元数据生成步骤，使用将图像数据及其书目信息建立对应地保持的图像数据库，生成所述查询图像数据的元数据；

分析对象决定步骤，从所述图像数据库保持的所述图像数据中，提取1个以上所述书目信息与所述元数据一致的图像数据；

物体区域检测步骤，检测所述分析对象决定步骤提取的1个以上的所述图像数据中的、包含所述物体的图像的区域；以及

输出步骤，输出所述物体区域检测步骤检测的结果，

所述元数据生成步骤使用所述图像数据库保持的其他所述图像数据，生成所述图像数据库保持的所述图像数据的元数据，并将生成的元数据作为所述书目信息追加，

所述分析对象决定步骤使用追加了所述元数据的所述书目信息，从所述图像数据库保持的所述图像数据中提取1个以上所述书目信息与所述元数据一致的图像数据。