图像识别装置、图像识别方法及集成电路
技术领域
本发明涉及识别图像内的物体的图像识别装置。
背景技术
过去公知有识别图像内的物体的技术(例如,参照专利文献1、2、3)。
在此,物体的精度识别因物体而异。例如,根据图像的物体识别方法 的竞赛即PASCAL Visual Object Classes Challenge(国际计算机视觉算法竞 赛)(VOC2011)的结果(参照非专利文献1),20种物体中较低的物体的 识别精度停留在60%左右。
现有技术文献
专利文献
专利文献1:日本特开2008-139941号公报
专利文献2:日本专利第4624594号公报
专利文献3:日本专利第4687381号公报
非专利文献
非专利文献1:PASCAL Visual Object Classes Challenge(VOC2011)、[online]、[2012年10月10日检索]、因特网 <URL:http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2011/workshop/voc# cls.pdf>
发明概要
发明要解决的问题
如上所述,在物体中存在识别精度较低的物体,因此期望提高识别精 度。
发明内容
本发明的目的在于,提供一种能够有助于提高识别精度的图像识别装 置。
用于解决问题的手段
为了解决上述问题,本发明的图像识别装置的特征在于,该图像识别 装置具有:第1识别单元,从图像中识别第1物体;计算单元,计算表示 被识别出的第1物体的属性的属性信息;物体确定单元,参照将表示第2 物体的识别符与每个属性信息相对应的物体对应信息,确定与计算出的属 性信息对应的表示第2物体的识别符;区域确定单元,参照将根据第1区 域来确定第2区域时使用的值与每个表示第2物体的识别符相对应的区域 值信息,使用与所确定出的识别符对应的值来确定第2区域,所述第1区 域是所述第1物体占据的区域;以及第2识别单元,将所确定出的第2区 域作为对象,识别与所述确定出的识别符对应的第2物体。
发明效果
根据在用于解决问题的手段中记载的结构,根据第1物体的属性信息 来确定表示第2物体的识别符,由此确定第2识别单元的处理对象。另外, 使用在确定与表示所确定出的第2物体的识别符对应的区域时使用的值, 确定成为第2识别单元的处理对象的第2区域。通过这样确定,能够有助 于提高物体的识别精度。
附图说明
图1是实施方式1的图像识别装置100的功能框图。
图2是表示实施方式1的图像识别装置100的整体动作的一例的流程 图。
图3是表示实施方式1的计算被检测出的基准物体的属性的处理的一 例的流程图。
图4是表示实施方式1的确定搜索物体的处理的一例的流程图。
图5是表示实施方式1的确定搜索区域的处理的一例的流程图。
图6是表示实施方式1的进行搜索物体的识别的处理的一例的流程图。
图7是表示图像管理信息的一例的图。
图8是表示人区域管理信息的一例的图。
图9是表示属性管理信息的一例的图。
图10是表示实施方式1的属性/物体对应信息的一例的图。
图11是表示实施方式1的搜索物体管理信息的一例的图。
图12是表示实施方式1的物体/尺寸对应信息的一例的图。
图13是表示实施方式1的物体/搜索区域类别对应信息的一例的图。
图14是表示实施方式1的搜索区域参数信息的一例的图。
图15是表示搜索区域管理信息的一例的图。
图16是表示物体识别管理信息的一例的图。
图17是表示物体/搜索区域参数信息的一例的图。
图18是表示人脸区域及人区域的一例的图。
图19是表示搜索区域类别是手时的搜索区域的一例的图。
图20是表示搜索区域类别是脚时的搜索区域的一例的图。
图21是表示搜索区域类别是左邻时的搜索区域的一例的图。
图22是表示搜索区域类别是右邻时的搜索区域的一例的图。
图23是表示搜索物体是花束时的搜索区域的一例的图。
图24是表示实施方式1的输入图像的一例的图。
图25是实施方式2的图像识别装置2500的功能框图。
图26是表示实施方式2的确定搜索物体的处理的一例的流程图。
图27是表示实施方式2的确定搜索区域的处理的一例的流程图。
图28是表示实施方式2的属性/物体对应信息的一例的流程图。
图29是表示实施方式2的搜索物体管理信息的一例的流程图。
图30是表示实施方式2的物体/尺寸对应信息的一例的图。
图31是表示实施方式2的物体/搜索区域类别对应信息的一例的图。
图32是表示实施方式2的搜索区域参数信息的一例的图。
图33是表示2人前方的搜索区域类别的一例的图。
图34是表示2人之间的搜索区域类别的一例的图。
图35是表示实施方式2的输入图像的一例的图。
图36是实施方式3的图像识别装置3600的功能框图。
图37是实施方式3的根据从图像蓄积装置110输入的图像来识别物体 的流程图。
图38是表示实施方式3的确定摄影事件的处理的一例的流程图。
图39是表示实施方式3的确定搜索区域的处理的一例的流程图。
图40是表示事件条件信息的一例的图。
图41是表示摄影事件管理信息的一例的图。
图42是表示属性/事件/物体对应信息的一例的图。
图43是表示实施方式3的输入图像的一例的图。
图44是表示物体/场景信息、识别结果信息的一例的图。
图45是表示基准物体是车辆时的属性管理信息4501和物体/搜索区域 类别对应信息4502的示例的图。
图46是表示物体识别结果的利用形式的示例的图。
图47是表示使设备和云服务器协作的示例的图。
图48是表示物体识别处理的结果的显示例的图。
图49是表示变形例的确定搜索区域的处理的一例的流程图。
图50是用于说明图49的S4902的处理的图。
具体实施方式
(实施方式1)
<完成实施方式1的经过>
在从图像内识别物体时也可以考虑诸如这样的循环式方法,即对于应 该识别的物体不特别进行限制,对各种各样的每个物体反复进行物体识别。 当然,这种方法的处理效率不怎么好,而且有时导致错误识别与图像不符 的物体。
因此,在本实施方式中,在检测到图像内的人时,计算这个人的属性 信息。并且,参照预先存储的属性信息与作为搜索对象的物体的对应关系, 确定与计算出的属性信息对应的搜索对象的物体。
由此,将与图像内的人的属性信息对应的合适的物体确定为搜索对象, 实现物体的识别精度的提高。
另外,在确定出搜索对象的物体后,参照用于根据预先存储的作为搜 索对象的物体和人的区域来确定应该搜索的区域的参数,确定应该搜索的 区域。
通过这样进行区域确定,防止将在区域外的具有与对象物体相似的图 像特征量的部分错误识别为对象物体,并实现物体的识别精度的提高。
下面,参照附图说明实施方式1的图像识别装置。
<结构>
图1是图像识别装置100的功能框图。
图像识别装置100通过例如USB(Universal Serial Bus:通用串行总线) 线缆那样的线缆与图像蓄积装置110连接。
图像蓄积装置110是具有蓄积所拍摄的图像的功能的装置。并且,不 仅具有蓄积功能,而且也可以具有拍摄图像的功能。这种图像蓄积装置110 例如由硬盘或数字静态摄像机等构成。
下面,对图像识别装置100的内部结构进行说明。
如图1所示,图像识别装置100由图像取得部101、基准物体检测部 102、属性计算部103、搜索物体确定部104、搜索区域确定部105和物体 识别部106构成。
图像取得部101取得由图像蓄积装置110蓄积的图像,将所取得的图 像与各自固有的图像ID相对应地存储在图像管理信息存储部120中。图像 取得部101例如由用于插入USB线缆的USB端口和USB驱动器等控制接 口的软件构成。
基准物体检测部102在图像中检测作为识别处理的基准的物体。具体 地讲,从由图像取得部101取得的图像中,检测作为识别对象的物体、作 为确定进行识别的区域时的基准的基准物体。关于基准物体的种类可以考 虑人和车辆等。在本实施方式中,对将人用作基准物体的情况进行说明。
另外,基准物体检测部102检测拍摄有人的区域即人区域的位置,对 检测出的每个人区域赋予固有的人ID,并计算该人区域的尺寸。并且,基 准物体检测部102将这些人区域各自的人ID和确定该人区域的位置及尺寸 的信息,与图像ID相对应地存储在基准物体区域管理信息存储部121中。
其中,人区域是指被摄入到图像中的一个人在图像中占据的区域。
另外,在规定了将图像的左上角的1点作为原点的坐标轴的情况下, 所谓确定人区域的位置及尺寸的信息由矩形的4个顶点中的1个顶点的坐 标、和矩形的宽度及高度构成。
在下面的示例中,作为检测人区域的方法是采用这样的方法:使用预 先准备的人脸的学习模型检测人脸区域,根据人脸与人的通常的位置关系/ 尺寸比进行切取。另外,不限于此,也可以在图像中将内侧包含一个人的 全身的面积最小的矩形的区域作为人区域。
属性计算部103计算表示由基准物体检测部102检测出的基准物体的 属性的属性信息。该属性信息是能够从基准物体的外观特征得到的信息, 在本实施方式中,对使用服装和性别作为表示基准物体即人的属性的属性 信息的情况进行说明。在这种情况下,属性计算部103按照每个人区域判 定服装和性别,并与该人区域的人ID对应地存储在属性管理信息存储部 122中。
搜索物体确定部104根据基准物体的属性信息,将与基准物体的属性 相关联的物体确定为搜索对象的物体(以后,将作为物体识别处理的对象 的物体称为“搜索物体”。)。具体地讲,搜索物体确定部104参照由属性/ 物体对应信息存储部123预先存储的属性与搜索物体的对应关系,将与属 性计算部103计算出的属性信息对应的物体确定为搜索物体。并且,将确 定出的搜索物体与人ID对应地存储在搜索物体管理信息存储部124中。
搜索区域确定部105根据基准物体占据的区域的位置,确定应该进行 搜索物体的识别处理的区域。以后,把应该进行搜索物体的识别处理的区 域称为“搜索区域”。具体地讲,搜索区域确定部105参照由区域值信息存 储部126a预先存储的、用于根据基准物体占据的区域来确定搜索区域的参 数与搜索物体的对应关系,将与搜索物体确定部104确定出的搜索物体对 应的区域确定为搜索区域。
另外,这种区域的确定,是指计算能够确定区域的位置和尺寸的信息 的处理。在本实施方式中是指这样的处理,即对于矩形的区域,在规定了 将图像的左上角的点作为原点的坐标轴的情况下,计算矩形的4个顶点中 的1个顶点的坐标和矩形的宽度及高度。
物体识别部106对由搜索区域确定部105确定出的图像内的搜索区域, 进行由搜索物体确定部104确定出的搜索物体的识别处理。识别处理例如 有基于与预先准备的物体学习辞典的图案匹配的检测方法、和基于利用 SVM(Support Vector Machine)的机械学习的分类方法等。
另外,这些基准物体检测部102、属性计算部103、搜索物体确定部104、 搜索区域确定部105和物体识别部106,例如能够由存储各个处理用的程序 的ROM等的存储器、执行程序的CPU、和用于将程序的数据展开的RAM 等存储器构成。
存储部的关系如下所述。关于各个信息的详细情况将在有关动作的说 明中进行叙述。
图像管理信息存储部120存储图像管理信息701(参照图7)。
基准物体区域管理信息存储部121存储人区域管理信息801(参照图 8)。
属性管理信息存储部122存储属性管理信息901(参照图9)。
属性/物体对应信息存储部123存储属性/物体对应信息1001(参照图 10)。
搜索物体管理信息存储部124存储搜索物体管理信息1101(参照图 11)。
物体/尺寸对应信息存储部125存储物体/尺寸对应信息1201(参照图 12)。
区域值信息存储部126a具有:存储物体/搜索区域类别对应信息1301 (参照图13)的物体/搜索区域类别对应信息存储部126;以及存储物体区 域参数信息1401(参照图14)的搜索区域参数存储部127。
搜索区域管理信息存储部128存储搜索区域管理信息1501(参照图 15)。
物体识别管理信息存储部129存储物体识别管理信息1601(参照图 16)。
<动作>
使用图2的流程图来说明图像识别装置100进行的整体动作的概要。 另外,关于图2中的S203、S204、S205、S206的详细情况,分别使用图3、 图4、图5、图6进行说明。
图像取得部101从图像蓄积装置110取得图像(S201)。并且,图像取 得部101将所取得的图像与各个图像固有的图像ID对应地存储在图像管理 信息存储部120中,并作为图像管理信息701。
图7表示图像管理信息701的示例。在图7的示例中,将PPM(Portable PixmapFormat)格式的图像和图像的摄影时间信息一起与图像ID对应地进 行管理。在图7的示例中,表示将在2010年6月10日10时35分10秒拍 摄的手持花束的新娘的图像作为图像ID是11的图像进行管理。在此,图 像的摄影时间信息也可以使用图像文件被保存的时间,还可以使用赋予给 图像的Exif(Exchangeable image file format,可交换图像文件)信息的摄影 时间信息。
另外,图像的存储方式不限于前面叙述的方式。也可以不按照PPM格 式存储图像,而按照JPEG(Joint Photographic Experts Group,联合图像专 家组)格式存储图像,还可以存储在图像蓄积装置110中的图像的文件路 径。
然后,基准物体检测部102对被存储在图像管理信息存储部120中的 各个图像,从图像中检测作为基准物体的人(S202)。在本实施方式中,关 于人的检测,假设是检测拍摄有包含人脸和身体的人全身的区域。这样的 人的检测例如可以按照以下所述进行。首先,从图像中检测人脸区域。关 于人脸区域的检测,例如通过图像和预先准备的人脸的学习模型的图案匹 配等来进行。然后,根据人脸区域计算人区域。关于人区域的计算方法例 如有这样的方法:根据人脸和人的通常的位置/尺寸关系,从人脸区域中切 取出包含人脸区域的一定的下部区域。
在图18的示例中,假设检测出的人脸区域是矩形,把在人脸区域的正 下方排列6个该矩形而得到的尺寸的长方形作为身体区域。并且,把将人 脸区域和身体区域合并形成的整体作为人区域。例如,假设人脸区域是宽 50像素、高50像素时,关于人区域,是切取距人脸区域的左上顶点坐标为 宽50像素、高350像素的矩形区域作为人区域。
另外,关于身体区域的尺寸,只要是能够适当包含身体区域的尺寸, 则不限于图18的示例。另外,人脸区域、身体区域、将这两个区域合并得 到的人区域的形状都不局限于矩形,只要能够包含摄入到图像中的人脸、 身体、人,则可以是任何形状。并且,人的检测方法不限于上述示例,例 如也可以采用诸如Fujiyoshi著的“Detecting Humans andVisualizing Human Motions for People Image Analysis”公开的使用图像的边缘特征量的人检测 方法。
基准物体检测部102对与检测出的各个人对应的人区域赋予固有的人ID,使其与图像ID对应。并且,作为将人ID、图像ID及人区域的位置/ 尺寸建立了对应的人区域管理信息801,存储在基准物体区域管理信息存储 部121中。
图8表示人区域管理信息801的示例。在图8的示例中,假设人区域 是矩形,将矩形的左上顶点的X坐标、左上顶点的Y坐标、宽度、高度及 图像ID与人ID对应地进行管理。另外,关于顶点的坐标,利用以图像的 左上角为原点、以图像的宽度方向为X轴、高度方向为Y轴的像素单位的 XY坐标系进行表述。另外,在图8的示例中,被赋予了人ID11的人的人 区域表示左上顶点的坐标为(75、50)、宽50像素、高350像素的矩形区 域。
然后,属性计算部103根据在基准物体区域管理信息存储部121中存 储的人区域管理信息801,计算被检测出的人的属性信息(S203)。
在此,使用图3的流程图来说明用于计算被检测出的基准物体的属性 信息的处理S203的一例。
首先,属性计算部103从在图像中检测出的人的人ID中选择一个人ID (S301)。具体地讲,在如图8所示的人区域管理信息801中选择包含某个 人ID的1行的量的信息。
然后,属性计算部103对于在图像中被检测出的各个人区域,判定属 于人区域的人的服装(S302)。关于服装判定的方法例如有专利文献1等的 方法。
然后,属性计算部103对于在图像中被检测出的各个人区域,判定属 于人区域的人的性别(S303)。关于性别判定的方法有这样的方法:将图像 的人脸区域中的图像特征量与定义通常男女的各种图像特征量的学习模型 进行比较。
另外,在上述的示例中,将服装、性别作为属性信息进行判定,但也 可以判定图像中的人区域的位置、人区域与图像整体的面积比、年龄(年 龄段)、人脸的朝向、身体的朝向、姿势等。例如,能够根据在基准物体区 域管理信息存储部121中存储的信息和图像的尺寸,计算人区域的位置、 人区域与画面整体的面积比。关于人的年龄(年龄段)和人脸的朝向,例 如能够通过将图像的人脸区域中的图像特征量与每个年龄(年龄段)及人 脸的朝向的学习模型进行比较来判定。关于身体的朝向和姿势,例如能够 通过将图像的人脸区域中的图像特征量与每个身体的朝向和姿势的学习模 型进行比较来判定。另外,这些属性信息不一定需要全部都能进行判定, 只要至少能判定一个即可。
属性计算部103将如上所述对各个人区域计算出的属性信息与该人区 域的人ID对应地存储在属性管理信息存储部122中,并作为属性管理信息 901。
图9表示属性管理信息901的示例。在图9的示例中,将人的属性信 息即服装/性别与人ID对应地进行管理。在该示例中,表示被赋予了人ID11 的人的属性信息是服装为婚纱、性别为女性。
在S303的处理之后,属性计算部103判定是否已对包含于图像中的所 有人结束了属性的计算(S304)。另外,在还有未计算属性的人的情况下 (S304:否),返回到S301的处理。在S304,在对所有人结束了属性的计 算的情况下(S304:是),结束S203的处理。
返回到图2,然后搜索物体确定部104根据属性管理信息901确定搜索 物体(S204)。
在此,使用图4的流程图来说明S204的处理的一例。
首先,搜索物体确定部104从在图像中检测出的人的人ID中选择一个 人ID(S401)。具体地讲,在如图9所示的属性管理信息901中,选择包含 某个人ID的1行的量的信息。
然后,搜索物体确定部104根据与所选择的人ID对应的属性信息确定 搜索物体(S402)。使用在属性/物体对应信息存储部123中存储的、表示属 性信息与搜索物体的对应关系的属性/物体对应信息1001,选择与所选择的 人ID的属性信息一致的搜索物体,由此进行搜索物体的确定。
图10表示属性/物体对应信息1001的示例。在图10的示例中,与人 的服装和性别属性相对应地保存搜索物体。在该示例中,在属性信息是服 装为和服、性别为男性的情况下,表示将千岁糖和木屐作为搜索物体。
并且,搜索物体确定部104将确定出的搜索物体与固有的搜索物体ID 对应地存储在搜索物体管理信息存储部124中,并作为搜索物体管理信息 1101。
图11表示搜索物体管理信息1101的示例。在图11的示例中,将人ID 和搜索物体与搜索物体ID对应地进行管理。在该示例中,表示搜索物体 ID11的物体是与人ID11对应的物体,搜索物体是花束。
在S402的处理之后,搜索物体确定部104判定是否已对包含于图像中 的所有人结束了搜索物体的确定(S403)。在还有未确定出搜索物体的人的 情况下(S403:否),返回到S401的处理。在S403,在对所有人结束了搜 索物体的确定的情况下(S403:是),结束S204的处理。
返回到图2,然后搜索区域确定部105根据人区域管理信息801、搜索 物体管理信息1101和物体/尺寸对应信息1201确定搜索区域(S205)。
在此,使用图5的流程图来说明S205的处理的一例。
首先,在S204,搜索区域确定部105从针对摄入到图像中的每个人而 确定出的搜索物体ID中选择一个搜索物体ID(S501)。具体地讲,搜索区 域确定部105在如图11所示的搜索物体管理信息1101中选择包含某个搜 索物体ID的1行的量的信息。
然后,搜索区域确定部105对与所选择的搜索物体ID对应的搜索物体, 根据物体/尺寸对应信息1201选择搜索物体尺寸比(S502)。
物体/尺寸对应信息1201是存储在物体/尺寸对应信息存储部125中的 信息,将表示搜索物体的尺寸与人区域的尺寸之比的搜索物体尺寸比与每 个搜索物体相对应。在本实施方式中,由于人区域是矩形,因而示出了搜 索物体的宽度与人区域的宽度之比、和搜索物体的高度与人区域的高度之 比。
图12表示物体/尺寸对应信息1201的示例。在图12的示例中,与搜 索物体对应地分别保存搜索物体的宽度与人的宽度/高度之比。在该示例中, 表示花束的宽度是人的宽度的0.5倍,花束的高度是人的高度的0.1倍。
在这种情况下,搜索区域确定部105选择与在步骤S501选择的搜索物 体ID对应的、搜索物体的宽度的比和高度的比,作为尺寸比。
所选择的搜索物体尺寸比将在后述的步骤S504中计算搜索区域时使 用。
然后,搜索区域确定部105对与所选择的搜索物体ID对应的搜索物体, 选择搜索区域类别(S503)。在此,搜索区域类别是指搜索物体能够在附近 存在的、基准物体附近的特定的区域的类别。关于搜索区域类别的示例, 在基准物体是人的情况下包括手、脚、右邻、左邻等。使用在物体/搜索区 域类别对应信息存储部126中存储的物体/搜索区域类别对应信息1301,选 择与搜索物体一致的搜索区域类别,由此进行搜索区域类别的确定。
图13表示物体/搜索区域类别对应信息1301的一例。在图13的示例 中,与搜索物体对应地保存搜索区域类别。在该示例中,表示针对花束的 搜索区域类别是手。
所选择的搜索区域类别将在后述的步骤S504计算搜索区域时使用。
然后,搜索区域确定部105计算与所选择的搜索物体ID对应的搜索区 域(S504)。
搜索区域的计算是通过对人区域的放大缩小/平行移动来进行的。具体 地讲,通过将在搜索区域参数存储部127中存储的搜索区域参数信息1401 和所选择的人ID的人区域信息代入到后述的搜索区域计算公式中,能够计 算出搜索区域。其中,搜索区域计算公式是通过将矩形的人区域放大缩小/ 平行移动来计算出矩形的搜索区域的公式。搜索区域计算公式例如包括计 算从人的左上坐标向搜索区域的左上坐标的移动量(表示移动的方向和尺 寸)的公式、计算搜索区域的宽度的公式、计算搜索区域的高度的公式。 在设从人的左上坐标向搜索区域的左上坐标的移动量为(dX、dY)、搜索 区域的宽度为W、搜索区域的高度为H时,dX、dY、W和H例如分别能 够用如下的算式表示。
dX=α1×w+α2×Sw×w (式1)
dY=β1×h+β2×Sh×h (式2)
W=γ1×w+γ2×Sw×w (式3)
H=δ1×h+δ2×Sh×h (式4)
其中,w表示人区域的宽度,h表示人区域的高度,它们能够通过从人 区域管理信息801中选择包含所选择的人ID的1行的量的信息而取得。Sw 表示搜索物体的宽度与人区域的宽度之比,Sh表示搜索物体的高度与人的 高度之比,是在S502确定出的值。另外,搜索区域参数α1、α2、β1、β2、 γ1、γ2、δ1、δ2是用于根据人区域和搜索区域类别计算搜索区域的参数。 具体地讲,α1、α2分别表示人区域的宽度、搜索物体的宽度对dX的贡献 程度,β1、β2分别表示人区域的高度、搜索物体的高度对dY的贡献程度, γ1、γ2分别表示人区域的宽度、搜索物体的宽度对搜索区域的宽度的贡献 程度,δ1、δ2分别表示人区域的高度、搜索物体的高度对搜索区域的高度 的贡献程度。通过使用在搜索区域参数存储部127中存储的搜索区域参数 信息1401选择与搜索区域类别一致的搜索区域参数,进行搜索区域参数的 选择。
图14表示搜索区域参数信息1401的示例。在图14的示例中,与搜索 区域类别对应地保存搜索区域计算公式的系数。即,按照手、脚、左端、 右端的各个搜索区域类别来存储搜索区域计算公式的系数α1、α2、β1、β2、 γ1、γ2、δ1、δ2。
下面,对于使用了该搜索区域参数信息的搜索区域的确定示例,按照 下面的(1)~(4)的每个搜索区域类别进行说明。
(1)手
图19表示在搜索区域类别是手时针对人区域(实线矩形)的搜索区域 (虚线矩形)的示例。该示例中的搜索区域是重心(图中的星记号)与人 区域一致的、宽度为2×w+2×Sw×w、高度为0.2×h+2×Sh×h的矩形。 其中,2×w项及0.2×h项是用于将手有可能移动的范围即手的可动范围收 入在搜索区域内的项。
另外,2×Sw×w项及2×Sh×h项表示搜索区域与物体的尺寸成比例 地变动。另外,在图19中,从人区域的左上坐标向搜索区域的左上坐标的 移动量(dX,dY)为(-w-Sw×w,0.4h-Sh×h)。
这样将手的搜索区域参数设定为α1=-1、α2=-1、β1=0.4、β2=- 1、γ1=2、γ2=2、δ1=0.2、δ2=2(参照图14的第1行的信息),以便使 搜索区域的重心与人区域的重心一致,并且覆盖手有可能移动的范围。
(2)脚
图20表示在搜索区域类别是脚时针对人区域(实线矩形)的搜索区域 (虚线矩形)的示例。该示例中的搜索区域是以人区域的最下部的边的中 央(图中的星记号)为重心的、宽度为w+2×Sw×w、高度为0.1×h+2 ×Sh×h的矩形。其中,w项及0.1×h项是用于将脚的可动范围收入在搜 索区域内的项。
另外,2×Sw×w项及2×Sh×h项表示搜索区域与物体的尺寸成比例 地变动。另外,在图20中,从人区域的左上坐标向搜索区域的左上坐标的 移动量为(-Sw×w,0.95h-Sh×h)。
这样将脚的搜索区域参数设定为α1=0、α2=-1、β1=0.95、β2=-1、 γ1=1、γ2=2、δ1=0.1、δ2=2(参照图14的第2行的信息),以便使搜索 区域的重心与人区域的重心一致,并且覆盖脚有可能移动的范围。
(3)左邻
图21表示在搜索区域类别是左端时针对人区域(实线矩形)的搜索区 域(虚线矩形)的示例。该示例中的搜索区域是右下坐标与人区域的左下 坐标一致的、宽度为2×Sw×w、高度为2×Sh×h的矩形。不存在w、h 的常数倍的项,这意味着搜索区域的尺寸不依赖于人区域的尺寸,搜索区 域仅根据物体的尺寸而变动。
另外,在图21中,从人区域的左上坐标向搜索区域的左上坐标的移动 量为(-2×Sw×w,h-2×Sh×h)。
将左端的搜索区域参数设定为α1=0、α2=-2、β1=0、β2=-2、γ1 =0、γ2=2、δ1=0、δ2=2(参照图14的第3行的信息),以便设定这些 搜索区域的宽度/高度及移动量。
(4)右邻
图22表示在搜索区域类别是右端时针对人区域(实线矩形)的搜索区 域(虚线矩形)的示例。该示例中的搜索区域是左下坐标与人区域的右下 坐标一致的、宽度为2×Sw×w、高度为2×Sh×h的矩形。不存在w、h 的常数倍的项,这意味着搜索区域的尺寸不依赖于人区域的尺寸,搜索区 域仅根据物体的尺寸而变动。另外,在图22中,从人区域的左上坐标向搜 索区域的左上坐标的移动量为(w,h-2×Sh×h)。
将右端的搜索区域参数设定为α1=1、α2=0、β1=0、β2=-2、γ1= 0、γ2=2、δ1=0、δ2=2(参照图14的第4行的信息),以便设定这些搜 索区域的宽度/高度及移动量。
另外,当在S504计算出的搜索区域的一部分溢出到画面外部的情况 下,搜索区域确定部105也可以只将被收纳在画面内的部分作为搜索区域。 并且,当在S504计算出的搜索区域全部溢出到画面外部的情况下,搜索区 域确定部105也可以将在S501选择的搜索物体去除。
下面,返回到图5的说明。
搜索区域确定部105将与在S504确定出的搜索区域相关的信息,与该 搜索物体的搜索物体ID对应地存储在搜索区域管理信息存储部128中,并 作为搜索区域管理信息1501。
图15表示搜索区域管理信息1501的一例。在图15的示例中,与搜索 物体ID对应地保存矩形的搜索区域的左上坐标、宽度、高度。在该示例中, 表示搜索物体ID11的搜索区域是左上坐标(0,155)、宽度为150、高度为 140。
在S504的处理之后,确认并判定是否已对所有搜索物体结束了搜索区 域的计算(S505)。在还有应该计算搜索区域的搜索物体的情况下(S505: 否),返回到S501的处理。当在S505已对所有搜索物体结束了搜索区域的 计算的情况下(S505:是),结束S205的处理。
以上是图2中的S205的处理的详细说明。
<搜索区域确定部105的变形例>
在此,关于搜索区域确定部105可以考虑以下(1)~(3)所示的变 形。
(1)在上述的说明中,对搜索区域确定部105根据人区域信息并基于 搜索区域类别计算搜索区域的方法进行了说明,但不限于此。只要能够直 接检测作为搜索区域类别的部位,则也可以利用该检测信息的全部或者一 部分来计算搜索区域。例如,在计算搜索区域类别是手的搜索物体的搜索 区域时,可以利用山田、松尾、岛田、白井著“手話認識のための見えの 学習による手領域検出と形状識別”方法检测手区域,并根据手区域的左 上坐标、宽度、高度及搜索物体尺寸比,计算手周围的搜索区域。
(2)在上述的说明中,对搜索区域确定部105在S503根据搜索物体 的种类选择搜索区域类别,然后在S504根据搜索区域类别选择搜索区域参 数的方法进行了说明,但不限于此。也可以根据搜索物体的种类直接选择 搜索区域参数。在这种情况下,能够确定与搜索物体的种类自身对应的搜 索区域。
具体地讲,在区域值信息存储部126a中预先存储按照每个搜索物体来 示出搜索区域的参数的物体/搜索区域参数信息,该搜索区域的参数表示相 对于基准物体占据的区域的相对位置关系。并且,搜索区域确定部105也 可以使用该物体/搜索区域参数信息1701选择搜索区域参数。
如图17所示,该物体/搜索区域参数信息1701是将图13的物体/搜索 区域类别对应信息1301和图14的搜索区域参数信息1401归并得到的信息。 在图17的示例中,表示针对搜索物体即花束的搜索区域参数是α1=-0.25、 α2=-1、β1=0.4、β2=-1、γ1=1.5、γ2=2、δ1=0.2、δ2=2。
关于利用矩形表述人区域/搜索区域时的搜索区域参数,列举图23的 示例进行详细说明。图23表示在搜索物体是花束时针对人区域(实线矩形) 的搜索区域(虚线矩形)的示例。该示例中的搜索区域是重心(图中的星 记号)与人区域一致的、宽度为1.5×w+2×Sw×w、高度为0.2×h+2× Sh×h的矩形。其中,1.5×w项及0.2×h项是用于将手有可能移动的范围 即手的可动范围收入在搜索区域内的项。另外,2×Sw×w项及2×Sh×h 项表示搜索区域与物体的尺寸成比例地变动。另外,在图19中,从人区域 的左上坐标向搜索区域的左上坐标的移动量(dX、dY)为(-0.25×w- Sw×w,0.4h-Sh×h)。将手的搜索区域参数设定为α1=-0.25、α2=-1、 β1=0.4、β2=-1、γ1=1.5、γ2=2、δ1=0.2、δ2=2(参照图17的第1行 的信息),以便设定这些搜索区域的宽度、高度及移动量。
(3)在上述的说明中,对于搜索区域确定部105对于搜索区域类别是 对一个物体分配一种类别的这种搜索区域类别与物体的对应关系进行了说 明,但不限于此。在对于搜索区域类别是对一个物体分配两种以上类别的 情况下,也可以将针对搜索区域类别的各个搜索区域的并集作为对应的搜 索物体的搜索区域。例如,在图13的物体/搜索区域类别对应信息1301的 示例中,针对入学仪式的海报这个搜索物体,分配了左邻和右邻这两种搜索区域类别。即,在搜索物体是入学仪式的海报的情况下,选择左端及右 侧的各个搜索区域参数进行各个搜索区域的计算,将两个搜索区域的并集 作为搜索区域。
以上的(1)~(3)被认为是搜索区域确定部105的变形例。
下面,返回到图2继续流程的说明。然后,物体识别部106针对在S205 确定出的图像内的搜索区域,进行在S204确定出的搜索物体的识别处理 (S206)。该处理使用图像管理信息701、搜索物体管理信息1101和搜索区 域管理信息1501来进行。
在此,使用图6的流程图来说明S206的处理的一例。
首先,从在S204对被摄入到图像中的每个人确定出的搜索物体ID中 选择一个搜索物体ID(S601)。具体地讲,在如图11所示的搜索物体管理 信息1101中,选择包含某个搜索物体ID的1行的量的信息。
然后,计算有关所选择的搜索物体的、图像中的搜索区域的图像特征 量(S602)。具体地讲,参照搜索区域管理信息1501确定与所选择的搜索 物体ID对应的搜索区域,并计算所确定出的区域的图像特征量。
并且,根据在S602计算出的图像特征量进行搜索物体的识别(S603)。 例如,在采用基于利用SVM的机械学习的分类方法的情况下,利用图像特 征量和SVM的分类器和预先在多个图像中学习到的模型,计算表示想要分 类的物体的概率的似然度,根据似然度是否超过预先确定的阈值,判定想 要分类的物体是否存在于搜索区域中。
在S603的处理之后,判定是否已结束所有搜索物体的识别处理 (S604)。在还有识别处理未结束的搜索物体的情况下(S604:否),返回 到S601。在S604,在已结束有关所有搜索物体的识别处理的情况下(S604: 是),结束S206的处理。
这样,物体识别部106对于所有搜索物体进行物体识别,将识别结果 与该搜索物体的搜索物体ID对应地存储在物体识别管理信息存储部129 中,并作为物体识别管理信息1601。
图16表示物体识别管理信息1601的一例。在图16的示例中,与搜索 物体ID对应地将搜索物体的识别结果保存为是或者否。在该示例中,表示 有关搜索物体ID11的物体的物体识别结果为是、即能够识别到搜索ID11 的物体。另外,表示有关搜索物体ID12的物体的识别结果为否、即不能识 别到搜索物体ID12的物体。
以上说明了实施方式1的图像识别装置的结构及图像识别装置进行的 处理,下面对实施方式1的图像识别装置的动作的具体示例进行说明。
<实施方式1的具体示例>
在此,关于图像识别装置100确定搜索物体/搜索区域并进行物体识别 的一系列流程,使用图2的流程图和图24进行具体说明。图24的图像2401 是拍摄身穿婚纱手持花束的一名女性的照片。
首先,如图24(a)所示,图像取得部101取得图像2401(S201)。并 且,图像取得部101对所取得的图像2401赋予图像ID11,并作为图像管理 信息701存储在图像管理信息存储部120中。将图像2401的图像管理信息 设为如图7的第1行(被赋予了图像ID11的图像)那样的信息进行管理。
然后,如图24(b)所示,基准物体检测部102从输入的图像中检测人 (S202)。基准物体检测部102首先进行人脸检测。假设人脸区域的左上坐 标为(x,y)=(75,50)、宽50像素、高50像素。在这种情况下,如图 24(c)所示,与图18相同地,将在检测出的人脸区域的正下方排列6个 得到的尺寸的长方形和人脸区域合并后的整体区域作为人区域。即,人区 域是左上坐标为(x,y)=(75,50)、宽50像素、高350像素的区域。 基准物体检测部102对检测出的人赋予人ID11,并与确定人区域的位置和 尺寸的信息一起存储在人区域管理信息801中。图像2401是将一个人作为 基准物体来检测出的图像,因而将该人区域管理信息设为如图8所示的信 息进行管理。
然后,如图24(d)所示,属性计算部103计算人ID11的属性(S203)。 使用图3的流程图来说明S203的具体示例。属性计算部103从人区域管理 信息801中选择人ID11(S301)。并且,属性计算部103判定人ID11的服 装为婚纱(S302)。然后,根据图像的人区域,判定人ID11的性别为女性 (S303)。并且,属性计算部103判定已对所有人结束了属性判定(S304:是),并结束S203的处理。将通过以上的处理而计算出的属性“婚纱/女性” 设为如图9的属性管理信息901的第1行(对应于人ID11)那样的信息进 行管理。
然后,如图24(e)所示,搜索物体确定部104确定搜索物体(S204)。 使用图4的流程图来说明S204的具体示例。搜索物体确定部104从由属性 管理信息存储部122管理的信息中选择人ID11和人ID11的属性“婚纱/女 性”(S401)。然后,搜索物体确定部104参照属性/物体对应信息1001,将 花束、蛋糕、麦克风确定为与属性“婚纱/女性”对应的搜索物体。搜索物 体确定部104对这些搜索物体分别赋予搜索物体ID11、12、13,并与人ID11 一起作为搜索物体管理信息1101存储在搜索物体管理信息存储部124中。 然后,搜索物体确定部104判定已对所有人结束了搜索物体的选择(S403: 是),并结束S204的处理。将与通过以上处理而确定出的搜索物体“花束、 蛋糕、麦克风”相关的信息,设为如图11的搜索物体管理信息1101的第1 行、第2行、第3行(被赋予了搜索物体ID11、12、13的搜索物体)那样 的信息进行管理。
然后,如图24(f)所示,搜索区域确定部105确定搜索区域(S205)。 使用图5的流程图来说明S205的具体示例。首先,搜索区域确定部105从 在搜索物体管理信息1101中进行管理的信息中选择“搜索物体ID=11、人 ID=11、搜索物体=花束”(S501)。然后,搜索区域确定部105根据物体/ 尺寸对应信息1201,确定花束的宽度与人之比为Sw=0.5、花束的高度与 人之比为Sh=0.1(S502)。然后,搜索区域确定部105根据物体/搜索区域 类别对应信息1301选择手作为与花束对应的搜索区域类别(S503)。搜索 区域确定部105在S504根据搜索区域参数信息1401,选择α1=-1、α2= -1、β1=0.4、β2=-1、γ1=2、γ2=2、δ1=0.2、δ2=2,作为与搜索区 域类别即手对应的搜索区域参数。根据式1、式2、式3、式4和搜索区域 参数,花束的搜索区域计算公式分别表示为下述的式5、式6、式7、式8。
dX=-w-Sw×w (式5)
dY=0.4×h-Sh×h (式6)
W=2×w+2×Sw×w (式7)
H=0.2×h+2×Sh×h (式8)
在此,根据人区域管理信息801,确定出人ID11的人区域为左上坐标 (x,y)=(75,50)、宽w=50、高h=350。因此,根据式5、式6、式 7、式8,dX=-75,dY=105,W=150,H=140。即,计算出左上坐标为 (0,155)、宽度150、高度140的矩形区域是花束的搜索区域。如上所述, 搜索区域确定部105在结束与搜索物体ID11的搜索物体(花束)相关的搜 索区域的计算后(S505:否),同样对搜索物体ID12(蛋糕)、ID13(麦克 风)进行S501~S504的处理,计算搜索区域。搜索区域确定部105在结束 对所有搜索物体的搜索区域的计算后(S505:是),结束S205的处理。将 计算出的搜索区域信息与搜索物体ID对应地在搜索区域管理信息1501中 进行管理,并作为有关图像2401的信息,设为如图15的第1行、第2行、 第3行(被赋予了搜索物体ID11、12、13的搜索物体)那样的信息进行管 理。
另外,物体识别部106进行物体识别处理(S206)。使用图6的流程图 来说明S206的具体示例。首先,物体识别部106根据搜索物体管理信息1101 选择“搜索物体ID11、人ID=11、搜索物体=花束”(S601)。然后,物体 识别部106根据搜索区域管理信息1501确定与搜索物体ID11对应的搜索 区域,计算所确定出的区域的图像特征量(S602)。并且,物体识别部106 使用在S602计算出的图像特征量,利用SVM来判定花束是否存在于搜索 区域中(S603)。图24(g)表示有关花束的物体识别处理的概念。
之后,物体识别部106同样对搜索物体ID12、13进行物体识别处理。 将物体识别结果与搜索物体ID对应地在物体识别管理信息1601中进行管 理。物体识别部106在判定已对所有搜索物体结束识别处理后(S604:是), 结束S206的处理。将以上处理的物体识别结果设为如图16的示例中第1 行、第2行、第3行(被赋予了搜索物体ID11、12、13的搜索物体)那样 的信息进行管理。
在本具体示例中,根据人的属性“婚纱/女性”,限定为搜索物体“花 束”等。由此,能够限定为适合于婚纱/女性这种属性的搜索物体,将不适 合该属性的物体从搜索的对象中去除。由此,能够有望提高物体识别的精 度。并且,也能够减轻识别处理所需要的负荷。
另外,通过将搜索区域还限定为估计存在花束的区域即女性的手附近, 能够将成为错误识别的原因的蛋糕和图像特征量相似的其它物体从区域中 去除,能够有望提高物体的识别精度。
如上所述,实施方式1的图像识别装置100通过根据人的属性限定搜 索物体和搜索区域,能够高精度地识别出与人的属性相关联的物体。并且, 能够防止属性与想要识别的物体没有关系的人随带的物体或背景的图像特 征量相似的部分的错误识别。
另外,在实施方式1中说明的图像识别装置可以典型地用于将图像分 类为在哪种场景下拍摄的图像。例如,在实施方式1的图像识别装置中, 作为某个图像的基准物体的属性,在检测出身穿婚纱服装的女性的情况下, 根据该检测结果能够分类为该图像是在结婚仪式事件中拍摄的图像。另外, 在能够检测出能够与基准物体共存(共同出现于图像中)的物体即蛋糕的 情况下,根据该检测结果能够分类为该图像是在结婚仪式事件的切蛋糕场景中拍摄的图像。
(实施方式2)
在实施方式1中,对根据一个基准物体的属性信息选择搜索物体/搜索 区域的方法进行了说明,但利用属性信息的基准物体也可以是多个。根据 与多个基准物体的属性信息的关联性,能够圈定图像中可能存在的物体、 和该物体在图像中可能存在的区域。例如,检测在图像中横向排列成一行 的多个基准物体,在其中相邻的任意两个基准物体的间隔大于其它相邻的 两个基准物体的间隔的情况下,认为搜索物体存在于间隔较大的两个基准 物体之间的可能性比较大。
实施方式2的图像识别装置根据这种思路进行图像识别处理。
<结构>
下面,说明本实施方式2的图像识别装置。在此,对使用由属性计算 部103计算出的多个基准物体的属性信息确定搜索物体和搜索区域的实施 例进行说明。
图25表示实施方式2的图像识别装置2500的功能框图。图像识别装 置2500的结构与图1所示的图像识别装置100相比,不同之处在于搜索物 体确定部和搜索区域确定部的内部动作。下面,对结构与实施方式1不同 的搜索物体确定部2501和搜索区域确定部2502进行说明。
搜索物体确定部2501根据由基准物体检测部102取得的多个基准物体 的区域信息、和由属性计算部103取得的多个基准物体的属性信息,确定 搜索物体。
搜索区域确定部2502根据多个基准物体的区域信息和由搜索物体确定 部2501确定出的搜索物体信息,确定与该搜索物体对应的基准物体的相对 搜索区域类别,并计算搜索区域。
<动作>
下面,说明图像识别装置2500的动作。图像识别装置2500的整体动 作基本上与图2相同。但是,如前面所述,搜索物体确定部2501和搜索区 域确定部2502的动作与实施方式1不同,随之图2中的S204和S205的具 体处理与实施方式1不同。下面,以这一点为中心进行说明。
图26是表示实施方式2的搜索物体确定部2501的处理的一例的流程 图。另外,在下面的示例中,假设基准物体是人、所谓多个是指两个人来 进行说明。
首先,搜索物体确定部2501从由属性计算部103检测出的人的人ID 中选择2个人ID(S2601)。具体地讲,在如图9所示的属性管理信息中, 选择与在某个图像中检测出的两个人的人ID对应的2行的量的信息。
然后,搜索物体确定部2501根据与所选择的两个人ID对应的属性信 息和人区域信息确定搜索物体(S2602)。例如,使用表示多个人(在该示 例中是2人)的人属性信息和人区域信息与搜索物体的对应关系的属性/物 体对应信息2801,选择与所选择的两个人ID的属性信息一致的搜索物体, 由此能够进行搜索物体的确定。在此,属性/物体对应信息2801被存储在属 性/物体对应信息存储部123中。
图28表示属性/物体对应信息2801的一例。在图28的示例中,与2 人各自的服装/性别属性相对应地保存2人之间的距离的条件和搜索物体。 在该示例中,表示对于身穿婚纱的女性和身穿西装的男性的组,如果2人 的左上坐标的X坐标之差为2人的人区域的宽度之和的0.3倍以下,则将 “结婚蛋糕”作为搜索物体。
另外,属性/物体对应信息2801中的第一个人和第二个人的顺序、以 及在S2601选择的两个人ID的顺序也可以是相反的顺序。
搜索物体确定部2501将所确定出的搜索物体与固有的搜索物体ID对 应地存储在搜索物体管理信息存储部124中,并作为搜索物体管理信息 2901。
图29表示搜索物体管理信息2901的示例。在图29的示例中,与搜索 物体ID对应地来管理人ID和搜索物体。在该示例中,表示搜索物体ID21 的物体是与人ID21和人ID22对应的物体,搜索物体是“入学仪式的海报”。
搜索物体确定部2501在S2602的处理之后,判定是否已对包含于图像 中的所有的2人组合结束了搜索物体的确定(S2603)。在还有应该确定搜 索物体的组合的情况下(S2603:否),返回到S2601的处理。在S2603, 在对所有的2人组合结束了搜索物体的确定的情况下(S2603:是),搜索 物体确定部2501结束处理。
下面,使用图27的流程图来说明本实施方式的搜索区域确定部2502 的处理的一例。
首先,搜索区域确定部2502从在S204针对被摄入到图像中的2人的 组而分别确定出的搜索物体ID中选择一个搜索物体ID(S2701)。具体地 讲,在如图29所示的搜索物体管理信息2901中,选择包含某个搜索物体 ID的1行的量的信息。
然后,搜索区域确定部2502对于与所选择的搜索物体ID对应的搜索 物体,选择搜索物体尺寸比(S2702)。另外,所谓搜索物体尺寸比与在实 施方式1中说明的情况相同。例如,根据表示搜索物体与搜索物体尺寸比 的对应关系的物体/尺寸对应信息3001,选择与所选择的搜索物体ID一致 的搜索物体尺寸比,由此能够进行搜索物体尺寸比的确定。
图30表示物体/尺寸对应信息3001的一例。在图30的示例中,分别 与搜索物体对应地保存搜索物体的宽度与人的宽度/高度之比。在该示例中, 表示“结婚蛋糕”的宽度是人的宽度的0.5倍、高度是人的高度的0.1倍。
然后,对于与所选择的搜索物体ID对应的搜索物体确定搜索区域类别 (S2703)。在此,所谓搜索区域类别是指利用与多个基准物体的相对位置 来定义搜索物体可能存在的区域的类别的信息。作为搜索区域类别的示例 有“2人前方”、“2人之间”等。例如,使用在物体/搜索区域类别对应信息 存储部126中存储的物体/搜索区域类别对应信息3101,选择与搜索物体一 致的搜索区域类别,由此能够进行搜索区域类别的确定。
图31表示物体/搜索区域类别对应信息3101的一例。在图31的示例 中,与搜索物体对应地保存搜索区域类别。在该示例中,表示针对“结婚 蛋糕”的搜索区域类别是“2人前方”。
所确定出的搜索区域类别将在后述的步骤S2704中计算搜索区域时使 用。
然后,搜索区域确定部2502对于确定出的搜索物体计算搜索区域的位 置和尺寸(S2704)。搜索区域的计算例如是通过对从多个人的人区域中确 定出的区域的放大缩小/平行移动来进行的。例如,在利用矩形来表述人区 域的情况下,通过将在搜索区域参数存储部127中存储的搜索区域参数信 息、和利用所选择的人ID的人区域信息而确定的值代入到搜索区域计算公 式中,能够计算出搜索区域。其中,搜索区域计算公式是这样的公式:通过求出多个人的人区域各自的左上坐标的平均值的坐标,并对将所求出的 平均值的坐标作为左上坐标的区域进行放大缩小/平行移动,由此计算出矩 形的搜索区域。
另外,关于该平均值,在下面的示例中是作为单纯平均来进行说明, 但也可以采用根据人区域的尺寸或人ID的重要性等进行了加权的加权平 均。
搜索区域计算公式例如包括计算从2人的人区域各自的左上坐标的中 点向搜索区域的左上坐标的移动量的公式、计算搜索区域的宽度的公式、 计算搜索区域的高度的公式。在设从2人的人区域的左上坐标的中点向搜 索区域的左上坐标的移动量为(dX,dY)、搜索区域的宽度为W、搜索区 域的高度为H时,dX、dY、W和H例如分别能够用如下的算式表示。
dX=α1×w0+α2×Sw×w0 (式9)
dY=β1×h0+β2×Sh×h0 (式10)
W=γ1×w0+γ2×Sw×w0 (式11)
H=δ1×h0+δ2×Sh×h0 (式12)
其中,w0表示2人的人区域的平均宽度,h0表示2人的人区域的平均 高度,它们能够通过从人区域管理信息801中选择包含所选择的人ID的2 行的量的信息而计算出。Sw表示搜索物体的宽度与人区域的宽度之比,Sh 表示搜索物体的高度与人区域的高度之比,是在S2702确定出的值。另外, α1、α2、β1、β2、γ1、γ2、δ1、δ2是根据搜索区域类别而确定的参数。具 体地讲,α1、α2分别表示人区域的宽度和搜索物体的宽度对dX的贡献程 度,β1、β2分别表示人区域的高度和搜索物体的高度对dY的贡献程度, γ1、γ2分别表示人区域的宽度和搜索物体的宽度对搜索区域的宽度的贡献 程度,δ1、δ2分别表示人区域的高度和搜索物体的高度对搜索区域的高度 的贡献程度。例如,通过使用在搜索区域参数存储部127中存储的搜索区 域参数信息3201来选择与搜索区域类别一致的搜索区域参数,能够进行搜 索区域参数的选择。
在本实施方式中,将针对2人的相对搜索区域的类别、和式9~式12 所示的搜索区域计算公式的各个系数对应地存储在搜索区域参数存储部 127中,并作为搜索区域参数信息3201,以便利用上述的方法计算搜索区 域的位置和尺寸。
图32表示搜索区域参数信息3201的示例。在图32的示例中,与搜索 区域类别对应地保存搜索区域计算公式的系数的值。
下面,关于利用矩形来表述人区域/搜索区域时的搜索区域参数,列举 图33、图34的示例进行详细说明。图33表示在搜索物体类别是“2人前 方”时针对两个人区域(实线矩形)的搜索区域(虚线矩形)的示例。该 示例中的搜索区域是指宽度为2×w0+2×Sw×w0、高度为0.2×h0+2× Sh×h0的矩形。其中,2×w0项及0.2×h0项表示由于手等身体部位的存 在范围在宽2×w0、高0.2×h0的范围内变动,而使得搜索区域变动。另外, 2×Sw×w0项及2×Sh×h0项表示搜索区域与物体的尺寸成比例地变动。另外,在图33中,从2人的人区域的左上坐标的中点向搜索区域的左上坐标的移动量为(-0.5×w0-Sw×w0,0.4×h0-Sh×h0)。
将这些搜索区域参数设定为α1=-0.5、α2=-1、β1=0.4、β2=-1、 γ1=2、γ2=2、δ1=0.2、δ2=2(参照图32的第1行的信息),以便使2人的人区域的重心的中心(图中的星记号)与应该计算的搜索区域的重心一致。
图34表示在搜索物体类别是“2人之间”时针对人区域(实线矩形) 的搜索区域(虚线矩形)的示例。该示例中的搜索区域是指最下部的边的中点与点P0一致的、宽度为2×Sw×w0、高度为2×Sh×h0的矩形。在此,在将2人的人区域的最下部的边的中点分别设为点P1、点P2时,点P0是 点P1与点P2的中点。不存在w0、h0的常数倍的项,这意味着搜索区域的尺寸不依赖于人区域的尺寸,搜索区域仅根据物体的尺寸而变动。另外, 在图34中,在最下部的边的中点与点P0一致的条件下,从2人的人区域 的左上坐标的中点向搜索区域的左上坐标的移动量为(0.5×w0-Sw×w0,h0-Sh×h0)。用于设定该搜索区域的搜索区域参数是α1=0.5、α2=-1、 β1=1、β2=-1、γ1=0、γ2=2、δ1=0、δ2=2(参照图32的第2行的信息)。
下面,返回到图27的说明。
搜索区域确定部2502将与在S2704确定出的搜索区域相关的信息、与该搜索物体的搜索物体ID对应地存储在搜索区域管理信息存储部128中,并作为搜索区域管理信息1501。另外,搜索区域管理信息1501例如以与图 15相同的形式被存储在搜索区域管理信息存储部128中。
在S2704的处理之后,搜索区域确定部2502判定是否已对所有的搜索 物体结束了搜索区域的计算(S2705)。在还有应该计算搜索区域的搜索物 体的情况下(S2705:否),返回到S2701的处理。在S2705,在已对所有 的搜索物体结束了搜索区域的计算的情况下(S2705:是),搜索区域确定 部2502结束处理。
以上对实施方式2的图像识别装置的结构及图像识别装置进行的处理 进行了说明,下面说明实施方式2的图像识别装置的动作的具体示例。
<实施方式2的具体示例>
在此,关于图像识别装置2500对图35所示的图像3501确定搜索物体 /搜索区域并进行物体识别的一系列流程,使用图2的流程图和图35进行具 体说明。图35的图像3501是入学仪式的海报被摄入在身穿西装的两名男 子之间的照片。
首先,如图35(a)所示,图像取得部101取得图像3501(S201)。并且,对所取得的图像赋予图像ID21,并在图像管理信息701中进行管理。 将与图像3501相关的信息设为如图7的第2行(被赋予了图像ID21的图 像)那样的信息进行管理。
然后,基准物体检测部102从输入的图像中检测人(S202)。如图35 (b)所示,基准物体检测部102首先进行人脸检测。假设第一个人的人脸 区域的左上坐标为(x,y)=(50,200)、宽48像素、高48像素,第二 个人的人脸区域的左上坐标为(x,y)=(300,180)、宽60像素、高60像素。在这种情况下,与图18相同地,把将在检测出的人脸区域的正下方 排列6个得到的尺寸的长方形和人脸区域合并后的整体区域作为人区域。 即,第一个人的人区域是左上坐标为(x,y)=(50,200)、宽48像素、 高336像素的区域,第二个人的人区域是左上坐标为(x,y)=(300,180)、 宽60像素、高420像素的区域。如图35(c)所示,基准物体检测部102 对检测出的人依次赋予人ID21、22,并与人区域一起存储在人区域管理信 息801中。将与检测出的人相关的信息设为如图8的第2行、第3行(被 赋予了人ID21、22的人)那样的信息进行管理。
然后,属性计算部103计算人的属性(S203)。使用图3的流程图来说 明S203的具体示例。首先,属性计算部103根据人区域管理信息801选择 人ID21(S301)。然后,属性计算部103判定人ID21的服装为西装、性别 为男性(S302、S303)。将其结果即属性“西装/男子”与人ID21对应地存 储在属性管理信息901中。由于没有计算出人ID22的属性,因而属性计算部103在S304判定为否,并返回到S301。然后,在S301,属性计算部103 根据人区域管理信息801选择人ID22。属性计算部103在S302判定人ID22 的服装为西装,在S303判定人ID22的性别为男性。将其结果即属性“西 装/男子”与人ID22对应地存储在属性管理信息901中。在S304,属性计 算部103判定已对所有人结束了属性判定(S304:是),并结束S203的处 理。将通过以上的处理而计算出的与属性相关的信息设为如图9的第2行、 第3行(被赋予了人ID21、人ID22的人)那样的信息进行管理。
然后,如图35(d)所示,搜索物体确定部2501确定搜索物体。使用 图26的流程图来说明具体示例。首先,在S2601,搜索物体确定部2501 根据人区域管理信息801选择人ID21、22及各自的人区域。在S2602,搜 索物体确定部2501根据属性/物体对应信息2801选择与人ID21、22对应的 搜索物体。人ID21、22的人区域的左上坐标的X坐标之差为300-50=250,该值在人ID21、22的人区域的宽度之和(48+60=108)以上。另外,人 ID21、22的属性都是“西装/男性”,因而搜索物体确定部2501选择“入学 仪式海报”作为搜索物体。搜索物体确定部2501对该搜索物体赋予搜索物 体ID21,并与人ID21、22一起存储在搜索物体管理信息2901中。在S2603, 搜索物体确定部2501判定已对所有的人ID的组合结束了搜索物体的选择 (S2603:是),结束搜索物体确定部2501的处理。将通过以上的处理而确 定出的与搜索物体相关的信息设为如图29的示例中第1行(被赋予了搜索 物体ID21的搜索物体)那样的信息进行管理。
然后,如图35(e)所示,搜索区域确定部2502确定搜索区域。使用 图27的流程图来说明具体示例。首先,在S2701,搜索区域确定部2502 根据搜索物体管理信息2901选择“搜索物体ID=21、第一个人的人ID= 21、第二个人的人ID=22、搜索物体=入学仪式的海报”。在S2702,搜索 区域确定部2502参照物体/尺寸对应信息3001,选择花束的宽度与人之比 为Sw=0.5、花束的高度与人之比为Sh=0.1。在S2703,搜索区域确定部 2502参照物体/搜索区域类别对应信息3101,选择“2人之间”作为与“入 学仪式的海报”对应的搜索区域类别。在S2704,计算所确定出的搜索物体 的搜索区域的位置和尺寸。在本实施方式中,使用在人区域管理信息801 中存储的与2人的人区域相关的信息、和在搜索区域参数信息3201中存储 的系数,根据用式9~式12示出的搜索区域计算公式计算出搜索区域的位 置和尺寸。根据搜索区域参数信息3201,选择α1=0.5、α2=-1、β1=1、 β2=-1、γ1=0、γ2=2、δ1=0、δ2=2,作为与搜索区域类别即“2人之 间”对应的搜索区域参数。根据式9、式10、式11、式12和搜索区域参数, 搜索区域计算公式分别表示为下述的式13、式14、式15、式16。
dX=0.5×w0-Sw×w0 (式13)
dY=h0-Sh×h0 (式14)
W=2×Sw×w0 (式15)
H=2×Sh×h0 (式16)
在此,在人区域管理信息801中,人ID21的人区域被存储为左上坐标 (50,200)、宽度48、高度336,人ID22的人区域被存储为左上坐标(300, 180)、宽度60、高度420。因此,人ID21、22的人区域的左上坐标的中点 M为(x0,y0)=(175,190),平均宽度为w0=54,平均高度为h0=378。 由此,根据式13、式14、式15、式16,dX=-54,dY=-189,W=162, H=1134。即,计算出左上坐标是(121,1)、宽度162、高度1134的矩形 区域是搜索区域。将计算出的搜索区域信息与搜索物体ID21对应地在搜索 区域管理信息1501中进行管理。在S2705,判定已对所有搜索物体结束了 搜索区域的计算,搜索区域确定部的处理结束。将通过以上的处理而计算 出的搜索区域信息设为如图15的示例中第4行(被赋予了搜索物体ID21 的搜索物体)那样的信息进行管理。
另外,物体识别部106进行物体识别处理。使用图6的流程图来说明 具体示例。首先,在S601,从搜索物体管理信息2901取得“搜索物体ID =21、搜索物体=入学仪式的海报”。在S602,从搜索区域管理信息1501 确定与搜索物体ID21对应的搜索区域“左上坐标(121,1)、宽度162、高 度1134”,计算所确定出的区域的图像特征量。在S603,使用在S602计算 出的图像特征量,利用SVM判定搜索物体是否位于搜索区域中。将物体识 别结果与搜索物体ID21对应地在物体识别管理信息1601中进行管理。在 S604,判定已对所有搜索物体结束识别处理,物体识别部的处理结束。将 基于以上处理的物体识别结果设为如图16的示例中第4行(被赋予了搜索 物体ID21的搜索物体)那样的信息进行管理。
如上所述,本实施方式的图像识别装置2500根据多个基准物体的属性 确定搜索物体,并与搜索物体相对应地确定相对搜索区域。因此,在多个 人被摄入到图像中的情况下,能够在考虑了多个人的属性和位置关系的搜 索区域中搜索与多个人的属性相关联的物体。例如,在识别入学仪式的海 报(在入学仪式事件中被书写了“入学仪式”的海报)的情况下,在只摄 入了一个人的情况下,入学仪式的海报有可能位于人的左右两方,因而将 人的两侧设定为搜索范围。另一方面,在以距离某种程度的间隔摄入了两 个人的情况下,则2人之间存在与2人的属性相关联的物体的可能性比较 大。因此,将入学仪式的海报的搜索范围设定为2人之间。这样,能够根 据人数和属性/位置关系设定物体识别的搜索区域。
(实施方式3)
在实施方式1中,对根据基准物体的属性信息来选择搜索物体/搜索区 域的方法进行了说明。此外,在能够使用与图像的摄影事件相关的信息的 情况下,能够进一步将搜索物体圈定为在摄影事件中有可能存在的物体。 例如,当在图像中检测出身穿和服的女性的情况下,如果知道该照片是七 五三祝贺事件的照片,则能够将搜索物体圈定为千岁糖或草屐这种与七五 三相关的物体,如果知道该照片是结婚仪式事件的照片,则能够将搜索物体圈定为蛋糕或麦克风这种与结婚仪式相关的物体。
实施方式3的图像识别装置基于这种思路来进行图像识别处理。
<结构>
下面,关于本实施方式3的图像识别装置,参照附图进行说明。
下面说明这样的实施例,即假设基准物体是人,根据人的属性以及图 像的摄影事件限定搜索物体,由此发挥与上述实施方式1不同的效果。
图36表示本实施方式3的图像识别装置3600的功能框图。另外,在 本实施方式中,对与上述实施方式1相同的功能结构标注相同的标号,并 省略其说明。在实施方式3的图像识别装置3600中,摄影事件确定部3601 和搜索物体确定部3602与实施方式1的图像识别装置100不同。下面,对 结构与实施方式1不同的摄影事件确定部3601和搜索物体确定部3602进 行说明。
摄影事件确定部3601根据由图像取得部101取得的图像信息和由属性 计算部103取得的属性信息确定摄影事件。
搜索物体确定部3602根据由基准物体检测部102取得的区域信息、由 属性计算部103取得的属性信息、和由摄影事件确定部3601确定出的摄影 事件管理信息,确定搜索物体。
<动作>
下面,对本实施方式的图像分离装置的整体动作进行说明。图37是表 示本实施方式的图像识别装置的整体动作的一例的流程图。
在此,S201~S203的处理与前述的图2中的S201~S203相同,因而 省略说明。
摄影事件确定部3601根据由图像取得部101取得的图像信息和属性管 理信息901确定事件(S3701)。具体地讲,例如根据图像的摄影时间和在 图像中检测出的人的属性信息确定摄影事件。人的属性信息例如有服装、 性别等。
搜索物体确定部3602根据属性管理信息901和由摄影事件确定部3601 确定出的摄影事件,确定搜索物体(S3702)。
以后的S205~S206的处理与前述的图2中的S205~S206相同,因而 省略说明。
下面,使用图38的流程图来说明图37中的S3701的处理的一例。
首先,摄影事件确定部3601从由图像取得部101取得的图像的图像ID 中选择一个图像ID(S3801)。具体地讲,在如图7所示的图像管理信息中 选择包含某个图像ID的1行的量的信息。
然后,取得图像的摄影时间信息(S3802)。具体地讲,能够将在S3801 从图像管理信息701取得的摄影时间信息作为图像的摄影时间。
然后,取得被摄入到图像中的人的属性(S3803)。具体地讲,在人区 域管理信息801中从包含相应的图像ID的行、取得对包含于图像中的人所 赋予的人ID,在属性管理信息901中从包含相应的人ID的行,取得包含于 图像中的人的属性。
然后,根据在S3802取得的图像的摄影时间信息和在图像中检测出的 人的属性信息,确定摄影事件(S3804)。例如,使用将从图像检测出的人 的属性或摄影时间与摄影事件相对应的事件条件信息,选择在S3802取得 的摄影时间信息和在S3803取得的人的属性信息满足条件的摄影事件,由 此能够进行摄影事件的确定。在此,事件条件信息被存储在事件条件信息 存储部3621中。
图40表示在事件条件信息存储部3621中存储的事件条件信息4001的 一例。在图40的示例中,与摄影事件对应地保存与摄影事件相关的服装、 性别、摄影时间的条件。图40的第1行的示例表示如果属性为婚纱/女性的 人被摄入到图像中,则与摄影时间无关,选择结婚仪式事件。另外,第2 行的示例表示属性为和服/女性的人被摄入到图像中,如果摄影时间是1月, 则选择成人仪式事件。这依据于在日本成人节被设定在1月。另外,第3 行的示例表示属性为和服的人被摄入到图像中,如果摄影时间是11月,则 选择七五三祝贺事件。这依据于7岁、5岁、3岁的儿童参拜神社的事件即 七五三祝贺事件通常在11月进行。
使用如图40所示的事件条件信息,摄影事件确定部3601例如按照事 件条件信息4001的从上到下的行顺序进行事件条件信息4001的检索,直 到发现满足服装/性别的条件的人被摄入、而且摄影时间满足条件的事件, 由此确定摄影事件。
并且,摄影事件确定部3601将确定出的事件作为摄影事件管理信息 4101存储在摄影事件管理信息存储部3622中。
图41表示摄影事件管理信息4101的示例。在图41的示例中,与图像 ID相对应地管理摄影事件。在该示例中表示图像ID31的摄影事件是七五三 祝贺事件。
在S3804的处理之后,摄影事件确定部3601判定是否已在所有图像中 结束了事件的确定(S3805)。在还有未确定事件的图像的情况下(S3805: 否),返回到S3801的处理。在S3805,在对所有人结束了搜索物体的选择 的情况下(S3805:是),结束S3701的处理。
另外,在上述的说明中,关于对一个图像仅确定一个事件的情况进行 了说明,但不限于此。例如,也可以将所确定出的属性和摄影时间满足事 件条件信息4001的条件的所有事件存储在摄影事件管理信息4101中。例 如,当在1月拍摄的图像中检测出属性为“服装=和服、性别=女性”的 人、和属性为“服装=婚纱、性别=女性”的人的情况下,也可以将满足 事件条件信息4001的条件的“结婚仪式”、“成人仪式”这两个摄影事件, 与图像ID对应地存储在摄影事件管理信息4101中。
另外,在上述的说明中,对确定所有属性和摄影时间来进行摄影事件 的确定的情况进行了说明,但不限于此。也可以是,在属性和摄影时间中 确定一部分信息来进行摄影事件的确定。在这种情况下,也可以将确定出 的属性和摄影时间可能满足的所有摄影事件存储在摄影事件管理信息4101 中。例如,当在没有确定摄影时间信息的图像中检测出属性为“服装=和 服、性别=女性”的人的情况下,也可以将满足事件条件信息4001的条件 的“成人仪式”、“七五三祝贺事件”与图像ID对应地存储在摄影事件管理 信息4101中。
另外,在上述的说明中,对使用图像信息和属性信息来确定摄影事件 信息的情况进行了说明,但摄影事件信息的确定方法不限于此。例如,也 可以根据用户的输入来确定摄影事件信息。具体地讲,也可以不由摄影事 件确定部3601来确定摄影事件,而是让用户针对在图像管理信息存储部120 中管理的各个图像输入摄影事件信息,将用户输入的摄影事件信息与图像 ID对应地在摄影事件管理信息存储部3622中进行管理。
下面,使用图39的流程图来说明本实施方式的S3702的处理的一例。
首先,搜索物体确定部3602从在图像中检测出的人的人ID中选择一 个人ID,并取得该人ID的属性(S3901)。具体地讲,在如图9所示的属 性管理信息901中选择包含某个人ID的1行的量的信息。
然后,搜索物体确定部3602取得与所选择的人ID对应的事件信息 (S3902)。具体地讲,通过在人区域管理信息801中取得包含所选择的人ID的行的图像ID,确定拍摄了所选择的人ID的图像的图像ID。并且,在 摄影事件管理信息4101中取得包含确定出的图像ID的行的摄影事件。
然后,搜索物体确定部3602根据与所选择的人ID对应的属性信息和 事件信息确定搜索物体(S3903)。例如,使用在属性/事件/物体对应信息存 储部3623中存储的、表示属性信息/事件信息与搜索物体的对应关系的属性 /事件/物体对应信息4201,选择与所选择的人ID的属性信息一致的搜索物 体,由此能够进行搜索物体的确定。
图42表示属性/事件/物体对应信息4201的示例。在图42的示例中, 与人的服装和性别属性及摄影事件对应地保存搜索物体。图42的第1行的 示例表示对于在结婚仪式事件中身穿西装的男性,将蛋糕/麦克风作为搜索 物体。另外,第4行的示例表示对于在七五三祝贺事件中身穿和服的男性, 将七五三祝贺事件中专用的千岁糖(将细长的棒状的糖装入长袋中的礼品) 等作为搜索物体。
并且,搜索物体确定部3602将确定出的搜索物体与固有的搜索物体ID 对应地存储在搜索物体管理信息存储部124中,并作为搜索物体管理信息 1101。
另外,当在摄影事件管理信息4101中针对一个图像ID存储了多个对 应的摄影事件的情况下,也可以对各个摄影事件确定搜索物体并存储在搜 索物体管理信息1101中。例如,假设在摄影事件管理信息4101中存储了 “结婚仪式”、“七五三祝贺事件”作为与一个图像ID对应的摄影事件。在 这种情况下,关于与服装为和服、性别为女性的人对应的搜索物体,确定 “蛋糕”、“麦克风”作为与“结婚仪式”的摄影事件对应的搜索物体,并 确定“千岁糖”、“草屐”作为与“七五三祝贺事件”的摄影事件对应的搜 索物体。并且,也可以在搜索物体管理信息1101中与该人对应地存储搜索 物体即“蛋糕”、“麦克风”、“千岁糖”、“草屐”。
在S3903的处理之后,判定是否已对包含于图像中的所有人结束了搜 索物体的确定(S3904)。在还有未选择搜索物体的人的情况下(S3904:否), 返回到S3901的处理。当在S3904已对所有人结束了搜索物体的选择的情 况下(S3904:是),结束S3702的处理。
<实施方式3的具体示例>
在此,关于图像识别装置3600对图43所示的图像4301确定搜索物体 (在搜索物体管理信息存储部124中管理搜索物体管理信息1101)的一系 列流程,使用图37的流程图和图43进行具体说明。图43的图像4301是 在2011年11月6日9时20分15秒拍摄的、身穿和服的女孩和身穿和服 且手持千岁糖的男孩并列拍照的照片。
首先,如图43(a)所示,图像取得部101取得图像4301(S201)。并 且,对所取得的图像,赋予图像ID31,并与摄影时间信息一起在图像管理信 息701中进行管理。将与图43所示的图像相关的信息设为如图7的示例中 第3行(被赋予了图像ID31的图像)那样的信息进行管理。
然后,如图43(b)所示,基准物体检测部102从输入的图像中检测人 (S202)。基准物体检测部102首先进行人脸检测。假设第一个人的人脸区 域的左上坐标为(x,y)=(75,50)、宽50像素、高50像素,第二个人 的人脸区域的左上坐标为(x,y)=(150,36)、宽52像素、高52像素。 在这种情况下,如图43(c)所示,与图18相同地,把将在检测出的人脸 区域的正下方排列6个得到的尺寸的长方形和人脸区域合并后的整体区域 作为人区域。即,第一个人的人区域是左上坐标为(x,y)=(75,50)、 宽50像素、高350像素的区域,第二个人的人区域是左上坐标为(x,y) =(150,36)、宽52像素、高364像素的区域。对被检测出的人依次赋予 人ID31、32,并与图像ID31、人区域一起在人区域管理信息801中进行管 理。将与检测出的人相关的信息设为如图8的示例中第4行、第5行(被 赋予了人ID31、32的人)那样的信息进行管理。
然后,属性计算部103计算人的属性(S203)。使用图3的流程图来说 明S203的具体示例。首先,在S301,从人区域管理信息801选择人ID31。 在S302,判定人ID31的服装为和服。在S303,判定人ID31的性别为女性。 将属性即“和服/女性”与人ID31对应地在属性管理信息901中进行管理。 由于没有计算出人ID32的属性,因而属性计算部103在S304判定为否, 并返回到S301。然后,在S301,根据人区域管理信息801选择人ID32。 在S302,判定人ID32的服装为和服。在S303,判定人ID32的性别为男性。 将属性即“和服/男性”与人ID32对应地存储在属性管理信息901中。在 S304,判定已对所有人结束了属性判定(S304:是),S203的处理结束。 将通过以上的处理而计算出的与属性相关的信息设为如图9的示例中第4 行、第5行(被赋予了人ID31、人ID32的人)那样的信息进行管理。
然后,如图43(d)所示,摄影事件确定部3601确定摄影事件(S3701)。 使用图38的流程图来说明具体示例。首先,在S3801,从图像管理信息701 选择图像ID31。在S3802,从在图像管理信息701中进行管理的信息,取 得2011年11月6日9时20分15秒作为摄影时间。在S3803,摄影事件确 定部3601参照人区域管理信息801,选择人ID31、32作为在图像ID31中检测出的人。根据属性管理信息901,确定人ID31的属性为“和服/女性”, 并确定人ID32的属性为“和服/男性”。在S3804,由于在事件条件信息4001 中摄影时间和人ID31的属性满足七五三祝贺事件的条件,因而将事件确定 为七五三祝贺事件。并且,摄影事件确定部3601将七五三祝贺事件信息与 图像ID31对应地存储在摄影事件管理信息4101中。在S3805,摄影事件确 定部3601判定已对所有图像结束了事件判定(S3805:是),结束S3701的 处理。将通过以上的处理而确定出的与摄影事件相关的信息作为如图41的 示例中第1行(被赋予了图像ID31的图像)那样的信息进行管理。
然后,如图43(e)所示,搜索物体确定部3602确定搜索物体(S3702)。 使用图39的流程图来说明具体示例。首先,在S3901,根据在属性管理信 息901中进行管理的信息,选择人ID31的属性“和服/女性”。在S3902, 根据人区域管理信息801确定与人ID31对应的图像ID31,根据摄影事件管 理信息4101确定七五三祝贺事件作为图像ID31的摄影事件。在S3903,搜 索物体确定部3602参照属性/事件/物体对应信息4201,确定“千岁糖、草 屐”作为与人ID31对应的搜索物体。搜索物体确定部3602对这些搜索物 体依次赋予搜索物体ID31、32,并与人ID31一起存储在搜索物体管理信息 1101中。在S3904,由于没有计算出人ID32的属性,因而搜索物体确定部 3602判定为否,并返回到3901。
然后,在S3901,搜索物体确定部3602根据在属性管理信息901中进 行管理的信息,确定人ID32的属性为“和服/男性”。在S3902,根据人区 域管理信息801确定与人ID32对应的图像ID31,根据摄影事件管理信息 4101确定七五三祝贺事件作为摄影事件。在S3903,根据属性/事件/物体对 应信息4201,确定“千岁糖、木屐”作为与人ID32对应的搜索物体。搜索 物体确定部3602对这些搜索物体依次赋予搜索物体ID33、34,并与人ID32 一起存储在搜索物体管理信息1101中。在S3903,由于已结束了有关人的 搜索物体的选择(是),因而结束S3702的处理。将通过以上的处理而确定 出的与搜索物体相关的信息设为如图11的示例中第4行、第5行、第6行、 第7行(被赋予了搜索物体ID31、32、33、34的搜索物体)那样的信息进 行管理。
如上所述,本实施方式的图像识别装置3600根据基准物体的属性以及 摄影事件来确定搜索物体。因此,与仅根据基准物体的属性来确定搜索物 体的情况相比,能够进一步限定搜索物体。
另外,在将于一系列事件中拍摄的多个图像作为输入的情况下,在摄 影事件确定部3601中也可以根据各个图像的摄影时间和在各个图像中检测 出的人的属性,确定一系列图像的摄影事件。具体地讲,例如当在各个图 像中检测出的人的属性中判定出即使是一个特征性属性的情况下,也可以 将一系列图像全部确定为根据该特征性属性而确定的摄影事件。例如,在 于一系列事件中拍摄的多个图像中,如果判定出一个以上的婚纱服装,则可以将拍摄了这多个图像的事件确定为结婚仪式。另外,例如也可以根据 在各个图像中检测出的人的各个属性中被最多地确定的属性,确定摄影事 件。例如,在于一系列事件中拍摄的多个图像中,如果出现最多的服装是 和服、而且多个图像的摄影时间是11月,则可以将这多个图像的事件确定 为七五三祝贺事件。
由此,能够根据被摄入到多个图像中的多个人的属性信息鲁棒性地确 定摄影事件。
(变形例)
以上对实施方式的图像识别装置进行了说明,但实施方式不限于以上 示出的方式,也可以考虑如下所述的变形例。
(1)说明了实施方式1的图像识别装置能够用于将图像分类为在哪种 场景下拍摄的图像的情况。尤其是在逐个地进行图像的物体识别并将其结 果用于场景判定的情况下,也可以根据此前的物体识别结果来圈定对后面 的图像进行的搜索物体。
即,由于认为在一个事件中相同的场景不会出现两次以上(例如,在 结婚仪式的事件中,抛花束的事件不会出现两次),因而对于在此前的处理 中已经在图像中被识别出的物体,在后面的处理中可以将该物体从搜索对 象中去除。
例如,如图44所示,图像识别装置100从图像管理信息存储部120取 得属于相同事件结婚仪式的9个图像(图像1-1~图像4-2)的摄影时间。 另外,假设9个图像根据其摄影时间和图像彼此的摄影时间间隔等被划分 为内容不明的场景1~场景4。
并且,图像识别装置100对于图像1-1~图像4-2依次进行在图37 的流程中说明的处理,对于检测出的物体,参照物体/场景信息4401,确定 该图像所属的场景。
在这一系列的处理中,图像识别装置100从图像1-2中检测出麦克风, 并判定图像1-1~图像1-3的场景是致辞。
于是,图像识别装置100在以后的处理中将麦克风从搜索物体中去除。
在以后的处理中,假设从图像2-2中检测出结婚蛋糕,并判定图像2 -1~图像2-2的场景是切蛋糕。
于是,图像识别装置100在以后的处理中将麦克风/结婚蛋糕/刀子从搜 索物体中去除,并继续进行处理。
另外,除实际检测出的麦克风/结婚蛋糕之外,也将刀子从搜索物体中 去除,这依据于如下的推测:根据物体/场景信息4401,刀子是切蛋糕场景 的特征性物体,因而估计在其它场景3、4中不会再出现。
根据本变形例,对于在一系列事件中拍摄的图像组,在根据与基准物 体的属性相关的物体来判定场景时,能够使用已经判定出的场景信息进一 步限定搜索物体。
(2)在前述的实施方式1中,说明了将比较容易识别的物体(对象) 即人用作基准物体的示例,但是基准物体也可以是除人以外的物体。
例如,也可以将基准物体设为车辆。在本变形例的图像识别装置100 中,基准物体检测部102从图像中检测出车辆。关于车辆的检测方法,也 可以采用尾崎、山内、藤吉著“Joint HOG特徴を用いた2段階AdaBoost による車輌検出”公开的方法。属性计算部103检测对物体赋予特征性意 义的属性。关于属性,例如可以考虑车门的开关或速度。搜索物体确定部 104选择与车辆的属性相关的物体作为搜索物体。
例如,对于车门打开的车辆,选择人作为搜索物体,对于速度为0的 车辆,选择信号设备作为搜索物体。搜索区域确定部105根据搜索物体选 择针对车辆的相对搜索区域类别,根据车辆的区域信息和针对车辆的相对 搜索区域类别计算搜索区域。例如,对于人是搜索物体的情况,选择车辆 的车门的旁边作为针对车辆的相对搜索区域类别,对于信号设备为搜索物 体的情况,选择车辆的上侧作为针对车辆的相对搜索区域类别,然后利用 与各个相对搜索区域类别对应的搜索区域计算公式的系数计算搜索区域。 物体识别部106针对由搜索物体确定部104确定出的搜索物体,在由搜索 区域确定部105确定出的搜索区域中进行物体识别,在物体识别管理信息 存储部129中对物体识别的结果进行管理。
根据本变形例,通过根据车辆的属性限定搜索物体和搜索区域,能够 识别与车辆的属性相关的物体(人或信号设备等)。
图45表示在基准物体是车辆时的属性管理信息4501和物体/搜索区域 类别对应信息4502的示例。
另外,除人、车辆之外,也可以将狗、猫等宠物用作基准物体。
关于该基准物体的要件,只要是相比对象物体能够比较容易识别的物 体(包括人)即可,以便作为识别搜索物体的线索。
在此,所谓基准物体比搜索物体“比较容易识别”,表示在物体识别技 术领域中基本上被认知是能够高精度地识别的物体。当然,根据在采用本 实施方式的方法的图像识别装置中能够实际执行的物体识别方法的种类、 识别处理所允许的处理负荷/处理时间等各种原因,能作为基准物体和搜索 物体的物体有可能变化。另外,根据物体识别技术的未来趋势,也存在这 些能作为基准物体和搜索物体的物体发生变化的可能性。
(3)在上述各个实施方式中说明的图像识别装置例如能够以具有该图 像识别装置的功能的、BD录制器等AV设备、个人电脑和服务器终端等台 式终端、或者数字摄像机或便携电话等移动式终端等的方式来实现。
另外,也能够以将在上述实施方式中说明的方法作为网络服务进行提 供的服务器装置的方式来实现。在这种情况下,也可以是,从存储了内容 的AV设备、个人电脑、数字摄像机等通过网络接收内容,利用在上述实施 方式中说明的方法对接收到的内容进行图像识别处理,将其处理结果通过 网络发送给AV设备、个人电脑、数字摄像机等。
另外,在这种情况下,也可以是,将图像识别装置从外部设备接收到 的内容和在内部存储的内容双方作为对象,利用在上述实施方式中说明的 方法进行图像识别处理。
另外,也可以是,将记述了在上述实施方式中说明的方法的步骤的程 序存储在存储器中,CPU(Central Processing Unit:中央处理单元)等从存 储器读出程序并执行所读出的程序,由此实现上述的方法。
另外,也可以是,将记述了该方法的步骤的程序存储在DVD等记录介 质中进行颁发。另外,也可以是,将记述了该方法的步骤的程序通过因特 网等传输介质进行广泛流通。
涉及上述各个实施方式的各个构成要素也可以实现为集成电路即LSI (LargeScale Integration:大规模集成电路)。这些构成要素可以形成为单片, 也可以形成为包含一部分或者全部的单片。在此是表述为LSI,但根据电路 的集成度的不同,有时也称为IC(Integrated Circuit:集成电路)、系统LSI、 超级(super)LSI、特级(ultra)LSI。并且,集成电路化的方法不限于LSI,也 可以利用专用电路或者通用处理器进行集成电路化。并且,也可以采用在 制作LSI后能够编程的可现场编程门阵列(FPGA:Field Programmable GateArray)、能够重构架LSI内部的电路单元的连接和设定的可配置处理器 (ReconfigurableProcessor)。或者,例如也能够使用DSP(Digital Signal Processor:数字信号处理器)或CPU(Central Processing Unit)等进行运算。 另外,也能够将这些处理步骤作为程序记录在记录介质中并执行程序来进 行处理。
(4)关于被识别出的物体或根据该物体而分类的场景,可以考虑如下 所述的利用形式。
第一,可以附加与识别出的物体对应的装饰项目。
在图46(a)的示例中,根据“婚纱/女性”这种属性信息,从图像4601 中识别出花束。并且,附加与该花束对应的结婚仪式专用的花束的装饰项 目4601a。
例如,通过在图像识别处理装置内预先准备将被识别出的物体和装饰 项目相对应的信息,能够实现这种处理。
另外,关于这种装饰项目,在使用数字静态摄像机等摄影设备进行拍 摄时,也可以考虑在其显示画面上实时地自动附加的例子。
第二,可以考虑在剪裁图像时利用被识别出的物体进行修剪。
在图46(b)的示例中,属性信息为“西装/男性”的人和“婚纱/女性” 的人被摄入到图像4602中。并且,从2人前方识别出结婚蛋糕。在这种情 况下,在图像识别处理中,生成以收入这2人和结婚蛋糕的方式而修剪出 的图像4603。这样,也可以进行收入属性特殊的人物或被识别出的物体的 修剪。
第三,能够在构成布局时使用。
在图46(c)的示例中,假设通过物体识别处理从第1页的页框4604 的图像4604a中识别出结婚蛋糕,通过物体识别处理从第2页的页框4605 的图像4605a中识别出花束。根据该识别结果,图像识别装置的场景判定 部判定图像4604a、4605a分别是切蛋糕场景、抛花束场景。另外,图像4605b、 4605c例如是摄影时间与图像4605a接近的图像。
这样,在生成相册或幻灯片时能够利用根据物体识别处理的结果而判 定出的场景,能够实现与场景的推移对应的布局结构。
(5)也可以考虑使设备和云服务器协作来实现在各个实施方式中说明 的构成要素的结构。
例如,在图47(a)(b)的示例中,从设备4701向云服务器4702上传 图像。在云服务器4702侧,对所上传的图像进行如在图2中说明的一系列 处理,将识别结果通知设备4701。
根据这种结构,通过在云服务器4702侧承担负荷特别大的处理,能够 实现处理的分散化和高速化。并且,如图47(a)所示,通过适当更新云服 务器4702的搜索物体DB4702a和分类模型4702b的数据,能够有望增加能 够识别的物体的对象数量和提高识别精度。
另外,也可以构成为,由设备4701进行比较轻负荷的处理(例如图2 的S202的人检测处理),将图像及其处理结果从设备4701上传到云服务器 4702侧。
另外,也可以如图47(b)所示,由设备4701进行基准物体检测处理 (图2:S202),将其处理结果从设备4701发送给云服务器4702。这种结 构在想要避免在云服务器中的基准物体检测处理时比较有用。
另外,也可以如图47(c)所示,由设备4701进行属性计算处理(图 2:S203),将其处理结果从设备4701发送给云服务器4702,从云服务器 4702向设备4701发送用于确定有可能与其属性共存的物体的信息(例如, 针对属性“婚纱/女性”的花束)和该物体的模型(例如花束的模型)。根据 这种结构,不需要在设备4701侧保存多种多样的每个物体的物体模型,因 而能够避免因物体模型的容量而引发的对设备的存储器容量的压迫。
(6)在图24(g)中说明了物体识别处理的结果为存在(是)和不存 在(否)中任意一方,但也可以根据表示与模型的一致程度的似然度分阶 段地变更显示。
例如,在似然度不怎么高的情况下,显示如图48所示的消息“有花束 吗?”。
对于如花束那样物体识别精度较低的物体,通过进行这种模糊的显示, 能够将其精度的不确定性通知用户,有望提高用户的使用便利性。
(7)在由搜索区域确定部105确定搜索区域时,也可以考虑与搜索物 体对应的景深范围来进行确定。
图49是表示本变形例的确定搜索区域的处理的一例的流程图。
标注了与图5相同的步骤号码的S501~S505与在实施方式1中说明的 处理相同。
下面,使用基准物体为人、搜索物体为结婚蛋糕的示例来说明S4901、 S4902。
搜索区域确定部105参照属性管理信息4903,取得与基准物体为“人”、 搜索物体为“结婚蛋糕”对应的景深范围1m~0m(S4901)。另外,图49 例示的景深范围是将焦距设为基准的0m、将该部分的近前方设为加、将该 部分的里侧设为减。
在进行取得后,搜索区域确定部105参照由搜索区域管理信息存储部 128存储的搜索区域管理信息1501,取得在S504计算出的“结婚蛋糕”的 搜索区域的坐标值、宽度、高度。并且,搜索区域确定部105计算从所取 得的搜索区域中去除景深范围0m~1m的范围外部后的修正后的搜索区域, 将计算出的搜索区域的坐标值、宽度、高度覆盖搜索区域管理信息1501 (S4902)。
在图50的示例中,图像5001是在两名男女的前方摄入了结婚蛋糕。 在该示例中,通过S504而计算出的搜索区域中、摄入了男性左侧的里侧区 域的部分的景深范围是减,因而搜索区域确定部105计算将该部分去除后 的区域作为修正后的搜索区域。
另外,关于确定图像的景深的方法,例如在使用对于每个像素嵌入了 景深信息的图像的情况下,能够直接利用该嵌入的景深信息。如果是利用 多镜筒摄像机拍摄的图像,则这种景深信息的嵌入容易实现。另外,即使 是没有这种嵌入的图像,搜索区域确定部105也可以利用像素信息或包含 于Exif信息中的距被摄体的焦距等,根据图像预先估计景深图。
另外,关于属性管理信息4903,也可以省略“相对搜索区域类别”的 列。
(8)在实施方式1中说明了在确定搜索区域时考虑移动量(dX,dY)、 和与人的宽度/高度的尺寸比,但不限于此。
例如,移动量(dX,dY)表示移动的方向和尺寸双方,但也可以只规 定移动的方向。具体地讲,也可以是,在诸如拍摄了面向正面的许多人的 集体照片的图像中,将人们面向的方向设为移动的方向,将人区域的下侧 确定为搜索区域。并且,在人被摄入到图像的左半侧的图像中,也可以将 从该人的区域向右移动后的区域设为搜索区域。
(9)在实施方式1、2中说明了如图24、图35所示使与人区域相关的 左上坐标移动,然后计算具有以移动目的地的坐标为起点的高度和宽度的 搜索区域,但坐标点的移动不是必须的。
例如,在图23的示例中,也可以在先求出人区域的重心(图23的星 记号)后,计算具有以该重心为中心的高度和宽度的搜索区域。
另外,在图33的示例中,也可以在先求出2人的人区域的重心(图33 的星记号)后,计算具有以该重心为中心的高度和宽度的搜索区域。
(10)在实施方式1中,为了便于在说明中使用搜索物体的名称,在 图10~图13、图17、图28~图31等的各个信息中包含搜索物体的名称, 但也可以将这些名称全部置换为搜索物体的识别符(ID)。并且,也可以是, 在置换之后,另外准备将搜索物体的识别符和搜索物体的名称相对应的表, 在对用户显示识别结果时参照该表来显示搜索物体的名称。
(补充)
以上叙述的实施方式及其变形例包括如下的方式。
(1)实施方式的图像识别装置具有:第1识别单元,从图像中识别第 1物体;计算单元,计算表示被识别出的第1物体的属性的属性信息;物体 确定单元,参照将表示第2物体的识别符与每个属性信息相对应的物体对 应信息,确定与计算出的属性信息对应的表示第2物体的识别符;区域确 定单元,参照将根据第1区域来确定第2区域时使用的值与每个表示第2 物体的识别符相对应的区域值信息,使用与所确定出的识别符对应的值来 确定第2区域,所述第1区域是所述第1物体占据的区域;以及第2识别 单元,将所确定出的第2区域作为对象,识别与所述确定出的识别符对应 的第2物体。
(2)在(1)中也可以是,所述用于确定第2区域的值是表示第2区 域相对于所述第1区域的相对位置关系的值。
(3)在(2)中也可以是,所述表示相对位置关系的值包括从基于所 述第1区域的点向应该确定的第2区域内的点移动的方向的值及其尺寸的 值,所述区域确定单元参照所述区域值信息,根据与所述确定出的识别符 对应的移动的方向的值及其尺寸的值,使基于被识别出的第1物体占据的 第1区域的点移动,将包括移动目的地的点的区域确定为所述第2区域。
(4)在(3)中也可以是,所述表示相对位置关系的值包括应该确定 的第2区域的宽度及高度分别与所述第1区域的宽度及高度之比的值,所 述区域确定单元参照所述区域值信息,根据与所述确定出的识别符对应的 宽度及高度的各个比,求出应该确定的第2区域的宽度及高度,将包括所 述移动目的地的点而且具有所求出的宽度和高度的区域确定为所述第2区 域。
(5)在(1)中也可以是,所述第1识别单元识别多个第1物体,所 述计算单元对被识别出的多个第1物体的每一个分别计算各自的属性信息, 所述物体对应信息将多个属性信息的组合和表示第2物体的识别符相对应, 所述物体确定单元参照所述物体对应信息,根据计算出的多个属性信息来 确定表示所述第2物体的识别符。
(6)在(5)中也可以是,所述物体对应信息中的所述组合包括与被 识别出的多个第1物体分别占据的第1区域彼此的间隔相关的尺寸的项目, 所述物体确定单元参照所述物体对应信息,根据计算出的多个属性信息、 和被识别出的多个第1物体各自占据的第1区域彼此的间隔的尺寸,确定 表示所述第2物体的识别符。
(7)在(5)中也可以是,所述区域值信息包括如下的值来作为在确 定所述第2区域时使用的值:在所述第1区域彼此的间隔为第1值以上的 情况下,表示应该将不与所述各个第1区域重合的所述第1区域彼此之间 的区域确定为第2区域的值;以及在所述第1区域彼此的间隔为小于所述 第1值的第2值以下的情况下,表示应该将与所述图像内的所述第1区域 部分重合的区域确定为第2区域的值。
(8)在(1)中也可以是,所述物体对应信息是使表示第2物体的识 别符与所述属性信息和事件的每种组合相对应的信息,所述图像识别装置 还具有确定被拍摄了所述图像的事件的摄影事件确定单元,所述物体确定 单元参照所述物体对应信息,根据所述计算出的属性信息以及所述确定出 的事件,确定表示所述第2物体的识别符。
根据这种结构,能够根据被拍摄了图像的事件来确定表示第2物体的 识别符,能够实现恰当的确定。
(9)在(1)中也可以是,所述图像识别装置具有:摄影事件确定单 元,确定被拍摄了所述图像的事件;以及场景判定单元,参照使第2物体 的识别符与每个构成事件的场景相对应的场景信息,根据与由所述第2识 别单元识别出的第2物体对应的识别符,判定作为识别对象的图像的场景。
根据这种结构,能够将场景的判定结果用于例如图像的分类。
(10)在(9)中也可以是,针对由所述摄影事件确定单元确定出的事 件信息分别表示同一事件的多个图像,在由所述各个单元逐次对每个图像 进行处理的情况下,当所述第2识别单元在所述多个图像内的一个图像中 识别出一个第2物体后,在以后所述物体确定单元对所述多个图像内的其 它图像进行所述确定时,参照所述场景信息,将与和该识别出的第2物体 的识别符的场景相同的场景所对应的第2物体的识别符相对应的第2物体, 从该确定的对象中去除。
根据这种结构,通过从确定的对象中去除,能够有助于将在以后的处 理中进一步限定的合适物体确定为第2物体。
(11)实施方式的图像识别方法包括:第1识别步骤,从图像中识别 第1物体;计算步骤,计算表示被识别出的第1物体的属性的属性信息; 物体确定步骤,参照将表示第2物体的识别符与每个属性信息相对应的物 体对应信息,确定与计算出的属性信息对应的表示第2物体的识别符;区 域确定步骤,参照将根据第1区域来确定第2区域时使用的值与每个表示 第2物体的识别符相对应的区域值信息,使用与所确定出的识别符对应的 值来确定第2区域,所述第1区域是所述第1物体占据的区域;以及第2 识别步骤,将所确定出的第2区域作为对象,识别与所述确定出的识别符 对应的第2物体。
(12)实施方式的程序是使计算机执行图像识别处理的程序,所述图 像识别处理包括:第1识别步骤,从图像中识别第1物体;计算步骤,计 算表示被识别出的第1物体的属性的属性信息;物体确定步骤,参照将表 示第2物体的识别符与每个属性信息相对应的物体对应信息,确定与计算 出的属性信息对应的表示第2物体的识别符;区域确定步骤,参照将根据 第1区域来确定第2区域时使用的值与每个表示第2物体的识别符相对应 的区域值信息,使用与所确定出的识别符对应的值来确定第2区域,所述 第1区域是所述第1物体占据的区域;以及第2识别步骤,将所确定出的 第2区域作为对象,识别与所述确定出的识别符对应的第2物体。
(13)实施方式的集成电路具有:第1识别单元,从图像中识别第1 物体;计算单元,计算表示被识别出的第1物体的属性的属性信息;物体 确定单元,参照将表示第2物体的识别符与每个属性信息相对应的物体对 应信息,确定与计算出的属性信息对应的表示第2物体的识别符;区域确 定单元,参照将根据第1区域来确定第2区域时使用的值与每个表示第2 物体的识别符相对应的区域值信息,使用与所确定出的识别符对应的值来 确定第2区域,所述第1区域是所述第1物体占据的区域;以及第2识别 单元,将所确定出的第2区域作为对象,识别与所述确定出的识别符对应 的第2物体。
产业上的可利用性
本发明的图像识别装置能够适用于数字静态摄像机、带摄像机便携电 话、或电影摄像机等蓄积静止图像或者动态图像的摄像装置、以及PC (Personal Computer:个人电脑)等。
标号说明
100、2500、3600图像识别装置;101图像取得部;102基准物体检测 部(第1物体识别部);103属性计算部;104、2501、3602搜索物体确定 部;105、2502搜索区域确定部;106物体识别部(第2物体识别部);110 图像蓄积装置;120图像管理信息存储部;121基准物体区域管理信息存储 部;122属性管理信息存储部;123属性/物体对应信息存储部;124搜索物体管理信息存储部;125物体/尺寸对应信息存储部;126物体/搜索区域类 别对应信息存储部;126a区域值信息存储部;127搜索区域参数存储部; 128搜索区域管理信息存储部;129物体识别管理信息存储部;130物体/搜 索区域参数存储部;701图像管理信息;801人区域管理信息;901属性管 理信息;1001、2801属性/物体对应信息;1101、2901搜索物体管理信息; 1201、3001物体/尺寸对应信息;1301、3101物体/搜索区域类别对应信息; 1401、3201搜索区域参数信息;1501搜索区域管理信息;1601物体识别管 理信息;1701物体/搜索区域参数信息(区域值信息);2401、3501、4301 图像;3601摄影事件确定部;3621事件条件信息存储部;3622摄影事件管 理信息存储部;3623属性/事件/物体对应信息存储部;4001事件条件信息; 4101摄影事件管理信息;4201属性/事件/物体对应信息;4401物体/场景信 息。