CN103748870B

CN103748870B - 动态图像检索装置、动态图像检索方法

Info

Publication number: CN103748870B
Application number: CN201280040285.0A
Authority: CN
Inventors: 平野广美; 三条正裕; 川手裕太; 冈部诚; 尾内理纪夫
Original assignee: Rakuten Inc
Current assignee: Lotte Group Co.,Ltd.
Priority date: 2012-01-20
Filing date: 2012-10-12
Publication date: 2016-12-07
Anticipated expiration: 2032-10-12
Also published as: TW201333734A; US9076036B2; EP2733931B1; TWI514172B; JP2013150218A; CN103748870A; ES2618075T3; US20140205148A1; WO2013108448A1; EP2733931A1; EP2733931A4; JP5248685B1

Abstract

提供用户能够容易地指定在动态图像内应出现的物体的位置和朝向等而进行动态图像检索的动态图像检索装置等。在动态图像检索装置（501）中，受理部（502）受理静止图像、静止图像内的两个参照位置以及动态图像帧内的两个目标位置的输入。提取部（503）从静止图像提取包含两个参照位置的参照图像。检索部（504）从动态图像中包含的帧图像检索描绘有与参照图像相似的局部图像的相似帧图像，在局部图像内，跟踪在与两个参照位置对应的开始位置上描绘的两个关注像素的、在动态图像中从相似帧图像起使时间前进或者后退时的两个移动轨迹，检索两个移动轨迹到达两个目标位置附近的目标帧图像，将包含相似帧图像和目标帧图像的动态图像作为检索结果。

Description

动态图像检索装置、动态图像检索方法

技术领域

本发明涉及动态图像检索装置、动态图像检索方法、记录介质以及程序，对于在动态图像内应出现的物体，用户能够容易地指定其位置、朝向以及其运动，从而进行动态图像检索。

背景技术

以往，作为识别在静止图像中描绘的物体和其特征点的技术，提出了在非专利文献1中公开的SIFT（Scale Invariant Feature Transformation：尺度不变特征变换法）和在非专利文献2中公开的HOG（Histograms of Oriented Gradients：梯度方向直方图）等。如果应用这些技术，则即便在物体进行了旋转或者放大率不同或者亮度不同的情况下，也能够容易地判定在两个静止图像中描绘的物体的外观是否相似。此外，通过在使表示所描绘的物体的物体图像翻转后应用上述技术，即便在描绘了物体的镜像的情况下，也能够判断为图像相似。

另一方面，作为跟踪动态图像内的物体的运动的技术，在非专利文献3、4中提出了Particle Video（粒子视频）。如果应用该技术，则能够取得现实世界中的物体的表面的某个部位在动态图像中包含的各帧图像中被描绘于哪个位置，能够得到该描绘位置的移动轨迹。即，根据本技术，能够得到表示某帧图像中的某像素由于时间的前进或者后退而如何移动的轨迹。

此外，在专利文献1中提出了检索与用户指定的动态图像相似的其他的动态图像的技术。

现有技术文献

专利文献

专利文献1：日本特开2001-134589号公报

非专利文献

非专利文献1：D.G.Lowe,Object Recognition from Local Scale-InvariantFeatures, Proceedings of IEEE International Conference on ComputerVision,pp.1150-1157,1999年

非专利文献2：N.Dalal and B.Triggs,Histograms of Oriented Gradients forHuman Detection,Proceedings of IEEE Computer Society Conferenceon ComputerVision and Pattern Recognition,pp.886-893,2005年

非专利文献3：Peter Sand and Seth Teller,Particle Video:Long-RangeMotion Estimation using Point Trajectories,International Journal of ComputerVision,vol.80，no.1，pp.72-91,Springer,2008年

非专利文献4：Dan B.Goldman，Chris Gonterman，Brian Curless,David Salesinand Steven M.Seitz,Video Object Annotation，Navigation，and Composition,UIST2008,Proc.ACM symposium on User Interface Software and Technology,pp.3-12,ACM978-1-59593-975-3/08/10,http://www.danbgoldman.com/uw/papers/ivoa.uist08.pdf,2008年

发明内容

发明要解决的问题

然而，用户想要在进行动态图像检索时能够容易地指定在动态图像内描绘的物体的外观、位置、朝向等的信息这样的的需求依然很大。

特别存在如下需求：在已经准备了描绘有期望的物体的静止图像的情况下，想要能够使用该静止图像来容易地指定该物体在动态图像内出现时的位置和朝向。

此时，如下需要也很迫切：即便是出现了与描绘于静止图像的物体的朝向不同的位置、朝向且在不同的摄影方向摄影的物体的动态图像，也想要得到该动态图像作为检索结果。

本发明解决上述那样的课题，其目的在于，提供一种对于在动态图像内应出现的物体，用户能够容易地指定其位置、朝向以及其运动，从而进行动态图像检索的动态图像检索装置、动态图像检索方法、记录介质以及程序。

用于解决问题的手段

本发明的第1观点的动态图像检索装置构成为具有：

受理部，其受理描绘了参照物体的静止图像、该静止图像内的描绘了该参照物体的参照区域内所包含的第1参照位置和第2参照位置以及动态图像所包含的帧图像内的第1目标位置和第2目标位置的输入；

提取部，其根据所述第1参照位置和所述第2参照位置，提取在所述参照区域内描绘的参照图像；以及

检索部，其从多个动态图像中，检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于该动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像中所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像，将包含该检索到的相似帧图像和该检索到的目标帧图像的动态图像作为检索结果。

此外，在本发明的动态图像检索装置中能够构成为，

所述受理部还受理在所述动态图像中包含的帧图像内的目标轨迹的输入，

所述检索部针对所述检索到的各个动态图像，从该动态图像中包含的目标帧图像起，在时间的前进方向上对该检索到的动态图像中包含的帧图像进行扫描，由此跟踪在该检索到的目标帧图像中描绘的局部图像的代表像素移动的代表轨迹，将所述目标轨迹和所述代表轨迹相似的动态图像作为所述检索结果。

此外，在本发明的动态图像检索装置中能够构成为，

所述检索部针对所述检索到的各个动态图像，从该动态图像中包含的目标帧图像起，在时间的前进方向上对该检索到的动态图像中包含的帧图像进行扫描，由此跟踪在该检索到的目标帧图像中描绘的局部图像的代表像素移动的代表轨迹，将该动态图像的代表轨迹与该动态图像一起作为所述检索结果。

此外，本发明的动态图像检索装置中能够构成为，

所述提取部取得所述参照图像的图像特征量，

所述检索部检索具有与所述参照图像的所述图像特征量相似的图像特征量的帧图像，由此检索所述相似帧图像。

此外，在本发明的动态图像检索装置中能够构成为，

所述提取部还取得将所述参照图像翻转后得到的镜图像的图像特征量，

所述检索部检索与所述参照图像的所述图像特征量或者所述镜图像的所述图像特征量相似的帧图像，由此检索所述相似帧图像。

本发明的第2观点的动态图像检索方法构成为具有：

受理步骤，受理描绘了参照物体的静止图像、该静止图像内的描绘了该参照物体的参照区域内包含的第1参照位置和第2参照位置以及动态图像中应包含的帧图像内的第1目标位置和第2目标位置的输入；

提取步骤，根据所述第1参照位置和所述第2参照位置，提取在所述参照区域内描绘的参照图像；以及

检索步骤，从多个动态图像中，检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于该动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像中所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像，将包含该检索到的相似帧图像和该检索到的目标帧图像的动态图像作为检索结果。

本发明的第3的观点的计算机可读取的记录介质，其构成为记录有使计算机作为以下单元进行工作的程序：

受理部，其受理描绘了参照物体的静止图像、该静止图像内的描绘了该参照物体的参照区域内包含的第1参照位置和第2参照位置以及动态图像中应包含的帧图像内的第1目标位置和第2目标位置的输入；

本发明的第4的观点的程序，其使计算机作为以下单元进行工作：

检索部，其从多个动态图像中，检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于该动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像中所包含的帧图像进行扫描，由此跟踪在该检索到的相似帧图像中描绘于所述第1开始位置的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像，将包含该检索到的相似帧图像和该检索到的目标帧图像的动态图像作为检索结果。

本发明的程序能够记录在光盘、软盘、硬盘、磁光盘、数字化视频光盘、磁带、半导体存储器等计算机可读取的非暂时性的（non-transitory）记录介质中。此外，这些记录介质能够独立于计算机进行发布/销售。

此外，本发明的程序能够构成为，从上述那样的记录介质下载到RAM（RandomAccess Memory：随机访问存储器）等计算机可以读写的记录介质，被暂时性地（temporary）记录，在此基础上CPU（Central Processing Unit：中央处理单元）读出在该RAM等中记录的程序并进行解释、执行。

此外，本发明的程序能够独立于执行程序的计算机，经由计算机通信网等暂时的（transitory）传输介质进行发布/销售。

发明的效果

根据本发明，能够提供一种对于在动态图像内应出现的物体，用户能够容易地指定其位置、朝向以及其运动，从而进行动态图像检索的动态图像检索装置、动态图像检索方法、记录介质以及程序。

附图说明

图1A是示出描绘了参照物体的静止图像的例子的说明图。

图1B是示出静止图像内的参照区域的样子的说明图。

图1C是示出参照图像的样子的说明图。

图2A是示出在包含于动态图像的帧图像内目标物体应被配置的位置和朝向的例子的说明图。

图2B是示出帧图像内的局部区域的样子的说明图。

图2C是示出局部图像的样子的说明图。

图3是表示用户指定参照图像与目标图像之间的对应关系的样子的说明图。

图4是表示用户指定参照图像与目标图像之间的对应关系的样子的说明图。

图5是示出本发明的实施例的动态图像检索装置的概要结构的说明图。

图6是示出本发明的实施例的动态图像检索装置执行的动态图像检索处理的控制的流程的流程图。

图7是示出通过用户的指定得到的参照图像的样子的说明图。

图8是示出包含具有与参照图像相似的局部图像的帧图像的动态图像的例的说明图。

图9是示出参照图像与相似帧图像之间的对应关系的说明图。

图10是示出动态图像中的像素的移动的样子的说明图。

图11是表示动态图像中的像素的移动轨迹的说明图。

图12是示出参照位置的相对位置关系和目标位置的相对位置关系的说明的说明图。

图13是示出参照位置的相对位置关系和目标位置的相对位置关系的说明的说明图。

图14A是表示代表轨迹的样子的说明图。

图14B是表示概要图像的样子的说明图。

图15是示出用户指定目标轨迹的样子的说明图。

图16是示出在动态图像检索处理中追加的处理的内容的流程图。

具体实施方式

以下说明本发明的实施方式。另外，本实施方式用于进行说明，不限制本申请发明的范围。因此，如果是本领域技术人员，可以采用将这些各个要素或者全部要素置换成等价的要素后的实施方式，这些实施方式也包含于本发明的范围。

实施例1

本发明的动态图像检索装置能够通过在服务器用计算机或个人计算机等各种计算机中执行预定的程序而实现。

在此，计算机是硬件，其通过CPU执行程序而将RAM作为暂时的存储区域或处理结果的输出目的地进行利用，通过键盘或鼠标等输入装置受理来自用户的指示，或者向显示器等输出装置输出处理结果，或者通过经由NIC（Network Interface Card）与其他设备进行通信来进行上述的输入输出，输入输出用的设备也可以适当省略。

在计算机的硬盘等中除了CPU执行的程序以外，还记录蓄积了表现作为CPU的处理对象的各种信息的记录的数据库。CPU进行从数据库检索与检索查询一致的记录，或者向数据库追加新记录等处理。

在本实施方式中，在数据库中除了登记有大量的动态图像以外，还登记有将包含于动态图像中的各个帧图像作为静止图像考虑的情况下的局部信息量。

此外，经由专用的连接线或通信线路、互联网等计算机通信网连接的多个计算机通过并行地、分布式地、并发地执行上述的处理，也可以实现本发明的动态图像检索装置的处理的高速化。

此外，通过应用FPGA（Field Programmable Gate Array：现场可编程门阵列）等技术根据程序生成电子电路的设计，根据该设计构成专用的电子电路，由此也可以实现本发明的动态图像检索装置。

（动态图像检索的方法）

在本实施方式中，用户与静止图像一起指定各种信息，由此指定想要得到怎样的动态图像。以下，首先概述这些信息的指定方法。

在本实施方式中，用户指定期望的物体的画面框内的期望位置以及期望朝向。然后，动态图像检索装置检索在期望位置出现与期望朝向的物体（以下称作“参照物体”。）相似的物体（以下称作“目标物体”。）的动态图像。

如果与文件检索对比进行考虑，则参照物体相当于作为检索关键字的字符串，目标物体相当于进行了检索的结果得到的在文件中出现的字符串。

在文件检索中，除了能够检索出现与检索关键字完全一致的字符串的文件以外，还有能够检索出现与检索关键字相似（存在措辞差异或同义词等各种方式。）的字符串的文件。即，检索关键字与检索结果的字符串中出现的字符串未必一致。

同样地，在本实施方式中，用户指定描绘于静止图像中的参照物体、期望位置以及期望朝向作为检索关键字。

于是，动态图像检索装置检索与参照物体相似的目标物体以期望位置和期望朝向出现的动态图像。

为了容易理解，下面采用汽车作为物体的例进行说明。

首先，用户例如利用图像检索引擎等，得到描绘有相当于检索关键字的参照物体的一张静止图像。

图1A是示出描绘了参照物体的静止图像的例子的说明图。以下，参照本图进行说明。

如本图所示，在静止图像101内描绘有作为参照物体的汽车102。在本图中，汽车102在画面中央横向朝左地描绘。即，静止图像101是通过从汽车102的驾驶员看来配置在正左方的照相机对汽车102进行摄影而得到的。

以下，为了容易理解，将在静止图像中描绘有参照物体的区域称作参照区域，将在该参照区域中描绘的图像称作参照图像。

图1B是示出静止图像101内的参照区域的样子的说明图，图1C是示出参照图像的样子的说明图。以下，参照这些图进行说明。

在图1B中，在静止图像101的全区域121内图示有由虚线围住的参照区域122。全区域121相当于静止图像101整体，参照区域122相当于在静止图像101内描绘了汽车102（参照物体）的区域。

在图1C中，图示了从静止图像101内仅切出了汽车102（参照物体）的外观而得到的参照图像123。在本实施方式中，是检索出现与由参照图像123表现的参照物体相似的目标物体的动态图像。

接下来，如上所述，用户指定期望位置和期望朝向作为检索关键字。以下，说明用户指定画面框右上作为期望位置、左斜下朝向作为期望朝向的例子。

在该例中，考虑用户想要得到与参照物体相似的目标物体在画面框右上以左斜下朝向出现的动态图像作为检索结果。

图2A是示出在动态图像中包含的帧图像内目标物体应配置的位置和朝向的例子的说明图。以下，参照本图进行说明。

在本图所示的例中，在用户要想检索的帧图像201内描绘有与该汽车102相似的汽车202（也可以与汽车102相同。）作为目标物体。

即，在本实施方式中，包含出现与描绘于静止图像101的参照物体（汽车102）相似的目标物体（汽车202）的帧图像201的动态图像被作为检索结果的候选。

在此，在帧图像201内，汽车202在画面框右上以左斜下朝向出现。即，期望的动态图像是包含用在从汽车202的驾驶员看来配置在左斜前方的照相机对汽车202摄影的瞬间的动态图像。

以下，为了容易理解，将在帧图像中描绘有目标物体的区域称作局部区域，将在该局部区域中描绘的图像称作局部图像。

图2B是示出帧图像201内的局部区域的样子的说明图，图2C是示出局部图像的样子的说明图。以下，参照这些图进行说明。

在图2B中，在帧图像201的全区域221内图示了由虚线围住的目标区域222。全区域221相当于帧图像201整体，目标区域222相当于在帧图像201内描绘有汽车202（目标物体）的区域。

在图2C中，图示了从帧图像201内仅将汽车202（目标物体）的外观切出而得到的目标图像223。

在本实施方式中，检索由参照图像123表现的参照物体与由目标图像223表现的目标物体相似的动态图像。

然而，由于静止图像101是从汽车102横向左侧摄影的图像，因此即便对参照图像123实施包含旋转、翻转、平行移动、放大缩小、错切等的仿射变换，也无法得到与目标图像223相似的构图。

这是因为，在本例中，在静止图像101中基本看不到汽车102的正面，与此相对，在帧图像201中能够清楚地看到汽车202的正面。

一般而言，如果利用图像检索技术，得到出现用户希望的参照物体的静止图像并非不可能。

然而，基本不会出现在该静止图像中参照物体被描绘的位置和朝向、参照物体的摄影方向和角度直接与在动态图像中包含的帧图像中目标物体被描绘的位置和朝向、目标物体的摄影方向和角度一致的情况。

因此，在本实施方式中，由用户指定静止图像101中的参照图像与帧图像201中的目标图像之间的对应关系。

图3、图4是表示用户指定参照图像与目标图像之间的对应关系的样子的说明图。以下参照这些图进行说明。

在这些图所示的例中，在画面301内显示有静止图像101和动态图像帧331，该动态图像帧331表示应重现包含帧图像201的动态图像的区域。

另外，在图3所示的例中，对静止图像101进行缩放并配置成能够收纳于动态图像帧331的中央，在图4所示的例中，静止图像101配置成与动态图像帧331隔开距离。

这是因为，一般而言，在静止图像101和动态图像帧331中，纵横比不同。

在此，用户进行了如下指示：

（a）从静止图像101内描绘汽车102的前端的参照位置311向动态图像帧331内应描绘汽车202的前端的目标位置351引箭头371，以及

（b）从静止图像101内描绘汽车102的后端的参照位置312向动态图像帧331内应描绘汽车202的后端的目标位置352引箭头372。

这样的指示例如通过使用鼠标的拖放操作或者对触摸屏或触摸面板的滑动操作（用手指接触表面，保持触摸状态使手指移动后，移开手指的操作）来进行。

在本实施方式中，用户通过在静止图像中指定描绘了作为参照物体（汽车102）的记号的部位（前端和后端）的参照位置311、312，来选择该部位（前端和后端）。

此外，用户指定目标物体（汽车202）的对应的部位（前端和后端）在动态图像帧331内应被描绘的目标位置351、352。

另外，在这些图所示的例中，动态图像帧331的纵横比为9比16，大小与作为检索对象的动态图像的大小一致。因此，利用用户在动态图像帧331内指定的目标位置351、352作为直接表示作为目标物体202的汽车202应出现的位置和朝向的位置。

另一方面，对于具有不同的纵横比的动态图像或纵横的像素数不同的动态图像，将9比16的动态图像帧331在纵横上拉伸或收缩而使得与该动态图像的纵横一致。即，作为纵横比或纵横像素数不同的动态图像中的目标位置，不使用在动态图像帧331内用户直接指定的目标位置351、352，而使用这些目标位置在上述的伸缩中移动后的目的地作为目标位置即可。

在本实施方式中，通过这样简单的操作指定在动态图像中包含的帧图像中目标物体应以怎样的位置和朝向出现，由此可以进行动态图像的检索。以下，对动态图像的检索技术详细地进行说明。

（动态图像检索装置）

图5是示出本发明的实施例的动态图像检索装置的概要结构的说明图。图6是示出本发明的实施例的动态图像检索装置执行的动态图像检索处理的控制流程的流程图。以下，参照这些图进行说明。

本实施方式的动态图像检索装置501具有受理部502、提取部503以及检索部504，该动态图像检索装置501是通过在计算机中执行预定的程序而实现的。

在此，受理部502将以下的信息作为检索条件，受理输入（步骤S601）。

（a）静止图像101。

（b）静止图像101内的参照位置311、312（在本实施方式中，箭头371、372的始点）。

（c）动态图像帧331内的目标位置351、352（在本实施方式中，箭头371、372的终点）。

如上所述，在CPU的控制下，显示器、鼠标、触摸屏或触摸面板共同协作，由此实现受理部502的功能。

接着，提取部503根据参照位置311、312，提取在参照区域内描绘的参照图像（步骤S602）。

如上所述，在本实施方式中，用户指定描绘有参照物体的静止图像101。此外，用户在静止图像101内指定参照位置311、312，该参照位置311、312是描绘有用户考虑作为参照物体的记号的部位的位置。

提取部503根据静止图像101、参照位置311、312的信息，利用图像处理技术来提取参照图像。

图7是示出通过图3、4所示的用户的指定而得到的参照图像的样子的说明图。以下，参照本图进行说明。

如本图所示，参照图像701是示出从某个摄影方向摄影的参照物体的外观的图像。在本例中，是在汽车101左侧横向对其进行摄影并从摄影图像中除去背景后得到的图像。即，参照区域的外缘相当于在静止图像101中划分参照物体与背景的边界线。

在参照图像701的提取中能够使用各种图像识别技术。例如，在进行了静止图像101的轮廓提取、区域分割后，选出包含参照位置311、312的区域。然后，重复结合被所选择的区域夹住的区域和与所选择的区域相邻且平均色的差异小的区域等，得到参照区域。此外，也可以使用专利文献1等中公开的技术。

参照图像701是从静止图像101切出包含参照位置311、312的参照区域而得到的图像，因此参照位置311、312均包含于参照区域内，并在参照图像701内，被配置于作为参照物体的记号的部位。

CPU与存储了静止图像101的像素信息的RAM等共同协作，由此实现提取部503。

然后，检索部504针对多个动态图像中的各个重复以下的处理（步骤S603）。

首先，检索描绘有与参照图像701相似的局部图像的帧图像（以下称作“相似帧图像”。），该帧图像是包含于该动态图像中的帧图像，检查在动态图像中是否包含相似帧图像（步骤S604）。

在此，动态图像由多个帧图像的时间经过顺序的列构成。在画面301内准备的动态图像帧331内每隔预定的时间间隔（大多设为30分之1秒，或者60分之1秒。）按顺序显示帧动态图像，由此可以重现动态图像。即，可以认为帧图像是静止图像的一种。

在本实施方式中，预先在动态图像数据库等中记录多个动态图像。在各动态图像中包含多个帧图像。在此，应用各种图像相似判定技术、图像识别技术，判定在各帧图像中是否描绘有与参照图像701相似的局部图像。

图8是示出包含具有与参照图像701相似的局部图像的帧图像的动态图像的例子的说明图。以下，参照本图进行说明。

如本图所示，动态图像801作为多个帧图像802a、802b、…、802f、…、802i、802j、…的列而构成（在本图中，为了容易理解，将帧图像之间的时间间隔设得长。即，从一般的动态图像中间疏帧图像而示出）。在以下的说明中，在对这些多个帧图像进行总称的情况下，省略标号末尾的英文，称作“帧图像802”。

在帧图像802中描绘有与作为参照物体的汽车102相似的汽车202。

然而，由于在帧图像802a、802b或802i、802j中摄影方向不同，因此在帧图像802a、802b或802i，802j中未描绘与参照图像701相似的图像。

另一方面，在帧图像802f中描绘有摄影方向基本相同的汽车202，这相当于局部图像803。即，局部图像803与参照图像701具有彼此对应的特征点，通过进行使参照图像701放大缩小、平行移动、旋转、翻转的变换，能够使局部图像803和参照图像701重合。

为了从帧图像802内检测与参照图像701相似的图像，应用各种图像识别、图像检测、模式识别的技术。

例如，预先分别针对各动态图像中包含的帧图像802，计算SIFT或HOG等的局部特征量，并记录在数据库中。然后，还针对参照图像701计算局部特征量，并从数据库中检索具有与该局部特征量相似的局部特征量的帧图像802。

另外，当将包含于某个动态图像的帧图像的局部特征量在数据库中登记时，如果彼此相邻的帧图像802的局部特征量相似，则适当地间疏而进行登记，由此能够抑制数据量并且实现检索的高速化。

这样，当发现了描绘有与参照图像701相似的局部图像803的相似帧图像（在图示的例中，帧图像802f相当于相似帧图像）时（步骤S604；是），当使参照图像701与局部图像803重合时，检索部504检查参照位置311、312位于局部图像803内的哪个位置（以下，将该位置称作“开始位置”。）。即，检索部504求出在所检索到的相似帧图像802f中，在描绘有局部图像803的局部区域内与参照区域内的参照位置311、312对应的开始位置（步骤S605）。

图9是示出参照图像701与相似帧图像802f之间的对应关系的说明图。以下，参照本图进行说明。

在本图中，在参照图像701内，在汽车102的前端和后端图示了黑圆点作为参照位置311、312的记号。

另一方面，在相当于相似帧图像802f的局部图像803的汽车202内，在汽车202的前端和后端图示了黑圆点作为开始位置811、812的记号。

参照位置311、312是用户在参照物体（汽车102）中作为记号选择的部位在参照图像701内被描绘的位置。

另一方面，在目标物体（与汽车102相似的汽车202）中，与参照物体（汽车102）中的记号对应的部位在局部图像803内的开始位置811、812被描绘。

当进行与参照图像701相似的局部图像803的检测时，实施放大缩小、旋转、翻转等变换以使得参照图像701与局部图像803重合，对参照位置311、312也同样地实施这些变换，由此可以得到开始位置811、812。

然后，检索部504跟踪配置于相似帧图像802f内的开始位置811、812的像素（以下称作“关注像素”。）在动态图像801中如何移动，得到其移动轨迹。即，检索部504从该检索到的相似帧图像起，在时间的前进方向（帧图像802g、802h、802i、802j、…的顺序）或者后退方向（帧图像802e、802d、802c、802b、…的顺序）上扫描包含所检索到的相似帧图像802f的动态图像801中包含的帧图像802a、802b、…、802i、802j、…，由此，跟踪在该检索到的相似帧图像802f中在开始位置811、812描绘的关注像素由于在其他帧图像802中被描绘而移动的移动轨迹（步骤S606）。

图10是示出动态图像801中的像素的移动的样子的说明图。以下，参照本图进行说明。

如本图所示，在相似帧图像802f的开始位置811、812中描绘有关注像素901、902，它们分别描绘汽车202的前端和后端。

在本图中，在包含于动态图像801中的帧图像802a、802b、…、802f、…、802i、802j、…中示出了描绘汽车202的前端和后端的关注像素901、902的位置。在各帧图像802a、802b、…、802f、…、802i、802j、…中，在关注像素901、902的标号的末尾附加有对应于该帧图像802的英文的附标。

此外，在本图中还图示有在后面的处理中参照的目标位置351、352。目标位置351、352由用户在动态图像帧331内指定，各帧图像802以正好放入动态图像帧331内的方式进行缩放等，由此可以得到各帧图像802内的目标位置351、352。

这样的关注像素901、902的跟踪例如通过如下方式实现：利用SIFT或HOG等技术求出相邻的帧图像802之间的特征点的对应关系，在此基础上，通过对对应的特征点的位置的变化进行插值，计算一方的帧图像802中的关注像素901、902的位置在另一方的帧图像802中向哪里移动。除此之外，通过应用Particle Video的技术也可以实现关注像素901、902的跟踪。

另外，关注像素901、902的跟踪并不是一定意味着跟踪相同颜色的像素移动的轨迹。即，意味着跟踪由关注像素901、902在帧图像802中描绘的目标物体的部位在其他的帧图像802中被描绘在哪里。因此，根据目标物体的摄影状况等的不同，关注像素901、902的颜色可能会逐渐变化。

这样，从动态图像801中包含的相似帧图像802起，在时间的前进方向和后退方向上扫描帧图像802，跟踪关注像素901、902在各帧图像802中位于哪个位置。于是，可以得到关注像素901、902各自的移动轨迹。

图11是表示动态图像801中的关注像素901、902的移动轨迹的说明图。以下，参照本图进行说明。

如本图所示，在动态图像801中，关注像素901、902伴随时间的经过，描绘从画面右上（帧图像802a）向画面左下（帧图像802j以后）平稳地移动的移动轨迹951、952。移动轨迹951、952分别通过相似帧图像802f中的开始位置811、812。

检索部504沿着时间的经过跟踪这些移动轨迹951、952，检索这些移动轨迹951、952同时到达目标位置351、352的附近这样的帧图像（以下称作“目标帧图像”。）802，检查动态图像801是否包含目标帧图像（步骤S607）。

返回图10，当对各帧图像802中的关注像素901、902的位置和目标位置351、352进行对比时，可知在帧图像802b中这些关注像素的位置与目标位置接近。因此，在本例中，检索的结果，发现帧图像802b作为目标帧图像。

这样，当发现目标帧图像时（步骤S607；是），输出该动态图像801作为检索结果（步骤S608）。

然后，针对在数据库中登记的全部动态图像801，重复步骤S603以后的处理（步骤S609），当针对全部动态图像的处理执行后，结束本处理。

另外，也可以是，将作为步骤S608中的检索结果的输出直接输出到显示器等的画面进行显示，在每次发现期望的动态图像时依次在画面上追加显示检索结果。此外也可以是，在步骤S608中，将检索结果暂时地输出到RAM等中进行蓄积，在步骤S603～步骤S609的重复处理结束后，一起在显示器等的画面中进行显示。

另一方面，在没有发现相似帧图像的情况下（步骤S604；否），或者没有发现目标帧图像的情况下（步骤S607；否），直接进入步骤S609。因此，该动态图像801不作为检索结果。

这样，在本实施方式中，即便在静止图像101中描绘参照物体时的构图与在动态图像801中目标物体出现时的构图完全不同的情况下，用户仅通过简单地输入静止图像101中的作为记号的参照位置311、312与这些参照位置在动态图像帧331中的目标位置351、352之间的对应关系，就能够容易地进行动态图像的检索。

特别是在本实施方式中通过二维的图像处理执行检索，因此能够简单且高速地进行动态图像检索。

实施例2

当前，在SIFT等图像识别技术中，即便局部图像803相对于参照图像701旋转了30度左右也能够判定为相似。然而，在旋转角度超过30度的情况下，在翻转而彼此成为镜像的关系的情况下，有时无法进行检测。

在这样的情况下，除了参照图像701的局部特征量之外，还准备翻转参照图像701后得到的镜图像，求出该镜图像的局部特征量，从数据库中检索具有与这两个局部特征量中的任意一个相似的局部特征量的帧图像802即可。

在相似帧图像的检索中，可以总是使用参照图像701和其镜图像的双方，也可以选择性地利用参照图像701和镜图像中的任意一方。

例如，能够使用参照位置311、312的相对位置关系和目标位置351、352的相对位置关系。

图12、13是示出参照位置311、312的相对位置关系和目标位置351、352的相对位置关系的说明的说明图。以下，参照这些图进行说明。

在这些图中，图示了从参照位置311朝向参照位置312的方向向量971，以及从目标位置351朝向目标位置352的方向向量972。

图12所示的例子参照在图3（和图4）中记载的例子，方向向量971、972成锐角。在这样的情况下，在相似帧图像的检索中使用参照图像701。

另一方面，在图13所示的例中，要以交换静止图像101中横向朝左的汽车102 的参照位置311、312的前端和后端的方式指定目标位置351、352，检索出现右向稍稍朝上的汽车202的动态图像。

因此，方向向量971、972成钝角。在这样的情况下，在相似帧图像的检索中使用镜图像。

此外，存在如以下等那样确定作为适当边界的角度的方法：如果方向向量971、972成的角在60度以下，则利用参照图像701，如果方向向量971、972成的角在120度以上，则利用镜图像，如果方向向量971、972成的角超过60度且低于120度，则使用参照图像701与镜图像的双方。

关于这些方法，相比于垂直方向的翻转，水平方向的翻转在动态图像摄影的情况下更为普遍，此外，是基于考虑用户想要检索这样的启发式的方法，能够实现动态图像检索的高速化。

实施例3

根据由上述的实施例得到的信息，当重现所检索到的动态图像801时，可以求出目标物体202本身移动的轨迹（以下称作“代表轨迹”。）。

例如，在各帧图像802中，求出描绘有目标物体202的区域，将其中心点（区域的重心）的像素作为代表像素。然后，通过跟踪代表像素，能够作为目标物体202在动态图像801中移动的代表轨迹。

此外，作为更简单的计算的方法，存在如下方法：在各帧图像802中，将关注像素901、902的中点的位置的像素作为代表像素。

图14A是对图11所示的例子示出代表轨迹的样子的说明图。以下，参照本图进行说明。

如本图所示，代表轨迹981通过各帧图像802中的关注像素901、902的中点980。因此，代表轨迹981是将关注像素901、902的移动的移动轨迹951、952平均化后的轨迹。

在本实施方式的动态图像检索装置501中，由用户检索与参照物体102相似的目标物体202以用户期望位置、姿势出现的动态图像801。

因此，在本实施方式中，与检索到的动态图像801一起，输出代表轨迹981作为检索结果。

图14B是示出用于说明输出动态图像801和代表轨迹981作为检索结果的情况下的该动态图像801的概要的概要图像的样子的说明图。以下，参照本图进行说明。

如本图所示，概要图像991是，以箭头的形状将代表轨迹981在帧图像802b上重叠地描绘而得到的图像，其中，帧图像802b是检索结果的动态图像801中，与参照物体102相似的目标物体202以用户期望位置、姿势出现的帧图像。

概要图像991可以用作对检索结果的动态图像进行一览显示时的缩略图图像等，通过显示代表轨迹981作为检索结果，向用户提供关于得到的动态图像801的更详细的信息。

实施例4

在上述实施例中，输出目标物体202移动的代表轨迹981作为检索结果，但在本实施方式中，使用户输入目标物体202应移动的轨迹（以下称作“目标轨迹”。），将代表轨迹981与目标轨迹相似的动态图像作为检索结果。

即，在本实施方式中，受理部502除了上述的信息以外，还受理在动态图像中包含的帧图像内的目标轨迹的输入。

图15是示出在图3所示的输入例中，用户还指定目标轨迹的样子的说明图。以下，参照本图进行说明。

如本图所示，用户除了箭头371、372以外，还在动态图像帧331内输入从目标位置351、352附近开始的箭头982。该箭头982是由用户输入的目标轨迹。

在本实施方式中，在动态图像801中，在发现了目标帧图像802b之后（步骤S607；是），执行以下的处理。

图16是示出在图6所示的流程图中，在动态图像检索处理中追加的处理的内容的部分流程图。以下，参照本图进行说明。

如本图所示，在发现目标帧图像802b之后（步骤S607；是），检索部504从目标帧图像802b起按照时间经过顺序跟踪帧图像802，取得代表轨迹981（步骤S621）。

然后，判定得到的代表轨迹981与由用户通过箭头982指定的目标轨迹是否相似（步骤S622）。

在此，代表轨迹981与目标轨迹之间的相似判定的最简单的方法如下。即，在从代表轨迹981的开始点向结束点的朝向与从目标轨迹的开始点向结束点的朝向成角的差在预定的阈值以下的情况下，判定为两者相似，在超过了预定的阈值的情况下，判定为两者不相似。此外，能够应用各种曲线的相似判定技术。

在代表轨迹981与目标轨迹相似的情况下（步骤S622；是），进入步骤S608，输出该动态图像作为检索结果。

另一方面，在代表轨迹981与目标轨迹不相似的情况下（步骤S622；否），进入步骤S609，将其他的动态图像作为处理对象重复进行处理。

根据本发明，用户能够容易地指定目标物体在动态图像帧331内被配置在哪个位置和哪个朝向，并且从该位置向哪个方向移动，能够简单且高速地执行动态图像检索。

另外，在上述的实施例中，作为动态图像801，举出通过用照相机对现实世界进行摄影而得到的图像的例子，但是，对于通过计算机图像生成从虚拟视点观察虚拟世界的样子的动态图像、或者通过手工作业逐张地生成帧图像并进行排列而得到的动画的动态图像等任意的动态图像都可以应用相同的方法。

实施例5

在上述实施方式中，通过箭头371、372的输入来指定参照位置311、312以及目标位置351、352，但是，也可以利用能够在用户描绘箭头371、372时利用的其他的参数。

例如，在利用可以检测用户的按压强度的触摸面板或鼠标、控制器等的情况下，可以根据描绘箭头371、372时的用户的按压强度，使目标位置351、352附近的大小变化。

在该方式中，在图3、图4所示的输入例中，预先进行画面301的显示设定，使得当用户的按压力强时，箭头371、372被描绘得较粗，当用户的按压力较弱时，箭头371、372被描绘得较细。

而且，根据用户的按压强度，即箭头371、372的粗细度，确定是否是目标位置的附近的阈值的大小。

根据本实施方式，可以通过简单的操作实现动态图像的检索条件的详细的指定。

此外，如图3所示，在动态图像帧331在与静止图像101不同的位置被显示的情况下，可以在动态图像帧331内提示各种信息。

是如下方法：针对动态图像帧331内的各位置，分别对在数据库中登记的全部的动态图像801的帧图像802的局部信息量进行累计，将累计结果的各位置中的分布在动态图像帧331内进行画面显示。

一般而言，在局部信息量是标量值的情况下，可以预想到，其值越大，该部位越是容易被人看到的特征部位。

此外，在局部信息量是向量值的情况下，可以预想到，其长度越长，该部位越是特征部位。

因此，通过将局部信息量的总和标量化，能够得知动态图像帧331内的各位置在全部动态图像的平均中是何种程度特征。

因此，根据该方法，用户可以容易地预测将哪个位置设为目标位置可以得到更适当的检索结果等。

另外，在本申请中，主张基于在2012年1月20日在日本申请的特愿2012-010492的优先权，只要指定国的法令允许，将该基础申请的内容全部引用到本申请。

产生上的可利用性

根据本发明，提供一种对于在动态图像内应出现的物体，用户能够容易地指定其位置、朝向以及其运动，从而进行动态图像检索的动态图像检索装置、动态图像检索方法、记录介质以及程序。

标号说明

101：静止图像

102：作为参照物体的汽车

121：静止图像的全区域

122：参照区域

123：参照图像

201：帧图像

202：作为目标物体的汽车

221：帧图像的全区域

222：目标区域

223：目标图像

301：画面

311：参照位置

312：参照位置

331：动态图像帧

351：目标位置

352：目标位置

371：箭头

372：箭头

501：动态图像检索装置

502：受理部

503：提取部

504：检索部

701：参照图像

801：动态图像

802：帧图像

803：局部图像

811：开始位置

812：开始位置

901：关注像素

902：关注像素

951：移动轨迹

952：移动轨迹

971：参照位置的方向向量

972：目标位置的方向向量

981：代表轨迹

982：目标轨迹的箭头

991：概要图像

Claims

1.一种动态图像检索装置，其特征在于具有：

检索部，其检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置处的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置处的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像，将包含该检索到的相似帧图像和该检索到的目标帧图像的动态图像作为检索结果。

2.根据权利要求1所述的动态图像检索装置，其特征在于，

所述受理部还受理所述动态图像所包含的帧图像内的目标轨迹的输入，

所述检索部针对所述检索到的各个动态图像，从该检索到的动态图像所包含的目标帧图像起，在时间的前进方向上对相应动态图像所包含的帧图像进行扫描，由此跟踪代表像素移动的代表轨迹，将所述目标轨迹和所述代表轨迹相似的动态图像作为所述检索结果，其中，该代表像素是该检索到的目标帧图像中描绘的局部图像的中心点的像素，或者该代表像素是所述第1关注像素和所述第2关注像素的中点的位置的像素。

3.根据权利要求1所述的动态图像检索装置，其特征在于，

所述检索部针对所述检索到的各个动态图像，从该检索到的动态图像所包含的目标帧图像起，在时间的前进方向上对相应动态图像所包含的帧图像进行扫描，由此跟踪代表像素移动的代表轨迹，将相应动态图像的代表轨迹与相应动态图像一起作为所述检索结果，其中，该代表像素是该检索到的目标帧图像中描绘的局部图像的中心点的像素，或者该代表像素是所述第1关注像素和所述第2关注像素的中点的位置的像素。

4.根据权利要求1至3中的任意一项所述的动态图像检索装置，其特征在于，

所述提取部取得所述参照图像的图像特征量，

5.根据权利要求4所述的动态图像检索装置，其特征在于，

所述提取部还取得将所述参照图像翻转得到的镜图像的图像特征量，

6.一种由动态图像检索装置执行的动态图像检索方法，该动态图像检索装置具有受理部、提取部和检索部，该动态图像检索方法的特征在于具有：

受理步骤，由所述受理部受理描绘了参照物体的静止图像、该静止图像内的描绘了该参照物体的参照区域内所包含的第1参照位置和第2参照位置以及动态图像中应包含的帧图像内的第1目标位置和第2目标位置的输入；

提取步骤，由所述提取部根据所述第1参照位置和所述第2参照位置，提取在所述参照区域内描绘的参照图像；以及

检索步骤，由所述检索部检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置处的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置处的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像，将包含该检索到的相似帧图像和该检索到的目标帧图像的动态图像作为检索结果。

7.根据权利要求6所述的动态图像检索方法，其特征在于，

8.根据权利要求6所述的动态图像检索方法，其特征在于，

9.根据权利要求6至8中的任意一项所述的动态图像检索方法，其特征在于，

所述提取部取得所述参照图像的图像特征量，

10.根据权利要求9所述的动态图像检索方法，其特征在于，

11.一种动态图像检索装置，其特征在于具有：

检索部，其检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置处的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置处的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像。

12.一种动态图像检索方法，其特征在于具有：

受理步骤，受理描绘了参照物体的静止图像、该静止图像内的描绘了该参照物体的参照区域内所包含的第1参照位置和第2参照位置以及动态图像中应包含的帧图像内的第1目标位置和第2目标位置的输入；

检索步骤，检索描绘有与所述参照图像相似的局部图像的相似帧图像，该相似帧图像是包含于动态图像中的帧图像，在所述检索到的相似帧图像中描绘有所述局部图像的局部区域内，求出与所述参照区域内的所述第1参照位置和所述第2参照位置对应的第1开始位置和第2开始位置，从该检索到的相似帧图像起，在时间的前进方向或者后退方向上对包含该检索到的相似帧图像的动态图像所包含的帧图像进行扫描，由此跟踪该检索到的相似帧图像中描绘于所述第1开始位置处的第1关注像素移动的第1移动轨迹和描绘于所述第2开始位置处的第2关注像素移动的第2移动轨迹，检索该第1移动轨迹到达所述第1目标位置的附近、且该第2移动轨迹到达所述第2目标位置的附近的目标帧图像。