CN102857810A

CN102857810A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN102857810A
Application number: CN2012101629191A
Authority: CN
Inventors: 村田诚; 仓田雅友; 佐藤浩司; 涩谷直树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-30
Filing date: 2012-05-23
Publication date: 2013-01-02
Also published as: JP5857450B2; EP2530675A3; JP2012249156A; US20120308202A1; EP2530675A2

Abstract

本发明提供了信息处理设备、信息处理方法和程序。一种信息处理设备包括：元数据获取单元，用于获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据；区间信息显示单元，用于使用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区间；以及再现控制单元，在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下，用于使得再现所选择的区间的视频帧。

Description

信息处理设备、信息处理方法和程序

技术领域

本技术涉及信息处理设备、信息处理方法和程序。

背景技术

当观看视频图像和TV画面等时，人们可能希望获得关于图像中出现的人、物体或地点等（以下称为目标对象）的详细信息。当前，许多用户使用个人计算机（以下称为PC）、移动电话或便携信息终端等（以下称为信息电器）来搜索信息。然而，如果不知道能够表示图像中出现的目标对象的关键词，则用户难以获得关于目标对象的信息。而且，在观看视频图像的同时启动信息电器或在信息电器中输入搜索关键词的操作是麻烦的。

例如，如果实现了使得能够在屏幕上显示视频图像中出现的目标对象并且使得能够在屏幕上显示关于用户选择的目标对象的信息的用户界面，则可预期用户的方便性会大大提升。可以通过使用诸如触摸板或遥控器等输入装置来实现对目标对象的选择操作。然而，为了指定在屏幕上的选择位置处存在的目标对象，需要用于指示每一个视频帧中的每一个目标对象的位置的元数据。另外，例如，JP 2005-44330A中公开了用于自动检测视频图像中出现的目标对象的位置的方法。

发明内容

当使用JP 2005-44330A中描述的技术时，可以自动地检测每一个视频帧中出现的目标对象的位置。因此，通过使用已自动检测到的目标对象的位置作为元数据，可以识别用户已在屏幕上选择的位置处所存在的目标对象。然而，当前，准确度不足以自动检测出每一个目标对象。因此，需要进行对元数据的人为标注的操作。然而，构成视频图像的视频帧的数量极大，并且对元数据进行人为标注的操作也很麻烦。因此，本发明人已经开发了一种用于便于对元数据进行人为标注的操作的机制。然而，至今，难以获得高度精确的元数据，因此，使用高度精确的元数据来执行内容再现控制的应用的实现是困难的。

因此，已经鉴于上面的情况而作出了本技术，并且本技术旨在提供信息处理设备、信息处理方法和程序，这些设备、方法和程序是新颖的和改善的，并且能够提供利用高度精确的元数据来执行内容再现控制的应用。

根据本技术的一个实施例，提供了一种信息处理设备，该设备包括：元数据获取单元，用于获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据；区间信息显示单元，用于使用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区间；以及再现控制单元，在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下，用于使得再现所选择的区间的视频帧。

根据本技术的另一个实施例，提供了一种信息处理方法，该方法包括：获取用于指示每一个目标对象在视频中出现的出现区间的区间元数据；使用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区间；以及在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下，使得再现所选择的区间的视频帧。

根据本技术的另一个实施例，提供了一种程序，用于使得计算机实现区间信息显示功能，该功能使用用于指示每一个目标对象在视频中出现的出现区间的区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的每一个区间中每一个目标对象出现的区间。在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下，再现所选择的区间的视频帧。

根据本技术的另一个实施例，提供了一种信息处理设备，该设备包括：元数据获取单元，用于获取用于指示每一个目标对象在视频中出现的出现区间的区间元数据；信息显示单元，用于使用所述区间元数据来显示在被再现的视频帧中包括的每一个目标对象的图像或相关信息；以及再现控制单元，用于在用户选择目标对象的图像或相关信息的情况下，通过使用所述区间元数据来识别与所选择的图像或相关信息对应的目标对象的出现区间，并且使得再现在所述出现区间中包括的视频帧。

根据本技术的另一个实施例，提供了一种信息处理设备，该设备包括：元数据获取单元，用于获取区间元数据和区域元数据，所述区间元数据用于指示每一个目标对象在视频中出现的出现区间，所述区域元数据针对每个视频帧写入关于在构成所述视频的每一个视频帧中包括的每一个目标对象的位置或关于包括所述每一个目标对象的区域的信息；区域识别单元，用于使用所述区域元数据来识别正在被再现的视频帧内用户指定的位置处存在的目标对象；以及再现控制单元，在通过所述区域识别单元识别了目标对象的存在的情况下，用于通过使用所述区间元数据来识别其存在已经被识别的目标对象的出现区间，并且使得再现在所述出现区间中包括的视频帧。

根据本技术的另一个实施例，提供了一种用于存储程序的计算机可读记录介质。

如上所述，根据本技术，可以提供利用高度精确的元数据来执行内容再现控制的应用。

附图说明

图1是用于描述相关信息的显示方法的示意图；

图2是用于描述相关信息的显示方法的示意图；

图3是用于描述相关信息的显示方法的示意图；

图4是用于描述出现区间的显示方法的示意图；

图5是用于描述超链接视频浏览的概念的示意图；

图6是用于描述视频时间线元数据的概述的示意图；

图7是用于描述用于提供视频时间线元数据的机制的示意图；

图8是用于描述用于提供视频时间线元数据的机制的示意图；

图9是用于描述从提供视频时间线元数据至使用该数据的处理的简略流程的示意图；

图10是用于描述元数据提供终端的示例配置的示意图；

图11是用于描述关于提供视频时间线元数据的处理中的预处理的流程的示意图；

图12是用于描述预处理的细节的示意图；

图13是用于描述预处理的细节的示意图；

图14是用于描述预处理的细节的示意图；

图15是用于描述预处理的细节的示意图；

图16是用于描述预处理的细节的示意图；

图17是用于描述预处理的细节的示意图；

图18是用于描述关于提供视频时间线元数据的处理中的元数据的标注处理的流程的示意图；

图19是用于描述关于标注的处理的细节的示意图；

图20是用于描述关于标注的处理的细节的示意图；

图21是用于描述关于标注的处理的细节的示意图；

图22是用于描述关于标注的处理的细节的示意图；

图23是用于描述关于标注的处理的细节的示意图；

图24是用于描述关于标注的处理的细节的示意图；

图25是用于描述关于标注的处理的细节的示意图；

图26是用于描述关于标注的处理的细节的示意图；

图27是用于描述关于标注的处理的细节的示意图；

图28是用于描述关于标注的处理的细节的示意图；

图29是用于描述关于标注的处理的细节的示意图；

图30是用于描述关于标注的处理的细节的示意图；

图31是用于描述关于标注的处理的细节的示意图；

图32是用于描述关于标注的处理的细节的示意图；

图33是用于描述关于标注的处理的细节的示意图；

图34是用于描述关于标注的处理的细节的示意图；

图35是用于描述关于标注的处理的细节的示意图；

图36是用于描述视频时间线提供处理中的后处理的简略流程的示意图；

图37是用于描述元数据管理系统的示例配置的示意图；

图38是用于描述在关于视频时间线元数据的提供的流程中的后处理的流程的示意图；

图39是用于描述后处理的细节的示意图；

图40是用于描述后处理的细节的示意图；

图41是用于描述后处理的细节的示意图；

图42是用于描述由元数据管理系统提供的另一个功能的示意图；

图43是用于描述由元数据管理系统提供的另一个功能的示意图；

图44是用于描述由元数据管理系统提供的另一个功能的示意图；

图45是用于描述元数据用户终端的示例配置的示意图；

图46是用于描述视频时间线元数据的配置的示意图；

图47是用于描述使用视频时间线元数据的出现区间（appearancesection）的显示方法和出现区间的再现方法的示意图；

图48是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再现方法的示意图；

图49是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再现方法的示意图；

图50是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再现方法的示意图；

图51是用于描述相关信息的显示方法的示意图；

图52是用于描述相关信息的显示方法的示意图；

图53是用于描述视频时间线元数据的数据结构的示意图；

图54是用于描述视频时间线元数据的数据结构的示意图；

图55是用于描述视频时间线元数据的数据结构的示意图；

图56是用于描述视频时间线元数据的数据结构的示意图；

图57是用于描述视频时间线元数据的数据结构的示意图；

图58是用于描述视频时间线元数据的数据结构的示意图；

图59是用于描述视频时间线元数据的数据结构的示意图；以及

图60是用于示出能够实现元数据提供终端、元数据管理系统和元数据用户终端的信息处理设备的一个示例硬件配置的示意图。

具体实施方式

以下参考附图详细描述本公开的优选实施例。注意，在本说明书和附图中，使用相同的附图标号来表示具有基本上相同的功能和配置的结构元件，并且省略对这些结构元件的重复描述。

[说明流程]

在此简述下文说明的流程。

首先，将参考图1至4来描述通过根据本实施例的技术来实现的用户界面的具体示例。然后，将参考图6和7来描述根据本实施例的视频时间线元数据。然后，将参考图8和9来描述根据本实施例的执行关于视频时间线元数据的提供、管理和使用的处理的系统的配置和该处理的流程。

接下来，将参考图10至35来描述根据本实施例的元数据提供终端10的配置和操作。在此详细描述用于便于视频时间线元数据的标注处理的机制。然后，将参考图36至44来描述根据本实施例的元数据管理系统20的配置和操作。将在此详细描述用于整合由多个用户设置的多个视频时间线元数据的处理的细节和用于促进视频时间线元数据的设置操作的机制。

接下来，将参考图45至52来描述元数据用户终端30的配置和操作。在此将详细描述使用视频时间线元数据的用户界面的配置。然后，将参考图53至59来描述根据本实施例的视频时间线元数据的数据结构。然后，将参考图60来描述根据本实施例的能够实现元数据提供终端10、元数据管理系统20和元数据用户终端30的功能的信息处理设备的一个示例硬件配置。

最后，将总结实施例的技术构思，并将简述由该技术构思获得的效果。

（说明项目）

1：引言

2：实施例

2-1：系统的整体配置和操作

2-2：元数据提供终端10的配置

2-3：元数据提供终端10的操作

2-3-1：预处理

2-3-2：标注处理

2-4：元数据管理系统20的配置

2-5：元数据管理系统20的操作

2-5-1：整合处理

2-5-2：其他功能

2-6：元数据用户终端30的配置和操作

2-7：视频时间线元数据的数据结构

3：硬件配置

4：总结

<1：引言>

首先，将描述根据本实施例的通过使用视频时间线元数据实现的用户界面和应用。还将描述根据本实施例的视频时间线元数据。

当观看诸如视频图像或TV画面等视频时，视频中出现的人或物体等会吸引人们的关注。或者，人们可能不仅关注人或物体，而且还关注在视频中出现的地点、视频的创建者或视频故事如何展现，并且可能要获得与这样的事项相关的详细信息。例如，用户在观看TV剧的同时可能想要知道TV剧中出现的人所主演的其他视频。另一用户在观看电影的同时可能会关注电影中出现的男演员所穿的衣服。

过去，当试图如上所述地获得信息时，许多用户操作独立提供的信息电器，并且从网络中获取信息，或者将屏幕切换到数据广播显示模式并且获取信息。然而，麻烦的是，需要停止观看视频以进行启动信息电器和在搜索引擎中输入适当的搜索关键字等操作。而且，在许多情况下，在数据广播中，得不到期望的信息。而且，没有适合于实时地获取根据正在被观看的场景的相关信息的方法。鉴于这些情况，促使本发明人来实现能够实时地观看与在正在被观看的场景中出现的人或对象等相关的信息。

例如，如图1中所示，期望使得能够实时地显示在视频的场景中出现的人的相关信息。此外，如图2中所示，期望使得能够实时地显示在视频的场景中出现的人的相关信息、人正在穿着的衣物的相关信息或与场景的拍摄位置相关的相关信息。而且，如图3中所示，期望不仅实现在视频再现时显示相关信息，而且实现当用户选择某一角色时显示所选择的角色的相关信息的用户界面。为了实现这样的相关信息的显示，必须预先准备在每一视频帧中出现的人或物体等（以下称为目标对象）的信息（以下称为视频时间线元数据）。

例如，如果针对每个视频帧来准备用于指示特定目标对象是否出现在视频帧中的信息（以下称为区间元数据）和目标对象的相关信息（以下称为对象元数据），则可以在每一视频帧再现时实时地显示目标对象的相关信息。而且，如图1中所示，如果准备了用于指示目标对象在每一视频帧内出现的位置或范围（以下称为区域元数据）的信息，则可以与目标对象的位置或范围相关联地显示相关信息。而且，如果使用区域元数据，则可以将在屏幕中显示的目标对象的位置或范围与由用户指定的位置相匹配，并且，如图3中所示，可以实现根据用户对位置的指定来显示相关信息的用户界面。

而且，当使用区间元数据时，可以识别其中特定目标对象出现的区间，并且因此，可以向用户呈现其中特定目标对象出现的区间，或者，如图4中所示，使得能够仅再现其中特定目标对象出现的区间。在图4的示例中，示出了向用户呈现人物出现的场景与场景中出现的人物相关联的信息（出现区间的时间信息）的示例。

而且，当使用关于多个视频的多个区间元数据时，可以实现如图5中所示的超链接视频浏览。在此，超链接视频浏览表示：在视频中出现的目标对象作为关键信息的情况下在视频之间进行切换的同时观看视频的操作方法。例如，在图5的示例中，当选择了在视频#1中的场景中出现的某个人时，开始再现其中出现了该人的视频#2，并且当选择了在视频#2中的场景中出现的某个对象时，开始再现出现了该对象的视频#4。以这种方式，通过在观看视频的同时选择得到他/她的关注的目标对象，使得用户能够在目标对象出现的视频之间自由切换的同时观看视频。

在此，参见图6，将补充对视频时间线元数据的结构的说明。根据区域元数据、区间元数据和对象元数据来构造视频时间线元数据。区域元数据是用于指示在每一视频帧中出现的目标对象的位置和范围（以下称为区域）的元数据。例如，在图6中，通过阴影圆圈来示出人的面部区域。在该情况下，通过圆圈的中心坐标来表达面部区域的位置。此外，通过圆圈的半径来表达面部区域的范围。另外，区域的形状可以是矩形。在区域的形状是矩形的情况下，通过例如矩形的左上角（当然，也可接受左下角、右上角或右下角）的坐标来表达区域的位置。还通过矩形的高度和宽度表达区域的范围。

另一方面，区间元数据是用于指示目标对象出现的区间的元数据。例如，在人物A出现在第十视频帧至第80视频帧中的情况下，关于人物A的区间元数据指示与第10至第80视频帧对应的区间。区间元数据是针对每一视频以及出现在该视频中的每一目标对象来准备的。当参考区间元数据时，可得知特定目标对象是否出现在视频中。另外，当使用区间元数据时，可以得知每一个视频中出现了特定目标对象的区间的长度。而且，当使用区间元数据时，因为可以识别在同一视频中出现的目标对象的组合，所以例如可以检测联合主演者的关系或者可以计算联合主演的时间。

另外，假定由与视频提供者不同的元数据提供者执行如图7中所示的视频时间线元数据的提供。而且，假定通过使用视频分析技术或通过人为输入来创建视频时间线元数据。例如，当使用面部识别技术或面部跟踪技术等时，可以自动地检测在每一个视频帧中出现的人。可以通过使用检测结果来创建视频时间线元数据。然而，当使用这样的自动检测技术时，易于出现诸如错误检测、错误识别或检测失败等错误。

因此，必须对已经出现错误的区间人为地执行视频时间线元数据的校正或增加，或者，必须从开始就人为地创建视频时间线元数据。当然，当人为地创建视频时间线元数据时，可以实现较高准确度。然而，构成视频的视频帧的数量极大。因此，难以人为地使用视频时间线元数据来标注每一个视频帧。因此，本发明人已开发了一种用户界面，该用户界面能够简化视频时间线元数据的人为标注操作，并且大大地降低用户的工作负荷。此外，本发明人已经设计了能够由一起工作的多个用户来创建视频时间线元数据的机制。

通过应用这些技术，可以提供高度精确的视频时间线元数据。而且，实现了使用视频时间线元数据的各个应用。例如，使得能够实现如图1至3中所示的相关信息的实时显示。而且，使得能够实现如图4中所示的出现区间的显示或出现了特定角色的场景的选择性再现。而且，使得能够个实现如图5中所示的超链接视频浏览。

下文将详细描述根据本实施例的视频时间线元数据的标注方法、用于视频时间线元数据的标注的用户界面的配置和使用视频时间线元数据的应用。

<2.实施例>

下面将描述根据本实施例的技术的实施例。

[2-1：系统的操作的整体配置]

首先，将参考图8和9来描述能够执行根据本实施例的一系列处理的系统的配置和操作。图8和9是用于描述本实施例的能够执行根据图8和9的一系列处理的系统的配置和操作的示意图。

（配置）

如图8中所示，根据本实施例的系统主要包括元数据提供终端10、元数据管理系统20和元数据用户终端30。

元数据提供终端10提供了用于视频时间线元数据的标注操作的用户界面，并且执行与视频时间线元数据的标注相关的处理。而且，元数据提供终端10向元数据管理系统20提供用于标注的视频时间线元数据。另外，还可以配置其中从元数据提供终端10向元数据用户终端30直接地提供视频时间线元数据的系统。此外，在图8中，仅提供了一个元数据提供终端10，但是还可以在系统中提供多个元数据提供终端10。在下文的说明书中，假定存在多个元数据提供者并且在系统中存在多个元数据提供终端10。

元数据管理系统20累积由元数据提供终端10提供的视频时间线元数据。此外，在提供与同一视频相关的多个视频时间线元数据的情况下，元数据管理系统20整合这些视频时间线元数据。而且，元数据管理系统20还可以包括用于通过使用社会网络服务（Social Network Service，以下称为SNS）来使得能够在多个用户之间共享视频时间线元数据的功能。而且，元数据管理系统20还可以包括奖励元数据提供者的功能。而且，元数据管理系统20还可以包括用于向元数据提供终端10发送有助于视频时间线元数据的标注操作的信息的功能。

元数据用户终端30从元数据管理系统20获取视频时间线元数据，并且使用所获取的视频时间线元数据来提供各种功能。例如，元数据用户终端30使用视频时间线元数据来提供显示相关信息的功能、场景搜索/再现功能（显示出现区间的功能和选择性地再现出现区间的功能等）和超链接视频浏览功能等。即，元数据用户终端30提供用于使用视频时间线元数据的应用的执行环境。

（操作）

根据本实施例的系统执行在图9中所示的一系列处理。首先，图像显示设备100或元数据管理系统20执行预处理（S10）。步骤S10的预处理主要用于通过使用诸如目标识别技术或目标检测/目标跟踪技术等视频分析技术来自动地检测在视频中出现的目标对象的处理。作为目标检测/对象跟踪技术，可以使用例如JP 2005-44330A中描述的技术。而且，作为目标识别技术，可以使用例如JP 2007-65766A中描述的技术。

如下所述，通过预先执行预处理，可以减小要新标注的目标对象的数量和视频帧的数量，并且可以降低标注操作的负担。然而，可以省略该预处理。在省略预处理的情况下，将使用视频时间线元数据来人为地标注所有的视频帧。而且，预处理可由元数据提供终端10或元数据管理系统20来执行。下面的描述中将假定由元数据提供终端10来执行预处理。

在执行预处理后，元数据提供终端10执行与视频时间线元数据的标注相关的处理（S20）。例如，元数据提供终端10再现作为标注的目标的视频，并且接收用户的输入。此时，元数据提供终端10提供有助于用户的标注操作的用户界面。然后，元数据提供终端10根据用户的输入来创建视频时间线元数据，并且向元数据管理系统20提供视频时间线元数据。

接下来，元数据管理系统20对由元数据提供终端10提供的视频时间线元数据执行后处理（S30）。这个后处理一般是用于整合利用同一视频作为目标来设置的多个视频时间线元数据的处理。然后，元数据用户终端30从元数据管理系统20获取视频时间线元数据，并且通过使用所获取的视频时间线元数据来向用户提供诸如相关信息的显示等各种功能（S40）。

已经描述了能够执行根据本实施例的一系列处理的系统的配置和操作。下面，将参考图9中所示的处理的流程来详细描述元数据提供终端10、元数据管理系统20和元数据用户终端30的详细功能配置和在每一个步骤中的处理。

[2-2：元数据提供终端10的配置]

首先，将参考图10来描述元数据提供终端10的功能配置。图10是用于描述元数据提供终端10的功能配置的示意图。

如图10中所示，元数据提供终端10主要由存储单元101、解码器102、区域提取单元103、区域处理单元104、目标识别单元105、元数据提供单元106、再现控制单元107、显示单元108、输入单元109、移动距离计算单元110和相似度分数计算单元111。

另外，区域提取单元103、区域处理单元104和目标识别单元105构成视频分析块。在省略图9中所示的步骤S10的预处理的情况下，可以省略视频分析块。还可以在元数据管理系统20或用于视频分析的其他装置中设置视频分析块，以省略元数据提供终端10的视频分析块。然而，下文的说明书中，假定在元数据提供终端10中设置有视频分析块。

在存储单元101中存储视频。在存储单元101中存储的视频被解码器102解码，并且被输入到区域提取单元103、再现控制单元107和相似度分数计算单元111。区域提取单元103使用目标检测/对象跟踪技术等，并且提取在输入视频的每一视频帧中出现的目标对象的位置和范围（以下称为目标区域）。关于由区域提取单元103提取的目标区域的信息被输入到区域处理单元104。

区域处理单元104基于关于已经输入的目标区域的信息来处理目标区域。例如，区域处理单元104去除出现时间短的目标区域或尺寸小的目标区域，或者组合在同一视频帧中出现的相同类型的目标区域。关于已经被区域处理单元104处理的目标区域的信息被输入到目标识别单元105。目标识别单元105基于在已经输入的每一个目标区域中包括的目标对象的特征来簇化目标对象，并且确定用于表示每一簇的目标对象的特征。然后，目标识别单元105参考用于将目标对象的特征和目标对象的标识信息相关联的数据库，并且基于用于表示每一簇的目标对象的特征来将目标对象的标识信息与每一簇相关联。

在这个阶段获取关于在每一个视频帧中出现的每一个目标区域的信息和与每一个目标区域对应的目标对象的标识信息。即，针对基于标识信息而分类的每种类型的目标对象，获得出现目标对象的区间（区间元数据）以及每一视频帧中目标对象的位置和范围（区域元数据）。然而，视频分析块获得的区间元数据和区域元数据包含可能已在目标检测/对象跟踪和目标识别时发生的错误检测、检测失败或错误识别等的影响。因此，必须人为地校正通过视频分析块获得的区间元数据和区域元数据。

通过视频分析块获得的区间元数据和区域元数据被输入到元数据提供单元106、再现控制单元107和移动距离计算单元110。

元数据提供单元106基于用户通过输入单元109输入的目标区域的信息来校正视频分析块获得的区间元数据和区域元数据。然而，在省略视频分析块的情况下，元数据提供单元106基于由用户通过输入单元109输入的目标区域的信息来产生区间元数据和区域元数据。然后，元数据提供单元106向元数据管理系统20提供区域元数据和区间元数据。另外，在用户输入对象元数据的情况下，元数据提供单元106向元数据管理系统20提供所输入的对象元数据。

再现控制单元107再现视频，并且使得显示单元108显示视频。另外，为了有助于用户的输入操作，再现控制单元107调整视频的再现速度或跳过一些视频帧的再现。而且，再现控制单元107显示与用户指定的目标区域有关的信息，或者显示用于向目标区域添加对象元数据的菜单。另外，下面将描述再现控制单元107的详细功能。

显示单元108是诸如LCD（液晶显示器）或ELD（电致发光显示器）等显示装置。输入单元109也是输入装置，如触摸板、触控板、鼠标、遥控器、游戏控制器、凝视输入装置、手势输入装置或音频输入装置等。另外，手势输入装置是通过使用相机或传感器等来检测用户的运动并且基于检测结果来识别用户的运动的装置。下面的说明中假定使用触摸板作为输入装置。

移动距离计算单元110计算在相邻的视频帧中目标区域的移动距离。例如，移动距离计算单元110使用由视频分析块获得的区域元数据，并且计算同一目标对象的目标区域在相邻的视频帧上移动的距离。这个距离用于确定要跳过的视频帧。移动距离计算单元110还计算用户通过输入单元109输入的目标对象的移动距离。这个移动距离用于再现速度的调整。关于由移动距离计算单元110计算的距离的信息被输入到再现控制单元107和元数据提供单元106。

相似度分数计算单元111针对相邻的视频帧来计算所述视频帧之间的相似度分数（similarity score）。例如，相似度分数计算单元111使用JP2007-206920A中描述的方法来计算视频帧之间的相似度分数。这个相似度分数用于要跳过的视频帧的确定。由移动距离计算单元110计算的相似度分数被输入到再现控制单元107和元数据提供单元106。

上面已经描述了元数据提供终端10的主要功能配置。

[2-3：元数据提供终端10的操作]

接下来，将参考图11至35描述元数据提供终端10的操作。还将补充关于元数据提供终端10的详细功能配置的说明。图11至35是用于描述元数据提供终端10的操作的示意图。

（2-3-1：预处理）

首先，将参考图11来描述元数据提供终端10的与预处理（在图9中的步骤S10）相关的操作。图11是用于描述元数据提供终端10的与预处理相关的操作的示意图。

如图11中所示，元数据提供终端10通过解码器102的功能来解码从存储单元101读取的视频（S101）。然后，元数据提供终端10通过区域提取单元103的功能来执行目标区域的检测和跟踪（S102）。另外，可以通过使用例如JP 2005-44330A中描述的技术来实现目标区域的检测和跟踪。

在目标对象是人的面部的情况下，元数据用户终端30通过图12中所示的方法来检测目标区域（在该情况下，为面部区域）。首先，区域提取单元103通过移动面部检测器（图12的示例中的矩形窗口）来扫描一个视频帧的整个图像，并且检测面部区域。然后，区域提取单元103试图在移动面部检测器的同时相对于下一视频帧来检测面部区域。此时，区域提取单元103通过扫描在前一视频帧中检测到的面部区域的周围来检测面部区域。然后，区域提取单元103在相对于下一视频帧而移动面部检测器的同时通过扫描前一视频帧中检测到的面部区域的周围来检测面部区域。

图12的示例示出与面部区域的检测和跟踪相关的处理的细节，但是，如图13中所示，还可以相对于整个人、汽车和字母等以相同的方式来进行区域的检测和跟踪。图13的示例示出与人区域、汽车区域和字母区域的检测和跟踪相关的处理的细节。另外，目标区域的形状可以如图12中所示的那样是矩形的，或者可以是圆形的或任何其他形状。当目标区域的形状是矩形时，例如通过相对于左上角的坐标（x,y）、高度h和宽度w来表达目标区域的位置和范围。另一方面，在目标区域的形状是圆形的情况下，通过例如中心坐标（x,y）和半径r来表达目标区域的位置和范围。

将再次参考图11。已经以上述方式检测到目标区域的元数据提供终端10通过区域处理单元104的功能来计算每一个目标区域的RPS（RegionPriority Score，区域优先级分数）（S103）。通过下面的表达式（1）来定义这个RPS。Type（类型）指示根据在目标区域中包括的目标对象的类型（如面部、人、字母或物体等）的分数。而且，Sqr指示根据目标区域在一个完整视频帧中占用的面积的分数。而且，ΔT指示目标区域的出现的时间的长度。而且，α、β和γ指示归一化因子。

表达式（1）

RPS=α×Type+β×Sqr+γ×ΔT

例如，如图14中所示，在以5个视频帧作为目标的情况下，假定检测到人区域、汽车区域和动物区域，作为目标区域的结果。另外，在图14的示例中，人区域位于第一至第五视频帧中，汽车区域位于第二和第三视频帧中，并且动物区域位于第一至第三视频帧中。而且，假定为人区域分配分数Type=5.0，为汽车区域分配分数Type=1.0，为动物区域分配分数Type=3.0。

而且，基于目标区域的检测结果，假定与人区域的面积对应的Sqr是2.0，与汽车区域的面积对应的Sqr是8.0，与动物区域的面积对应的Sqr是3.0。而且，假定人区域的出现时间是ΔT=5.0，汽车区域的出现时间是ΔT=2.0，并且动物区域的出现时间是ΔT=3.0。在该情况下，当α=β=γ=1时，人区域的RPS是RPS(人)=5.0+2.0+5.0=12.0。此外，汽车区域的RPS是RPS(汽车)=1.0+8.0+2.0=11.0。此外，动物区域的RPS是RPS(动物)=3.0+1.0+3.0=7.0。

再一次参考图11，在以如上所述的方式计算了每种类型的目标对象的目标区域的RPS后，元数据提供终端10通过区域处理单元104的功能来确定每一RPS是否等于或大于预定阈值（S104）。然后，元数据提供终端10通过区域处理单元104的功能来去除RPS小于预定阈值的目标区域。即，元数据提供终端10通过元数据用户终端30从目标区域的检测结果中去除RPS低于预定阈值的目标区域。例如，在图14的情况下，当预定阈值是8.0时，从目标区域的检测结果中去除动物区域。

另外，可以通过将整个视频作为目标来计算RPS，或者可以通过在移动RPS计算窗口的同时以从预定数量的视频帧形成的、包括于RPS计算窗口中的视频帧组作为目标，以如图15中所示的那样进行该计算。当基于RPS计算窗口来计算RPS时，从包括于每一个RPS计算窗口中的视频帧内检测的目标区域中去除针对每一个PS计算窗口计算的RPS低于预定阈值的目标区域。

将再一次参考图11。在以如上所述的方式去除RPS小于预定阈值的目标区域后，元数据提供终端10通过区域处理单元104的功能来计算剩余目标区域的宽度和高度（在目标区域为圆形的情况下，为半径）（S105）。然后，元数据提供终端10通过区域处理单元104的功能去除宽度或高度小于预定阈值的目标区域（S106）。即，元数据提供终端10通过区域处理单元104的功能，从RPS等于或大于预定阈值的目标区域中去除宽度或高度小于预定阈值的目标区域。

接下来，元数据提供终端10通过区域处理单元104的功能来组合同一视频帧内位置彼此接近的同一类型的目标区域（S107）。如图16中所示，在具有小尺寸的多个目标区域位置彼此接近的情况下，区域处理单元104通过组合所述多个目标区域来创建大目标区域。另外，在图11的示例中，在步骤S106中确定目标区域的宽度和高度的阈值，但是，可以进行修改，其中，在步骤S107后执行步骤S105和S106的处理。利用这种配置，通过组合而变大的小目标区域可以保持不被去除。

已组合了目标区域的元数据提供终端10通过目标识别单元105的功能对目标区域进行簇化（S108）。例如，如图17中所示，假定从视频（视频内容）中检测到5个面部跟踪的区间（检测结果1至5），作为面部检测/面部跟踪的结果（面部跟踪结果）。在该情况下，目标识别单元105基于在每一个检测结果中包括的面部的特征来整合与同一人相关的多个面部跟踪区间。在图17的示例中，假定面部特征在检测结果1和检测结果3之间相似。在该情况下，目标识别单元105使得与检测结果3对应的面部区域属于与对应于检测结果1的面部区域相同的簇，并且整合对应的两个面部跟踪区间。

而且，在图17的示例中，假定面部特征在检测结果1和检测结果5之间是相似的。在该情况下，目标识别单元105使得与检测结果5对应的面部区域属于与对应于检测结果1的面部区域相同的簇，并且整合对应的两个面部跟踪区间。另一方面，假定面部的特征在检测结果1、2和4之间不同。在该情况下，不整合在检测结果1、2和4之间的面部跟踪区间。结果，获得与检测结果1、3和5对应的面部区域所属的簇1、与检测结果2对应的面部区域所属的簇2和与检测结果4对应的面部区域所属的簇4。

再次参考图11。对于非面部的区域，也以类似的方式进行簇化。在进行簇化后，元数据提供终端10通过目标识别单元105的功能将标识信息与每一个簇相关联（S109）。例如，如图17中所示，目标识别单元105参考将面部的特征和用于表示特定人的标识信息（人物ID）相关联的面部数据库，并且基于用于表示每一簇的面部的特征来识别与每一簇对应的人物ID。然后，目标识别单元105将已经识别的人物ID与簇相关联。另外，面部数据库可以被存储在元数据提供终端10中，或者可以被存储在元数据管理系统20或外部电子装置中。

另外，可以通过使用例如JP 2010-3021A中描述的技术来实现步骤S108中的簇化。而且，可以通过使用例如JP 2007-65766A中描述的技术来实现步骤S109中基于特征的目标对象的识别。

上文已经描述了与预处理相关的元数据提供终端10的操作。通过如上所述的处理，获得关于出现特定目标对象的区间、每一视频帧中出现目标对象的区域的信息以及用于识别目标对象的标识信息。即，获得区域元数据和区间元数据。然而，这些区域元数据和区间元数据已经基于目标检测/目标跟踪技术和目标识别技术而被自动检测，并且假定包含错误检测、检测失败或错误识别等影响。因此，对元数据的人为标注是不可缺少的。

（2-3-2：标注处理）

下面将参考图18来描述元数据提供终端10的与用户的标注操作相关的操作（图9中的步骤S20）。图18是用于说明元数据提供终端10的与用户的标注操作相关的操作的示意图。

如图18中所示，元数据提供终端10准备要作为标注的目标的视频帧（以下称为目标帧）（S201）。然后，元数据提供终端10确定是否存在对目标帧的分析结果（由视频分析块创建的区域元数据等）（S202）。在存在分析结果的情况下，元数据提供终端10将处理进行到步骤S203。另一方面，在不存在分析结果的情况下，元数据提供终端10将处理进行到步骤S205。

在进行到步骤S203的情况下，元数据提供终端10通过移动距离计算单元110的功能来计算目标区域在目标帧和与目标帧相邻的视频帧之间的移动距离（S203）。另外，在目标帧包括多个目标区域的情况下，移动距离计算单元110计算为多个目标区域而计算的移动距离的代表值（例如，平均值或中值）。然后，元数据提供终端10通过再现控制单元107的功能确定移动距离是否等于或大于预定阈值（S204）。

在移动距离等于或大于预定阈值的情况下，元数据提供终端10将处理进行到步骤S207。另一方面，在移动距离小于预定阈值的情况下，元数据提供终端10将当前目标帧的下一视频帧设置为新的目标帧，并且将处理进行到步骤S203。即，在目标区域的移动距离短并且目标区域的位置几乎没有改变的情况下，如图20中所示，元数据提供终端10跳过用户对目标帧的输入机会。另外，在跳过用户的输入机会的情况下，元数据提供终端10通过元数据提供单元106的功能，将在目标帧的前一视频帧中设置的元数据设置到目标帧。

将再次参考图18。在从步骤S202进行到步骤S205的情况下，元数据提供终端10通过相似度分数计算单元111的功能来计算在目标帧和与目标帧相邻的视频帧之间的相似度分数（S205）。相似度分数是用于指示视频帧之间的相似程度的分数。可以通过使用例如JP 2007-206920A中描述的技术来实现相似度分数的计算。然后，元数据提供终端10通过再现控制单元107的功能来确定相似度分数是否等于或大于预定阈值（S205）。

在相似度分数等于或大于预定阈值的情况下，元数据提供终端10将处理进行到步骤S207。另一方面，在相似度分数小于预定阈值的情况下，元数据提供终端10将当前目标帧的下一视频帧设置为新的目标帧，并且将处理进行到步骤S205。即，当在目标帧和与目标帧相邻的视频帧之间几乎没有改变的情况下，如图19中所示，元数据提供终端10跳过用户对目标帧的输入机会。另外，在跳过用户的输入机会的情况下，元数据提供终端10通过元数据提供单元106的功能，将在目标帧的前一视频帧中设置的元数据设置到目标帧。

将再次参考图18。在进行到步骤S207的情况下，元数据提供终端10通过再现控制单元107的功能在显示单元108上显示目标帧，并且通过输入单元109的功能来接收用户的输入（S207）。例如，在输入单元109是触摸板的情况下，如图21中所示，用户在参考显示单元108上显示的目标帧的同时选择目标区域。此时，再现控制单元107在已选择的区域（选择区域）处显示具有预定形状的对象（通过图21中的阴影来表示）。另外，再现控制单元107可以根据压力或接近距离（图24）来调整对象的大小，或者可以根据张开/缩窄（pinch in/pinch out）操作（图25）或手势操作（图26）来调整对象的大小。

接下来，元数据提供终端10通过移动距离计算单元110的功能来计算目标帧中用户选择的目标区域和与目标帧相邻的视频帧中的目标区域之间的距离（S208）。在进行标注操作时，再现控制单元107以比正常的再现速度慢的速度再现视频。然而，相对于其中目标对象移动得快的场景或其中目标区域的选择困难的场景，用户的操作可能跟不上场景之间的切换，因而可能进行对目标区域的错误选择。因此，如图23中所示，元数据提供终端10计算用户选择的目标区域的移动距离，并且基于移动距离来检测用户操作的延迟。

已计算了移动距离的元数据提供终端10通过再现控制单元107的功能来确定其中移动距离等于或大于预定阈值的区间是否继续预定长度或更长（S209）。即，在其中移动距离等于或大于预定阈值的区间继续预定长度或更长的情况下，元数据提供终端10假定用户操作存在延迟。在检测到用户操作的延迟的情况下，元数据提供终端10将处理进行到步骤S210。另一方面，在未检测到用户操作的延迟的情况下，元数据提供终端10将处理进行到步骤S211。

在进行到步骤S210的情况下，元数据提供终端10通过再现控制单元107的功能，将视频的再现速度变慢（S210），并且将处理进行到步骤S201。在该情况下，元数据提供终端10不将用户相对于目标帧而选择的目标区域的信息用作元数据。另一方面，在进行到步骤S211的情况下，元数据提供终端10通过元数据提供单元106的功能来存储关于用户选择的目标区域的信息（S211）。然后，元数据提供终端10确定是否完成对所有的目标帧的处理（S212）。在完成对所有的目标帧的处理的情况下，元数据提供终端10结束该系列处理。另一方面，在仍然存在未完成处理的目标帧的情况下，元数据提供终端10将处理进行到步骤S201。

上文已经描述了元数据提供终端10的与标注操作相关的操作。

（用户界面）

在此将给出关于用于标注操作的用户界面的补充说明。

元数据的标注操作一般是目标区域选择操作。即，如图21中所示，用户检测在屏幕上显示的图像中的目标对象，并且选择包括该目标对象的区域，由此执行对元数据的标注。在触摸板被用作输入装置的情况下，用户可以仅通过触摸显示目标对象的位置来选择目标区域。此外，因为连续地再现视频图像，用户可以仅通过使用手指跟随在屏幕上显示的视频中出现的目标对象来选择目标区域。

例如，在人物A的面部出现在第二至第六视频帧中的情况下，如图22中所示，用户仅必须触摸第二视频帧中的人物A的面部出现的位置，并且使用手指来跟随人物A的面部直到第六视频帧的再现的结束。通过这个操作来创建用于指示第二至第六视频帧的每一个中的出现人物A的区域的区域元数据。而且，区间元数据被创建，该区间元数据指示人物A的面部出现在与第二至第六视频帧对应的区间中。以这种方式，使得用户能够在参考正在被再现的视频的同时、通过跟随在屏幕上出现的目标对象来进行选择，从而容易地创建区域元数据和区间元数据。

而且，如图24中所示，还可使得区域的大小根据压力的强度以及触摸板和手指之间的距离来改变。而且，如图25中所示，还可使得所选择的区域的大小根据缩窄（pinch out）操作而改变。而且，如图26中所示，还可使得所选择的区域的大小根据手势来改变。例如，当执行顺时针绘制圆圈的手势时可以增大所选择的区域的尺寸，并且当执行逆时针绘制圆圈的手势时可以减小所选择的区域的尺寸。

而且，如图27中所示，还可使得用户能够通过使用滚动条等来自由地选择视频中的再现场景。而且，如图27中所示，可以基于由视频分析块自动创建的区域元数据、使用每一个场景的图像中的帧来显示目标区域（在这个示例中为面部区域）。在用户校正视频分析块的分析结果的情况下，期望可以通过迅速地找到要校正的区间以执行校正操作（例如参见图30）。如图27中所示，如果可以使用滚动条来自由地选择再现场景，并且在每个再现场景中显示基于分析结果的帧，则使得用户能够迅速地找到其中目标区域要校正的再现场景。

在图27中图示用于使用滚动条来转换场景的用户界面，但是，如图28中所示，用于使用轻弹（flicking）手势来转换再现场景的用户界面也是方便的。使用这个用户界面，当手指滑动到屏幕的左面时，再现场景转换到下一页面，并且当手指滑动到屏幕的右面时，再现场景转换到前一页面。另外，可以通过一个轻弹手势将再现场景转换一个视频帧，或者，可以通过一个轻弹手势将再现场景转换到对于其而言视频帧之间的相似度分数等于或大于预定阈值的视频帧。

而且，如图29中所示，可以在指示目标区域的帧中显示关于目标区域的信息。图29是显示面部区域的信息的示例，并且在该情况下，在帧中显示面部区域的大小、面部ID（或人物ID）和属性信息（面部的取向、面部的遮挡或人的姓名等）等。例如，通过如图31和32中所示的选择菜单项目的操作或字母的输入操作来执行属性信息的设置。而且，面部的取向可以是例如“前”、“侧”或“后”等。而且，遮挡的水平可以是例如“完全可见”、“有些隐藏”、“可以看到眼、鼻或嘴”或“完全隐藏”等。

而且，如图33中所示，可以并排显示针对同一目标对象而在过去设置的目标区域的图像。例如，当在特定的再现场景中使用两个手指来选择面部区域时，并排显示针对与面部区域中包括的面部相同的面部而在过去设置的面部区域的图像。使用并排显示的、在过去设置的面部区域的图像，可以确认在过去设置的面部区域和在当前再现场景中出现的人的面部确实匹配。还使得用户能够迅速地发现错误的输入。

另外，通过在并排显示的图像中选择面部区域的图像，还可使得能够转换到设置了面部区域的再现场景。由此使得能够在发现错误输入时迅速转换到对应的再现场景，以允许对面部区域的更有效的校正。而且，还可具有用于使用两个手指（或菜单选择或双击等）来校正通过选择而显示的、并排显示的图像中的面部区域的图像的属性信息的菜单项。由此能够在不转换再现场景的情况下校正属性信息，以允许对属性信息的更有效校正。

现在，当通过视频分析块自动处理时，可能将同一目标对象识别为不同的目标对象。例如，在同一人出现在视频中分开较远的区间中的情况下，在这些区间中出现的两个人可能被识别为彼此不同。在该情况下，必须组合关于在这两个区间中出现的人的信息。使用如图34中所示的用户界面来执行这样的组合处理。如图34中所示，当使用手指选择在特定的再现场景中出现的人的面部区域（例如，菜单选择或使用三个手指的选择）时，显示组合候选者。然后，当在组合候选者中选择一个人时，关于当前再现帧中出现的面部区域的信息和关于所选择的人的信息被组合。

顺便提及，在进行标注操作时，如果不向用户返回反馈，则难以得知已经增加了元数据。此外，如图35中所示，通过向用户返回特征反馈，可以直观地表达关于已经增加的元数据的信息。在图35的示例中，示出下述配置：其中，对于目标对象是人、汽车和动物的情况，振动模式是不同的。例如，当触摸已经被增加了元数据的面部区域时，根据用于人的振动模式的振动出现，因而用户可认识到增加了人的元数据。

这些出现的反馈还有助于激励用户执行标注操作。例如，用户可能由于没有从未被增加元数据的区域获得振动反馈而想要增加元数据。此外，如果根据按照再现场景中的人的感觉的振动模式的振动反馈被返回，则标注操作变得象游戏那样，并且用户将自愿开始增加元数据，以使得出现振动反馈。例如，可设想这样的振动模式：根据该振动模式，当人愤怒时振动幅度大，而当人平静时振动幅度小，并且当人放松时振动幅度平滑。

上文已经给出了关于用于标注操作的用户界面的补充说明。

[2-4：元数据管理系统20的配置]

接下来将参考图36和37来描述元数据管理系统20的配置。图36和37是用于描述元数据管理系统20的配置的示意图。

（概述）

首先，将参考图36描述元数据管理系统20的功能的概述。如图36中所示，元数据管理系统20具有整合由多个元数据提供终端10提供的多个视频时间线元数据的功能。通过整合而获得的视频时间线元数据被提供到元数据用户终端30。而且，元数据管理系统20包括构造学习数据库的功能，该学习数据库用于创建用于从视频中检测目标对象的检测器或用于执行对目标对象的识别的识别器。如上所述，元数据管理系统20主要执行多个视频时间线元数据的整合和学习数据库的构造。另外，元数据管理系统20还可以具有图10中所示的视频分析块的功能。

（功能配置）

现在参见图37。如图37中所示，元数据管理系统20主要包括：元数据获取单元201、技巧/趋向分析单元202、区域元数据整合单元203、区间元数据整合单元204、对象元数据整合单元205、元数据提供单元206、存储单元207和学习单元208。

首先，元数据获取单元201从元数据提供终端10获取视频时间线元数据。由元数据获取单元201获取的视频时间线元数据被输入到技巧/趋向分析单元202。技巧/趋向分析单元202基于输入的视频时间线元数据来分析关于已经增加了视频时间线元数据的用户的标注操作的标注技巧或趋向。技巧/趋向分析单元202的分析结果被输入到区域元数据整合单元203、区间元数据整合单元204和对象元数据整合单元205。

区域元数据整合单元203整合多个区域元数据。例如，在目标区域是矩形的情况下，区域元数据整合单元203针对与在同一视频帧中设置的同一目标对象相关的多个目标区域来计算顶点坐标的平均值，并且将以该平均值作为顶点的矩形区域设置为整合后的目标区域。而且，在目标区域为圆形的情况下，区域元数据整合单元203针对与在同一视频帧中设置的同一目标对象相关的多个目标区域来计算中心坐标的平均值和半径的平均值，并且将以中心坐标的平均值作为新中心坐标并以半径的平均值作为半径的圆形区域设置为整合后的目标区域。整合后的区域元数据被输入到元数据提供单元206。

区间元数据整合单元204整合多个区间元数据。例如，区间元数据整合单元204参考与同一视频和同一目标对象相关的多个区间元数据，并且通过下述处理来创建整合后的区间元数据：将通过预定数量或更多的区间元数据而作为目标对象的出现区间的区间设置为目标对象的出现区间，并且将其他区间设置为目标对象的非出现区间。另外，区间元数据整合单元204可以使用考虑到用户的技巧的分数来创建整合后的区间元数据。整合后的区间元数据被输入到元数据提供单元206。

对象元数据整合单元205整合多个对象元数据。对象元数据例如包括用于指示对象的名称、属性和描述等的多个文本。然而，这些文本包括写入方式的变动。因此，对象元数据整合单元205校正文本，以便减少每一对象元数据中包括的写入方式的变动。即，对象元数据整合单元205确定相似的文本，并且将它们校正为预定的写入方式。例如，对象元数据整合单元205将用于表示同一人的姓名的所有的写入方式“Cameron Diaz”、“CameronDiaz”、“Cameron”和“Cameron Michelle Diaz”替换为“Cameron Diaz”。整合后的对象元数据被输入到元数据提供单元206。

另外，优选地，在用户输入对象元数据时，对象元数据的写入方式的变动被抑制到一定程度。例如，可以设想用于提供使得用户能够从文本候选中选择而不需输入文本的用户界面或使用文本完成功能的方法。而且，可以用与在对象元数据整合单元205相同的方式在元数据提供终端10处减少写入方式的变动。

元数据提供单元206向元数据用户终端30提供整合后的区域元数据、整合后的区间元数据和整合后的对象元数据。元数据提供单元206还在存储单元207中存储整合后的区域元数据、整合后的区间元数据和整合后的对象元数据。在通过学习来创建目标对象的检测器和识别器时，存储单元207中存储的区域元数据、区间元数据和对象元数据被用作训练数据。当收集了多个训练数据时，学习单元208使用所收集的多个训练数据，并且通过学习来创建目标对象的检测器和识别器。此时，学习单元208使用例如JP 2009-104275A中描述的技术。在视频分析块中使用由学习单元208创建的检测器和识别器。

上文已经描述了元数据管理系统20的配置。

[2-5：元数据管理系统20的操作]

接下来，将参考图38至44来描述元数据管理系统20的操作。还给出关于元数据管理系统20的详细功能配置的补充说明。图38至44是用于描述元数据管理系统20的操作的示意图。

（2-5-1：整合处理）

首先，将参考图38来描述元数据管理系统20的关于后处理的操作（图9中的步骤S30）。图38是用于描述元数据管理系统20的关于后处理的操作的示意图。

如图38中所示，元数据管理系统20通过元数据获取单元201的功能来从元数据提供终端10获取视频时间线元数据（S301）。然后，元数据管理系统20确定是否存在高度可靠的数据（S302）。高度可靠的数据例如是使用高度精确的视频分析引擎而检测到的视频时间线元数据或从技巧高超的用户获取的视频时间线元数据。在存在高度可靠的元数据的情况下，元数据管理系统20将处理进行到步骤S303。另一方面，在没有高度可靠的元数据的情况下，元数据管理系统20将处理进行到步骤S305。

在进行到步骤S303的情况下，元数据管理系统20通过技巧/趋向分析单元202的功能基于下面的表达式（2）来计算用于每一个用户和每一个类型的视频时间线元数据的LSS（Labeling Skill Score，标注技巧分数）（S303）。在此，下面的表达式（2）中包括的Accuracy（准确度）是用于指示所获取的视频时间线元数据的准确度的参数。例如，可以将诸如再现率（recall）、准确度、F测量和错误率等值用作所述准确度。而且，Variance（方差）是高度可靠的元数据和所获取的视频时间线元数据之间的差的方差。另外，α和β是归一化因子。

表达式（2）

LSS = α \times Accuracy + β \frac{1}{1 + Variance}

根据上面的表达式（2）可以假定，当所获取的视频时间线元数据的准确度变大时，LSS具有更大的值。当所获取的视频时间线元数据和高度可靠的元数据之间的差的方差变小时，LSS也具有更大的值。另外，可以根据作为高度可靠的元数据和所获取的视频时间线元数据之间的差的方差的方差来分析用户的趋向（tendency）。例如，在Variance小的情况下，可设想存在独特于用户的趋向，如设置大区域的趋向、获取长间隔的趋向、区域选择操作晚的趋向。

现在，已经计算了LSS的元数据管理系统20通过技巧/趋向分析单元202的功能并且根据高度可靠的元数据和所获取的视频时间线元数据之间的差来计算用户的趋向（S304）。然后，元数据管理系统20在根据所获取的视频时间线元数据的类型的处理之间进行切换（S305）。在所获取的视频时间线元数据是区域元数据的情况下，元数据管理系统20将处理进行到步骤S306。而且，在所获取的视频时间线元数据是区间元数据的情况下，元数据管理系统20将处理进行到步骤S307。而且，在所获取的视频时间线元数据是对象元数据的情况下，元数据管理系统20将处理进行到步骤S308。

在进行到步骤S306的情况下，元数据管理系统20通过区域元数据整合单元203的功能来整合多个区域元数据（S306）。例如，如图40中所示，假定获取了用户A、用户B和用户C已用来标注同一视频帧中的同一目标对象的多个区域元数据。在该情况下，区域元数据整合单元203计算用户A已经标注的目标区域的每组顶点坐标、用户B已经标注的目标区域的每组顶点坐标和用户C已经标注的目标区域的每组顶点坐标的平均值，并且计算具有顶点坐标的平均值的区域。然后，区域元数据整合单元203将所计算的区域设置为整合后的区域元数据。

而且，如图40中所示，区域元数据整合单元203可以通过坐标热图（coordinates heat map）来表示每一个目标区域，并且使用热图作为可靠性分布。而且，区域元数据整合单元203可以根据LSS进行加权，使得在整合多个元数据前，具有高LSS的用户标注的区域元数据被施加较大的权重。区域元数据整合单元203还可以考虑到每一个用户的趋向而执行对多个区域元数据的整合处理。例如，如果用户A具有设置小区域的趋向，则区域元数据整合单元203可以在将用户A设置的区域与其他用户设置的区域整合之前放大用户A设置的区域。

再次参考图38。在进行到步骤S307的情况下，如图41中所示（S307），元数据管理系统20通过区间元数据整合单元204的功能来整合多个区间元数据。首先，区间元数据整合单元204基于下面的表达式（3）来计算TMS（Timeline Meta Score，时间线元分数）。下面的表达式（3）中包括的L指示已经执行标注的一组用户。另外，LSS_n表示用户n的LSS。另外，IsLabeled_n，t表示用户n是否已经对时间t的视频帧执行了标注。而且，M指示已经进行了标注的用户的总数。TMS_t表示已经对时间t的视频帧进行了标注的多个用户的标注技巧分数（LSS）的平均值。

表达式（3）

{TMS}_{t} = \frac{\underset{n &Element; L}{Σ} LS S_{n} \times {IsLabeled}_{n, t}}{M}

已经计算TMS的区间元数据整合单元204将其中TMS等于或大于预定阈值Th的区间设置为目标对象的出现区间，并且创建整合后的区间元数据。另外，区间元数据整合单元204可以在区间元数据的整合处理中反映每一个用户的趋向。例如，假定用户A具有在延迟的定时选择区域的趋向。在该情况下，在计算TMS前，区间元数据整合单元204校正用户A的区间元数据，使得目标对象的出现开始/结束定时前移时间上的延迟时间量，然后基于TMS来创建整合后的区间元数据。

在从步骤S305进行到步骤S308的情况下，元数据管理系统20通过对象元数据整合单元205的功能来执行对象元数据的整合处理（S308）。首先，如图39中所示，对象元数据整合单元205整合标注于同一目标对象上的多个属性信息等。然后，对象元数据整合单元205校正用于指示对象元数据中包括的目标对象的名称、属性或描述等的文本在写入方式上的变动。

当完成步骤S306、S307或S308的处理时，元数据管理系统20通过元数据提供单元206的功能向元数据用户终端30提供整合后的区域元数据、整合后的区间元数据或整合后的对象元数据（S309）。然后，元数据管理系统20确定是否使用整合后的视频时间线元数据来创建新的检测器或识别器（新功能开发/准确度增强）（S310）。在使用整合后的视频时间线元数据来用于新功能开发/准确度增强的情况下，元数据管理系统20将处理进行到步骤S311。另一方面，在不使用整合后的视频时间线元数据来用于新功能开发/准确度增强的情况下，元数据管理系统20结束该系列处理。

在进行到步骤S311的情况下，元数据管理系统20在存储单元207（学习数据库）中存储整合后的视频时间线元数据（S311）。然后，元数据管理系统20通过学习单元208的功能来确定是否在学习数据库中累积了足够的视频时间线元数据（S312）。在学习数据库中累积了足够的视频时间线元数据的情况下，元数据管理系统20将处理进行到步骤S313。另一方面，在学习数据库中还未累积足够的视频时间线元数据的情况下，元数据管理系统20结束该系列处理。

在进行到步骤S313的情况下，元数据管理系统20通过学习单元208的功能来将存储单元207中累积的视频时间线元数据用作训练数据，并且通过学习来创建新的检测器和识别器（S313）。已经创建了新检测器和识别器的元数据管理系统20结束该系列处理。

上面已经描述了元数据管理系统20的与后处理相关的操作。

（2-5-2：其他功能）

顺便提及，除了整合多个视频时间线元数据的功能和通过学习来创建新的检测器和识别器的功能之外，元数据管理系统20还可以包括帮助或促进标注的功能。例如，如图42中所示，元数据管理系统20可以包括向已经执行标注的用户奖励点数或奖券等的功能。此外，如图43中所示，元数据管理系统20可以包括用于通过社会网络服务（social networks service,以下称为SNS）提供其中可以在多个用户之间共享视频时间线元数据的环境的功能。而且，如图44中所示，元数据管理系统20可以包括提供有助于对象元数据的输入的信息的功能。

这些功能是用于直接地或间接地激励用户执行标注操作的功能。对于许多用户来说，视频时间线元数据的标注操作可能是麻烦的操作。此外，甚至对于一些用户来说，标注操作是痛苦的。因此，提供对于视频时间线元数据的标注操作的激励是有意义的。

例如，如图42中所示，通过提供用于为已经执行标注的用户提供点数或奖券的机制，可以使得增强标注操作的动机。此外，取代提供点数或奖券，可以提供其上已经执行了标注的视频（电影或广播节目等）来免费观看。而且，还可以设想给予用户诸如“在视频中查找”等目标，使得标注操作变得象游戏一样。而且，给予已经长时间执行标注操作的用户高奖励或为已经对具有高关注度的人物执行了标注的用户提供高奖励的机制是有效的。

而且，如图43中所示，当在SNS上共享视频时间线元数据时，已经上载了视频时间线元数据的用户可以被其他用户所赞赏。被其他用户赞赏可以激励用户自愿地执行标注操作。此外，如图44中所示，通过基于在视频中选择的面部区域的特征来提供匹配的候选者而简化标注操作。此外，包括猜人游戏的元素，因而还可预期用户的标注操作的动机的增强。

上面已经描述了元数据管理系统20的可选功能。另外，可以通过另一服务提供系统来提供如上所述的可选功能。

[2-6：元数据用户终端30的配置和操作]

接下来，将参考图45来描述元数据用户终端30的配置。在此，还描述元数据用户终端30的操作。图45是用于描述元数据用户终端30的配置的示意图。

如图45中所示，元数据用户终端30主要包括：元数据获取单元301、出现区间呈现单元302、出现区间再现单元303、存储单元304、显示单元305、相关信息出现单元306和输入单元307。

元数据获取单元301从元数据管理系统20获取视频时间线元数据（参见图46）。元数据获取单元301获取的视频时间线元数据中的区间元数据比输入到出现区间呈现单元302。另一方面，向相关信息出现单元306输入区域元数据。出现区间呈现单元302使用区间元数据，并且在显示单元305上显示用于指示其中每一个目标对象出现的区间的信息。例如，如图47中所示，出现区间呈现单元302以不同的颜色来显示所有区间中的角色的出现区间。

而且，如图4和48中所示，出现区间呈现单元302可以彼此相关联地显示其中角色出现的区间的时间信息和关于在区间中出现的角色的信息。而且，如图49中所示，出现区间呈现单元302可以显示在当前被再现的区间中出现的角色。此外，出现区间呈现单元302可以在时间线上显示其中出现由用户从当前再现的区间中出现的各角色中选择的角色的区间。而且，如图50中所示，出现区间呈现单元302可将其中出现由用户从当前再现的区间中出现的各角色中选择的角色的区间的代表性场景显示在一行中。

将再次参考图45。区间元数据还经由出现区间呈现单元302被输入到出现区间再现单元303。出现区间再现单元303再现存储单元304中存储的视频，并且在显示单元305上显示它。此外，在其中出现特定目标对象或特定目标对象被选择的区间的情况下，出现区间再现单元303基于区间元数据来再现所选择的区间或其中出现了所选择的目标对象的区间。例如，如图47中所示，在用户选择了“Cameron”的出现区间的情况下，出现区间再现单元303再现所选择的出现区间的视频图像。

而且，如图48中所示，在从出现区间的列表中选择了一个出现区间的情况下，出现区间再现单元303再现所选择的出现区间的视频图像。此外，如图49中所示，在选择了当前正在被再现的区间中出现的角色的情况下，出现区间再现单元303再现其中所选择的角色出现的区间的视频图像。而且，如图50中所示，在选择了屏幕上的所选角色的出现场景之一的情况下，出现区间再现单元303再现所选择的出现场景的视频图像。以这种方式，出现区间再现单元303使用区间元数据，并且选择性地再现与由用户选择的区间或目标对象对应的视频图像。

关于相关信息出现单元306的功能，相关信息出现单元306使用区域元数据，并且在显示单元305上显示在当前显示的图像中包括的每一个目标对象的相关信息。例如，如图1中所示，在当前显示的图像中包括人物A和人物B的情况下，相关信息出现单元306在屏幕上显示人物A和人物B的多个相关信息。此外，如图2中所示，在当前显示的图像包括对象和地点的情况下，相关信息出现单元306在屏幕上显示对象和地点的多个相关信息。而且，如图3中所示，在选择了当前显示的图像中出现的目标对象的情况下，相关信息出现单元306还可以被配置为显示所选择的目标对象的相关信息。

另外，除了人的简档和照片之外，相关信息还可以包括例如到SNS服务的链接或到在线销售网站的链接、人或对象的照片、其中出现人的另一视频产品。此外，元数据管理系统20或元数据用户终端30存储相关信息，或者，通过向服务提供系统发送诸如人物ID等标识信息，可以从提供相关信息的服务提供系统获取相关信息。

而且，如图51和52中所示，可以使用AR（Augmented Reality，增强现实）来显示相关信息。在使用AR的情况下，用户使用具有相机的终端装置来拍摄视频的显示屏幕，并且使得显示屏幕被显示在具有相机的终端装置的显示器上，如图51中所示。当视频的显示屏幕进入拍摄范围时，具有相机的终端装置获取在显示屏幕上出现的目标对象的相关信息，并且使得在显示器上显示所获取的相关信息。而且，如图52中所示，在具有相机的终端装置的安装角度发生改变并且显示屏幕从拍摄范围中移除的情况下，在具有相机的终端装置的显示器上可以仅显示所述相关信息。另外，如果诸如加速度计等传感器被安装在具有相机的终端装置中，则可以检测所述角度的改变，因此，使得能够基于检测结果，在相关信息的各显示方法之间切换。

上面已经描述了元数据用户终端30的配置和操作。

[2-7：视频时间线元数据的数据结构]

接下来，将参考图53至59来描述视频时间线元数据的数据结构。图53至59是用于描述视频时间线元数据的数据结构的示意图。另外，图46示出视频时间线元数据的一个示例配置（其中目标对象是面部的情况）。在图46的示例中，区域元数据包括面部帧的位置和范围，区间元数据包括面部的出现区间，并且对象元数据包括人物ID、面部属性和面部的缩略图。

在此将给出关于使得能够容易地管理具有如上所述的结构的视频时间线元数据的存储格式的说明。在这种存储格式中，以如图53中所示的连接框结构（connected box structure）来存储视频时间线元数据。根据视频时间线元数据的类型对框（box）进行分类。例如，“面部框（face box）”表示与面部区域相关的视频时间线元数据。此外，“汽车框（car box）”表示与汽车区域相关的视频时间线元数据。利用这样的连接框结构，便于增加新类型的框。此外，便于在视频时间线元数据的尾部增加数据。

如图54中所示，每一个框包括头和数据区域。此外，头的类型包括对于框公共的头（框头，box header）和依赖于数据的头（数据头，dataheader）。框的大小、框的类型和框ID等被存储在对于框公共的头中。另一方面，依赖于数据的头存储数据元素的数量和时间信息等。而且，数据区域包括一个或更多个数据元素（数据元素）。

如上所述，视频时间线元数据利用为每一类型提供的框来存储。然而，如图55中所示，还可以将一个框分割为多个框（分割，fragmentation）。在图55的示例中，诸如“面部框”等框被分割为二。通过分割所述框，减少了在一个框中存储的数据量。因此，可以减少输出时暂时存储在存储器中的数据量，并且可以减小输出时的存储器负载。

而且，如图56中所示，还可以将被分割的框连接在一起。基于框类ID来连接被分割的框。这个框类ID是预先创建的用来标识框的ID。例如，存储视频分析引擎A的分析结果的面部框的框类ID被创建为1，并且存储视频分析引擎B的分析结果的面部框的框类ID被创建为10。在连接被分割的框的情况下，检测具有相同的框类ID的框，并将其连接为一个框。

此外，如图57中所示，创建数据元素之间的父子关系。通过从父节点向子节点延伸的箭头来表达父节点和子节点之间的关系。此外，可以从一个父节点向多个子节点延伸箭头。相对于面部区域，对应于人物ID或姓名的“人”的数据元素是在最上层的父节点。而且，在数据元素“人（Person）”下，设置数据元素“间隔（Interval）”，该间隔对应于出现人的区间的起点或长度。

而且，在数据元素“间隔”下，设置数据元素“向量（Vector）”，该向量对应于向量（面部帧的位置和范围、面部特征）。此外，在数据元素“间隔”下，设置数据元素“面部（face）”，该元素对应于面部信息（面部位置、大小、部分位置、特征）。另外，在数据元素“间隔”下，设置了数据元素“图像”，该元素对应于图像（图像信息、图像数据）。通过创建这样的父子关系，出现人物A的各区间都可以例如以列表的格式被显示。

为了实现如图57中所示的父子关系，每一个数据元素必须是可识别的。鉴于此，为每一个数据元素添加元素ID。这个元素ID是一个视频时间线元数据内具有相同的框类ID的所有框中的唯一ID。例如，如图58中所示，元素ID对于具有框类ID 1的两个面部框是唯一的。另一方面，元素ID可以在具有框类ID 1的面部框和具有框类ID 10的面部框之间重叠。

根据上面的创建，通过组合框类ID和元素ID，保证了父框的唯一性。另外，在子框的框头中存储父框的框类ID。在子框的数据元素中存储父框的数据元素的元素ID。将参考图59来考虑作为父框的人物框（Person box）和作为子框的间隔框（Interval box）之间的关系。人物框的框类ID被存储在间隔框的框头中。人物框中的数据元素、人元素的元素ID 1和2被存储于间隔框的数据元素、间隔元素中。即，父可以具有多个子，但是子不能有多个父。

上面已经描述了视频时间线元数据的数据结构。

<3：硬件配置>

可以通过例如使用图60中所示的信息处理设备的硬件配置来实现如上所述的元数据提供终端10、元数据管理系统20和元数据用户终端30的每一个结构元件的功能。即，可以通过使用计算机程序控制图60中所示的硬件来实现每一个结构元件的功能。另外，这个硬件的模式是任意的，并且可以是个人计算机、诸如移动电话、PHS或PDA等移动信息终端、游戏机或各种类型的信息电子装置。而且，PHS是个人手持电话系统（Personal Handy-phone System）的缩写。此外，PDA是个人数字助理（Personal Digital Assistant）的缩写。

如图60中所示，该硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908和桥910。而且，本硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。而且，CPU是中央处理单元（Central Processing Unit）的缩写。此外，ROM是只读存储器（Read Only Memory）的缩写。而且，RAM是随机存取存储器（Random Access Memory）的缩写。

CPU 902作为例如算术处理单元或控制单元，并且基于在ROM 904、RAM 906、存储单元920或可拆卸记录介质928上记录的各种程序来控制每一个结构元件的整体操作或操作的一部分。ROM 904是用于存储例如要在CPU 902上安装的程序或在算术运算中使用的数据等的部件。RAM 906暂时或永久地存储例如要在CPU 902上安装的程序或在程序的执行中任意改变的各种参数等。

这些结构元件通过例如能够执行高速数据传输的主机总线908来彼此连接。关于其功能，主机总线908通过桥910连接到例如数据传输速度较低的外部总线912。而且，输入单元916例如是鼠标、键盘、触摸板、按钮、开关或杆等。此外，输入单元916可以是遥控器，该遥控器可以通过使用红外线或其他无线电波来发送控制信号。

输出单元918例如为显示装置（诸如CRT、LCD、PDP或ELD等）；音频输出装置（诸如扬声器或耳机等）、打印机、移动电话或者传真机等（它们能够可视地或可听地向用户通知所获取的信息）。而且，CRT是阴极射线管（Cathode Ray Tube）的缩写。LCD是液晶显示器（Liquid CrystalDisplay）的缩写。PDP是等离子体显示板（Plasma Display Panel）的缩写。此外，ELD是电致发光显示器（Electro-Luminescence Display）的缩写。

存储单元920是用于存储各种数据的装置。存储单元920例如是磁存储装置（如硬盘驱动器（HDD））、半导体存储装置、光存储装置或磁光存储装置等。HDD是硬盘驱动器（Hard Disk Drive）的缩写。

驱动器922是读取在诸如磁盘、光盘、磁光盘或半导体存储器等可拆卸记录介质928上记录的信息或者在可拆卸记录介质928中写入信息的装置。可拆卸记录介质928例如是DVD介质、蓝光介质、HD-DVD介质或各种类型的半导体存储介质等。当然，可拆卸记录介质928例如可以是安装了非接触IC芯片的电子装置或IC卡。IC是集成电路（IntegratedCircuit）的缩写。

连接端口924是诸如USB端口、IEEE 1394端口、SCSI、RS-232C端口或用于连接诸如光学音频终端等外部连接装置930的端口等的端口。外部连接装置930例如是打印机、移动音乐播放器、数字相机、数字摄像机或IC记录器等。而且，USB是通用串行总线（Universal Serial Bus）的缩写。此外，SCSI是小计算机系统接口（Small Computer System Interface）的缩写。

通信单元926是要连接到网络932的通信装置，并且例如是用于有线或无线LAN、Bluetooth（注册商标，蓝牙）或WUSB的通信卡、光学通信路由器、ADSL路由器或各种通信调制解调器。连接到通信单元926的网络932包括有线连接或无线连接的网络，并且例如是因特网、家用LAN、红外线通信、可见光通信、广播或卫星通信等。而且，LAN是局域网（LocalArea Network）的缩写。此外，WUSB是无线USB（Wireless USB）的缩写。而且，ADSL是非对称数字用户线（Asymmetric Digital SubscriberLine）的缩写。

最后，将简述本实施例的技术内容。在此所述的技术内容可以被应用到各种信息处理设备，诸如PC、移动电话、便携游戏机、便携信息终端、信息电器和汽车导航系统等。

可以将如上所述的信息处理设备的功能配置表达如下。

（1）一种信息处理设备，包括：

元数据获取单元，用于获取用于指示每一个目标对象在视频中出现的出现区间的区间元数据；

区间信息显示单元，用于使用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区间；以及

再现控制单元，用于在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下，使得再现所选择的区间的视频帧。

（2）根据（1）所述的信息处理设备，

其中，所述区间信息显示单元连同所述区间信息一起来显示与所述区间信息对应的目标对象的图像，并且

其中，在用户选择与关于特定目标对象的区间信息一起显示的目标对象的图像的情况下，所述再现控制单元再现被显示为所述区间信息的所有区间的视频帧。

（3）根据（1）或（2）所述的信息处理设备，进一步包括：

图像显示单元，用于通过使用所述区间元数据来识别在正在被再现的视频帧中包括的每一个目标对象，并且将每一所识别的目标对象的图像显示在一行中，

其中，在用户选择特定目标对象的图像的情况下，所述再现控制单元使得再现其中与所选择的图像对应的目标对象出现的区间的视频帧。

（4）根据（1）到（3）中任一项所述的信息处理设备，

其中，所述元数据获取单元获取区域元数据，所述区域元数据针对每个视频帧写入关于在构成视频的每一个视频帧中包括的每一个目标对象的位置或关于包括所述每一个目标对象的区域的信息，并且

其中，所述信息处理设备进一步包括：

区域识别单元，用于使用所述区域元数据来识别正在再现的视频帧内用户指定的位置处存在的目标对象，以及

相关信息显示单元，在通过所述区域识别单元识别目标对象的存在的情况下，用于显示与所述目标对象相关的相关信息。

（5）根据（1）到（3）中任一项所述的信息处理设备，

其中，所述元数据获取单元获取区域元数据，所述区域元数据用于针对每个视频帧写入关于在构成视频的每一个视频帧中包括的每一个目标对象的位置或关于包括所述每一个目标对象的区域的信息，

其中，所述信息处理设备进一步包括区域识别单元，用于使用所述区域元数据识别正在再现的视频帧内用户指定的位置处存在的目标对象，并且

其中，在通过所述区域识别单元识别出目标对象的存在的情况下，所述再现控制单元使用所述区间元数据来再现其中出现所述目标对象的区间的视频帧。

（6）根据（1）到（3）中任一项所述的信息处理设备，

其中，所述信息处理设备进一步包括相关信息显示单元，用于使用所述区间元数据来识别在正在再现的视频帧中包括的每一个目标对象，并且显示与每一个所识别的目标对象相关的相关信息，并且

其中，所述相关信息显示单元使用所述区域元数据显示来自所述视频帧中包括的每一个目标对象的位置或来自包括所述每一个目标对象的区域的气球，并且在所述气球中显示与所述每个目标对象相关的相关信息。

（7）根据（1）到（3）中任一项所述的信息处理设备，其中，所述区间信息显示单元显示其中出现目标对象的区间与每个区间中出现的每一目标对象相关联的列表。

（8）根据（1）到（3）中任一项所述的信息处理设备，其中，所述区间信息显示单元在条上显示所述视频的每一个区间，并且以加重的方式在所述条上显示其中由用户选择的目标对象出现的区间。

（9）根据（1）到（3）中任一项所述的信息处理设备，

其中，所述区间信息显示单元相对于其中由用户选择的目标对象出现的至少一个区间在一行中显示用于表示区间的图像，并且

其中，在用户选择用于表示区间的一个图像的情况下，所述再现控制单元使得再现与所述图像对应的区间的视频帧。

（10）根据（1）到（3）中任一项所述的信息处理设备，进一步包括：

信息发送单元，用于使用所述区间元数据来识别正在被再现的视频帧中包括的每一个目标对象，并且向终端装置发送关于每一被识别的目标对象的信息，

其中，所述终端装置被安装有图像捕获装置和显示装置，并且通过所述图像捕获装置来捕获正在被再现的所述视频帧，通过所述显示装置来显示所述视频帧，并且基于关于从所述信息处理设备接收的每一目标对象的信息，在所述视频帧上以重叠的方式来显示关于所述每一目标对象的相关信息。

（11）根据（10）所述的信息处理设备，

其中，在所述视频帧的显示区域被包括在所述图像捕获装置的拍摄范围中的情况下，所述终端装置在所述显示装置上显示所述视频帧和所述相关信息，并且

其中，在所述视频帧的所述显示区域不被包括在所述图像捕获装置的所述拍摄范围中的情况下，所述终端装置仅在所述显示装置上显示所述相关信息。

（12）一种信息处理方法，包括：

获取用于指示每一个目标对象在视频中出现的出现区间的区间元数据；

使用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区间；以及

在用户从被显示为关于特定目标对象的多个区间信息的区间中选择一个区间的情况下，使得再现所述择的区间的视频帧。

（13）一种程序，用于使得计算机实现以下功能：

区间信息显示功能，用于使用用于指示每一个目标对象在视频中出现的出现区间的区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的每一个区间中每一个目标对象出现的区间，

其中，在用户从被显示为关于特定目标对象的多个区间信息的区间中选择一个区间的情况下，再现所选择的区间的视频帧。

（14）一种信息处理设备，包括：

信息显示单元，用于使用所述区间元数据来显示在被再现的视频帧中包括的每一个目标对象的图像或相关信息；以及

再现控制单元，在用户选择目标对象的图像或相关信息的情况下，用于通过使用所述区间元数据来识别与所选择的图像或相关信息对应的目标对象的出现区间，并且使得再现在所述出现区间中包括的视频帧。

（15）一种信息处理设备，包括：

元数据获取单元，用于获取区间元数据和区域元数据，所述区间元数据用于指示每一个目标对象在视频中出现的出现区间，所述区域元数据针对每个视频帧写入关于在构成所述视频的每一个视频帧中包括的每一个目标对象的位置或关于包括所述每一个目标对象的区域的信息；

区域识别单元，用于使用所述区域元数据来识别正在被再现的视频帧内用户指定的位置处存在的目标对象；以及

再现控制单元，在通过所述区域识别单元识别了目标对象的存在的情况下，用于通过使用所述区间元数据来识别其存在已经被识别的目标对象的出现区间，并且使得再现在所述出现区间中包括的视频帧。

（注释）

如上所述的元数据获取单元301是元数据获取单元的一个示例。如上所述的出现区间呈现单元302是区间信息显示单元的一个示例。出现区间再现单元303是再现控制单元和图像显示单元的一个示例。相关信息呈现单元306是区域识别单元和相关信息显示单元的一个示例。相关信息呈现单元306是信息发送单元和信息显示单元的一个示例。

本领域的技术人员应当明白，可以根据设计要求和其他因素进行各种修改、组合、子组合和改变，只要它们在所附的权利要求或其等同内容的范围内既可。

本申请包含与2011年5月30日提交于日本专利局的日本优先权专利申请JP 2011-120395中公开的主题相关的主题，该日本申请的整体内容通过引用而合并于此。

Claims

1.一种信息处理设备，包括：

元数据获取单元，用于获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据；

再现控制单元，在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个区间的情况下，该再现控制单元用于使得再现所选择的区间的视频帧。

2.根据权利要求1所述的信息处理设备，

其中，所述区间信息显示单元与所述区间信息一起显示与所述区间信息对应的目标对象的图像，并且

其中，在用户选择了与关于特定目标对象的区间信息一起显示的目标对象的图像的情况下，所述再现控制单元再现被显示为所述区间信息的所有区间的视频帧。

3.根据权利要求1所述的信息处理设备，进一步包括：

图像显示单元，用于通过利用所述区间元数据来识别正在被再现的视频帧中包括的每一个目标对象，并且将每一个识别的目标对象的图像显示在一行，

其中，在用户选择了特定目标对象的图像的情况下，所述再现控制单元使得再现其中出现了与所选择的图像对应的目标对象的区间的视频帧。

4.根据权利要求1所述的信息处理设备，

其中，所述元数据获取单元获取区域元数据，所述区域元数据包含针对每个视频帧的关于在构成视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每一个目标对象的区域的信息，并且

其中，所述信息处理设备进一步包括：

区域识别单元，用于利用所述区域元数据来识别在正在再现的视频帧内在用户指定的位置处存在的目标对象，以及

相关信息显示单元，在通过所述区域识别单元识别出存在目标对象的情况下，该相关信息显示单元用于显示与所述目标对象相关的相关信息。

5.根据权利要求1所述的信息处理设备，

其中，所述元数据获取单元获取区域元数据，所述区域元数据包含针对每个视频帧的关于在构成视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每一个目标对象的区域的信息，

其中，所述信息处理设备进一步包括区域识别单元，用于利用所述区域元数据来识别在正在再现的视频帧内在用户指定的位置处存在的目标对象，并且

其中，在通过所述区域识别单元识别出存在目标对象的情况下，所述再现控制单元利用所述区间元数据来再现其中出现了所述目标对象的区间的视频帧。

6.根据权利要求1所述的信息处理设备，

其中，所述信息处理设备进一步包括相关信息显示单元，用于利用所述区间元数据来识别在正在再现的视频帧中包括的每一个目标对象，并且显示与每一个识别的目标对象相关的相关信息，并且

其中，所述相关信息显示单元利用所述区域元数据从所述视频帧中包括的每一个目标对象的位置或从包括所述每一个目标对象的区域来显示气球，并且在所述气球中显示与所述每一个目标对象相关的相关信息。

7.根据权利要求1所述的信息处理设备，其中，所述区间信息显示单元显示列表，在该列表中，出现目标对象的区间与在每个区间中出现的每一目标对象相关联。

8.根据权利要求1所述的信息处理设备，其中，所述区间信息显示单元将所述视频的每一个区间显示在条上，并且以加重的方式在所述条上显示其中出现用户选择的目标对象的区间。

9.根据权利要求1所述的信息处理设备，

其中，所述区间信息显示单元相对于其中出现用户选择的目标对象的至少一个区间在一行中显示用于表示区间的图像，并且

其中，在用户选择了用于表示区间的一个图像的情况下，所述再现控制单元使得再现与所述图像对应的区间的视频帧。

10.根据权利要求1所述的信息处理设备，进一步包括：

信息发送单元，用于利用所述区间元数据来识别在正在被再现的视频帧中包括的每一个目标对象，并且向终端装置发送关于每一个识别的目标对象的信息，

其中，所述终端装置安装有图像捕获装置和显示装置，并且通过所述图像捕获装置来捕获正在被再现的所述视频帧，通过所述显示装置来显示所述视频帧，并且基于从所述信息处理设备接收的关于每一个目标对象的信息，在所述视频帧上以重叠的方式显示关于所述每一个目标对象的相关信息。

11.根据权利要求10所述的信息处理设备，

12.一种信息处理方法，包括：

获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据；

利用所述区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的所有区间中出现每一个目标对象的区间；以及

在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个区间的情况下，使得再现所选择的区间的视频帧。

13.一种程序，用于使得计算机实现下述功能：

区间信息显示功能，用于利用用于指示每一个目标对象出现在视频中的出现区间的区间元数据来显示区间信息，所述区间信息可视地表达在构成所述视频的每一个区间中出现每一个目标对象的区间，

其中，在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个区间的情况下，再现所选择的区间的视频帧。

14.一种信息处理设备，包括：

信息显示单元，用于利用所述区间元数据来显示在正被再现的视频帧中包括的每一个目标对象的图像或相关信息；以及

再现控制单元，在用户选择了目标对象的图像或相关信息的情况下，该再现选择单元用于通过利用所述区间元数据来识别与所选择的图像或相关信息对应的目标对象的出现区间，并且使得再现所述出现区间中包括的视频帧。

15.一种信息处理设备，包括：

元数据获取单元，用于获取区间元数据和区域元数据，所述区间元数据用于指示每一个目标对象出现在视频中的出现区间，所述区域元数据针对每个视频帧写入关于在构成所述视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每一个目标对象的区域的信息；

区域识别单元，用于利用所述区域元数据来识别在正在被再现的视频帧内在用户指定的位置处存在的目标对象；以及

再现控制单元，在通过所述区域识别单元识别出存在目标对象的情况下，该再现控制单元用于通过利用所述区间元数据来识别存在已被识别的所述目标对象的出现区间，并且使得再现所述出现区间中包括的视频帧。