CN104081784B

CN104081784B - 信息处理装置、信息处理方法和程序

Info

Publication number: CN104081784B
Application number: CN201280068901.3A
Authority: CN
Inventors: 本间文规; 奥村泰史; 梨子田辰志
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-02-10
Filing date: 2012-12-12
Publication date: 2017-12-08
Anticipated expiration: 2032-12-12
Also published as: US9437246B2; WO2013118387A1; CN104081784A; US20150016801A1; JP6044553B2; JPWO2013118387A1

Abstract

[问题]为了提供一种能够改进语言学习的便利性的信息处理装置、信息处理方法和程序。[解决方案]信息处理装置具有：显示控制单元，用于控制包括内容显示区域和字幕显示区域的显示画面的显示；以及操作识别单元，当检测到对字幕显示区域的第一操作时，识别第一操作为用于执行第二处理的操作，第二处理与当检测到对内容显示区域的第一操作时执行的第一处理不同。

Description

信息处理装置、信息处理方法和程序

技术领域

本公开涉及一种信息处理装置、信息处理方法和程序。

背景技术

当学习除一个人的母语之外的语言时，利用视频进行学习是有效的学习方式。例如，专利文献1公开了可以基于添加到视频的字幕而搜索视频中的重放位置的重放装置。该重放装置可以基于字幕而重复地执行重放。因此，可以重复地重放难以听懂的部分，从而增强学习效果。

引用列表

专利文献

专利文献1：JP H09-115224A

发明内容

技术问题

然而，在该领域中，期望通过进一步增强学习效率来改进用户的便利性。

问题的解决方案

根据本公开的实施例，提供了一种信息处理装置，包括：显示控制单元，控制包含内容显示区域和字幕显示区域的显示画面的显示；以及操作识别单元，当检测到对字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，第二处理与当检测到对内容显示区域的第一操作时执行的第一处理不同。

根据本公开的实施例，提供了一种信息处理方法，其包括：控制包含内容显示区域和字幕显示区域的显示画面的显示；以及当检测到对字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，第二处理与当检测到对内容显示区域的第一操作时执行的第一处理不同。

根据本公开的实施例，提供了一种用于使得计算机用作信息处理装置的程序，该信息处理装置包括：显示控制单元，控制包含内容显示区域和字幕显示区域的显示画面的显示；以及操作识别单元，当检测到对字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，第二处理与当检测到对内容显示区域的第一操作时执行的第一处理不同。

本发明的有利效果

根据本公开，如上所述，提供了能够改进语言学习的便利性的信息处理装置、信息处理方法和程序。

附图说明

图1是根据本公开的实施例的语言学习系统1的示意图。

图2是示出由根据实施例的语言学习系统提供的显示画面配置的第一示例的说明图。

图3是示出由根据实施例的语言学习系统提供的显示画面配置的第二示例的说明图。

图4是示出根据实施例的用户装置的硬件配置示例的框图。

图5是示出根据实施例的用户装置的功能配置示例的框图。

图6是示出添加到由根据实施例的用户装置重放的电影内容的字幕数据的示例的说明图。

图7是示出由根据实施例的用户装置显示的字幕显示区域的配置的示例的说明图。

图8是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。

图9是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。

图10是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。

图11是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。

图12是示出根据实施例的用户装置的内容显示区域和字幕显示区域上的操作的示例的说明图。

图13是示出根据实施例的用户装置的现行字幕显示区域的重放速度操作的示例的说明图。

图14是示出根据实施例的用户装置的重复重放操作的示例的说明图。

图15是示出根据实施例的用户装置的重复重放操作和相应重放速度的变化的说明图。

图16是示出根据实施例的用户装置的重复重放操作的点击位置和重复开始位置之间的关系的示例的说明图。

图17是示出根据实施例的用户装置的重放位置的改变和重放方法的说明图。

图18是关于根据实施例的用户装置使用的字幕帧的说明图。

图19是示出根据实施例的用户装置使用的具有发声时间的文本数据的概况的说明图。

图20是在根据实施例的用户装置的文本音频同步单位中的切换的说明图。

图21是示出如何使用根据实施例的用户装置使用的具有发声时间的文本数据的示例的说明图。

图22是示出根据实施例的用户装置的词典显示区域的显示示例的说明图。

图23是示出根据实施例的元数据服务器的功能配置的框图。

图24是对根据实施例的元数据服务器的字幕显示时间进行校正的说明图。

图25是示出由根据实施例的元数据服务器提供的并且被添加到人的附加信息的示例的说明图。

图26是示出由根据实施例的元数据服务器提供的示出了人的嘴位置的元数据的示例的说明图。

图27是示出由根据实施例的元数据服务器提供的人识别信息的示例的说明图。

图28是示出根据实施例的用户装置中的根据说话者的字幕显示的示例的说明图。

图29是示出使用根据实施例的元数据服务器提供的元数据的词显示的示例的说明图。

图30是示出由根据实施例的元数据服务器提供的搜索功能的示例的说明图。

图31是示出由根据实施例的元数据服务器提供的搜寻服务的示例的说明图。

图32是示出根据实施例的内容服务器、元数据服务器和记录服务器的硬件配置的示例的框图。

图33是示出根据实施例的用户装置的操作示例的流程图。

图34是示出根据实施例的元数据服务器的操作示例的流程图。

具体实施方式

在下文中，将参照附图详细描述本公开的优选实施例。注意，在该说明书和附图中，具有基本上相同的功能和结构的元件以相同的附图标记来表示，并且省略了重复说明。

将按以下示出的顺序来提供描述。

1.概况

2.显示画面配置示例

3.用户装置的配置

4.字幕显示和重放控制示例

4-1.字幕显示的概况

4-2.使用字幕显示区域的操作

4-3.字幕帧

4-4.发声时间的分析和使用

4-5.词典搜索功能

5.元数据服务器的功能配置

6.元数据的示例

7.服务器的硬件配置示例

8.操作示例

<1.概况>

首先，将参照图1提供根据本公开的实施例的语言学习系统1的概述。图1是根据本公开的实施例的语言学习系统1的示意图。

为了掌握与人的母语不同的语言，重要的是以兴趣来学习语言。然而，在大部分情况下，语言学习文本仅包含具有抽象语句的字符，并且难以理解在何种情形下会话是实际使用的并且是无趣的。在这方面，使用诸如电影的运动图像内容是适当的。运动图像内容具有故事，这可以提高继续学习的动力。然而，使用这样的运动图像来学习语言的方法已被用作精通英语的人的个别技能。

因此，本公开提出了以适合于学习语言的方式来提供运动图像内容。在世界中接连产生了包括电影的运动图像内容的新作品。电影内容具有以通用格式添加到该电影内容的作为包含在运动图像数据中的音频的文本的字幕数据。因此，如果提供电影内容的方法用作适合于学习语言的方法，则接连产生的运动图像内容可以用于学习语言。另外，通过使用字幕数据，可以更有效地学习语言。

在随后的描述中，电影内容用作运动图像内容的示例。然而，本技术不限于这样的示例，并且可应用于例如在因特网上发布的运动图像内容。在该情况下，可例如通过分析运动图像内容来生成字幕数据。

这里，将参照图1描述如上所述的用于提供语言学习服务的根据本公开的实施例的语言学习系统1的配置。语言学习系统1主要包括用户装置100、内容服务器200、元数据服务器300和记录服务器400。

用户装置100是使用语言学习服务的用户所使用的终端装置。内容服务器200是提供语言学习服务使用的运动图像内容的服务器。例如，内容服务器200可以响应于来自用户装置100的请求而将指定内容传送到用户装置100。在该情况下，可以考虑内容服务器200将内容提供到用户装置100的各种形式。例如，内容服务器200可通过流传递而将内容提供到用户装置100。替选地，用户装置100可从内容服务器200下载内容。

元数据服务器300是提供运动图像内容的元数据的服务器。在本实施例中，元数据服务器300具有用于生成元数据的功能和用于提供元数据的功能。记录服务器400具有用于保持每个用户的学习记录信息的功能。由记录服务器400保持的学习记录信息的示例包括关于用户获取的内容、实现稍后描述的搜寻和获取点的速率等的信息。稍后将描述用户装置100和元数据服务器300的细节。

<2.显示画面配置示例>

接下来，将参照图2和图3描述由语言学习系统1显示在用户装置100中的显示画面的配置示例。图2是示出根据实施例的语言学习系统提供的显示画面配置的第一示例的说明图。图3是示出根据实施例的语言学习系统提供的显示画面配置的第二示例的说明图。

参照图2，显示画面主要包括内容显示区域11、字幕显示区域12、学习记录显示区域13、内容列表显示区域14、词典显示区域15和相关视频显示区域16。

内容显示区域11是显示内容的重放画面的区域。字幕显示区域12是显示添加到内容的字幕的区域。如稍后将描述的，本实施例中的显示画面可以接受使用字幕的操作。因此，显示画面设置有作为与内容显示区域11分离的区域的字幕显示区域12。

学习记录显示区域13是显示诸如关于用户学习的历史的学习记录信息的区域。内容列表显示区域14是显示可以获取的内容列表的区域。词典显示区域15是显示关于词的说明语句等的区域。在词典显示区域15中，例如，可显示在字幕显示区域12中显示的词的说明语句。在字幕显示区域12中，例如，用户还可以选择应该显示其说明语句的词。相关视频显示区域16是显示与内容显示区域11中显示的内容有关的视频的区域。

接下来，参照图3，示出了由根据实施例的语言学习系统提供的显示画面配置的第二示例。当主要在横向取向上携带机箱(cabinet)的纵向时，第一示例中所示的显示画面配置是适合的。相反，当例如主要在纵向取向上携带机箱的纵向时，第二示例中所示的显示画面配置是适合的。

第二示例中所示的显示画面主要包括内容显示区域11、字幕显示区域12和词典显示区域15。这里，在字幕显示区域12中选择的词“company(公司)”的说明语句显示在词典显示区域15中。例如，当选择了使得显示其说明语句的词并且该词可通常处于非显示状态时，显示词典显示区域15。

以下将详细描述用于以如上所述的适合于学习语言的方式来提供运动图像内容的语言学习系统。

<3.用户装置的配置>

接下来，将参照图4和图5描述根据本公开的实施例的用户装置100的配置。图4是示出根据实施例的用户装置的硬件配置示例的框图。图5是示出根据实施例的用户装置的功能配置示例的框图。

用户装置100是可以通过执行例如应用而提供根据本公开的实施例的语言学习服务的信息处理装置的示例。用户装置100可以是例如信息处理装置，比如移动电话、个人计算机(PC)、视频处理装置、游戏机、家用电器、音乐重放装置、导航装置等。

参照图4，用户装置100主要包括中央处理单元(CPU)105、随机存取存储器(RAM)110、非易失性存储器115、显示装置120、触摸传感器125、音频输出装置130、网络接口135和成像装置140。

CPU 105用作计算装置和控制装置。CPU 105根据各种程序而控制用户装置100的总体操作。此外，CPU 105可以是微处理器。RAM 110暂时存储由CPU 105执行的程序和当执行程序时适当地变化的参数等。非易失性存储器115存储CPU 105使用的程序和操作参数。

显示装置120是显示单元的示例，并且可以是例如液晶显示器(LCD)装置、有机电致发光显示器(OELD)装置、阴极射线管(CRT)显示装置等。

触摸传感器125是操作单元的示例，并且被设置成使得其重叠在显示装置120上。触摸传感器125是位置输入装置，并且可以基于显示画面上的位置信息而接收操作。

音频输出装置130是输出声音的扬声器。音频输出装置130可以输出例如正重放的电影内容的音频数据。网络接口135是用于连接到外部装置的接口。网络接口135可以是经由线缆或无线地连接网络的接口。成像装置140是具有捕获运动图像和静止图像的功能的装置。

接下来，将参照图5描述根据实施例的用户装置100的功能配置。用户装置100主要包括重放控制单元150、操作单元155、音频输出控制单元160、音频输出单元165、显示控制单元170、显示单元175和通信单元180的功能。

重放控制单元150具有控制内容的重放的功能。重放控制单元150可以基于从操作单元155提供的操作信息而进行操作。重放控制单元150可以基于操作信息而选择要重放的内容。重放控制单元150还可以从内容服务器200获取所选择的内容。另外，重放控制单元150可以从元数据服务器300获取添加到所选择的内容的元数据。另外，重放控制单元150可以从记录服务器400获取用户的学习记录信息。另外，重放控制单元150可以通过控制音频输出控制单元160和显示控制单元170来控制内容的重放。

操作单元155是用户对其执行期望操作的输入装置，并且可以是例如触摸传感器125。操作单元155可以基于由用户执行的操作而生成操作信息，并且可以与重放控制单元150共享该操作信息。当例如用户执行用于选择要重放的内容的操作、用于选择内容中的重放位置的操作和用于设置与重放有关的各种参数(例如，重放音量和重放速度)的操作时，操作单元155可以根据操作而生成操作信息。

音频输出控制单元160可以根据重放控制单元150的控制而控制音频输出单元165输出的音频。音频输出控制单元160控制与重放控制单元150指定的内容中的指定重放部分对应的音频的输出。

音频输出单元165具有根据音频输出控制单元160的控制而输出音频的功能。音频输出单元165可以是音频输出装置130。注意，这里，尽管用户装置100包括音频输出装置130，但是本技术不限于该示例。例如，音频输出单元165可以是将音频输出到外部音频输出装置的接口。

显示控制单元170可以根据重放控制单元150的控制而控制显示单元175输出的显示画面的内容。显示控制单元170可以控制显示单元175的显示画面的内容，以使得显示由重放控制单元150指定的内容中的指定重放部分。

显示单元175具有根据显示控制单元170的控制为用户提供显示画面的功能。显示单元175可以是显示装置120。这里，尽管语言学习装置100包括显示装置120，但是本技术不限于该示例。例如，显示单元175可以是使得外部显示装置输出显示画面的接口。

通信单元180具有与外部装置通信的功能。通信单元180可以是网络接口135。重放控制单元150可以经由通信单元180从内容服务器200、元数据服务器300和记录服务器400获取各种信息。

以上描述了根据本实施例的用户装置100的功能的示例。上述每个结构元件可由图4所示的硬件配置来实现，或者可通过使用通用构件和电路来实现。此外，上述每个结构元件可由专用于每个结构元件的功能的硬件来形成。此外，每个结构元件的功能可由诸如中央处理单元(CPU)的算术装置从记录介质(诸如只读存储器(ROM)、随机存取存储器(RAM)等)等读出控制程序以及解释和执行该控制程序来执行。存储介质存储描述用于实现这些功能的处理过程的控制程序。因此，可以根据实施本实施例时的技术水平而适当地改变要使用的配置。

注意，用于实现上述根据本实施例的用户装置100的每个功能的计算机程序可以被创建和安装在个人计算机等中。此外，还可以提供存储该类型的计算机程序的计算机可读记录介质。记录介质是例如磁盘、光盘、磁光盘、闪存等。此外，上述计算机程序可例如经由网络而不使用记录介质来分发。

<4.字幕显示和重放控制示例>

将参照图6至图22，描述根据本公开的实施例的用户装置100的字幕显示和重放控制的示例。图6是示出添加到由根据实施例的用户装置重放的电影内容的字幕数据的示例的说明图。图7是示出由根据实施例的用户装置显示的字幕显示区域的配置的示例的说明图。图8是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。图9是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。图10是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。图11是示出根据实施例的用户装置的字幕显示区域上的操作示例的说明图。图12是示出根据实施例的用户装置的内容显示区域和字幕显示区域上的操作的示例的说明图。图13是示出根据实施例的用户装置的现行字幕显示区域的重放速度操作的示例的说明图。图14是示出根据实施例的用户装置的重复重放操作的示例的说明图。图15是示出根据实施例的用户装置的重复重放操作和相应重放速度的变化的说明图。图16是示出根据实施例的用户装置的重复重放操作的点击位置与重复开始位置之间的关系的示例的说明图。图17是示出根据实施例的用户装置的重放位置的改变和重放方法的说明图。图18是关于根据实施例的用户装置使用的字幕帧的说明图。图19是示出根据实施例的用户装置使用的具有发声时间的文本数据的概况的说明图。图20是在根据实施例的用户装置的文本音频同步单位中的切换的说明图。图21是示出如何使用根据实施例的用户装置使用的具有发声时间的文本数据的示例的说明图。图22是示出根据实施例的用户装置的词典显示区域的显示示例的说明图。

[4-1.字幕显示的概况]

首先，将参照图6和图7提供根据实施例的用户装置100的字幕显示的概况。在图6中，示出了添加到电影内容的字幕数据的示例。

字幕数据包含例如字幕ID、字幕显示时间和字幕文本。字幕ID是标识一次显示在画面上的字幕文本块的符号。例如，时间序列中的序列号可被添加作为字幕ID。字幕显示时间是在其期间显示字幕文本的时间。字幕文本是与电影内容的重放一起显示的文本数据。

使用这样的字幕数据，用户装置100的显示控制单元170可以使得显示画面中的字幕显示区域12显示字幕文本。如图7所示，字幕显示区域12设置在内容显示区域11下方并且可以包含现行字幕显示区域12A和未来字幕显示区域12F。现行字幕显示区域12A是显示与在内容显示区域11中当前正重放的内容的重放时间点对应的现行字幕的区域。相反，未来字幕显示区域12F是显示与将重放的场景对应的未来字幕的区域。当用户没有执行操作时，例如，现行字幕显示区域12A可显示在字幕显示区域12的顶端，之后是在现行字幕显示区域12A下方的现行字幕之后的未来字幕显示区域12F。尽管显示了三个未来字幕显示区域，即未来字幕显示区域12F-1、未来字幕显示区域12F-2和未来字幕显示区域12F-3，但是所显示的未来字幕显示区域12F的数量可根据显示的状态和显示画面的大小而变化。指示当前重放位置的光标通过重叠在现行字幕显示区域12A中显示的字幕上来显示。

用户装置100的显示画面分别具有用于显示字幕的区域和用于显示内容的视频的区域。因此，可以针对作为单位的字幕块来接受各种操作并且还可以基于这样的操作来控制显示画面。在下文中，将通过示出具体示例来描述对显示画面的各种操作和基于这样的操作对显示画面的控制。

[4-2.使用字幕显示区域的操作]

这里，将参照图8至图11描述使用字幕显示区域的搜索操作。如上所述，用户装置100显示的显示画面包含接受对每个字幕块的选择的字幕显示区域12。用于这里的描述的图通过提取要描述的部分来示出。因此，显示画面不一定具有图中所示的画面配置。

在图8的左图中，在内容显示区域11下方显示现行字幕显示区域12A、未来字幕显示区域12F-1、未来字幕显示区域12F-2和未来字幕显示区域12F-3。另外，字幕1显示在现行字幕显示区域12A中，字幕2显示在未来字幕显示区域12F-1中，字幕3显示在未来字幕显示区域12F-2中，并且字幕4显示在未来字幕显示区域12F-3中。在该状态下，如果用户在未来字幕显示区域12F上在布置未来字幕显示区域12F的方向(在图中的上下方向)上执行拖动操作，则改变未来字幕显示区域12F中显示的字幕的内容。例如，如图8的右图所示，字幕4可显示在未来字幕显示区域12F-1中，字幕5可显示在未来字幕显示区域12F-2中，并且字幕6可显示在未来字幕显示区域12F-3中。此时，显示在现行字幕显示区域12A中的字幕保持为字幕1并且不改变。这里假设附于字幕的数字是时间序列中的序列号。即，字幕2是在紧挨在字幕1之后显示的字幕。

未来字幕显示区域12F还可以接受重放位置的改变操作。例如，如图9的左图所示，假设如下场景：字幕1显示在现行字幕显示区域12A中，字幕4显示在未来字幕显示区域12F-1中，字幕5显示在未来字幕显示区域12F-2中，并且字幕6显示在未来字幕显示区域12F-3中。此时，如果在显示字幕6的未来字幕显示区域12F-3上执行点击操作，则在点击地方所显示的字幕(即，字幕6)显示在现行字幕显示区域12A中。此时，在未来字幕显示区域12F中依次显示在现行字幕显示区域12A中显示的字幕之后的字幕。更具体地，当字幕6显示在现行字幕显示区域12A中，字幕7显示在未来字幕显示区域12F-1中，字幕8显示在未来字幕显示区域12F-2中，并且字幕9显示在未来字幕显示区域12F-3中。

另外，通过在现行字幕显示区域12A上的拖动操作来改变现行字幕显示区域12A的显示位置。例如，如图10的左图所示，假设如下情况：字幕6显示在现行字幕显示区域12A中，字幕7显示在未来字幕显示区域12F-1中，字幕8显示在未来字幕显示区域12F-2中，并且字幕9显示在未来字幕显示区域12F-3中。在该情况下，如果接受到在布置未来字幕显示区域12F的方向上的来自显示字幕6的现行字幕显示区域12A的拖动操作，则根据该拖动操作而改变现行字幕显示区域12A的显示位置(图10的右图)。此时，过去字幕显示区域12P显示在现行字幕显示区域12A的上部。在过去字幕显示区域12P中，显示在时间上位于现行字幕显示区域12A中显示的现行字幕之前的字幕。更具体地，例如，如图10的右图所示，当字幕6显示在现行字幕显示区域12A中时，字幕4可显示在过去字幕显示区域12P-2中，字幕5可显示在过去字幕显示区域12P-1中，并且字幕7可显示在未来字幕显示区域12F-1中。

如图11所示，当在现行字幕显示区域12A上执行拖动操作并且现行字幕显示区域12A到达字幕显示区域12的底端时，如果针对现行字幕显示区域12A保持长按操作的状态，则该操作可被识别为自动滚动操作。在该情况下，在对现行字幕显示区域12A的长按操作持续时，自动滚动在显示在现行字幕显示区域12A上方的过去字幕显示区域12P中显示的字幕。例如，如图11的右图所示，字幕1可显示在过去字幕显示区域12P-3中，字幕2可显示在过去字幕显示区域12P-2中，并且字幕3可显示在过去字幕显示区域12P-1中。

如上所述，根据本实施例的用户装置100可以通过对字幕显示区域12的操作而执行内容的搜索处理。用户装置100还可以根据对字幕显示区域12的操作而改变重放位置。例如，尽管在图8中描述了对未来字幕显示区域12F的拖动操作，但是也可对过去字幕显示区域12P执行类似操作。另外，在图9中，描述了可以通过对未来字幕显示区域12F的点击操作来改变重放位置，但是也可对过去字幕显示区域12P执行类似操作。参照图11描述的自动滚动处理也可以应用于在字幕显示区域12的顶端部分中的未来字幕的自动滚动处理。

如上所述，用户装置100的显示画面针对一个内容可以具有包括内容显示区域11和字幕显示区域12的多个显示区域。重放控制单元150可以识别不同显示区域的不同操作。例如，如图12所示，当在内容显示区域11中检测到拖动操作时，重放控制单元150可以将拖动操作识别为用于执行搜索处理的操作。当在现行字幕显示区域12A中检测到拖动操作时，重放控制单元150可以将拖动操作识别为用于执行重放速度改变处理的操作。当例如在现行字幕显示区域12A中检测到从左到右的拖动操作时，重放控制单元150可以将拖动操作识别为用于加速重放速度的操作。另外，当在现行字幕显示区域12A中检测到从右到左的拖动操作时，重放控制单元150可以将拖动操作识别为用于减慢重放速度的操作。在图13中显示了此时的显示控制的示例。当例如检测到右方向上的拖动操作时，显示控制单元170在右方向上自动滚动背景，并且根据重放速度的加速而加速光标速度。期望背景包含允许用户掌握方向的图案，以使得可以理解背景的移动方向。当检测到在左方向上的拖动操作时，显示控制单元170在左方向上自动滚动背景并且根据重放速度的减慢而减慢光标速度。

另外，图14所示的重复操作可以被引用作为对现行字幕显示区域12A的操作。当例如检测到对现行字幕显示区域12A的点击操作时，从与现行字幕显示区域12A中显示的字幕的开端对应的位置开始执行重复重放。如图15所示，可根据重复操作的类型而改变重放速度。当例如重复操作是单击操作时，可以以正常速度执行重复重放，当重复操作是长按操作时，可执行慢重放，并且当重复操作是双击时，可执行高速重放。

当由在重放期间执行的操作来指定点击位置时，可区分用户期望的位置和实际检测到的点击位置。例如，当用户尝试执行字幕1的重复重放时，点击位置可超过字幕1的区间。在这样的情况下，重放以字幕2开始。将参照图16中的图示来描述用于避免这样的不便的重放控制。例如，在模态1中，在字幕1的中途检测到点击位置。在该情况下，重放控制单元150从字幕1的开端开始执行重复重放。在模态2中，在字幕1的重放结束之后的预定时期TP内，在字幕2的开端处检测到点击位置。在该情况下，重放控制单元150通过判断用户期望字幕1的重复重放而从字幕1的开端开始执行重复重放。在模态3中，在字幕1与字幕2之间提供预定时间间隔。在该情况下，在字幕1的重放结束之后且字幕2的重放开始之前的预定时期TP内检测到点击位置。在该情况下，重放控制单元150通过判断用户期望字幕1的重复重放而从字幕1的开端开始执行重复重放。在模态4中，重放控制单元150执行字幕2的重复重放，其中，尽管点击位置在字幕2的开端处，但是在字幕1与字幕2之间提供预定时间间隔并且点击位置不在字幕1的重放结束之后的预定时期TP内。由于这样的重放控制，即使用户的点击操作被延迟，也可以从适当位置开始执行重复重放。

当通过对字幕显示区域12的操作来改变重放位置时，重放位置跳转，因此，当与在倒带或快进模式中搜索重放位置的情况相比时，可能难以找到重放位置的时间轴上的位置。因此，重放控制单元150可以在从跳转目的点之前一点的位置快速重放到跳转目的点之后，从跳转目的点开始以正常速度开始重放。将使用图17中的示例来提供具体描述。当前重放场景的点假设为点t₀。当跳到从t₀观看的过去点t_-2时，重放控制单元150在倒带模式中重放从在点t_-2之前一点的点t_-1到点t_-2的间隔。然后，当到达点t_-2时，开始以正常速度的重放。基于在倒带模式中从点t_-1到点t_-2的重放，用户可以理解点t_-2是当从点t₀观看时的过去点。当跳到从t₀观看的未来点t₂时，重放控制单元150在快进模式中重放从在点t₂之前一点的点t₁到点t₂的间隔。然后，当到达点t₂时，开始以正常速度的重放。基于在快进模式中从点t₁到点t₂的重放，用户可以理解点t₂是当从点t₀观看时的未来点。

[4-3.字幕帧]

随后，将参照图8描述用户装置100使用的字幕帧。通常以毫秒的时间帧单位来处理视频内容。相反，本公开提出了以适合于字幕块的字幕帧单位来处理视频内容。尽管以固定时间单位来限定时间帧而与内容的细节无关，但是字幕帧是由作为单位的每个字幕块限定的帧。基于内容中的会话的含义来限定字幕。因此，字幕帧适合作为重放开始位置。因此，用户装置100的重放控制单元150可以将重放开始位置调整到字幕帧的开始位置。

例如，图18示出了如下示例：当在执行暂停操作之后执行播放操作时，调整重放开始位置。在该情况下，重放控制单元150可将包含暂停点的字幕帧的开始位置设置为重放开始位置。图18还示出了通过搜索操作来指定重放开始位置的示例。当通过搜索操作来指定重放开始位置时，重放控制单元150可以将包含指定重放开始位置的字幕帧的开始位置设置为重放开始位置。通过采用这样的配置，重放开始点变为适于开始的内容点，因此用户可以更容易地理解内容的细节。

[4-4.发声时间的分析和使用]

将参照图19至图22来描述字幕数据的发声时间的分析及其使用。如上所述，用户装置100可以使用包含字幕ID、字幕显示时间和字幕文本的字幕数据。字幕显示时间通过观看作为块的字幕文本而示出了显示开始时间和显示结束时间。显示开始时间通常设置为比实际开始字幕文本的发声早一点，并且显示结束时间通常设置为比字幕文本的发声实际结束晚一点。

因此，本公开使用具有通过音频歌词同步技术使用从字幕数据提取的字幕文本和从视频数据提取的音频数据而生成的发声时间的文本数据。具有发声时间的文本数据是分析和附加当文本数据的词实际被发声时的时间的数据。例如，如图19所示，以词单位来附加施加发声时间。具有发声时间的文本数据是从元数据服务器300提供的。

通过使用具有发声时间的文本数据，用户装置100的重放控制单元150可以掌握字幕中的每个词被发声时的时间。如果通过使用例如具有发声时间的文本数据、使用当每个词被发声时的时间来控制通过重叠在现行字幕显示区域12A中的字幕上而显示的光标的位置，则显示控制单元170可以更准确地匹配发声时间和光标位置。然而，如果音频和光标位置以词单位准确匹配，则显示在作为块的字幕数据上的光标的移动速度改变，并且其移动不是平滑的。其移动速度改变的光标可能通过减少对于用户的可视性而引起用户的不愉快，并且另外，当观看正常内容时，用户不需要对文本和音频的同步的这种校正。因此，当重放正常内容时，如图20的上图所示，显示控制单元170可以使用语句单位作为文本和音频的同步单位。

如图20的中部图所示，如果在现行字幕显示区域12A中执行用于选择所显示的字幕文本的部分的操作时，重放控制单元150可以标识以词单位选择的部分。在该情况下，用于选择字幕文本中的部分的操作可以是例如点击操作。重放控制单元150可以根据点击操作而切换文本和音频的同步单位。例如，如果选择了字幕文本中的词，则重放控制单元150使得光标通过重叠在所选择的词部分上来显示并且使得输出所选择的词的话音(图20的下图)。通过以此方式切换音频和文本的同步单位，可以实现适合于环境的画面显示和音频输出。

另外，可以通过能够以词为单位标识发声时间而改变仅特定词的重放速度。例如，如图21所示，如果预先通过任何操作选择了词，则重放控制单元150可改变仅所选择的词的重放速度。例如，如果减慢了仅所选择的词的重放速度，则可以通过仅预先选择期望由用户检查其发音的特定词而在重放期间检查仅该词的发音。其重放速度改变的词不限于用户选择的词。例如，重放控制单元150可改变包含在指定词集合中的词的重放速度。如果包含在词集合中的词包含在字幕文本中，则重放控制单元150可以减慢可应用词的发声时间期间的重放速度。例如，如果针对每个水平来编辑词集合，则用户可以仅通过选择水平而在观看内容的同时检查适合于每个用户的水平的词发音。

[4-5.词典搜索功能]

如上所述，包含在字幕文本中的词的说明语句显示在词典显示区域15中。例如，显示控制单元170可以在词典显示区域15中显示用户在现行字幕显示区域12A中选择的词的说明语句。然而，取代词的含义，用户可能想知道多个词的短语或成语的含义。然而，当仅显示所选择的词的说明语句时，无法选择多个词。如果仅使得多个词可选择，则不存在可应用语句的概率增加，这降低了用户的便利性。

因此，如图22所示，显示控制单元170可以突出可以基于所选择的词形成短语的词。然后，重放控制单元150确定仅突出的词处于能够接受用户的选择的状态。例如，在选择动词之后，显示控制单元170可以突出与所选择的动词相邻的介词。例如，如果选择了如图22所示的“…he took up with my cousin…”的字幕文本中的“took”的部分，则显示控制单元170突出与“took”相邻的“up”和“with”。如果如在该情况下与动词相邻的介词还与介词相邻，则显示控制单元170可以选择和突出多个介词。然后，如果用户执行用于选择所突出的介词的操作，则显示控制单元170可以在词典显示区域15中显示说明语句“took upwith”。

<5.元数据服务器的功能配置>

接下来，将参照图23描述根据本公开的实施例的元数据服务器300的功能配置。图23是示出根据实施例的元数据服务器的功能配置的框图。

元数据服务器300主要包括字幕分析单元305、音频分析单元310、图像分析单元315、元数据生成单元320、存储单元325和信息提供单元330。

字幕分析单元305具有分析字幕数据的功能。字幕分析单元305可以分析包含在例如字幕数据中的字幕数据。

音频分析单元310具有分析包含在内容中的音频数据的功能。音频分析单元310可以通过分析包含在内容中的音频数据而提供音频数据的特性信息。

图像分析单元315具有分析包含在内容中的图像数据的功能。图像分析单元315可以通过使用例如对象识别技术来生成包含在图像数据中的对象的信息(诸如位置、类型等)。图像分析单元315可以识别例如包含在图像数据中的人的位置。图像分析单元315还可以识别包含在图像数据中的人的面部的位置和嘴的位置。图像分析单元315还可以识别包含在图像数据中的人。因此，图像分析单元315可以通过分析包含在每个图像数据片段中的人而提供关于被识别为同一人的人的信息。图像分析单元315还可以通过分析图像数据而识别包含在图像数据中的人的朝向(例如，面部的朝向)。

元数据生成单元320具有用于基于字幕分析单元305对字幕数据的分析结果、音频分析单元310对音频数据的分析结果和图像分析单元315对图像数据的分析结果而生成关于内容的元数据的功能。元数据生成单元320可以使得存储单元325存储所生成的元数据。

存储单元325是用于数据存储的装置，并且可以包括存储介质、将数据记录在存储介质中的记录装置、从存储介质读取数据的读取装置、从存储介质删除数据的删除装置。作为存储介质，例如，可使用存储介质，例如闪存、非易失性存储器(诸如MRAM(磁阻随机存取存储器)、FeRAM(铁电随机存取存储器)、PRAM(相变随机存取存储器)和EEPROM(电可擦除可编程只读存储器))、磁记录介质(诸如HDD(硬盘驱动器))等。

信息提供单元330具有响应于请求而提供内容的元数据的功能。例如，信息提供单元330可以提供特定内容的文本音频同步信息。信息提供单元330还可以提供跨内容的搜索功能。当例如接收到搜索关键词时，信息提供单元330可以通过使用字幕文本从所处理的全部内容提取包含含有搜索关键词的词的内容。

<6.元数据的示例>

接下来，将参照图24至图31描述根据实施例的元数据服务器300提供的元数据的示例。图24是根据实施例的对元数据服务器的字幕显示时间进行校正的说明图。图25是示出根据实施例的元数据服务器提供的并且被添加到人的附加信息的示例的说明图。图26是示出由根据实施例的元数据服务器提供的示出了人的嘴位置的元数据的示例的说明图。图27是示出根据实施例的元数据服务器提供的人识别信息的示例的说明图。图28是示出根据实施例的根据用户装置中的说话者的字幕显示的示例的说明图。图29是示出使用根据实施例的元数据服务器提供的元数据的词显示的示例的说明图。图30是示出根据实施例的元数据服务器提供的搜索功能的示例的说明图。图31是示出根据实施例的元数据服务器提供的搜寻服务的示例的说明图。

如参照图19所描述的，元数据服务器300可以提供文本音频同步时间的信息，其中，更详细地示出了字幕文本被实际发声的时间。再次参照图19，元数据服务器300的音频分析单元310可以分析从视频数据提取的音频数据。字幕分析单元305可以提取包含在字幕数据中的文本数据。然后，元数据生成单元可以使用音频数据和文本数据、通过音频歌词同步技术来生成具有发声时间的文本数据。

如图24所示，内容侧保持的字幕显示时间通常被设置得长于实际发声的时间。另外，当诸如BGM(背景音乐)的噪声包含在音频数据中时，通过语音识别生成的文本音频同步时间可识别比实际时间长的发音时间，这是由于噪声被错误地识别为话音。因此，元数据生成单元320可以通过使用这样的信息对文本音频同步时间进行校正。字幕显示时间或文本音频同步时间被设置得短于实际发音时间的概率低。即，发音时间的开始时间可被校正为在字幕显示时间和文本音频同步时间之后。发音时间的结束时间可被校正为在字幕显示时间和文本音频同步时间之前。通过采用这样的配置，可以提高字幕显示时间的准确度。

如图25所示，元数据生成单元320可以生成元数据以便显示关于在画面上指定的人的信息。例如，内容ID、字幕ID、画面上的坐标信息和附加信息可通过与元数据相关联而包含在元数据中。附加信息可以是例如人的CM(商业)信息或个人数据。例如，元数据生成单元320可以将诸如广告或评论的附加信息附于特定人出现的场景。元数据生成单元320可以基于图像分析单元315的图像分析结果而识别特定人出现的场景。元数据生成单元320还获取与特定人出现的场景对应的内容ID、字幕ID和坐标信息，并且通过将附加信息与所获取的信息相关联来生成元数据。坐标信息期望被存储作为归一化值。通过采用这样的配置，可以通过适合于每个客户端的分辨率来确定指定位置的坐标。另外，通过以字幕ID为单位添加元信息，可以独立于重放时间的差别来添加信息。

使用图像分析单元315的分析结果，元数据生成单元320可以识别图像数据中的人的面部的位置和嘴的位置。如图26所示，如果用户使用信息指定画面上的特定人，则其面部部分被放大并显示。然后，可进一步放大指定人的嘴部。通过放大和显示嘴部，用户可以检查当对特定语句(或词)进行发声时的嘴的形状。

如图27所示，元数据生成单元320可以通过一起使用图像识别结果和语音识别结果而改进个人甄别的准确度。可以组合和使用根据图像识别结果被确定为同一人的组的信息和根据语音识别结果被确定为同一人的话音的组的信息。使用例如如上所述的改进了其准确度的个人甄别结果，可以使用诸如根据说话者而改变光标颜色的表示。另外，如图28所示，字幕的显示位置可以取决于说话者而改变。例如，说话者A的台词可被显示在字幕显示区域12的左端部分，并且说话者B的台词可被显示在字幕显示区域12的右端部分。

元数据生成单元320可生成关于显示位置的信息以使得词被显示为靠近说话者。例如，如图29的上图所示，可以基于人C1的面部的朝向等而分析显示人C1的台词“Theycan’t be possibly be true(这不可能是真的)”的位置。在该情况下，可以使用面部图像识别技术和SLAM(同时定位与地图构建)。

元数据服务器300的信息提供单元330可以提供跨内容的搜索功能。例如，如图30所示，当输入搜索关键词“have been(已经)”时，信息提供单元330可以通过搜索字幕文本而提取包含搜索关键词的内容。通过提供这样的功能，例如，可以提供如图31所示的搜寻功能。例如，当元数据服务器300发出“搜索包含“have been”的五个对话”的搜寻时，如果当包含关键词的对话显示在字幕显示区域12A中时用户执行用于检查包含关键词的对话的操作(这里例如为点击星标记的操作)，则可将根据搜寻实现程度的点给予用户。通过提供这样的服务，可以促进用户的学习期望。

<7.服务器的硬件配置示例>

将参照图32描述内容服务器200、元数据服务器300和记录服务器400的硬件配置的示例。图32是示出根据实施例的内容服务器、元数据服务器和记录服务器的硬件配置的示例的框图。

上述内容服务器200、元数据服务器300和记录服务器400的每个元件的功能可以通过例如使用图32所示的硬件配置来实现。即，每个元件的功能可以通过使用计算机程序以及控制图32所示的硬件来实现。硬件的形式是任意的，并且包括例如移动信息终端，比如服务器装置、个人计算机、移动电话、PHS和PDA、游戏机和各种信息家庭设施。PHS是个人手持电话系统的缩写。另外，PDA是个人数字助理的缩写。

如图32所示，硬件主要包括CPU 902、ROM 904、RAM 906、主机总线908和桥910。此外，硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。CPU是中央处理单元的缩写。另外，ROM是只读存储器的缩写。然后，RAM是随机存取存储器的缩写。

CPU 902用作计算装置或控制装置，并且基于记录在ROM 904、RAM 906、存储单元920或可移除记录介质928中的各种程序而控制每个单元的总体操作或其部分。ROM 904是用于存储CPU 902读取的程序或用于操作的数据的单元。在RAM 906中，例如，暂时或永久存储CPU 902读取的程序和当执行程序时适当地变化的各种参数。

这些元件经由例如能够进行高速数据传输的主机总线908而相互连接。另一方面，主机总线908经由例如桥910连接到其数据传输速度相对低的外部总线912。作为输入单元916，例如，使用鼠标、键盘、触摸面板、按钮、开关、控制杆等。此外，作为输入单元916，使用能够利用红外线或其它无线电波传送控制信号的远程控制器(下文中称为遥控)。

输出单元918是能够在视觉上或听觉上向用户通知所获取的信息的装置，如例如显示装置(诸如CRT、LCD、PDP和ELD)、音频输出装置(诸如扬声器和耳机)、打印机、移动电话、传真机等。CRT是阴极射线管的缩写。另外，LCD是液晶显示器的缩写。然后，PDP是等离子显示面板的缩写。此外，ELD是电致发光显示器的缩写。

存储单元920是用于存储各种数据的装置。作为存储单元920，例如，使用磁存储装置(诸如硬盘驱动器(HDD))、半导体存储装置、光学存储装置或磁光装置。HDD是硬盘驱动器的缩写。

驱动器922是读取记录在可移除记录介质928(例如，磁盘、光盘、磁光盘、半导体存储器等)中的信息或者将信息写入到可移除记录介质928中的装置。可移除记录介质928是例如DVD介质、蓝光介质、HD DVD介质、各种半导体记录介质等。可移除记录介质928自然可以是例如装配有非接触式IC芯片的IC卡、电子装置等。IC是集成电路的缩写。

连接端口924是用于连接外部连接装置930的端口，例如，USB端口、IEEE 1394端口、SCSI、RS-232C端口、光学音频端子等。外部连接装置930是例如打印机、移动音乐播放器、数字摄像装置、数字摄像机、IC记录器等。USB是通用串行总线的缩写。另外，SCSI是小型计算机系统接口的缩写。

通信单元926是用于连接到网络932的通信装置，并且是例如有线或无线LAN、用于蓝牙(注册商标)或WUSB的通信卡、用于光学通信的路由器、ADSL、用于各种通信的调制解调器等。连接到通信单元926的网络932被配置为经由线缆或无线地连接的网络，并且是例如因特网、家庭LAN、红外射线通信、可见光通信、广播、卫星通信等。LAN是局域网的缩写。另外，WUSB是无线USB的缩写。然后，ADSL是异步数字用户线路的缩写。

<8.操作示例>

接下来，将分别参照图33和图34描述根据实施例的用户装置100和元数据服务器300的操作示例。图33是示出根据实施例的用户装置的操作示例的流程图。图34是示出根据实施例的元数据服务器的操作示例的流程图。

参照图33，用户装置100首先读取视频数据(S100)。此时，用户装置100通过连接到内容服务器200而读取视频数据或者读取本地存储的视频数据。用户装置100还读取字幕数据(S105)。此时，用户装置100通过连接到内容服务器200而读取字幕数据或者读取本地存储的字幕数据。然后，用户装置100读取元数据(S110)。此时，用户装置100通过连接到元数据服务器300而读取元数据。

然后，用户装置100确定是否检测到来自用户的任何操作(S115)。然后，如果检测到操作，则用户装置100根据该操作而执行各种处理(S120)。另一方面，如果没有检测到操作，则省略步骤S120中的处理。然后，用户装置100确定是否完成了内容的重放(S125)。然后，重复从步骤S115到步骤S125的处理直到完成内容的重放。

另一方面，参照图34，元数据服务器300读取视频数据(S200)。此时，元数据服务器300可以从内容服务器200读取视频数据。然后，元数据服务器300读取字幕数据(S205)。此时，元数据服务器300可以从例如内容服务器200读取与所获取的视频数据对应的字幕数据。然后，元数据服务器300生成元数据(S210)。

然后，元数据服务器300确定是否检测到来自用户装置100的任何连接(S215)。如果检测到来自用户装置100的连接，则元数据服务器300可以响应于连接请求而传送各种数据(S220)。然后，元数据服务器300确定是否完成了操作(S225)。重复步骤S215和此后的处理直到在步骤S225中确定操作完成为止。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个装置中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个装置实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个装置来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，本技术还可如下配置。

(1)一种信息处理装置，包括：

显示控制单元，控制包含内容显示区域和字幕显示区域的显示画面的显示；以及

操作识别单元，当检测到对所述字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，所述第二处理与当检测到对所述内容显示区域的所述第一操作时执行的第一处理不同。

(2)根据(1)所述的信息处理装置，

其中，所述第一操作是拖动操作，以及

其中，所述第二处理是重放速度的改变处理。

(3)根据(1)或(2)所述的信息处理装置，

其中，当检测到对所述字幕显示区域的所述第一操作时，所述显示控制单元开始所述字幕显示区域的背景的动画。

(4)根据(1)至(3)中的任意一项所述的信息处理装置，

其中，所述第二处理是用于改变内容的重放速度的改变处理，以及

其中，当检测到对所述字幕显示区域的所述第一操作时，所述显示控制单元开始所述字幕显示区域的背景在示出所述内容的重放方向的方向上移动的动画。

(5)根据(1)至(4)中的任意一项所述的信息处理装置，

其中，所述字幕显示区域的背景具有附接到其上的图案。

(6)根据(1)至(5)中的任意一项所述的信息处理装置，

其中，所述第一处理是内容的搜索处理。

(7)根据(1)至(6)中的任意一项所述的信息处理装置，

其中，所述显示控制单元使得所述字幕显示区域在指示当前重放位置的光标叠加在字幕文本上之后显示所述字幕文本。

(8)一种信息处理方法，包括：

控制包含内容显示区域和字幕显示区域的显示画面的显示；以及

当检测到对所述字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，所述第二处理与当检测到对所述内容显示区域的所述第一操作时执行的第一处理不同。

(9)一种用于使得计算机用作信息处理装置的程序，所述信息处理装置包括：

附图标记列表

100 用户装置

150 重放控制单元

155 操作单元

160 音频输出控制单元

165 音频输出单元

170 显示控制单元

175 显示单元

180 通信单元

200 内容服务器

300 元数据服务器

305 字幕分析单元

310 音频分析单元

315 图像分析单元

320 元数据生成单元

325 存储单元

330 信息提供单元

400 记录服务器

Claims

1.一种信息处理装置，包括：

操作识别单元，当检测到对所述字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，所述第二处理与当检测到对所述内容显示区域的所述第一操作时执行的第一处理不同，

2.根据权利要求1所述的信息处理装置，

其中，所述第一操作是拖动操作。

3.根据权利要求1所述的信息处理装置，

其中，所述字幕显示区域的背景具有附接到其上的图案。

4.根据权利要求1所述的信息处理装置，

其中，所述第一处理是内容的搜索处理。

5.根据权利要求1所述的信息处理装置，

6.一种信息处理方法，包括：

当检测到对所述字幕显示区域的第一操作时，识别执行了用于执行第二处理的操作，所述第二处理与当检测到对所述内容显示区域的所述第一操作时执行的第一处理不同，

其中，当检测到对所述字幕显示区域的所述第一操作时，开始所述字幕显示区域的背景在示出所述内容的重放方向的方向上移动的动画。