CN111869225B

CN111869225B - 信息处理装置、信息处理方法及非暂时性计算机可读存储介质

Info

Publication number: CN111869225B
Application number: CN201980020562.3A
Authority: CN
Inventors: 山岸靖明; 木山由佳
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-26
Filing date: 2019-03-18
Publication date: 2023-05-02
Anticipated expiration: 2039-03-18
Also published as: US20230336842A1; KR20200135324A; US20220329919A1; JPWO2019188485A1; JP7256173B2; CN111869225A; EP3780638A1; CN116248937A; WO2019188485A1; US11765442B2; EP3780638A4; JP2023082098A; US20200413155A1; US11405698B2; JP7438486B2

Abstract

本信息处理装置包括：媒体再现单元，获取并再现包括服务对象的视频数据，该服务对象能够利用处理来自用户的基于语音的请求的服务；以及控制单元，将用于教导用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和与附加图像的开始时间和结束时间有关的信息存储为由用户任意选择的与具有附加图像的场景有关的书签。

Description

信息处理装置、信息处理方法及非暂时性计算机可读存储介质

技术领域

本技术涉及执行用于接收和再现包括视频的运动图像内容的信息处理装置、信息处理装置以及信息处理程序，并且具体地，涉及适于例如运动图像内容与基于语音的信息服务一起为信息处理装置的用户工作的情况的信息处理装置、信息处理方法以及程序。

背景技术

语音人工智能(AI)助手服务近来已经流行。这些服务是这样的信息服务，其中支持服务的终端通过使用麦克风等来拾取由信息处理装置的用户通过语音发出的请求、识别请求、分析数据、执行对应于用户的请求的服务、并且通过声音等向用户回复执行的结果(例如，参见专利文献1)。Amazon Echo(注册商标)的Alexa(注册商标)目前已知为基于云的语音AI助手服务。

现有技术文献

专利文献

专利文献1：日本专利申请公开号2015-022310

发明内容

技术问题

本技术的发明人已经研究了一种机制，其中，如上所述的语音AI助手服务被用作在再现包括视频的运动图像内容的环境中采集关于出现在视频中的人或产品的信息的装置。例如，在作为观看者的用户当时想要知道诸如出现在运动图像内容中的人的角色、与其中出现的其他人的关系、以及进一步地扮演该人的演员的简介的各种事情的情况下，用户能够实时地接收来自语音AI助手服务的信息。

然而，如果语音AI助手服务实际上被用作用于在再现包括视频的运动图像内容的环境中采集关于出现在视频中的人或产品的信息的装置，则在利用语音AI助手服务的性质的同时使用语音AI助手服务的合适方式尚未充分建立，并且堆叠了待解决的问题。

对此，本技术的目的在于提供一种能够在观看再现的视频时利用语音AI助手服务的性质的同时使用语音AI助手服务的信息处理装置、信息处理装置和程序。

解决问题的方法

为了解决上述问题，根据本技术的信息处理装置包括：媒体再现单元，获取并再现包括服务对象的视频数据，对于服务对象，处理来自用户的通过语音的请求的服务是可用的；以及控制器，将用于通知用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和附加图像的开始时间和结束时间的信息保存为书签，该书签由用户任选地选择并被提供给具有附加图像的场景。

控制器可以接收来自用户的任选的书签的选择，并且基于对应于所选择的书签的视频数据的标识信息和附加图像的开始时间和结束时间的信息来再现具有附加图像的视频数据。

控制器可以获取包括视频数据的标识信息和附加图像的开始时间和结束时间的信息的元数据以生成附加信息，并且基于所获取的元数据添加附加信息。

元数据可以包括服务后端控制信息，该服务后端控制信息包括指示通过来自用户的话语识别的服务的功能的功能名称，并且控制器可以向用户呈现服务后端控制信息的功能名称，该服务后端控制信息被包括在对应于由用户选择的书签的元数据中。

元数据可以包括用于通过使用一个功能名称针对每个时区请求不同功能的信息，并且控制器可以基于该信息将请求传输至服务器，该服务器切换服务的功能。

控制器可以被配置为针对每个服务对象限制服务的使用。

限制可以是通过收费的限制或关于是否可以在社区服务上共享附加图像的元数据的限制。

附加图像可以包括每个服务对象唯一的视觉特征，使得在服务中通过语音识别唯一地确定服务对象。替代性地，附加图像可以呈现在附接至服务对象的位置处。

而且，控制器可以获取包括元数据的自适应集的媒体呈现描述(MPD)文件、分析MPD文件、获取视频数据和元数据中的每一个来作为MPEG-DASH的媒体段，并且彼此同步地呈现视频数据和基于元数据的附加图像。

根据本技术的另一实施方式的信息处理方法包括以下过程：获取并再现包括服务对象的视频数据，对于该服务对象，处理来自用户的语音的请求的服务是可用的；以及将用于通知用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和附加图像的开始时间和结束时间的信息保存为书签，该书签由用户任选地选择并被提供给具有附加图像的场景。

根据本技术的又一实施方式的程序，使计算机起到以下功能：媒体再现单元，获取并再现包括服务对象的视频数据，对于该服务对象，处理来自用户的语音的请求的服务是可用的；以及控制器，将用于通知用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和附加图像的开始时间和结束时间的信息保存为书签，该书签由用户任选地选择并被提供给具有附加图像的场景。

发明的有益效果

如上所述，根据本技术，当观看再现的视频时，可以在利用语音AI助手服务的性质的同时使用语音AI助手服务。

附图说明

图1是示出包括根据本技术的第一实施方式的信息处理装置4的信息处理系统100的整体配置的框图。

图2是示出图1的信息处理系统100的整体操作流程(部分1)的序列图。

图3是示出图1的信息处理系统100的整体操作流程(部分2)的序列图。

图4是示出图1的信息处理系统100的整体操作流程(部分3)的序列图。

图5是示出叠加有附加图像的视频的实例的示图。

图6是示出POI元数据的配置的框图。

图7是示出叠加有附加图像的视频的另一实例的示图。

图8是示出针对附加图像的呈现限制的示图。

图9是示出在图1的信息处理系统100中包括针对附加图像的呈现限制的整体操作流程(部分3)的序列图。

图10是用于描述基于POI元数据的特技播放再现的示图。

图11是示出处理POI元数据的应用执行环境43的实例的示图。

图12是示出处理POI元数据的应用执行环境43的另一实例的示图。

图13是示出封装网络应用和POI元数据的多部分MIME格式的实例的示图。

图14是示出MP4文件格式的媒体段的配置的示图。

图15是示出MPEG-DASH的MPD的数据结构的示图。

图16是示出经由网络通信在MPEG-DASH服务器15与信息处理装置4之间的交互的示图。

图17是示出用于MPEG-DASH运动图像内容的呈现控制的流程的示图。

图18是示出添加POI元数据的自适应集(AdaptationSet)的MPD的配置的示图。

图19是示出添加POI元数据的AdaptationSet的MPD的更具体实例的示图。

图20是示出针对基于MPD的视频和附加图像的呈现的流程的示图。

图21是示出在附加图像的呈现位置沿着服务对象的运动进行移动的情况下的POI元数据的示图。

图22是用于描述在POI元数据的多个样本时间上的呈现更新控制的示图。

图23是示出通过ODRL的POI使用限制信息的描述实例的示图。

图24是示出用于使用语音助手服务的收费限制的操作的序列图。

图25是示出与在本实施方式的信息处理系统100中使用书签的时移再现有关的配置的框图。

图26A是示出使用书签的时移再现的流程的序列图。

图26B是图26A之后的序列图并示出使用书签的时移再现的流程。

图27是示出与特定书签链接的POI元数据的实例的示图。

图28是示出POI元数据中的ContextID属性的值的变化的示图，这些ContextID属性分别与分配有不同的语音AI助手服务程序的两个时区的场景链接。

图29是示出通过ODRL的共享可否控制信息的描述实例的示图。

图30是示出创建场景捕捉的方法的示图。

具体实施方式

用于执行本发明的模式

在下文中，将描述根据本技术的实施方式。

[实施方式的信息处理装置的概述]

本实施方式的信息处理装置4包括：AV解码器41，获取并再现包括服务对象的视频数据，对于服务对象，处理来自用户的通过语音的请求的服务是可用的；以及应用执行环境43，将用于通知用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和附加图像的开始时间和结束时间的信息保存为书签，该书签由用户任选地选择并被提供给具有附加图像的场景；书签浏览器51；以及书签数据库50。

这允许用户在观看运动图像内容的间隔中利用任选的附加图像来注册针对场景的书签，在该间隔中语音助手服务是可使用的，并且基于用户选择的书签，在稍后的任选的定时再现具有附加图像的场景。

(系统的整体配置)

图1是示出包括根据本技术的第一实施方式的信息处理装置4的信息处理系统100的整体配置的框图。注意，图1示出在包括本实施方式的信息处理装置4的信息处理系统100中生成要与视频数据进行合成的附加图像的部分的配置。

如图所示，信息处理系统100包括服务器组1、广播/网络分发系统2、语音AI助手服务终端3以及用户的信息处理装置4。

(关于服务器组1)

服务器组1包括运动图像内容服务器11、应用服务器12、POI元数据服务器13以及语音AI助手服务程序服务器14。

运动图像内容服务器11累积运动图像内容的数据，诸如，商业消息(CM)和节目。运动图像内容的数据可以是由诸如视频、音频和字幕之类的多种媒体数据配置的多媒体数据。本技术特别适于视频数据，并且诸如音频和字幕之类的其他媒体数据是否存在无关紧要。

POI元数据服务器13经由广播/网络分发系统2向信息处理装置4直接分发对应于运动图像内容的POI元数据。替代性地，在运动图像内容服务器11中以预定的数据结构收集至少运动图像内容的数据和POI元数据，并且然后将其分发给信息处理装置4的情况下，POI元数据服务器13经由广播/网络分发系统2将POI元数据供应至运动图像内容服务器11。稍后将描述POI元数据。

应用服务器12经由广播/网络分发系统2将用于执行基于信息处理装置4中的POI元数据的处理的应用直接分发给信息处理装置4。替代性地，在运动图像内容服务器11中以预定的数据结构收集运动图像内容的数据、POI元数据和应用、并且然后将其分发给信息处理装置4的情况下，应用服务器12经由广播/网络分发系统2将该应用供应至运动图像内容服务器11。

语音AI助手服务程序服务器14经由广播/网络分发系统2将语音AI助手服务程序供应至语音AI助手服务终端3。语音AI助手服务程序是被配置为响应于服务请求而生成服务执行结果的程序，该服务请求由作为运动图像内容的观看者的用户U针对诸如出现在运动图像内容中的特定人或产品的服务对象而提供。

广播/网络分发系统2是经由广播或网络通信向信息处理装置4分发运动图像内容的数据、收集有运动图像内容的数据和POI元数据的数据结构、或收集有运动图像内容的数据、POI元数据和应用的数据结构的系统。另外，广播/网络分发系统2还用于运动图像内容服务器11、应用服务器12与POI元数据服务器13之间的数据传送，以及进一步的语音AI助手服务程序服务器14与语音AI助手服务终端3之间的数据传送。

(关于信息处理装置4)

信息处理装置4包括中央处理单元(CPU)、诸如随机存取存储器(RAM)的主存储器、诸如硬盘驱动器(HDD)和固态驱动器(SSD)的存储设备、用户界面、诸如天线和广播调谐器的广播接收单元以及诸如网络接口的通信接口作为硬件元件。信息处理装置4具体可以是用户可穿戴的信息终端，诸如个人计算机、智能电话、平板终端、电视、游戏设备以及头戴式显示器(HMD)。

作为由上述硬件元件和软件元件实现的功能元件，信息处理装置4包括AV流获取单元41、POI元数据处理模块42、应用执行环境43以及渲染器44。

作为用户界面，信息处理装置4包括显示器45和扬声器46。而且，信息处理装置4可以包括作为功能元件的用户确定模块47。

AV流获取单元41经由广播/网络分发系统2从运动图像内容服务器11获取运动图像内容的多媒体数据(视频数据、音频数据等)并且对多媒体数据进行解码。

POI元数据处理模块42将经由广播/网络分发系统2从运动图像内容服务器11或POI元数据服务器13获取的POI元数据供应至应用执行环境43。

“POI元数据”是用于将所添加的图像添加至信息处理设备4中正在再现的视频的元数据，所添加的图像向信息处理设备4的用户U通知关于在该视频中分配了语音AI助手服务的特定服务对象。POI是兴趣点的缩写。“特定服务对象”是指出现在视频中的人或产品，针对该人或产品，语音AI助手服务可以响应来自用户U的服务请求。

应用执行环境43是使用CPU和主存储器来执行本地应用或网络应用的环境。应用执行环境43基于由POI元数据处理模块42提供的POI元数据来生成待添加至视频中的服务对象的添加图像。例如，将“所添加的图像”生成为“会话气球(speech balloon)”，例如，使得容易理解与视频中的服务对象的关系。然而，本技术不限于上述内容，并且可以使用与视频中的服务对象的关系易于理解的任何图像。

渲染器44从由AV流获取单元41解码的视频数据生成待输出至显示器45的显示信号，并且将由AV流获取单元41解码的音频数据输出至扬声器46。另外，在从应用执行环境43供应所添加的图像的情况下，渲染器44在节目的视频上合成所添加的图像。

显示器45向用户U呈现视频。扬声器46向用户U呈现音频。

(关于语音AI助手服务终端3)

语音AI助手服务终端3是将语音助手服务提供给信息处理装置4的用户U的终端。更具体地，语音AI助手服务终端3是能够接收由用户U通过语音提供的针对视频中的任选的服务对象的服务请求、执行该服务、并且通过使用声音等向用户U返回该服务的执行结果的装置。这里，例如，使用疑问句形式的单词提供来自用户U的通过语音的服务请求，并且，例如，以响应等形式的合成语音将服务的执行结果返回给用户U。

语音AI助手服务终端3包括用于助手服务的麦克风31、语音识别模块32、用于语音AI助手服务的扬声器33、语音生成模块34以及语音AI助手服务程序执行环境35。

用于助手服务的麦克风31捕捉来自信息处理装置4的用户U通过语音提供的服务请求。

语音识别模块32识别由用于助手服务的麦克风31捕捉的服务请求的语音，并且将请求数据传递至语音AI助手服务程序执行环境35。

语音AI助手服务程序执行环境35是执行从语音AI助手服务程序服务器14获取的语音AI助手服务程序的环境。语音AI助手服务程序执行环境35针对从语音识别模块32供应的请求数据来生成服务的执行结果的数据，并且将该数据供应至语音生成模块34。

语音生成模块34将从语音AI助手服务程序执行环境35供应的服务的执行结果的数据转换成合成语音。

用于助手服务的扬声器33将从语音生成模块34供应的合成语音呈现给信息处理装置4的用户U。

(信息处理系统的整体操作流程(部分1))

图2是示出本实施方式的信息处理系统100的整体操作流程(部分1)的序列图。

假设运动图像内容的数据、应用和POI元数据分别从不同的服务器(运动图像内容服务器11、应用服务器12和POI元数据服务器13)分发。

首先，从应用服务器12经由广播/网络分发系统2向信息处理装置4分发应用(步骤S101)。此外，运动图像内容的数据从运动图像内容服务器11经由广播/网络分发系统2被分发至信息处理装置4(步骤S102)。在信息处理装置4中，接收到的运动图像内容的数据在AV流获取单元41中被解码，并且得到的视频数据和音频数据经由渲染器44分别供应至显示器45和扬声器46(步骤S103)。

另外，将从应用服务器12分发至信息处理装置4的应用安装在应用执行环境43中，并且执行该应用(步骤S104)。

接下来，将与运动图像内容相对应的POI元数据从POI元数据服务器13经由广播/网络分发系统2分发至信息处理装置4(步骤S105)。在信息处理装置4中，POI元数据由POI元数据处理模块42供应至应用执行环境43。应用执行环境43基于POI元数据生成用于通知用户U关于视频中的服务对象的附加图像，并且将附加图像供应至渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将该合成图像显示在显示器45上(步骤S106)。

然后，用户U通过语音将针对服务对象的服务请求提供给语音AI助手服务终端3，在显示器45上显示的视频中呈现了针对服务对象的附加图像，并且使用语音AI助手服务(步骤S107)。

(信息处理系统的整体操作流程(部分2))

图3是示出本实施方式中的信息处理系统100的整体操作流程(部分2)的序列图。

在上述操作流程(部分1)中，运动图像内容的数据和POI元数据从不同的服务器(运动图像内容服务器11和POI元数据服务器13)分发至信息处理装置4，并且因此，在信息处理装置4中不能确保运动图像内容的数据与POI元数据之间的同步。

对此，在图3所示的操作流程(部分2)中，首先，将POI元数据从POI元数据服务器13经由广播/网络分发系统2供应至运动图像内容服务器11(步骤S201)，并且将应用从应用服务器12经由广播/网络分发系统2分发至信息处理装置4(步骤S202)。随后，在运动图像内容服务器11中以预定的数据结构收集POI元数据和运动图像内容的数据，并且经由广播/网络分发系统2分发给信息处理装置4(步骤S203)。

在信息处理装置4中，从在AV流获取单元41中接收的数据结构中提取运动图像内容的数据，将所提取的运动图像内容的数据在AV流获取单元41内的解码器中进行解码，并且将得到的视频数据和音频数据经由渲染器44分别供应至显示器45和扬声器46(步骤S204)。

另外，在信息处理装置4中，由POI元数据处理模块42从接收的数据结构中提取POI元数据(步骤S205)，并且将其供应至应用执行环境43。应用执行环境43基于POI元数据生成用于向用户U通知关于视频中的服务对象的附加图像，并且将附加图像供应至渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将该合成图像显示在显示器45上(步骤S207)。

然后，用户U通过语音将针对服务对象的服务请求提供给语音AI助手服务终端3，在显示器45上显示的视频中呈现了针对服务对象的附加图像，并且使用语音AI助手服务(步骤S208)。

以这种方式，POI元数据和运动图像内容的数据以预定的数据结构收集并且被从运动图像内容服务器11分发至信息处理装置4，这确保能够在信息处理装置4中彼此同步地处理运动图像内容的数据和POI元数据。这允许将正确的附加图像不断地添加到节目的视频中的服务对象，并且允许维持稳定的语音AI助手服务。

注意，在操作流程(部分2)中，将应用从应用服务器12经由广播/网络分发系统2分发至信息处理装置4(步骤S202)，将应用安装在应用执行环境43中并且执行，与上述操作流程(部分1)相同(步骤S206)。

(信息处理系统的整体操作流程(部分3))

图4是示出本实施方式的信息处理系统100的整体操作流程(部分3)的序列图。在该操作流程中，假设以预定的数据结构收集运动图像内容的数据、POI元数据和处理它们的应用，并且将其从运动图像内容服务器11分发至信息处理装置4。

首先，将POI元数据从POI元数据服务器13供应至运动图像内容服务器11(步骤S301)。而且，将应用从应用服务器12供应至运动图像内容服务器11(步骤S302)。可以颠倒POI元数据的供应和应用的供应的顺序。随后，在运动图像内容服务器11中将运动图像内容的数据、POI元数据和应用收集在预定的数据结构中，并且经由广播/网络分发系统2将该数据结构分发至信息处理装置4(步骤S303)。

在信息处理装置4中，从接收的数据结构中提取运动图像内容的数据，在AV流获取单元41中解码所提取的运动图像内容的数据，并且经由渲染器44将得到的视频数据和音频数据分别供应至显示器45和扬声器46(步骤S304)。

另外，在信息处理装置4中，从所接收的数据结构中提取应用(步骤S305)，将该应用安装在应用执行环境43中并且执行(步骤S306)。

而且，在信息处理装置4中，由POI元数据处理模块42从所接收的数据结构中提取POI元数据(步骤S307)，并且将其供应至应用执行环境43。应用执行环境43基于POI元数据生成用于通知用户U关于视频中的服务对象的附加图像，并且将附加图像供应至渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将该合成图像显示在显示器45上(步骤S308)。

然后，用户U通过语音将针对服务对象的服务请求提供给语音AI助手服务终端3，在显示器45上显示的视频中呈现了针对服务对象的附加图像，并且使用语音AI助手服务(步骤S309)。

(关于附加图像)

接下来，将描述基于POI元数据生成的附加图像。图5是示出叠加有附加图像的视频的实例的示图。如图所示，例如，可以将附加图像呈现为分别附接至视频中的语音AI助手服务的服务对象J1、J2和J3的会话气球51、52和53。

将相应的服务对象J1、J2和J3唯一的视觉特征提供给会话气球51、52和53，使得在用户U通过语音向语音AI助手服务终端3通知服务对象J1、J2和J3的情况下，在语音AI助手服务终端3中通过语音识别唯一地确定服务对象J1、J2和J3。这允许用户U通过使用表达任选的服务对象的特征的语音，将针对该服务对象的服务请求提供给语音AI助手服务终端3。

例如，在图5的示例中，作为服务对象J1、J2和J3的人的名称的字符串“比尔”、“弗雷德”和“露西”在会话气球51、52和53中被显示为视觉特征。因此，用户U可以使用任选的服务对象的名称(例如，“弗雷德的最新消息是什么？”或者“比尔多大了？”)，以通过语音将针对服务对象的服务请求提供给语音AI助手服务终端3。同时，语音AI助手服务终端3可以由语音识别模块32识别的名称来标识服务对象，并且可以根据语音AI助手服务程序执行环境35的语音AI助手服务程序来执行针对所标识的服务对象的语音AI助手服务。

注意，除了出现在视频中的人物的名称的字符串之外，可以利用图标、会话气球的颜色、会话气球的设计等来不同地修改设置在会话气球51、52和53中的相应的服务对象唯一的视觉特征。

如上所述，在本实施方式中，针对运动图像内容的视频中的用于语音AI助手服务的服务对象，生成用于通知用户U关于服务对象的附加图像，然后将该附加图像叠加在待呈现的运动图像内容的视频上，并且因此，用户U可以从该视频中唯一地确定服务对象，并且执行针对任选的服务对象的服务请求。因此，消除了用户U将针对除服务对象之外的对象的服务请求提供给语音AI助手服务终端3的无用操作，并且可以最优地使用语音AI助手服务。

另外，将相应的服务对象唯一的视觉特征提供给附加图像，使得可以在语音AI助手服务终端3中通过语音识别唯一地识别服务对象，并且因此用户U可以通过使用语音将针对该服务对象的服务请求提供给语音AI助手服务终端3，同时使用表达任选的服务对象的特征的语音。由此，用户U不犹豫如何表达服务对象以向语音AI助手服务给出通知，在语音AI助手服务终端3中可靠地标识服务对象，并且因此实现最优的语音AI助手服务。

接下来，将描述POI元数据的结构。

(POI元数据的结构)

图6是示出POI元数据的配置的方框图。POI元数据包括POI图标图像、POI呈现颜色、POI呈现位置、POI呈现文本、POI过滤信息、POI使用限制信息和语音助手服务后端控制信息。

在附加图像上呈现图标作为服务对象单元的可视特征的情况下，POI图标图像是使用的图标文件或图标文件的参考URL(统一资源定位符)的物质。以下将示出POI图标图像的XML(可扩展标记语言)表示。

<POIIcon iconPng＝'true'>…(base64编码的png文件)…</POIIcon>

<POIIcon iconPngURL＝'true'>http://…(图标png文件的URL)…</POIIcon>

在使用颜色的视觉特征被提供给附加图像的情况下使用POI呈现颜色。针对POI呈现颜色的信息，例如，使用CSS(级联样式表)等的颜色代码。POI呈现颜色的XML表示如下所示。

<POIColor>...(CSS颜色代码)…</POIColor>

POI呈现位置包括诸如其中呈现附加图像的目标内容的URI(统一资源标识符)、基于POI元数据执行呈现附加图像的处理的POI呈现应用的URL、以及附加图像的呈现时间(开始时间、结束时间)的信息。POI呈现位置的XML表示如下所示。

POI呈现文本是在将使用字符的视觉特征提供给附加图像的情况下在附加图像上呈现的字符串。POI呈现文本的XML表示如下所示。

<POIText>…(呈现字符串)…</POIText>

在执行与附加图像的用户或用户属性相对应的呈现限制的情况下使用POI过滤信息。POI过滤信息是用于识别将向其呈现附加图像的用户U的信息，并且包括用户人口统计类别的标识名称和任选的用户标识信息。

用户人口统计类别指用户U基于用户的属性(诸如，性别、年龄、生活区域、职业、学术背景和家庭结构)被分类成的类别，并且由用户人口统计类别的标识名称唯一地识别。下面将示出用户人口统计类别的标识名称的XML表示。

<POITargetUser demographicClass＝’true’>…(用户人口统计类别标识名称)…</POITargetUser>

例如，任选的用户标识信息是诸如广播站相关的服务的账户名称的用户标识信息。下面将示出任选的用户标识信息的XML表示。

<POITargetUser privateAccount＝'true'>https://…(用于识别服务的用户账户等的URL)…</POITargetUser>

注意，仅需要定义POI图标图像、POI呈现颜色或POI呈现文本中的至少任意一个。在引入稍后描述的附加信息的呈现限制的情况下来限定POI过滤信息。

POI使用限制信息是限定由语音助手服务针对特定服务对象提供信息的使用限制的细节的信息。POI使用限制信息的XML表示如下所示。

<<POIAccessControl rightsExpressionLanguage＝ODRL’><<[CDATA’ODRL’<<！[CDATA[…(由ODRL表示的访问控制描述)…]]></POIAccessControl>

这是指示POI使用限制信息是由ODRL表示的描述的声明。当确认POI使用限制信息的声明时，应用执行环境43基于POI使用限制信息通知用户由语音助手服务针对特定服务对象提供信息的使用限制以及限制的细节。注意，稍后将描述POI使用限制信息的细节。

语音助手服务后端控制信息是对语音助手服务限定功能的信息，该功能以语音助手服务程序为单位进行切换使用。注意，这样的功能在Amazon Echo(注册商标)的Alexa(注册商标)中称为“技能”。下面将示出语音助手服务后端控制信息的XML表示。

<POIBackEndControl ServerSideScriptType＝’功能名称’ContextID＝’(使功能上下文对应时使用的当前上下文切换url)’>…(当前功能名称)…</POIBackEndControl>

(关于针对附加图像的呈现限制)

在上述实施方式中，在运动图像内容的视频中，在用于语音AI助手服务的服务对象上呈现附加图像。然而，例如，如图7所示，在一个场景中呈现多个服务对象J1至J5的情况下，呈现与这些服务对象J1至J5相对应的数量的附加图像51至55。这些附加图像51至55隐藏节目的部分视频，并且节目的视频的视觉效果容易劣化。

对此，例如，如图8所示，根据用户U对呈现附加图像的服务对象进行限制是有效的。例如，在用户U感兴趣的服务对象上呈现附加图像，并且在其他服务对象上不呈现附加图像。这能够将以下情况抑制到最小：节目的部分视频被许多附加图像隐藏，并且整个视频被附加图像弄得混乱。该功能将被称为“针对附加图像的呈现限制”。

图9是示出包含针对附加图像的呈现限制的操作流程的顺序图。

这里，步骤S401至S405的操作与在图2中所示的操作流程(部分1)中的步骤S101至S105的操作相同，并且因此将省略其描述。

为了执行针对附加图像的呈现限制，信息处理装置4的用户确定模块47确定用户U的用户人口统计类别或用户标识信息(步骤S406)。将所确定的用户U的用户人口统计类别或用户标识信息通知给应用执行环境43(步骤S407)。

用户人口统计类别是基于用户的各种属性(诸如，性别、年龄、生活区域、职业、学术背景和家庭结构)将用户分类至的类别。例如，如果可以在统计上说二十多岁的男性非常倾向于对最近流行的新女演员感兴趣，则二十多岁的男人的用户人口统计类别与针对在节目中由新女演员扮演的人(服务对象)的POI元数据中限定的用户人口统计类别进行匹配。

由用户确定模块47确定用户U的用户人口统计类别或用户标识信息的方法包括以下步骤。

1.用户确定模块47从由相机捕捉的用户U的面部图像的分析结果来估计用户U的属性(诸如，性别和年龄组)，并且从所估计的属性确定用户人口统计类别。

2.用户确定模块47基于通过从语音AI助手服务终端3通过声音向用户U给出的问题而获得的信息来估计用户U的属性，并且确定用户人口统计类别。

3.在使用信息处理装置4的多个用户被限制的情况下，用户人口统计类别的标识名称或用户标识信息预先与每个用户的用户名称相关联地注册，并且因此，用户确定模块47可以确定通过诸如生物认证和卡认证之类的认证而确认的用户人口统计类别的标识名称或对应于用户名称的用户标识信息。

接下来，信息处理装置4的应用执行环境43从运动图像内容的视频的相应场景的所有POI元数据中提取这样的POI元数据，在该POI元数据中，由用户确定模块47确定的用户人口统计类别的标识名称或用户标识信息被限定为POI过滤信息，基于所提取的POI元数据生成附加图像，该附加图像向用户U通知关于视频中的服务对象，并且将附加图像供应至渲染器44。因此，获得在节目的视频上叠加有附加图像的合成图像，并且将合成图像显示在显示器45上(步骤S408)。

然后，用户U通过语音将针对服务对象的服务请求提供给语音AI助手服务终端3，在显示器45上显示的视频中呈现了针对服务对象的附加图像，并且使用语音AI助手服务(步骤S409)。

注意，这里假设图2中所示的信息处理系统的整体操作流程(部分1)已经描述了针对附加图像的呈现限制，但是对于整体操作流程(部分2)和整体操作流程(部分3)同样适用。

接下来，返回图8，将继续说明。这里，假设视频中的服务对象J1的用户人口统计类别的标识名称为“类别1”，其他服务对象J2至J5的用户人口统计类别的标识名称不是“类别1”。同时，假设用户确定模块47将用户U的用户人口统计类别确定为“类别1”。在这种情况下，仅针对服务对象J1呈现附加图像51，并且因此，可以将以下情况抑制到最小：节目的部分视频被添加至用户U不感兴趣的服务对象J2至J5的附加图像52至55隐藏，并且整个视频变得混乱。

注意，在利用用户标识信息作为过滤条件执行针对附加图像的呈现限制的情况下，能够仅向特定用户U呈现针对特定服务对象的附加图像。

(基于用户U的观看历史的用户人口统计类别的设定)

注意，在以上描述中，从诸如性别、年龄、生活区域、职业、学术背景和家庭属性之类的属性中确定用户U的用户人口统计类别，但是用户确定模块47可以基于用户U的观看历史来计算用户U的偏好条件，并且基于偏好条件或者考虑偏好条件来确定用户人口统计类别。

(基于POI元数据的即时再现)

接下来，将描述基于POI元数据的特技播放再现。基于POI元数据的特技播放再现是以第一双倍速度再现在根据基于用户U的用户人口统计类别或用户标识信息提取的POI元数据呈现附加图像的场景，并且以比第一双倍速度快的第二双倍速度再现其他场景。

这里，例如，第一双倍速度是1x速度(相等的速度)或比1倍速度慢的速度。例如，第二双倍速度是用于快于1x速度的快进再现。

接下来，将更具体地描述基于POI元数据的特技播放再现的操作。首先，用户确定模块47确定用户U的用户人口统计类别或用户标识信息并且将其供应至应用执行环境43。

应用执行环境43从节目的视频的相应场景的所有POI元数据中选择这样的POI元数据，在该POI元数据中，由用户确定模块47确定的用户人口统计类别的标识名称或用户标识信息被限定为POI过滤信息，并且应用执行环境43基于所提取的POI元数据执行特技播放再现。

图10是具体示出基于POI元数据的特技播放再现的示图。这里，假设作为服务对象的用户“比尔”和“山姆”的用户人口统计类别是“类别1”，并且由用户确定模块47确定的用户U的用户人口统计类别是“类别1”。

在Ta-Ta’时段期间，具有“类别1”的用户人口统计类别的“比尔”出现在视频中，并且因此，应用执行环境43在Ta-Ta’期间以第一双倍速度再现包括附加图像的视频。随后，直到时间Tc，在视频中未出现具有“类别1”的用户人口统计类别的服务对象，并且因此，应用执行环境43以比第一双倍速度更快的第二双倍速度执行再现。注意，在以第二双倍速度的再现中不呈现附加图像，并且因此，可以减少对应用执行环境43的负载。在Tc-Tc’时段期间，具有“类别1”的用户人口统计类别的“山姆”出现在视频中，并且因此，应用执行环境43在Tc-Tc’期间以第一双倍速度再现包括附加图像的视频。在时间Tc’之后，在视频中未出现具有“类别1”的用户人口统计类别的服务对象，并且因此，以第二双倍速度执行再现。

以这种方式，以第一双倍速度再现基于用户U的用户人口统计类别或用户标识信息提取的POI元数据呈现附加图像的场景，并且以快于第一双倍速度的第二双倍速度再现其他场景，由此实现聚焦于针对用户U有用(感兴趣)的场景的特技播放再现。

另外，可以仅对根据基于用户U的用户人口统计类别或用户标识信息所提取的POI元数据呈现附加图像的场景，执行跳过再现。

迄今为止已经描述了用于由根据本实施方式的信息处理系统基于POI元数据的附加图像的呈现、附加图像的呈现限制、特技播放再现等的功能。

(关于应用执行环境43)

图11是示出处理POI元数据的应用执行环境43的实例的示图。

该实例示出其中处理POI元数据的应用是在信息处理装置4的本地操作系统48上操作的本地应用49的情况。

该实例示出其中处理POI元数据的应用是在网络浏览器56上操作的网络应用57的情况。在这种情况下，将POI元数据和网络应用57同时或基本上同时分发给信息处理装置4。

(POI元数据传送方法)

为了将网络应用和POI元数据同时分发至信息处理装置4，采用通过使用多部分MIME(多用途互联网MAII扩展)格式来封装网络应用和POI元数据的方法。图13是示出封装网络应用和POI元数据的多部分MIME格式的实例的示图。在多部分MIME格式中，POI元数据文件61和网络应用文件62分别存储在由边界部分分开的各个部分中。

注意，在处理POI元数据的应用是利用作为应用执行环境的操作系统操作的本地应用，或者将应用与POI元数据分开分发的情况下，可以仅以多部分MIME格式存储POI元数据文件，并且然后将其分发。

接下来，将描述以类似于诸如视频数据和音频数据之类的媒体数据的轨迹的方式，以MP4文件格式存储POI元数据的轨迹并且传送MP4文件格式的方法。

图14是示出MP4文件格式中的媒体段的配置的示图。如图所示，媒体段包括多个电影片段，并且每个电影片段由moof盒和mdat盒配置。例如，在mdat盒中，将媒体数据以时间单位(诸如，帧)划分为多个样本盒，并且将其存储为可随机访问。在moof盒中，存储关于呈现的元数据，诸如，用于生成呈现mdat盒的每个样本盒的媒体数据的定时的信息。

在本实施方式中，准备在mdat盒的每个样本盒中存储视频数据的媒体段、在mdat盒的每个样本盒中存储音频数据的媒体段、在mdat盒的每个样本盒中存储POI元数据的媒体段。

注意，在本实施方式中，假设MP4文件为MPEG-DASH(HTTP上的动态自适应流)的媒体段。

(关于MPEG-DASH)

在MPEG-DASH中，针对一条运动图像内容准备具有不同编码速率和屏幕大小的多个数据组，以防止流再现被中断。考虑信息处理装置4的屏幕尺寸、网络带宽的状态等来动态地选择多个数据组。因此，如上所述，在MPEG-DASH中，在被称为MPD(Media PresentationDescription，媒体呈现描述)的元数据中描述了针对一条运动图像内容准备了什么数据组的编码速率和屏幕大小。

接下来，将详细描述MPD的数据结构。

MPD是关于服务器中存储的运动图像内容的配置的信息，其以XML(可扩展标记语言)格式的分层结构进行描述。信息处理装置4从MPD文件服务器获取对应于目标运动图像内容的MPD文件并且分析MPD文件，并且因此，从服务器获取呈现目标运动图像内容所需的媒体段。

图15示出MPD的数据结构的示图。

MPD包括在MPD之下的一个时段(Period)、针对时段之下的媒体类型中的每一个媒体类型的AdaptationSet、以及在AdaptationSet之下的多个表示。

作为关于一条运动图像内容的管理信息，MPD的层级(即，顶层级)包括诸如MPD的起点、标题、流类型(点播/实时分发)和长度之类的信息。

时段是通过将一条运动图像内容除以诸如帧的时间而获得的单位。针对时段限定开始时间和结束时间。时段由多个AdaptationSet进行配置。

AdaptationSet包括关于针对每个时段的运动图像内容的媒体类型(视频、音频、字幕、POI元数据)中的每一个的数据的编解码器信息、诸如语言等的信息。在AdaptationSet之下，AdaptationSet包括针对具有不同编码速率和图像大小的每条数据的表示。

该表示包括在网络服务器中累积的信息，诸如，具有不同编码速率、图像大小等的段的编码速率、图像大小、位置(URL)等。

图16是示出在MPEG-DASH服务器15与信息处理装置4之间经由网络通信的交互的示图。

在MPEG-DASH服务器15中存储运动图像内容的媒体的各种类型的MPD文件和媒体段。

信息处理装置4的CPU请求MPEG-DASH服务器15传输MPD文件(步骤S501)。MPEG-DASH服务器15响应于请求将MPD文件传输至信息处理装置4(步骤S502)。信息处理装置4的CPU分析接收到的MPD文件并且确认准备了什么编码速率和媒体段的图像大小(步骤S503)。信息处理装置4的CPU请求MPEG-DASH服务器15考虑MPD文件的分析结果、显示器的屏幕大小、传输路径的网络流量的状态等来传输具有最优图像大小和编码速率的媒体段(步骤S504)。MPEG-DASH服务器15响应于该请求将媒体段传输至信息处理装置4(步骤S505)。

接下来，为了描述MPD与媒体段之间的关系，将返回参考图14来描述媒体段中的moof盒和mdat盒的数据结构。

如上所述，媒体段包括多个电影片段，并且每个电影片段由moof盒和mdat盒配置。例如，在mdat盒中，媒体数据由时间单位(诸如，帧)划分为多个样本盒，并且将其存储为可随机访问。在moof盒中，存储关于呈现的元数据，诸如，用于生成呈现mdat盒的每个样本盒的媒体数据的定时的信息。

作为用于生成相应样本(1)、(2)、(3)、…的媒体数据的呈现开始时间PresentationTime(1)、(2)、(3)、…的信息，BaseMediaDecodeTime被存储在moof盒的预定低层盒(moof/traf盒)中，并且作为与相应样本(1)、(2)、(3)、…相关联的信息，SampleCount(1)、(2)、(3)、…，SampleDuration(1)、(2)、(3)…，CompositionTimeOffset)(1)、(2)、(3)、…进一步存储在另一个盒(trun盒)中。BaseMediaDecodeTime是从时段(Period)的起点到电影片段的起点的相对时间的信息。SampleCount(1)、(2)、(3)、…是样本的数量，SampleDuration(1)、(2)、(3)、…是样本(1)、(2)、(3)、……的长度，并且CompositionTimeOffset(1)、(2)、(3)、…是调整时间。

接下来，将描述计算样本的呈现开始时间PresentationTime的方法。

假设第N个样本的呈现开始时间是PresentationTime(N)，PresentationTime(N)通过BaseMediaDecodeTime+(样本(1)、…、至第(N-1)样本(1)、(N-1)SampleDuration(1)、…、以及(N-1)的总和)+(第N个样本(N)的CompositionTimeOffset来计算。

(MPEG-DASH运动图像内容的典型呈现控制)

图17是示出用于MPEG-DASH运动图像内容的呈现控制的流程的示图。在该图中，将水平轴线假设为实时轴线(UTC时间)。参考MPD文件中限定的MPD的开始点，信息处理装置4的CPU基于针对时段限定的作为MPD的开始点的相对时间的开始时间，实时地生成第一时段的开始点。

随后，信息处理装置4的CPU基于BaseMediaDecodeTime实时地生成电影片断的开始点，并且进一步通过使用SampleCount、SampleDuration和CompositionTimeOffset来生成时段的第一样本(1)的呈现开始时间(PresentationTime(1))，并且从该时间开始第一样本(1)的呈现。随后，信息处理装置4的CPU类似地生成下一个样本(2)的呈现开始时间(PresentationTime(2))，并且将此时待呈现的目标从样本(1)切换到样本(2)。在下文中，类似地执行样本之间的呈现的切换。以这种方式，呈现每个样本(1)、(2)、…的视频而没有被暂时中断。

在本实施方式中，将对应于POI元数据的AdaptationSet添加至MPD文件，并且因此，可以通过按照原样遵循针对MPEG-DASH运动图像内容的呈现控制方法来执行针对附加图像的呈现控制。这允许与诸如MPEG-DASH运动图像内容的视频或音频之类的每个介质同步地呈现附加图像。

例如，如图18所示，在与从T1至T2的时段(T1-T2)中的视频同步地实时呈现附加图像的情况下，将POI元数据的AdaptationSet(T1-T2)添加至MPD的时段(T1-T2)的下级层级。而且，在与从T2到T3的时段(T2-T3)中的视频同步地实时呈现附加图像的情况下，将POI元数据的AdaptationSet(T2-T3)添加至MPD的时段(T2-T3)的下级层级。

在MPD的顶部层级中，描述@avAIlabilityStartTime＝T0。这指示运动图像内容时间的开始点是T0。在其下层层级中，存储两个时段。在两个时段中，第一时段被限定为在T0的开始点之后的0秒开始，第二时段被限定为在T0的开始点之后的100秒开始。

在该实例中，视频、音频和POI元数据的AdaptationSet作为第二时段的AdaptationSet呈现。在视频的AdaptationSet的较低层级中，呈现指示不同编码速率(256Kbps/512Kbps)的两个表示。在每个表示的较低层级中，呈现SegmentTemplate，在其中描述了生成指示视频的媒体段的位置、获取周期等的URL的方法。

这里，“@timescale＝“1000””和“@duration＝“1000””是指，如果1000分钟的值以1/1000秒的时间标度，即一秒设定为段时间长度，则可以在该段时间长度的周期内获取视频。“@Media＝“$Number％6d$.m4s””表示生成URL的最低值的方法，该值指示每个样本的视频的位置，并且具体地说，是指从1开始递增的具有六位数字的值的整数。例如，通过将MPD每个元素中描述的“BaseURL”所示的值连接至路径格式并将由“@Media＝$Number％6d$.m4s”生成的具有六位数字的值添加到URL的末尾，来生成样本的URL。换句话说，视频的第一个样本的URL被创建为“HTTP://a.com/p2/video/512/000001.m4s”。“@initialization＝“IS.mp4””是用于视频的第一媒体段的初始化段的URL的值。通过将MPD每个元素中描述的“BaseURL”所示的值连接至路径格式并在URL末尾添加“IS.mp4”，也可以生成初始化段的URL。例如，初始化段的URL被创建为“HTTP://a.com/p2/video/512/IS.mp4”。

在POI元数据的AdaptationSet的较低层级中呈现表示，并且在其另一较低层级中呈现SegmentTemplate，SegmentTemplate中描述了生成指示POI元数据的媒体段的位置、获取周期等的URL的方法。生成指示POI元数据的媒体段的位置的URL的方法可以与生成指示视频的媒体段的位置的URL的方法相同。另外，生成指示用于POI元数据的初始化段的位置的URL的方法也可以与生成指示用于视频的初始化段的位置的URL的方法相同。POI元数据的初始化段包括用于识别在媒体段中作为Sample存储的POI元数据的信息。具体来说，如果初始化段的moov(MovieBox)/trak(TrackBox)/mdia(MediaBox)/hdlr(HandlerBox)的处理类型(handler_type)字段的值为“meta”，则可以识别媒体段中作为样本存储的POI元数据。

信息处理装置4的CPU可以基于如上所述生成的URL，以样本为单位获取运动图像内容的视频、音频和POI元数据中的每一个。

图20是示出基于MPD和附加图像的视频的呈现的流程的示图。呈现视频的样本(1)、(2)和(3)中的每一个样本的处理如上所述。这里，信息处理装置4的CPU基于从视频的第一样本(1)的实时的呈现开始时间(PresentationTime)(1)到下一样本(2)的实时的呈现开始时间(PresentationTime)(2)的POI元数据(1)执行对附加图像的呈现处理。随后，信息处理装置4的CPU基于从样本(2)的实时的呈现开始时间(PresentationTime)(2)到下一个样本(3)的实时的呈现开始时间(PresentationTime)(3)的POI元数据(2)执行对附加图像的呈现处理。而且，信息处理装置4的CPU基于从样本(2)的实时的呈现开始时间(PresentationTime)(3)到下一个样本(3)的实时的呈现开始时间(PresentationTime)(4)的POI元数据(3)执行对附加图像的呈现处理。

如上所述，在本实施方式中，将用于POI元数据的AdaptationSet添加至MPD文件中，并且因此，可以使用与用于诸如视频和音频的其他类型的媒体的呈现控制相同的机制来执行基于POI元数据的用于附加图像的呈现控制，并且还可以与诸如视频和音频的其他类型的媒体同步地正确地呈现附加图像。

(附加图像的呈现位置的运动)

图21是示出在视频中的服务对象随着时间移动并且附加图像的呈现位置也沿着服务对象的运动一起移动的情况下的POI元数据的示图。

这里，T1是基于POI元数据(1)的附加图像的呈现开始时间，T2是基于POI元数据(2)的附加图像的呈现开始时间，并且T3是基于POI元数据(3)的附加图像的呈现开始时间。T1-T2是基于POI元数据(1)的附加图像的呈现时段，并且在该时段期间，附加图像呈现在由POI元数据(1)中的POIPosition元素(x＝x1，y＝y1)的值指示的位置处。T2-T3是基于POI元数据(2)的附加图像的呈现时段，并且在该时段期间，附加图像呈现在由POI元数据(2)中的POIPosition元素(x＝x2，y＝y2)的值指示的位置处。T3-T4是基于POI元数据(3)的附加图像的呈现时段，并且在该时段期间，附加图像呈现在由POI元数据(3)中的POIPosition元素(x＝x3，y＝y3)的值指示的位置处。

以这样的方式，根据移动的服务对象的位置来确定每个样本的POI元数据中的POIPosition元素的值，并且因此，可以与服务对象的运动同步地正确地移动附加图像的呈现位置。

(在POI元数据的多个样本时间上的呈现更新控制)

在上文中已经假设在将每个样本的视频与POI元数据一对一地关联的同时执行针对附加图像的呈现控制，但是可以将一条POI元数据应用于多个连续样本的视频。在这种情况下，如图22所示，版本信息(版本)被添加至在存储POI元数据的文件63、64和65的包66、67和68中描述的POI元数据的标识符(元数据URI)的值。在不从紧接在前的POI元数据改变细节的情况下，假设版本信息具有与在存储紧接在前的POI元数据的包中描述的版本信息相同的值，并且在从紧接在前的POI元数据改变细节的情况下，版本信息设定为递增的值。

因此，在视频的样本之间的切换中，在切换之前和切换之后改变每条版本信息的值的情况下，应用执行环境43的应用基于POI元数据来执行用于附加图像的呈现的计算，并且在不改变每条版本信息的值的情况下，继续呈现附加图像，而不执行基于POI元数据的用于附加图像的呈现的重新计算。这允许减少针对附加图像的呈现的计算的负载。

例如，如图22所示，添加至对应于样本(1)的视频的POI元数据(1)的标识符(metadataURI)的版本信息的值是“1”，添加至对应于第二样本(2)的视频的POI元数据(2)的标识符(metadataURI)的值是“2”，并且添加至对应于第三样本(3)的视频的POI元数据(3)的标识符(metadataURI)的版本信息的值是“2”。在这种情况下，在第二样本(2)的视频和第三样本(3)的视频之间进行切换时，添加至第二样本(2)的视频的附加图像也照原样继续呈现在第三样本(3)的视频上，而不基于与第三样本(3)的视频相对应的POI元数据(3)来执行针对附加图像的呈现的计算。

(关于特定服务对象使用语音助手服务的收费限制)

虽然向用户提供关于在运动图像内容中出现的各种服务对象的语音助手服务，但是在用户使用关于特定服务对象的语音助手服务的情况下，可以提供需要收费的限制。

为了实现如上所述的关于特定服务对象的语音助手服务的使用限制，如图6所示，在POI元数据中描述POI使用限制信息。例如，对于POI使用限制信息，ODRL(开放数字版权语言)等被用作关于接入控制的描述语言。ODRL是能够描述任选的内容的使用条件和要求、版权持有者和用户之间的协义的细节等的版权语言。

图23是通过ODRL的POI使用限制信息的描述实例。

在由ODRL的POI使用限制信息中，描述了诸如用于访问执行收费管理的服务器所需的URL的访问信息231、目标POI元数据的标识符232、访问使用限制目标用户233、访问使用限制解除条件234等。换句话说，在该实例中，POI使用限制信息具有以下含义：“想要接收针对该POI的语音助手服务的用户需要向作为POI元数据的持有者的节目A的广播站支付一美元。”

接下来，将参见图24描述针对特定服务对象使用语音助手服务的收费限制的操作。步骤S601至步骤S603是用于信息处理装置4获取运动图像内容的数据、POI元数据和应用的步骤。获取运动图像内容的数据、POI元数据和应用的流程可以是图2、图3和图4中示出的全部操作流程(部分1、2和3)中的任何一个。在本实例中，例如，将POI元数据从POI元数据服务器13经由广播/网络分发系统2供应至运动图像内容服务器11，并且将应用从应用服务器12经由广播/网络分发系统2分发至信息处理装置4。然后，假设在运动图像内容服务器11中将POI元数据和运动图像内容的数据收集在预定的数据结构中，并且然后，该数据结构经由广播/网络分发系统2分发给信息处理装置4。

在信息处理装置4中，在AV流获取单元41中解码所提取的运动图像内容的数据，并且经由渲染器44将得到的视频数据和音频数据分别供应至显示器45和扬声器46(步骤S604)。

另外，在信息处理装置4中，由POI元数据处理模块42从接收的数据结构中提取POI元数据(步骤S605)，并且将其供应至应用执行环境43。基于在POI元数据中描述的POI使用限制信息，应用执行环境43基于POI元数据向用户U询问用户U是否想要使用关于特定服务对象的语音助手服务(步骤S607)。例如，可以使用连接至信息处理装置4的显示器45和扬声器44来执行对用户U的询问。在该询问中，向用户U呈现POI使用限制信息中描述的接入使用限制解除条件等。参考所呈现的细节，用户U可以将向信息处理装置4输入使用涉及收费或取消其的语音助手服务的指令(步骤S608)。

在用户U向信息处理装置4输入使用涉及收费的语音助手服务的指令的情况下，应用执行环境43向账户服务器17传输至少包括用户U的用户标识信息和POI使用限制信息的语音助手服务的使用请求。账户服务器17是执行关于语音助手服务的使用的收费处理的服务器。当从信息处理装置4接收到语音助手服务的使用请求时，账户服务器17基于包括在使用请求中的用户标识信息、POI使用限制信息等来执行收费处理(步骤S610)，并且在完成收费处理时，向信息处理装置4传输对涉及收费的语音助手服务的使用的同意(步骤S611)。

当从账户服务器17接收到对涉及收费的语音助手服务的使用的同意时，信息处理装置4的应用执行环境43基于POI元数据生成附加图像，该附加图像通知用户U关于视频中的服务对象，并且将附加图像提供给渲染器44。因此，获得在节目的视频上叠加有附加图像的合成图像，并且将合成图像显示在显示器45上(步骤S612)。

注意，对于未由POI元数据中的POI使用限制信息施加使用限制的服务对象，不执行上述对用户U的询问，并且在视频中合成附加图像。

随后，用户U通过语音向语音AI助手服务终端3给出用于针对在显示器45上显示的视频中呈现有附加图像的服务对象的服务请求，并且使用语音AI助手服务(步骤S613)。

以这种方式，可以在用户针对特定服务对象使用语音助手服务的情况下实现收费限制。

(使用书签的时移再现)

在本实施方式的信息处理系统100中，用户能够在正在观看运动图像内容(其中语音助手服务可用)的间隔中，利用任选的附加图像注册针对场景的书签，并且可以基于用户选择的书签，在任选的稍后定时利用附加图像再现场景。在下文中，这种功能被称为“使用书签的时移再现”。

这里，通过保存POI元数据来执行针对具有附加图像的场景的书签的注册，该POI元数据用于生成出现在具有该附加图像的场景中的附加图像。如图6所示，POI元数据包括目标内容的URI和附加图像的呈现时间(开始时间、结束时间)，并且因此，通过使用这些条信息，信息处理装置4可以请求运动图像内容服务器11以分发运动图像内容的数据，运动图像内容的数据是呈现具有注册书签的附加图像的场景所必需的。

图25是示出与本实施方式的信息处理系统100中使用书签的时移再现有关的配置的框图。如图25所示，作为与使用书签的时移再现相关的配置，信息处理系统100包括书签数据库50和书签浏览器51。

书签数据库50是保存POI元数据的数据库，该POI元数据用于在具有注册书签的附加图像的场景中生成附加图像。

书签浏览器51从书签数据库50读取POI元数据，从注册的书签中读取对应于由用户U选择的书签的POI元数据，并且基于POI元数据，经由AV流获取单元41执行请求运动图像内容服务器11通过流分发需要时移再现的运动图像内容的处理。

响应于从书签浏览器51给出的请求，AV流获取单元41访问运动图像内容服务器11，请求需要时移再现的运动图像内容的流分发，并且获取并解码运动图像内容的流。

图26A和图26B是各自示出使用书签的时移再现的流程的序列图。

步骤S701至步骤S703是用于信息处理装置4以获取运动图像内容的数据、POI元数据和应用的步骤。获取运动图像内容的数据、POI元数据和应用的流程可以是图2、图3和图4中示出的全部操作流程(部分1、2和3)中的任何一个。在本实例中，例如，经由广播/网络分发系统2将POI元数据从POI元数据服务器13供应至运动图像内容服务器11，并且经由广播/网络分发系统2将应用从应用服务器12分发至信息处理装置4。然后，假设在运动图像内容服务器11中以预定数据结构收集POI元数据和运动图像内容的数据，并且然后，经由广播/网络分发系统2分发给信息处理装置4。

在信息处理装置4中，从所接收的数据结构提取运动图像内容的数据，在AV流获取单元41中解码所提取的运动图像内容的数据，并且经由渲染器44将得到的视频数据和音频数据分别供应至显示器45和扬声器46(步骤S704)。

另外，在信息处理装置4中，由POI元数据处理模块42从接收的数据结构中提取POI元数据(步骤S705)，并且将其供应至应用执行环境43。应用执行环境43基于POI元数据生成附加图像，该附加图像通知用户U关于视频中的服务对象，并且将附加图像提供给渲染器44。因此，获得在节目的视频上叠加有附加图像的合成图像，并且将合成图像显示在显示器45上(步骤S707)。

这里，假设用户U向信息处理装置4输入指令以注册针对具有正在观看的附加图像的场景的书签(步骤S708)。这里，能够注册书签的场景是具有附加图像的场景，该附加图像的信息能够由语音助手服务提供给用户U。

当从用户U接收到注册书签的指令时，应用执行环境43将POI元数据保存在书签数据库50中以注册该书签(步骤S709)。此时，保存在书签数据库50中的POI元数据是用于在从用户U接收到注册书签的指令时利用正在再现的附加图像来生成场景中的附加图像的POI元数据。

随后，当运动图像内容的分发、再现和观看结束时，应用执行环境43结束(步骤S710)。

到目前为止，在观看运动图像内容期间，操作是书签注册，并且在这样的操作之后，用户U能够从所注册的书签中选择一个来任选的书签，并且给出指令以执行具有与该书签链接的附加图像的场景的时移再现。

例如，在运动图像内容的观看结束之后，用户U以任选的定时向信息处理装置4输入指令以显示书签列表(书签列表是书签的列表)(步骤S711)。当检测到给出这样的指令时，书签浏览器51从书签数据库50读取与关于已经被观看的运动图像内容的所有书签链接的所有POI元数据(步骤S712)。书签浏览器51基于所有读取的POI元数据创建书签列表，并且经由渲染器44将书签列表显示在显示器45上(步骤S713)。将在后面描述书签列表的细节。

参考图26B，用户U向信息处理装置4输入指令以从显示器45上显示的书签列表选择任选的书签(步骤S714)。基于在与所选的书签链接的POI元数据中描述的目标内容的URI和附加图像的呈现时间(开始时间、结束时间)，书签浏览器51从用户U接收指令以选择任选的书签，并且指示AV流获取单元41以请求运动图像内容服务器11提供针对具有任选的附加图像的场景的时移再现所需的运动图像内容的流(步骤S715)。根据该指示，AV流获取单元41请求分发对应于具有附加图像的场景的运动图像内容的数据(步骤S717)。而且，书签浏览器51基于在POI元数据中描述的POI呈现应用的URL，指示AV流获取单元41以获取待由应用执行环境43执行的应用，并且将由AV流获取单元41获取的应用传递至应用执行环境43以执行应用(步骤S716)。

响应于来自信息处理装置4的分发请求，运动图像内容服务器11向信息处理装置4分发数据结构，该数据结构包括运动图像内容的数据和对应于由用户U选择的具有附加图像的场景的POI元数据(步骤S718)。

在信息处理装置4中，从在AV流获取单元41中接收的数据结构中提取运动图像内容的数据，在AV流获取单元41内的解码器中解码所提取的运动图像内容的数据(步骤S719)，并且经由渲染器44将得到的视频数据和音频数据分别供应至显示器45和扬声器46。

另外，在信息处理装置4中，由POI元数据处理模块42从接收的数据结构中提取POI元数据(步骤S720)，并且将其供应至应用执行环境43。应用执行环境43基于POI元数据生成用于向用户U通知关于视频中的服务对象的附加图像，并且将附加图像供应至渲染器44。因此，获得在节目的视频上叠加有附加图像的合成图像，并且将合成图像显示在显示器45上(步骤S721)。因此，执行与用户选择的书签链接的附加图像的场景的时移再现。

然后，用户U通过语音向语音AI助手服务终端3给出针对在显示器45上显示的视频中呈现有附加图像的服务对象的服务请求，并且可以使用语音AI助手服务。

这里，在以预定的计划将运动图像内容的数据从运动图像内容服务器11分发至信息处理装置4的情况下，可以根据计划将必要的语音AI助手服务程序从语音AI助手服务程序服务器14供应至语音AI助手服务终端3，以分发运动图像内容的数据。这保证了在语音AI助手服务终端3的语音AI助手服务程序执行环境35中建立适当的语音助手服务程序。相反，在具有附加图像的场景的时移再现中，不能保证在语音AI助手服务终端3的语音AI助手服务程序执行环境35中建立适当的语音助手服务程序。

对此，本实施方式采用一种机制，其中在POI元数据中描述了限定对应于待使用的功能(例如，功能名称)的语音助手服务程序的语音助手服务后端控制信息在时移再现中呈现给用户U，并且通过语音提供给语音AI助手服务终端3，并且因此，语音AI助手服务终端3请求语音AI助手服务程序服务器14基于语音AI助手服务后端控制信息来提供必要的语音助手服务程序。将这样的语音助手服务后端控制信息通过语音并入来自用户U的服务请求中，并且给出语音AI助手服务终端3(步骤S723)。

图27是示出与某一书签链接的POI元数据的实例的示图。

该实例示出在场景271中出现的三个服务对象分别具有POI元数据(1)、(2)和(3)的情况。对于POI元数据(1)、(2)和(3)中的每一个POI元数据，共同的“功能X”被限定为语音助手服务后端控制信息的功能名称。

在语音AI助手服务终端3中，捕捉由用户U通过使用麦克风31通过语音提供的包括语音助手服务后端控制信息(例如，“功能X”)的服务请求，并且将由语音识别模块32识别的数据提供给语音AI助手服务程序执行环境35。基于包括在服务请求中的语音助手服务后端控制信息，语音AI助手服务程序执行环境35请求语音AI助手服务程序服务器14以提供对应的语音助手服务程序。

语音AI助手服务程序服务器14响应于所接收的请求向语音AI助手服务终端3返回对应的语音助手服务程序(步骤S724)。语音AI助手服务终端3在语音AI助手服务程序执行环境35中建立由语音AI助手服务程序服务器14分发的语音助手服务程序，并且使语音AI助手服务程序执行环境35执行该语音助手服务程序。

这能够实现针对在时移再现期间出现在场景中的附加图像由适当的语音助手服务提供信息。

(语音助手服务程序的自动切换)

在上述使用书签的时移再现中，将POI元数据的语音助手服务后端控制信息中描述的功能名称通过语音并入来自用户U的服务请求中，并且因此，在语音AI助手服务终端3中建立语音AI助手服务程序，该语音AI助手服务程序实现针对出现在经受时移再现的场景中的附加图像的语音助手服务。然而，根据运动图像内容，在语音AI助手服务终端3中建立的语音AI助手服务程序在每个时区中改变。在这种情况下，用户U必须在每个时区中改变服务请求中包含的功能名称，这增加了用户U的负担。

对此，在POI元数据的POIBackEndControl元素中引入ContextID属性，并且将用于请求语音AI助手服务程序服务器14提供在POIBackEndControl元素中描述的功能名称下在每个时区中不同的语音AI助手服务程序的URI存储为ContextID属性的值。

例如，在信息处理装置4中，书签浏览器51向URI发布HTTP请求，其通过在与由用户U从书签列表中选择的书签链接的POI元数据中描述的POIBackEndControl元素的ContextID属性的值指示。例如，可以在用户U从书签列表中选择任选的书签之后或者在用户U通过话语向语音AI助手服务终端3提供服务请求之前执行HTTP请求的发布。

当接收到对ContextID属性的值所指示的URI的HTTP请求时，语音AI助手服务程序服务器14向语音AI助手服务终端3分发对应的时区的语音AI助手服务程序，并且使语音AI助手服务终端3建立语音AI助手服务程序。

因此，即使根据时区切换语音AI助手服务程序，也不必通过话语在服务请求中改变待并入的功能名称，这提高了用户U的可操作性。

图28是示出POI元数据中的ContextID属性的值的变化的示图，该POI元数据与分配不同的语音AI助手服务程序的两个时区的场景链接。

图28示出了这样的情况，其中不同的语音AI助手服务程序被用于由功能A的上下文切换Context-1标识的第一间隔和由功能A的上下文切换Context-2所类似地标识的第二间隔。在第一间隔的POI元数据中存储包括用作POIBackEndControl元素的ContextID属性的值的上下文切换Context-1的URI，并且在第二时间间隔的POI元数据中存储包括用作上下文ID的ContextID属性的值的包括上下文切换Context-2的URI POIBackEndControl元素。

因此，用户U在第一间隔和第二间隔两者中发出包含相同功能名称“功能A”的服务请求，并且因此，可以接收对应于各个间隔的语音助手服务。

(POI元数据的共享限制)

POI元数据能够被上传到诸如社交网络服务(SNS)之类的社区服务并且由其他用户共享。在这种情况下，例如，为了禁止共享提供高级信息的语音助手服务，在POI元数据中描述共享权限控制信息是有利的。|这样的共享可否控制信息可以由ODRL等描述为POI元数据的POI使用限制信息。

图29是示出由ODRL共享权限控制信息的描述实例的示图。

共享权限控制信息指示“POI元数据可以由SNS成员共享”。

(书签的呈现)

例如，POI元数据的书签的呈现包括以下两种方法。第一种是使用POI元数据的书签列表的方法，第二种是与POI元数据相关联地创建场景捕捉数据库并且呈现场景捕捉的方法。

图30是示出创建场景捕捉的方法的示图。

场景捕捉服务器16将对应于在运动图像内容中预先指定的典型场景的POI元数据163的标识URL与用于书签呈现的典型场景(从在POI元数据163中描述的附加图像的呈现时间(开始时间、结束时间)中的流数据创建的图像162)相链接，然后将它们作为场景捕捉数据注册在场景捕捉数据库161中。信息处理装置4的书签浏览器51请求场景捕获服务器16基于由用户U注册为书签的POI元数据的识别URL来提供典型场景的图像，并且显示返回的典型场景的图像。

本技术不限于上述实施方式，并且可在不脱离本技术的主旨的情况下进行各种修改。

本技术能够具有以下配置。

(1)一种信息处理装置，包括：

媒体再现单元，获取并再现包括服务对象的视频数据，对于服务对象，处理来自用户的通过语音的请求的服务是可用的；以及

控制器，将用于通知用户关于服务对象的附加图像添加至再现的视频，并且将视频数据的标识信息和附加图像的开始时间和结束时间的信息保存为书签，该书签由用户任选地选择并被提供至具有附加图像的场景。

(2)根据(1)的信息处理装置，其中，

控制器接收来自用户的任选的书签的选择，并且基于对应于所选择的书签的视频数据的标识信息和附加图像的开始时间和结束时间的信息来再现具有附加图像的视频数据。

(3)根据(1)至(2)中的任一项的信息处理装置，其中，

控制器获取包括视频数据的标识信息和附加图像的开始时间和结束时间的信息的元数据以生成附加信息，并且基于所获取的元数据添加附加信息。

(4)根据(3)的信息处理装置，其中，

元数据包括服务后端控制信息，该服务后端控制信息包括指示通过来自用户的话语识别的服务的功能的功能名称，并且

控制器向用户呈现服务后端控制信息的功能名称，该后端控制信息被包括在对应于由用户选择的书签的元数据中。

(5)根据(4)的信息处理装置，其中，

元数据包括用于通过使用一个功能名称针对每个时区请求不同功能的信息，并且

控制器基于该信息将请求传输至服务器，该服务器切换服务的功能。

(6)根据(1)和(5)中任一项的信息处理装置，其中，

控制器针对每个服务对象限制服务的使用。

(7)根据(6)的信息处理装置，其中，

限制是通过收费进行的限制。

(8)根据(7)的信息处理装置，其中，

限制是关于是否可以在社区服务上共享附加图像的元数据的限制。

(9)根据(1)和(8)中任一项的信息处理装置，其中，

附加图像包括对于每个服务对象唯一的视觉特征，使得在服务中通过语音识别唯一地确定服务对象。

(10)根据(1)和(9)中任一项的信息处理装置，其中，

附加图像呈现在附接至服务对象的位置处。

(11)根据(3)和(10)中任一项的信息处理装置，其中，

控制器获取包括元数据的AdaptationSet的MPD文件，分析MPD文件，获取视频数据和元数据中的每一个来作为MPEG-DASH的媒体段，并且彼此同步地呈现视频数据和基于元数据的附加图像。

参考符号列表

4 信息处理装置

11 运动图像内容传感器

12 应用服务器

13 POI元数据服务器

41 AV解码器

42 POI元数据处理模块

43 应用执行环境

44 渲染器

45 显示器

46 扬声器

47 用户确定模块。

Claims

1.一种信息处理装置，包括：处理电路被配置为：

获取视频数据并再现所述视频数据，所述视频数据以呈现包括服务对象的再现的视频，对于所述服务对象，处理来自用户的通过语音的请求的服务是可用的；

获取元数据，所述元数据包括所述视频数据的标识信息；

根据所述元数据，将用于向所述用户通知关于所述服务对象的附加图像添加至再现的视频；并且

响应于用户指示，将所述视频数据的所述标识信息和所述附加图像的开始时间和结束时间的时间信息保存为书签，所述书签是所述用户能够选择的用于再现具有所述附加图像的所述再现的视频的场景。

2.根据权利要求1所述的信息处理装置，其中，所述处理电路被配置为：

接收来自所述用户的书签的选择；并且

响应于所述选择，基于对应于所述书签的所述视频数据的所述标识信息和所述附加图像的所述开始时间和所述结束时间的所述时间信息来再现所述视频数据，所述视频数据以呈现具有所述附加图像的所述再现的视频的所述场景。

3.根据权利要求2所述的信息处理装置，其中，所述处理电路被配置为：

获取包括所述视频数据的所述标识信息和所述附加图像的所述开始时间和所述结束时间的所述时间信息的所述元数据；并且

基于所获取的元数据生成所述附加图像并添加所述附加图像。

4.根据权利要求3所述的信息处理装置，其中，

所述元数据包括服务后端控制信息，所述服务后端控制信息包括指示通过来自所述用户的话语识别的服务的功能的功能名称，并且

所述处理电路被配置为呈现所述服务后端控制信息的所述功能名称，所述服务后端控制信息被包括在与由所述用户选择的所述书签相对应的所述元数据中。

5.根据权利要求4所述的信息处理装置，其中，

所述元数据包括用于使用一个功能名称针对每个时区请求不同功能的信息，并且

所述处理电路被配置为基于所述信息将所述请求传输至服务器，所述服务器切换所述服务的功能。

6.根据权利要求1所述的信息处理装置，其中，

所述处理电路被配置为施加限制以针对每个服务对象限制所述服务的使用。

7.根据权利要求6所述的信息处理装置，其中，

限制是通过收费进行的限制。

8.根据权利要求6所述的信息处理装置，其中，

限制是关于是否能够在社区服务上共享所述附加图像的元数据的限制。

9.根据权利要求1所述的信息处理装置，其中，

所述附加图像包括对于每个服务对象唯一的视觉特征，使得在所述服务中通过语音识别唯一地确定所述服务对象。

10.根据权利要求1所述的信息处理装置，其中，

所述附加图像呈现在附接至所述服务对象的位置处。

11.根据权利要求3所述的信息处理装置，其中，所述处理电路被配置为：

获取包括所述元数据的自适应集的媒体呈现描述文件；

分析所述媒体呈现描述文件；

获取所述视频数据和所述元数据中的每一个来作为MPEG-HTTP上的动态自适应流的媒体段；并且

彼此同步地呈现所述再现的视频和基于所述元数据的所述附加图像。

12.根据权利要求1所述的信息处理装置，其中，

所述元数据还包括过滤信息，所述过滤信息指示是否关于所述服务对象的附加图像添加至再现的视频被限制。

13.一种信息处理方法，包括：

获取元数据，所述元数据包括所述视频数据的标识信息；

通过信息处理装置的处理电路，根据所述元数据，将用于向所述用户通知关于所述服务对象的附加图像添加至再现的视频；并且

通过所述信息处理装置的所述处理电路，响应于用户指示，将所述视频数据的所述标识信息和所述附加图像的开始时间和结束时间的时间信息保存为书签，所述书签是所述用户能够选择的用于再现具有所述附加图像的所述再现的视频的场景。

14.根据权利要求13所述的信息处理方法，其中，

15.一种非暂时性计算机可读存储介质，存储有计算机程序，所述计算机程序在被计算机执行时使所述计算机执行根据权利要求13所述的方法。

16.根据权利要求15所述的非暂时性计算机可读存储介质，其中，