CN105379302A

CN105379302A - 信息处理设备和信息处理方法

Info

Publication number: CN105379302A
Application number: CN201480039825.2A
Authority: CN
Inventors: 服部忍; 平林光浩; 中神央二; 知念彻; 史润宇; 辻实; 山本优树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-07-19
Filing date: 2014-07-01
Publication date: 2016-03-02
Anticipated expiration: 2034-07-01
Also published as: JP6384480B2; US10523975B2; EP3024249A4; EP3024249A1; WO2015008613A1; WO2015008576A1; JPWO2015008613A1; WO2015008538A1; CN105379302B; US20160156944A1

Abstract

本发明涉及信息处理设备和信息处理方法，从而能够识别图像中的语音数据的获取位置。web服务器发送表示图像数据的图像帧大小的图像帧大小信息和表示语音数据的获取位置的音频位置信息。本公开内容适用于包括文件生成设备、web服务器以及使用符合MPEG-DASH(运动图像专家组阶段基于HTTP的动态自适应流媒体)的方式来执行瓦片流媒体的视频回放终端的信息处理系统等。

Description

信息处理设备和信息处理方法

技术领域

本发明涉及信息处理设备和信息处理方法，特别是涉及能够识别图像上的语音数据的获取位置的信息处理设备和信息处理方法。

背景技术

最热门的流媒体服务之一是基于互联网的跨顶(over-the-top)视频(OTT-V)。运动图像专家组阶段-基于HTTP的动态自适应流媒体(MPEG-DASH)被广泛用作其底层技术(参见，例如非专利文献1)。

在MPEG-DASH中，递送服务器针对一个视频内容项制备具有不同画面大小的一组视频数据和码率，并且回放终端基于传输线路条件来请求具有最佳画面大小和码率的一组视频数据，从而实现自适应流媒体递送。

引文列表

非专利文献

非专利文献1：MPEG-DASH(基于HTTP的动态自适应流媒体)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1)

发明内容

技术问题

然而，未给出关于由回放终端识别视频内容上的语音数据的获取位置的考虑。

本发明是鉴于这样的情形而提出的，并且旨在能够识别图像上的语音数据的获取位置。

问题的解决方案

根据本公开内容的第一方面的信息处理设备包括：发送器，该发送器被配置成发送图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。

根据本公开内容的第一方面的信息处理方法与根据本公开内容的第一方面的信息处理设备对应。

根据本公开内容的第一方面，发送图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。

根据本公开内容的第二方面的信息处理设备包括：接收器，该接收器被配置成接收图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置；以及位置确定单元，该位置确定单元被配置成基于由接收器接收到的图像数据的图像帧大小信息和语音位置信息，确定与图像数据对应的图像上的语音数据的获取位置。

根据本公开内容的第二方面的信息处理方法与根据本公开内容的信息处理设备对应。

根据本公开内容的第二方面，接收图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。基于图像数据的图像帧大小信息和语音位置信息来确定与图像数据对应的图像上的语音数据的获取位置。

根据第一方面和第二方面的信息处理设备可以通过使计算机执行一定程序来实现。

要由计算机执行的程序可以通过经由传输介质传送或记录在记录介质中来提供，以实现根据第一方面和第二方面的信息处理设备。

发明的有利效果

根据本公开内容的第一方面，可以传送用于识别图像上的语音数据的获取位置的信息。

根据本公开内容的第二方面，可以识别图像上的语音数据的获取位置。

附图说明

[图1]图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概况的图。

[图2]图2是示出瓦片的示例的图。

[图3]图3是被示出以描述对象的图。

[图4]图4是被示出以描述对象位置信息的图。

[图5]图5是被示出以描述图像帧大小信息的图。

[图6]图6是示出MPD文件的结构的图。

[图7]图7是示出“时段”、“表示”和“段”元素之间的关系的图。

[图8]图8是示出MPD文件的层次结构的图。

[图9]图9是示出MPD文件的结构与时间轴之间的关系的图。

[图10]图10是被示出以描述MPD文件的示例性描述的图。

[图11]图11是示出文件生成设备的示例性配置的框图。

[图12]图12是被示出以描述由文件生成设备执行的文件生成处理的流程图。

[图13]图13是示出流媒体回放部的示例性配置的框图。

[图14]图14是被示出以描述由流媒体回放部执行的流媒体回放处理的流程图。

[图15]图15是被示出以描述MPD文件的另一示例性描述的图。

[图16]图16是被示出以描述MPD文件的又一示例性描述的图。

[图17]图17是示出音频流的布置示例的图。

[图18]图18是示出gsix的示例性描述的图。

[图19]图19是示出表示样本组条目与对象ID之间的关联关系的信息的示例。

[图20]图20是示出音频对象样本组条目的示例性描述的图。

[图21]图21是示出类型分配盒的示例性描述的图。

[图22]图22是被示出以描述应用本公开内容的信息处理系统的第二实施方式的概况的图。

[图23]图23是示出应用本公开内容的信息处理系统的流媒体回放部的示例性配置的框图。

[图24]图24是被示出以描述确定对象的位置的方法的图。

[图25]图25是被示出以描述确定对象的位置的方法的图。

[图26]图26是被示出以描述确定对象的位置的方法的图。

[图27]图27是示出水平角θ_Ai与θ_Ai′之间的关系的图。

[图28]图28是示出垂直角γ_v1′与γ_Ai′之间的关系的图。

[图29]图29是被示出以描述要由图23中的流媒体回放部执行的流媒体回放处理的流程图。

[图30]图30是被示出以更详细地描述图29中的位置确定处理的流程图。

[图31]图31是被示出以详细描述图30中的水平角θ_Ai′估计处理的流程图。

[图32]图32是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。

[图33]图33是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。

[图34]图34是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。

[图35]图35是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。

[图36]图36是被示出以详细描述根据应用本公开内容的信息处理系统的第三实施方式的位置确定处理的流程图。

[图37]图37是示出计算机的示例性硬件配置的框图。

具体实施方式

<第一实施方式>

(信息处理系统的第一实施方式的概述)

图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概述的图。

图1所示的信息处理系统10被配置成包括通过因特网13彼此相连的Web服务器12和视频回放终端14。Web服务器12连接至文件生成设备11。

在信息处理系统10中，Web服务器12使用符合MPEG-DASH的方式以瓦片(tile)(瓦片流)为单位向视频回放终端14递送视频内容的图像数据。

具体地，文件生成设备11获取视频内容的图像数据并且以瓦片为单位对图像数据进行编码以生成视频流。文件生成设备11以范围从几秒至大约十秒的时间间隔将每个瓦片的视频流处理成文件格式，该时间间隔被称为段。文件生成设备11将所得到的每个瓦片的图像文件上传至Web服务器12。

文件生成设备11针对(稍后详细描述的)每个对象获取视频内容的音频数据并且以对象为单位对音频数据进行编码以生成音频流。文件生成设备11以段为单位将每个对象的音频流处理成文件格式，并且将所得到的每个对象的音频文件上传至Web服务器12。

对象是声源。每个对象的语音数据是通过附接至该对象的麦克风或其他音频设备而获取的。对象可以是诸如固定的传声器架的实物或者可以是诸如人的移动体。

文件生成设备11对包括对象位置信息(语音位置信息)和对象ID的音频元数据进行编码，对象位置信息表示每个对象的位置(获取音频数据的位置)，对象ID是对象的唯一ID。文件生成设备11以段为单位将通过对音频元数据进行编码而获得的编码数据处理成文件格式，并且文件生成设备11将所得到的语音元文件上传至Web服务器12。

文件生成设备11生成用于管理图像文件或语音文件的媒体表示描述(MPD)文件(控制信息)。媒体表示描述文件可以包含指示视频内容中的图像的帧大小的图像帧大小信息，并且包含指示每个瓦片在图像上的位置的瓦片位置信息。文件生成设备11将MPD文件上传至Web服务器12。

Web服务器12存储从文件生成设备11上传的图像文件、语音文件、语音元文件和MPD文件。

在如图1所示的示例中，Web服务器12存储由瓦片ID为“1”的瓦片的图像文件构成的多个段的段组和由瓦片ID为“2”的瓦片的图像文件构成的多个段的段组。Web服务器12还存储由对象ID为“1”的对象的语音文件构成的多个段的段组和由对象ID为“2”的对象的语音文件构成的多个段的段组。尽管未示出，但类似地存储有由语音元文件构成的段组。

在下文中，将瓦片ID为i的瓦片称为“瓦片#i”并且将对象ID为i的对象称为“对象#i”。

Web服务器12用作发送器，该发送器被配置成响应于来自视频回放终端14的请求而向视频回放终端14发送所存储的图像文件、语音文件、语音元文件和MPD文件。

视频回放终端14执行例如用于控制流媒体数据的软件(在下文中被称为控制软件)21、视频回放软件22和用于超文本传输协议(HTTP)访问的客户端软件(在下文中被称为访问软件)23。

控制软件21是控制从Web服务器12经由流媒体递送的数据的软件。具体地，控制软件21使视频回放终端14能够从Web服务器12获取MPD文件。

控制软件21基于显示区域和包含在MPD文件中的瓦片位置信息来指定显示区域中的瓦片，该显示区域是图像中用于显示由音频回放软件22指示的视频内容的区域。控制软件21指示访问软件23发出对发送所指定的瓦片的图像文件的请求。

控制软件21指示访问软件23发出对发送语音元文件的请求。控制软件21基于显示区域、包含在MPD文件中的图像帧大小信息和包含在语音元文件中的对象位置信息来指定与显示区域中的图像对应的对象。控制软件21指示访问软件23发出对发送所指定的对象的语音文件的请求。

视频回放软件22是用于回放从Web服务器12获取的图像文件和语音文件的软件。具体地，当用户指定显示区域时，视频回放软件22向控制软件21指示所指定的显示区域。视频回放软件22响应于该指示而对从Web服务器12获取的图像文件和语音文件进行解码，并且视频回放软件22对解码后的文件进行合成以用于输出。

访问软件23是用于控制使用HTTP经由因特网13与Web服务器12的通信的软件。具体地，访问软件23使视频回放终端14能够响应于来自控制软件21的指示来发送对发送图像文件、语音文件和语音元文件的请求。访问软件23使视频回放终端14能够接收响应于发送请求而从Web服务器12发送的图像文件、语音文件和语音元文件。

(瓦片的示例)

图2是示出瓦片的示例的图。

如图2所示，视频内容被划分成多个瓦片。为从1开始的连续数字的瓦片ID被分配给每个瓦片。在图2所示的示例中，视频内容的图像被划分成四个瓦片#1至#4。

(对于对象的说明)

图3是被示出以描述对象的图。

图3的示例示出了图像中被获取作为音频内容的语音的八个语音对象。为从1开始的连续数字的对象ID被分配给每个对象。对象#1至对象#5是移动体，而对象#6至对象#8是静止物质体。在图3所示的示例中，视频内容的图像被划分成7(宽度)×5(高度)个瓦片。

在该情况下，如图3所示，当用户指定由3(宽度)×2(高度)个瓦片构成的显示区域31时，显示区域31仅包含对象#1、对象#2和对象#6。因此，视频回放终端14可以从Web服务器12获取并回放对象#1、对象#2和对象#6的语音文件。

可以基于上述图像帧大小信息和对象位置信息来指定显示区域31中的对象。

(对于对象位置信息的说明)

图4是被示出以描述对象位置信息的图。

如图4所示，对象位置信息包含水平角θ_A(-180°≤θ_A≤180°)、垂直角γ_A(-90°≤γ_A≤90°)和距离r_A(0＜r_A)。例如，图像的中心处的拍摄位置可以被设置成原点(基点)O，图像的水平方向可以被设置成X轴方向，图像的垂直方向可以被设置成Y轴方向以及与XY平面垂直的深度方向可以被设置成Z轴方向。在该情况下，水平角θ_A是由YZ平面与连接对象40和原点O的直线形成的在水平方向上的角度。垂直角γ_A是由XZ平面与连接对象40和原点O的直线形成的在垂直方向上的角度。距离r_A是对象40与原点O之间的距离。

在下文中，将向左上旋转的角度设置成正角度，而将向右下旋转的角度设置成负角度。

(对于图像帧大小信息的说明)

图5是被示出以描述图像帧大小信息的图。

如图5所示，图像帧大小信息包含左边缘的水平角θ_V1、右边缘的水平角θ_V2、上边缘的垂直角、γ_V1下边缘的垂直角γ_V2以及图像帧的距离r_V。

图像的中心的拍摄位置可以被设置成原点O，图像的水平方向可以被设置成X轴方向、图像的垂直方向可以被设置成Y轴方向以及与XY平面垂直的深度方向可以被设置成Z轴方向。在该情况下，水平角θ_V1是由YZ平面和连接图像帧的左端与原点O的直线形成的角度。水平角θ_V2是由YZ平面和连接图像帧的右端与原点O的直线形成的角度。因此，通过组合水平角θ_V1和水平角θ_V2而获得的角成为水平视角。

垂直角γ_V1是由XZ平面和在图像帧的上端与原点O之间连接的直线形成的角度，以及垂直角γ_V2是由XZ平面和在图像帧的下端与原点O之间连接的直线形成的角度。通过组合垂直角γ_V1和垂直角γ_V2而获得的角度成为垂直视角。距离r_A是原点O与图像平面之间的距离。

如上所述，对象位置信息表示对象40与原点O之间的位置关系，以及图像帧大小信息表示图像帧与原点O之间的位置关系。因此，可以基于对象位置信息和图像帧大小信息来检测(识别)每个对象在图像上的位置。作为结果，可以指定显示区域31中的对象。

(对MPD文件结构的说明)

图6是示出MPD文件的结构的图。

在对MPD文件的分析(解析)中，视频回放终端14选择MPD文件的“时段”中所包含的“表示”(媒体表示)的属性中的最佳属性。

视频回放终端14通过参考在所选择的“表示”的最前面的初始段的统一资源定位符(URL)或其他引用来获取文件并且处理所获取的文件。视频回放终端14通过参考后面“媒体段”的统一资源定位符(URL)或其它引用来获取文件，并且回放所获取的文件。

在MPD文件中，“时段”、“表示”和“段”之间的关系变成如图7所示。换言之，单个视频内容项可以通过“时段”以与段相比更长的时间单位进行管理并且可以通过每个“时段”中的“段”以段为单位进行管理。在每个时段中，可以通过“表示”以流属性为单位来管理视频内容。

因此，MPD文件具有如图8所示的从“时段”开始的层次结构。当MPD文件的结构被布置在时间轴上时变成图9所示的配置。如从图9清楚看到的，在同一段中存在多个“表示”元素。视频回放终端14从这些元素中适应性地选择任一元素，并因而可以获取用户所选择的显示区域中的图像文件和语音文件并且回放所获取的文件。

(对MPD文件的说明)

图10是被示出以描述MPD文件的描述的图。

如上所述，在信息处理系统10中，图像帧大小信息被包含在MPD文件中，以使视频回放终端14能够指定显示区域中的对象。如图10所示，通过利用视点的描述符类型元素来扩展用于定义新图像帧大小信息(视角)的方案(urn:mpeg:DASH:viewingAngle:2013)，并因此图像帧大小信息被布置在针对语音的“适应集”和针对图像的“适应集”中。图像帧大小信息可以仅被布置在针对图像的“适应集”中。

针对语音元文件的“表示”被描述在MPD文件的针对语音的“适应集”中。作为用于指定语音元文件(audiometadata.mp4)的URL或其他引用被描述在“表示”的“段”中。在该情况下，通过利用角色元素来描述要被指定在“段”中的文件是语音元文件(objectaudiometadata)。

针对每个对象的语音文件的“表示”也被描述在MPD文件的针对语音的“适应集”中。作为用于指定每个对象的语音文件(audioObje1.mp4,audioObje5.mp4)的信息的URL或其他引用被描述在“表示”的“段”中。在该情况下，与语音文件对应的对象的对象ID(1和5)也是通过扩展视点来描述的。

尽管未示出，但瓦片位置信息被布置在针对图像的“适应集”中。

(文件生成设备的示例性配置)

图11是示出图1所示的文件生成设备11的示例性配置的框图。

图1所示的文件生成设备11被配置成包括画面分割处理器51、图像编码处理器52、图像文件生成器53、图像信息生成器54、语音编码处理器55、语音文件生成器56、MPD生成器57和服务器上传处理器58。

文件生成设备11的画面分割处理器51将从外部输入的视频内容的图像数据分割成瓦片单元。画面分割处理器51向图像信息生成器54提供瓦片位置信息。画面分割处理器51向图像编码处理器52提供以瓦片为单位配置的图像数据。

图像编码处理器52针对每个瓦片对从画面分割处理器51提供的并且以瓦片单位配置的图像数据进行编码，以生成视频流。图像编码处理器52将每个瓦片的视频流提供至图像文件生成器53。

图像文件生成器53以段为单位将从图像编码处理器52提供的每个瓦片的视频流处理成文件格式并且将所得到的每个瓦片的图像文件提供至MPD生成器57。

图像信息生成器54将从图像分割处理器51提供的瓦片位置信息和从外部输入的图像帧大小信息提供至MPD生成器57。

语音编码处理器55针对每个对象对以从外部输入的视频内容的对象为单位配置的语音数据进行编码并且生成音频流。语音编码处理器55对从外部输入的每个对象的对象位置信息和包含对象ID的音频元数据进行编码以生成编码数据。语音编码处理器55将每个对象的音频流和音频元数据的编码数据提供至语音文件生成器56。

语音文件生成器56语音文件生成器。语音文件生成器56以段为单位将从语音编码处理器55提供的每个对象的音频流处理成文件格式并且将所得到的每个对象的语音文件提供至MPD生成器57。

语音文件生成器56用作元文件生成器。语音文件生成器56以段为单位将从语音编码处理器55提供的通过对音频元数据进行编码而获得的编码数据处理成文件格式，并且将所得到的语音元文件提供至MPD生成器57。

MPD生成器57确定用于存储从图像文件生成器53提供的每个瓦片的图像文件的Web服务器12的URL或其他引用。MPD生成器57确定用于存储从语音文件生成器56提供的每个瓦片的语音文件和语音元文件的Web服务器12的URL或其他引用。

MPD生成器57将从图像信息生成器54提供的图像信息布置在MPD文件的针对图像的“适应集”中。MPD文件生成器57将图像信息中的图像帧大小信息布置在MPD文件的针对语音的“适应集”中。MPD生成器57将每个瓦片的图像文件的URL或其他引用布置在针对瓦片的图像文件的“表示”的“段”中。

MPD生成器57将每个对象的图像文件的URL或其他引用布置在针对对象的语音文件的“表示”的“段”中。MPD生成器57用作信息生成器。MPD生成器57将作为用于指定语音元文件的信息的URL或其他引用布置在针对语音元文件的“表示”的“段”中。MPD生成器57向服务器上传处理器58提供图像文件、语音文件、语音元文件以及如上所述地布置各种类型的信息的MPD文件。

服务器上传处理器58将从MPD生成器57提供的每个瓦片的图像文件、每个对象的语音文件、语音元文件和MPD文件上传至Web服务器12。

(由文件生成设备进行的处理的图示)

图12是被示出以描述要由图11所示的文件生成设备11执行的文件生成处理的流程图。

在图12的步骤S11中，文件生成设备11的画面分割处理器51将从外部输入的视频内容的图像数据分割成瓦片单元。画面分割处理器51向图像信息生成器54提供瓦片位置信息。画面分割处理器51向图像编码处理器52提供以瓦片为单位配置的图像数据。

在步骤S12中，图像编码处理器52针对每个瓦片对从画面分割处理器51提供的并且以瓦片为单位配置的图像数据进行编码，以生成每个瓦片的视频流。图像编码处理器52将每个瓦片的视频流提供至图像文件生成器53。

在步骤S13中，图像文件生成器53以段为单位将从图像编码处理器52提供的每个瓦片的视频流处理成文件格式以生成每个瓦片的图像文件。图像文件生成器53将每个瓦片的图像文件提供至MPD生成器57。

在步骤S14中，图像信息生成器54从外部获取图像帧大小信息。在步骤S15中，图像信息生成器54生成包含图像帧大小信息和从图像分割处理器51提供的瓦片位置信息的图像信息，并且将所生成的图像信息提供至MPD生成器57。

在步骤S16中，语音编码处理器55针对每个对象对以从外部输入的视频内容的对象为单位配置的语音数据进行编码，并且生成每个对象的音频流。语音编码处理器55对从外部输入的每个对象的对象位置信息和包含对象ID的音频元数据进行编码以生成编码数据。语音编码处理器55将每个对象的音频流和音频元数据的编码数据提供至语音文件生成器56。

在步骤S17中，语音文件生成器56以段为单位将从语音编码处理器55提供的每个对象的音频流处理成文件格式，以生成每个对象的语音文件。语音文件生成器56以段为单位将从语音编码处理器55提供的通过对音频元数据进行编码而获得的编码数据处理成文件格式，以生成语音元文件，语音文件生成器向MPD生成器57提供语音元文件和每个对象的语音文件。

在步骤S18中，MPD生成器57生成包含从图像信息生成器54提供的图像信息、每个文件的URL或其他信息的图像信息的MPD文件，MPD生成器57将MPD文件、每个瓦片的图像文件、每个对象的语音文件和语音元文件提供至服务器上传处理器58。

在步骤S19中，服务器上传处理器58将从MPD生成器57提供的每个瓦片的图像文件、每个对象的语音文件、语音元文件和MPD文件上传至Web服务器12。然后，处理终止。

(视频回放终端的示例性功能配置)

图13是示出通过执行图1所示的视频回放终端14中的控制软件21、视频回放软件22和访问软件23而实现的流媒体回放部的示例性配置的框图。

图13所示的流媒体回放部90被配置成包括MPD获取单元91、MPD处理器92、元文件获取单元93、语音选择器94、语音文件获取单元95、语音解码处理器96、语音合成处理器97、图像选择器98、图像文件获取单元99、图像解码处理器100和图像合成处理器101。

流媒体回放部90的MPD获取单元用作接收器。MPD获取单元91从Web服务器12获取MPD文件并且将所获取的MPD文件提供至MPD处理器92。

MPD处理器92从MPD获取单元91所提供的MPD文件中提取诸如在针对语音元文件的“段”中描述的URL的信息，并且将所提取的信息提供至元文件获取单元93。MPD处理器92从MPD文件中提取在针对图像的“适应集”中描述的图像帧大小信息并且将所提取的信息提供至语音选择器94。MPD处理器92从MPD文件中提取诸如在针对从语音选择器94请求的对象的语音文件的“段”中描述的URL的信息。然后，MPD处理器92将所提取的信息提供至语音选择器94。

MPD处理器92从MPD文件中提取在针对图像的“适应集”中描述的瓦片位置信息并且将所提取的信息提供至图像选择器98。MPD处理器92从MPD文件中提取诸如在针对从图像选择器98请求的瓦片的图像文件的“段”中描述的URL的信息。然后MPD处理器92将所提取的信息提供至图像选择器98。

元文件获取单元93基于从MPD处理器92所提供的信息来从Web服务器12请求语音元文件。MPD处理器92所提供的信息中的URL中指定了所请求的语音元文件。然后，元文件获取单元93获取语音元文件。语音获取单元93将包含在语音元文件中的对象位置信息提供至语音选择器94。

语音选择器94用作位置确定单元。语音选择器94基于从MPD处理器92提供的图像帧大小信息和从元文件获取单元93提供的对象位置信息来计算每个对象在图像上的位置。语音选择器94基于每个对象在图像上的位置来选择用户所指定的显示区域中的对象。语音选择器94从MPD处理器92请求诸如所选择的对象的语音文件的URL的信息。语音选择器向语音文件获取单元95提供诸如响应于该请求从MPD处理器92提供的URL的信息。

语音文件获取单元95用作接收器。语音文件获取单元95基于从语音选择器94提供的信息来从Web服务器12请求以对象为单位的语音文件。在从语音选择器94提供的信息中的URL中指定了要请求的以对象为单位的语音文件。然后，语音文件获取单元95获取以对象为单位的语音文件并且将所获取的以对象为单位的语音文件提供至语音解码处理器96。

语音解码处理器96对包含在从语音文件获取单元95提供的以对象为单位的语音文件中的音频流进行解码，以生成以对象为单元的语音数据。语音解码处理器96将以对象为单位的语音数据提供至语音合成处理器97。

语音合成处理器97对从语音解码处理器96提供的以对象为单位的语音数据进行合成并且输出合成后的数据。

图像选择器98基于从MPD处理器92提供的瓦片位置信息来选择用户所指定的显示区域中的瓦片。图像选择器98从MPD处理器92请求诸如用于所选择的瓦片的图像文件的URL的信息。图像选择器98向图像瓦片获取单元99提供诸如响应于该请求而从MPD处理器92提供的URL的信息。

图像文件获取单元99基于从图像选择器98提供的信息来从Web服务器12请求以瓦片为单位的图像文件。在从图像选择器98提供的信息中的URL中指定了所要请求的以瓦片为单位的图像文件。然后，图像文件获取单元99获取以瓦片为单位的图像文件并且向图像解码处理器100提供所获取的以瓦片为单位的图像文件。

图像解码处理器100对包含在从图像文件获取单元99提供的以瓦片为单位的图像文件中的视频流进行解码，以生成以瓦片为单位的图像数据。图像解码处理器100将以瓦片为单位的图像数据提供至图像合成处理器101。

图像合成处理器101对从图像解码处理器100提供的以瓦片为单位的图像数据进行合成并且输出合成后的数据。

(对由视频回放终端进行的处理的说明)

图14是被示出以描述由视频回放终端14的流媒体回放部90(参见图13)进行的流媒体回放处理的流程图。

在图14的步骤S31中，流媒体回放部90的MPD获取单元91从Web服务器12获取MPD文件并且将所获取的MPD文件提供至MPD处理器92。

在步骤S32中，MPD处理器92从MPD获取单元91所提供的MPD文件获取在针对图像的“适应集”中描述的图像帧大小信息和瓦片位置信息。MPD处理器92将图像帧大小信息提供至语音选择器94并且将瓦片位置信息提供至图像选择器98。MPD处理器92提取诸如在针对语音元文件的“段”中描述的URL的信息并且将所提取的信息提供至元文件获取单元93。

在步骤S33中，元文件获取单元93基于MPD处理器92所提供的信息来从Web服务器12请求语音元文件。MPD处理器92所提供的信息中的URL中指定了要请求的语音元文件。然后，元文件获取单元93获取语音元文件。元文件获取单元93将包含在语音元文件中的对象位置信息提供至语音选择器94。

在步骤S34中，语音选择器94基于从MPD处理器92提供的图像帧大小信息和从元文件获取单元93提供的对象位置信息来选择用户所指定的显示区域中的对象。语音选择器94从MPD处理器92请求诸如用于所选择的对象的语音元文件的URL的信息。

MPD处理器92从MPD文件提取诸如在针对从语音选择器94请求的对象的语音文件的“段”中描述的URL的信息。然后，MPD处理器92将所提取的信息提供至语音选择器94。语音选择器94将诸如从MPD处理器92提供的URL的信息提供至语音文件获取单元95。

在步骤S35中，语音文件获取单元95基于诸如从语音选择器94提供的URL等信息来从Web服务器12请求并获取在URL中指定的所选择的对象的语音文件。然后，语音文件获取单元95将所获取的以对象为单位的语音文件提供至语音解码处理器96。

在步骤S36中，图像选择器98基于从MPD处理器92提供的瓦片位置信息来选择用户所指定的显示区域中的瓦片。图像选择器98从MPD处理器92请求诸如用于所选择的瓦片的图像文件的URL等信息。

MPD处理器92从MPD文件提取诸如在针对从图像选择器98请求的对象的图像文件的“段”中描述的URL的信息，并且MPD处理器92将所提取的信息提供至图像选择器98。图像选择器98将诸如从MPD处理器92提供的URL的信息提供至图像文件获取单元99。

在步骤S37中，图像文件获取单元99基于从图像选择器98提供的信息来从Web服务器12请求以瓦片为单位的图像文件。图像选择器98所提供的信息中的URL中指定了所要请求的所选择的瓦片中的图像文件。然后，图像文件获取单元99获取以瓦片为单位的图像文件并且将所获取的以瓦片为单位的图像文件提供至图像解码处理器100。

在步骤S38中，语音解码处理器96对包含在从语音文件获取单元95提供的以对象为单位的语音文件中的音频流进行解码。语音解码处理器96将以对象为单位的语音数据提供至语音合成处理器97。

在步骤S39中，图像解码处理器100对包含在从图像文件获取单元99提供的以瓦片为单位的图像文件中的视频流进行解码。图像解码处理器100将以瓦片为单位的图像数据提供至图像合成处理器101。

在步骤S40中，语音合成处理器97对从语音解码处理器96提供的以对象为单位的语音数据进行合成并且输出合成后的数据。在步骤S41中，图像合成处理器101对从图像解码处理器100提供的以瓦片为单位的图像数据进行合成并且输出合成后的数据。然后，处理终止。

如上所述，Web服务器12发送图像帧大小信息和对象位置信息。然后，视频回放终端14可以指定显示区域中的对象以选择性地获取所指定的对象的语音文件，从而使得语音文件与显示区域中的图像对应。这使视频回放终端14能够仅获取必需的语音文件，这导致传输效率的提高。

如图15所示，对象ID(指定信息的对象)可以被描述在MPD文件的针对图像的“适应集”中。该对象ID可以用作用于指定欲与MPD文件的图像同时回放的语音对应的对象的信息。对象ID可以通过以下方式来描述：通过利用视点的描述符类型元素来扩展用于定义新对象ID信息(audioObj)的方案(urn:mpeg:DASH:audioObj:2013)。在该情况下，视频回放终端14选择对应于在针对图像的“适应集”中描述的对象ID的对象的语音文件并且获取该语音文件以用于回放。

所有对象的编码数据可以被复用成单个音频流以生成单个语音文件，而不是生成以对象为单位的语音文件。

在该情况下，如图16所示，在MPD文件的针对语音的“适应集”中提供了针对语音文件的一个“表示”，并且在“段”中描述了用于包含所有对象的编码数据的语音文件(audioObje.mp4)的URL或其他引用。此时，通过扩展视点来描述与语音文件对应的所有对象的对象ID(1、2、3、4和5)。

此外，在该情况下，如图17所示，每个对象的编码数据被布置成通过参照MPD文件的“媒体段”而获取的语音文件(在下文中视情况还被称为语音媒体文件)的“mdat”盒中的子样本。

具体地，数据以比段短任意倍的子段为单位布置在语音媒体文件中。以子段为单位的数据的位置由“disx”盒来指定。以子段为单位的数据由moof盒和mdat盒构成。Mdat盒由多个样本构成，并且每个对象的编码数据被布置为样本的每个子样本。

描述关于样本的信息的gsiz盒被放置成紧挨着语音媒体文件的sidx盒。以此方式，独立于moof盒来提供关于样本的信息的gsiz盒，并因此视频回放终端14可以在短时间内获取关于样本的信息。

如图18所示，在gsix盒中描述了用于指示由gsix盒所管理的一个或更多个样本或子样本构成的样本组条目的类型的grouping_type。例如，当样本组条目是以对象为单位的编码数据的子样本时，样本组条目的类型是“obja”。如图17所示，多个grouping_type的gsix盒被布置在语音元文件中。

如图18所示，在gsix盒中描述了作为指示在语音媒体文件中的位置的数据位置信息的每个样本组条目的索引(entry_index)和字节范围。当索引(entry_index)为零时，对应的字节范围指示moof盒的字节范围(在图17的示例中的a1)。

在通过参考MPD文件的“初始化段”而获取的语音文件(在下文中视情况还称为语音初始化文件)中描述了下述信息：该信息指示哪个对象用于使每个样本组条目能够与通过对对象进行编码而获得的编码数据的子样本对应。

具体地，如图19所示，通过使用类型分配盒(typa)来表示该信息，该类型分配盒(typa)与语音初始化文件的sbtl盒中的样本组描述盒(sgpd)的音频对象样本组条目(AudioObjectSampleGroupEntry)关联。

换言之，如图20的部分A中所示，在每个AudioObjectSampleGroupEntry盒中描述了与样本中所包含的编码数据对应的对象ID(audio_object_id)。如图20的部分B所示，在四个AudioObjectSampleGroupEntry盒的每一个中描述了诸如例如1、2、3和4的对象ID。

另一方面，如图21所示，在类型分配盒中，在每个AudioObjectSampleGroupEntry中描述了作为与AudioObjectSampleGroupEntry对应的样本组条目的参数(grouping_type_parameter)的索引。

如上所述对语音媒体文件和语音初始化文件进行配置。因此，当视屏回放终端14获取作为显示区域中的对象而被选择的对象的编码数据时，从语音初始化文件的stbl盒检索描述了所选择的对象的对象ID的AudioObjectSampleGroupEntry。然后，从mvex盒读取与所检索到的AudioObjectSampleGroupEntry对应的样本组条目的索引。从语音文件的sidx盒读取以子段为单位的数据的位置，并且从gsix盒读取所读取的索引的样本组条目的字节范围。基于以子段为单位的数据的位置和字节范围来获取布置在mdat盒中的编码数据。这使能够获取所选择的对象的编码数据。

在上面提到的描述中，尽管样本组条目的索引和AudioObjectSampleGroupEntry的对象ID通过mvex盒彼此关联，但它们也可以直接地彼此关联。当它们直接地彼此关联时，样本组条目的索引被描述在AudioObjectSampleGroupEntry中。

当语音文件由多个音轨构成时，sgpd盒可以被存储在mvex盒中，这使sgpd盒能够在音轨之间共享。

<第二实施方式>

(第二实施方式的概述)

图22是被示出以描述应用本公开内容的信息处理系统的第二实施方式的概述的图。

在图22中，用相同的附图标记来表示与图3所示的元件相同的元件。

在图22所示的示例中，如与图3的情况一样，视频内容的图像被划分成7(宽度)×5(高度)个瓦片，并且对象#1至对象#8的语音被获取作为视频内容的语音。

在该情况下，当用户指定由3(宽度)×2(高度)个瓦片构成的显示区域31时，显示区域31被变换(扩展)成具有与视频内容的图像的大小相同大小的区域，从而产生如图22所示的第二实施方式中的显示图像111。对象#1至对象#8的语音基于对象#1至对象#8在显示图像111中的位置而被合成并且与显示图像111一起被输出。换言之，除了输出显示区域31内部的对象#1、#2和#6的语音之外，还输出显示区域31外部的对象#3至#5、#7和#8的语音。

(流媒体回放部的示例性配置)

除了流媒体回放部之外，应用本公开内容的信息处理系统的第二实施方式的配置与图1所示的信息处理系统10的配置相同，并因而下面将给出仅流媒体回放部的描述。

图23是示出应用本公开内容的信息处理系统的流媒体回放部的示例性配置的框图。

在图23中，与图13所示的配置相同的配置用相同的附图标记来表示并且视情况省略了重复的描述。

图23所示的流媒体回放部120设置有分别替代MPD处理器92、语音合成处理器97、图像合成处理器101的MPD处理器121、语音合成处理器123、图像合成处理器124，并且流媒体回放部120被配置成还包括位置确定单元122，这与图13所示的流媒体回放部90不同。

流媒体回放部120的MPD处理器121从MPD获取单元91所提供的MPD文件提取诸如在针对语音元文件的“段”中描述的URL的信息并且将所提取的信息提供至元文件获取单元93。MPD处理器121从MPD文件提取在针对图像的“适应集”中描述的视频内容的图像的图像帧大小信息(在下文中被称为内容图像帧大小信息)并且将所提取的信息提供至位置确定单元122。MPD处理器121从MPD文件提取诸如在针对所有对象的语音文件的“段”中描述的URL的信息并且将所提取的信息提供至语音文件获取单元95。

MPD处理器121从MPD文件提取在针对图像的“适应集”中描述的瓦片位置信息并且将所提取的信息提供图像选择器98。MPD处理器121从MPD文件提取在诸如针对从图像选择器98请求的瓦片的图像文件的“段”中描述的URL的信息。然后，MPD处理器121将所提取的信息提供至图像选择器98。

位置确定单元122获取包含在由元文件获取单元93获得的语音元文件中的对象位置信息和从MPD处理器121提供的内容图像帧大小信息。位置确定单元122获取作为用户所指定的显示区域的图像帧大小信息的显示区域图像帧大小信息。位置确定单元122基于对象位置信息、内容图像帧大小信息和显示区域图像帧大小信息来确定(识别)对象在显示区域中的位置。位置确定单元122将所确定的对象位置提供至语音合成处理器123。

语音合成处理器123基于从位置确定单元122提供的对象位置来对从语音解码处理器96提供的以对象为单位的语音数据进行合成。具体地，语音合成处理器123基于对象位置和输出声音的每个扬声器的位置来确定要分配给用于每个对象的每个扬声器的语音数据。语音合成处理器123针对每个扬声器对每个对象的语音数据进行合成并且输出所合成的语音输出作为用于每个扬声器的语音数据。例如在下述文献中公开了对基于对象位置来合成每个对象的语音数据的方法的详细描述：VillePulkki的“VirtualSoundSourcePositioningUsingVectorBaseAmplitudePanning”,JournalofAES,vol.45,no.6,pp.456-466,1997。

图像合成处理器124对从图像解码器100提供的以瓦片为单位的图像数据进行合成。图像合成处理器124用作变换器。图像合成处理器124将与合成后的图像数据对应的图像的大小变换成视频内容的大小以生成显示图像。图像合成处理器124输出显示图像。

(对确定对象的位置的方法的说明)

图24至图26是被示出以描述由图23所示的位置确定单元122来确定对象的位置的方法的图。

从视频内容提取显示区域31并且将显示区域31的大小变换成与视频内容的大小相等的大小，然后生成显示图像111。因此，显示图像111具有与通过以下方式获得的大小相等的大小：如图24所示将显示区域31的中心C移至显示图像111的中心C′并且如图25所示将显示区域31的大小变换成视频内容的大小。

因此，位置确定单元122计算当将显示区域31的中心C移至显示图像11的中心C′时在水平方向上的移动量θ_shift。该计算使用下面式(1)。

[数学式1]

θ_{s h i f t} = \frac{{θ_{v 1}}^{,} + {θ_{v 2}}^{,} - θ_{v 1} - θ_{v 2}}{2} ... (1)

在式(1)中，θ_v1′是包含在显示区域图像帧大小信息中的显示区域31的左边缘处的水平角，以及θ_v2′是包含在显示区域图像帧大小信息中的显示区域31的右边缘处的水平角。在式(1)中，θ_v1是包含在内容图像帧大小信息中的左边缘处的水平角，以及θ_v2是包含内容图像帧大小信息中的右边缘处的水平角。

位置确定单元122计算在显示区域31的中心C移至显示图像111的中心C′时之后显示区域31的左边缘处的水平角θ_{v1_shift}′和右边缘处的水平角θ_{v2_shift}′。该计算使用移动量θ_shift并且通过下面式(2)来获得。

[数学式2]

θ_v1＿shift’＝mod(θ_vi’+θ_shift+180°,360°)-180°

θ_{v2_shift}’=mod(θ_v2’+θ_shift+180°,360°)-180°…(2)

根据式(2)，对水平角θ_{v1_shift}′和水平θ_{v2_shift}′进行计算使得它们不超过-180°至180°的范围。

如上所述，显示图像111具有与通过以下方式获得的大小相等的大小：将显示区域31的中心C移至显示图像111的中心C′并且将显示区域31的大小变换成视频内容的大小。因此，对于水平角θ_v1和水平角θ_v2而言满足下面等式(3)。

[数学式3]

θ_{v 1} = \frac{θ_{v 1} - θ_{v 2}}{{θ_{v 1_s h i f t}}^{,} - {θ_{v 2_s h i f t}}^{,}} * {θ_{v 1_s h i f t}}^{,}

θ_{v 2} = \frac{θ_{v 1} - θ_{v 2}}{{θ_{v 1_s h i f t}}^{,} - {θ_{v 2_s h i f t}}^{,}} * {θ_{v 2_s h i f t}}^{,} ... (3)

位置确定单元122以上述方式来计算移动量θ_shift、水平角θ_{v1_shift}′和水平角θ_{v2_shift}′，然后计算显示图像111中的对象的水平角。具体地，位置确定单元122计算在显示区域31的中心C移至显示图像111的中心C′之后对象#i的水平角θ_{Ai_shift}。该计算使用移动量θ_shift并且通过下面式(4)来获得。

[数学式4]

θ_{Ai_shift}＝mod(θ_Ai+θ_shift+180°，360。)-180°…(4)

在式(4)中，θ_Ai是包含在对象位置信息中的对象#i的水平角。根据式(4)，对θ_{Ai_shift}进行计算使得它不超过-180°至180°的范围。

当对象#i存在于显示区域31中时，也就是说，如果θ_{v2_shift}′＜θ_{Ai_shift}＜θ_{v1_shift}′的条件满足，则位置确定单元122使用下面式(5)来计算显示图像111中的对象#i的水平角θ_Ai′。

[数学式5]

{θ_{A i}}^{,} = \frac{θ_{v 1} - θ_{v 2}}{{θ_{v 1_s h i f t}}^{,} - {θ_{v 2_s h i f t}}^{,}} \cdot (θ_{A i_s h i f t} - \frac{θ_{v 1} + θ_{v 2}}{2}) ... (5)

根据式(5)，通过根据显示区域31与显示图像111之间的比率来扩展显示图像111中的对象#i的位置与显示图像111的中心C′之间的距离来计算水平角θ_Ai′。

另一方面，当没有对象#i存在于显示区域31中时，即如果-180°≤θ_{Ai_shift}≤θ_{v2_shift}′或θ_{v1_shift}′≤θ_{Ai_shift}≤180°的条件满足，则位置确定单元122使用下面式(6)来计算对象#i在显示图像111中的水平角θ_Ai′。

[数学式6]

根据式(6)，当如图26所示对象#i存在于显示区域31的右侧的位置151(-180°≤θ_{Ai_shift}≤θ_{v2_shift}′)时，通过以下方式来计算水平角θ_Ai′：根据角R1与角R2之间的比率对水平角θ_{Ai_shift}进行扩展。角R1是从显示图像111的右边缘至恰好观看者153后方的位置154测量的角。角R2是从中心被移动的显示区域31的右边缘至位置154测量的角。

根据式(6)，当对象#i存在于显示区域31的左侧的位置155(θ_{v1_shift}′≤θ_{Ai_shift}≤180°)时，通过以下方式来计算水平角θ_Ai′：根据角R3和角R4之间的比率对水平角θ_{Ai_shift}进行扩展。角R3是从显示图像的左边缘至位置154测量的角。角R4是从中心被移动的显示区域31的左边缘至位置154测量的角。

位置确定单元122基于水平角θ_Ai和θ_Ai′来计算显示图像111中的对象#i的垂直角γ_Ai′。具体地，当对象#i位于观看者的前方时，位置确定单元122以与水平角θ_Ai′相似的方式来计算垂直角γ_Ai′。

另一方面，当对象#i位于观看者的后方时，显示区域31的扩展使由水平角θ_Ai指示的对象#i的位置能够被移至恰好观看者后方的位置。因而，当以与计算水平角θ_Ai′相似的方式来计算垂直角γ_Ai′时，由包含在对象#i的对象位置信息中的垂直角γ_Ai指示的位置被移动至恰好观看者前方或恰好观看者后方的位置。然而，当对象#i位于观看者后方时，除非由于水平角θ_Ai的改变而使对象#i移至观看者的后方，否则即使在显示区域31被扩展或缩小的情况下也期望防止垂直角γ_Ai′改变，或者在该情况下，期望垂直角γ_Ai′在与水平角θ_Ai改变的方向相同的方向上进行改变。

因此，当由水平角θ_Ai指示的对象#i和由水平角θ_Ai′指示的对象#i都位于观看者的前方时，即如果满足abs(θ_Ai)<90°且abs(θ_Ai′)<90°的条件，位置确定单元122使用下面式(7)来计算垂直角γ_Ai′。

[数学式7]

在式(7)中，γ_v1′是包含在显示区域图像帧大小信息中的显示区域31的上边缘处的垂直角，γ_v2′是下边缘处的垂直角。在式(7)中，γ_v1是包含在内容图像帧大小信息中的上边缘处的垂直角，γ_v2是下边缘处的垂直角。

当由水平角θ_Ai指示的对象#i和由水平角θ_Ai′指示的对象#i都位于观看者的后方时，即如果满足abs(θ_Ai)≥90°且abs(θ_Ai′)≥90°的条件，位置确定单元122使用下面式(8)来计算垂直角γ_Ai′。换言之，垂直角γ_Ai变得等于垂直角γ_Ai′。

[数学式8]

γ_Ai’=γ_Ai…(8)

此外，当由水平角θ_Ai指示的对象#i和由水平角θ_Ai′指示的对象#i中的一个位于观看者的前方而另一个位于观看者的后方时，即如果满足abs(θ_Ai)<90°且abs(θ_Ai′)≥90°或者abs(θ_Ai)≥90°且abs(θ_Ai′)<90°的条件，则位置确定单元122按照如下所述的方式计算垂直角γ_Ai′。

换言之，在该情况下，对象#i从观看者前方的位置移至观看者后方的位置，或者从观看者后方的位置移至观看者前方的位置。因此，将难以简单地断定对象#i位于观看者前方的位置还是位于观看者后方的位置。在该情况下，将计算过程分为两个阶段是必需的。一个阶段是允许对象#i的水平角处于以下范围：该范围是指示对象#i的位置处于观看者前方的角与作为指示观看者的左侧的角的90°角或作为指示观看者的右侧的-90°角之间的范围。另一阶段允许对象#i的水平角处于以下范围：该范围是在90°或-90°角与指示对象#i的位置处于观看者后方的角之间的范围。

具体地，位置确定单元122在对象#i的水平角处于以下范围的阶段中将垂直角γ_Ai的移动量设置成等于零：该范围是90°或-90°与指示对象#i的位置处于观看者后方的角度之间的范围。位置确定单元122在对象#i的水平角处于以下范围的阶段中以与式(7)相似的方式来计算垂直角γ_Ai的移动量：该范围是指示对象#i的位置处于观看者前方的角与作为指示观看者的左侧的90°角或指示观看者的右侧的-90°角之间的范围。如下面式(9)中给出的，将在下面式(10)中定义的垂直角γ_v2f′、γ_v2f、γ_v1f′和γ_v1f分别代入在式(7)中定义的垂直角γ_v2′、γ_v2、γ_v1′和γ_v1。

[数学式9]

[数学式10]

对于(θ_Ai＜90°&θ_Ai′≥90°)

γ_v1f＝γ_v1

γ_v2f＝γ_v2

γ_v1f’＝F_side·γ_v1

γ_v2f’＝F_side·γ_v2

对于(0_Ai≥90°&θ_Ai′＜90°):

γ_v1f＝F_side·γ_v1

γ_v2f＝F_side·γ_v2

γ_v1f’＝γ_v1’

γ_v2f’＝γ_v2’…(10)

在式(10)中，F_side指示在对象#i的水平角为90°或-90°时显示区域31的垂直角与显示图像11的垂直角之间的比率，并且使用下面式(11)来计算F_side。

[数学式11]

在式(11)中，通过将在对象#i的水平角为90°或-90°时显示区域31的垂直角与显示图像111的垂直角之间的比率乘以TransForm_Factor来计算F_side。

在式(11)中，TransForm_Factor是指示垂直角γ_v1和γ_v2与水平角θ_v1和θ_v2之间的比率的因子，并且TransForm_Factor由下面式(12)来表示。该因子TransForm_Factor使能够对与水平角的变化对应的垂直角的变化进行估计。

[数学式12]

T r a n s F o r m_F a c t o r = \frac{\frac{{γ_{v 1}}^{,} - {γ_{v 2}}^{,}}{γ_{v 1} - γ_{v 2}}}{\frac{{θ_{v 1}}^{,} - {θ_{v 2}}^{,}}{θ_{v 1} - θ_{v 2}}} ... (12)

如上所述，当对象#i从观看者前方的位置移至观看者后方的位置时，即如果满足abs(θ_Ai)<90°且abs(θ_Ai′)≥90°的条件，对象#i的垂直角的变化变得等于在对象#i的水平角从水平角θ_Ai移至90°或-90°角时的变化。因此，式(7)中的垂直角γ_v1′变得等于针对abs(θ_Ai′)＝90°的图像帧大小，即F_side与垂直角γ_v1的乘积，并且等式(7)中的垂直角γ_v2′变得等于针对abs(θ_Ai′)＝90°的图像帧大小，即F_side与垂直角γ_v2的乘积。

当对象#i从观看者后方的位置移至观看者前方的位置时，即如果满足abs(θ_Ai)≥90°和abs(θ_Ai′)<90°的条件，则对象#i的垂直角的变化变得等于在对象#i的水平角从90°或-90°角移动至水平角θ_Ai′时的变化。因此，式(7)中的垂直角γ_v1变得等于Fside与垂直角γ_v1之间的乘积，并且式(7)中的垂直角γ_v2变得等于Fside与垂直角γ_v2的乘积。

在以上情况下，尽管当对象#i位于观看者的后方时垂直角欲不改变，但垂直角可以被设置成与水平角在相同的方向上进行改变。换言之，当由水平角指示的位置被移至恰好观看者的后方的位置时，由垂直角指示的位置也可以被移至恰好观看者后方的位置。当由水平角指示的位置被移至观看者正前方的位置时，由垂直角指示的位置也可以被移至观看者正前方的位置。

位置确定单元122可以将显示图像111中的对象#i的距离r_Ai′设置成包含在对象#i的对象位置信息中的距离r_Ai。位置确定单元122将如上所述地获得的对象#i的水平角θ_Ai′、垂直角γ_Ai′和距离r_Ai提供至语音合成处理器123，该语音合成处理器123接受这些值作为对象#i的位置。

图27是示出水平角θ_Ai与水平角θ_Ai′之间的关系的曲线图。

在图27所示的曲线图中，水平轴表示水平角θ_Ai并且垂直轴表示水平角θ_Ai′。

如图27所示，如果满足θ_Ai′<θ_Ai<θ_Ai′的条件，则将水平角θ_Ai移动θ_shift并进行扩展，然后水平角θ_Ai变得等于水平角θ_Ai′。如果满足180°≤θ_Ai≤θ_v2′或θ_v1′≤θ_Ai≤180°的条件，则将水平角θ_Ai移动θ_shift并进行缩小，然后水平角θ_Ai变得等于水平角θ_Ai′。

图28是示出垂直角γ_v1′与垂直角γ_Ai′之间的关系的曲线图。

在图28所示的曲线图中，水平轴表示垂直角γ_v1′并且垂直轴表示垂直角γ_Ai′。

在图28所示的示例中，水平角θ_Ai和垂直角γ_Ai均为45°。垂直角γ_v1和垂直角γ_v2以与水平角θ_v1和θ_v2相同的比率进行改变。换言之，TransForm_Factor等于1。角θ_v1、θ_v2、γ_v1和γ_v2分别等于29°、-29°、17.5°和-17.5°。

在该情况下，如图28所示，如果满足0°<γ_v1′<(F_side*γ_v1)的条件，则垂直角γ_Ai′随着显示图像111在垂直方向上的图像帧大小的增加而增加。如果(F_side*γ_v1)≤γ_v1′≤90°的条件满足，则垂直角γ_Ai′变得等于在γ_v1′＝(F_side*γ_v1)时(即当对象#i的水平角θ_Ai′为90°时)的垂直角γ_Ai′而不管显示图像111在垂直方向上的图像帧大小的幅度如何。

(对由流媒体回放部进行的处理的说明)

图29是被示出以描述要由图23的流媒体回放部120执行的流媒体回放处理的流程图。

在图29的步骤S131中，流媒体回放部120的MPD获取单元91从Web服务器12获取MPD文件并且将所获取的MPD文件提供至MPD处理器121。

在步骤S132中，MPD处理器121从MPD获取单元91所提供的MPD文件中获取在针对图像的“适应集”中描述的内容图像帧大小信息和瓦片位置信息。MPD处理器121将图像帧大小信息提供至位置确定单元122并且将瓦片位置信息提供至图像选择器98。MPD处理器121提取诸如在针对语音元文件的“段”中描述的URL的信息并且将所提取的信息提供给元文件获取单元93。

在步骤S133中，元文件获取单元93基于MPD处理器92所提供的信息来从Web服务器12请求语音元文件。MPD处理器92所提供的信息中的URL中指定了要请求的语音元文件。然后，元文件获取单元93获取语音元文件。元文件获取单元93将包含在语音元文件中的对象位置信息提供至语音选择器94。

在步骤S134中，位置确定单元122基于对象位置信息、内容图像帧大小信息和显示区域图像帧大小信息来执行确定对象在显示图像中的位置的位置确定处理。将参照本文稍后描述的图30来详细地描述位置确定处理。

在步骤S135中，MPD处理器121从MPD文件提取诸如在针对所有对象的语音文件的“段”中描述的URL的信息。然后，MPD处理器21将所提取的信息提供至语音文件获取单元95。

在步骤S136中，语音文件获取单元95基于诸如从MPD处理器121提供的URL的信息来从Web服务器12请求并获取URL中所指定的所有对象的语音文件。然后，语音文件获取单元95将所获取的以对象为单位的语音文件提供至语音解码处理器96。

在步骤S137至步骤S140中的处理与在图14的步骤S36至步骤S39中的处理基本上相似，因而省略对其的描述。

在步骤S141中，语音合成处理器123基于从位置确定单元122提供的对象位置来对从语音解码处理器96提供的以对象为单位的语音数据进行合成并且输出所合成的语音数据。

在步骤S142中，图像合成处理器124对从图像解码处理器100提供的以瓦片为单位的图像数据进行合成。

在步骤S143中，图像合成处理器124将与所合成的图像数据对应的图像的大小变换成视频内容的大小以生成显示图像。图像合成处理器124输出显示图像，然后处理终止。

图30是被示出以更详细地描述图29的步骤S134中的位置确定处理的流程图。位置确定处理是例如针对每个对象而执行的。

在图30的步骤S151中，位置确定单元122执行对显示图像的水平角θ_Ai′进行估计的水平角θ_Ai′估计处理。稍后将参照图31来给出对水平角θ_Ai′估计处理的详细描述。

在步骤S152中，位置确定单元122执行对显示图像的垂直角γ_Ai′进行估计的垂直角γ_Ai′估计处理。除了使用垂直方向替换水平方向以外，对垂直角γ_Ai′估计处理的详细描述与在步骤S151中对水平角θ_Ai′估计处理的详细描述相类似，因而省略了对其的详细描述。

在步骤S153中，位置确定单元122将显示图像的距离r_Ai′设置成等于包含在从元文件获取单元93提供的对象位置信息中的距离r_Ai。

在步骤S154中，位置确定单元122将水平角θ_Ai′、垂直角γ_Ai′和距离r_Ai输出至语音合成处理器123，该语音合成处理器123接受这些值作为对象#i的位置。然后，处理返回至图29的步骤S134并且继续进行至步骤S135。

图31是被示出以详细描述图30中的水平角θ_Ai′估计处理的流程图。

在图31的步骤S171中，位置确定单元122获取包含在从元文件获取单元93提供的对象位置信息中的水平角θ_Ai。

在步骤S172中，位置确定单元122获取从MPD处理器121提供的内容图像帧大小信息和用户所指定的显示区域图像帧大小信息。

在步骤S173中，位置确定单元122基于内容图像帧大小信息和显示区域图像帧大小信息、通过上面提到的式(1)来计算移动量θ_shift。

在步骤S174中，位置确定单元122使用移动量θ_shift和显示区域图像帧大小、通过上面提到的式(2)来计算水平角θ_{v1_shift}′和θ_{v2_shift}′。

在步骤S175中，位置确定单元122使用水平角θ_Ai和移动量θ_shift、通过上面提到的式(4)来计算水平角θ_{Ai_shift}。

在步骤S176中，位置确定单元122确定对象#i是否位于显示区域31中(对象#i的水平角的范围是否在显示区域31的两个边缘处的水平角之间)或者是否满足θ_{v2_shift}′＜θ_{Ai_shift}＜θ_{v1_shift}′的条件。

如果在步骤S176中确定对象#i位于显示区域31中或者满足θ_{v2_shift}′＜θ_{Ai_shift}＜θ_{v1_shift}′的条件，则处理进行至S177。在步骤S177中，位置确定单元122基于内容图像帧大小信息、水平角θ_{v1_shift}′和θ_{v2_shift}′以及垂直角γ_{Ai_shift}′、通过上面提到的等式(5)来计算水平角θ_Ai′。

另一方面，如果在步骤S176中确定对象#i不位于显示区域31中或者满足-180°≤θ_{Ai_shift}≤θ_{v2_shift}′或θ_{v1_shift}′≤θ_{Ai_shift}≤180°的条件，则处理进行至步骤S178。在步骤S178中，位置确定单元122基于内容图像帧大小信息、水平角θ_{v1_shift}′或θ_{v2_shift}′以及水平角θ_{Ai_shift}′、通过上面提到的式(6)来计算水平角θ_Ai′。

当执行了步骤S177和步骤S178中的处理时，处理返回至图30的步骤S151并且进行至步骤S152。

尽管在第二实施方式中显示图像的大小被设置成等于视频内容的大小，但二者的大小可以彼此不同。

在第二实施方式中，可以对一些对象(例如，显示区域中的对象或距显示区域的预定范围内的对象)的语音数据进行合成和输出，而不是对所有对象的语音数据进行合成和输出。选择要输出的语音数据的对象的方法可以被预先确定或者可以由用户决定。

<第三实施方式>

(对确定对象在显示图像中的位置的方法的说明)

除了通过图23的位置确定单元122来确定显示区域中的对象的位置的方法以外，应用本公开内容的信息处理系统的第三实施方式与第二实施方式基本上相似。因此，将仅给出通过图23的位置确定单元122来确定对象在显示区域中的位置的方法。

当观看者观看视频内容项时，从观看者到图像帧的距离的改变导致从观看者观看图像帧的角度相应地改变。例如，随着观看者靠近图像帧，图像帧可看见的越大。随着观看者远离图像帧，图像帧可看见的越小。因此，可以通过观看者的移动来表示显示区域或图像帧的大小的改变。在第三实施方式中，通过观看者的移动来表示显示区域的大小的改变。

图32至图35是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的确定对象在显示区域中的位置的方法的图。

图32和图33是被示出以描述视频内容中的显示区域31的大小发生改变的状态的图。图32是从观看者的头顶看到的俯视图，而图33是从观看者的右侧看到的侧视图。

图34和图35是被示出以描述观看者移动并且由于观看者移动而使从观看者看到的显示区域31的大小等于视频内容的大小的状态的图。图34是从观看者的头顶看到的俯视图，而图35是从观看者的右侧看到的侧视图。

如图32至图35所示，观看者与显示区域31内的对象#1之间的相对位置关系以及观看者与显示区域31外部的对象#2和#3的相对位置关系由于观看者的移动而改变。因此，位置确定单元122通过获取由于观看者的移动而改变的对象的对象位置信息来估计在显示区域31的大小改变成等于视频内容的大小时的对象位置信息，即在显示图像中的对象位置信息。

具体地，位置确定单元122使用下面式(13)来计算在移动之前显示区域31的水平宽度Screen_Width、左边缘与中心之间延伸的宽度Screen_Leftwidth以及上边缘与中心之间延伸的宽度Screen_TopHeight。

[数学式13]

Screen_LeftWidth＝r_v·tan(θ_v1’)

Screen_TopHeight＝r_v·tan(γ_v1’)

Screen_width＝r_v·(tan(θ_v1’)-tan(θ_v2’))…(13)

在式(13)中，r_v是从观看者到图像帧的距离，θ_v1′是包含在显示区域图像帧大小信息中的在显示区域31中的左边缘处的水平角。θ_v2′是右边缘处的水平角以及γ_v1′是上边缘处的垂直角。

然后，位置确定单元122对在从观看者看到的显示区域31的大小等于视屏内容的大小时从观看者到图像帧的距离r_v′进行估计。使用下面式(14)来执行该估计。

[数学式14]

{r_{v}}^{,} = \frac{{Screen}_{W i d t h}}{\tan (θ_{v 1}) - \tan (θ_{v 2})} ... (14)

在式(14)中，θ_v1是包含在移动之后的显示区域31的显示区域图像帧大小信息(即内容图像帧大小信息)中的左边缘处的水平角，以及θ_v2是在右边缘处的水平角。

然后，位置确定单元122估计由于观看者移动而使从观看者看到的显示区域31的大小等于视频内容的大小时观看者在前后方向上的移动量Length_shift、观看者在侧到侧方向上的移动量Width_shift以及观看者在上下方向上的移动量Height_shift。使用下面式(15)来执行该估计。

[数学式15]

Length_shift＝r_v-r_v’

Width_shift＝Screen_Leftwiath-r_v’·tan(θ_v1)

Height_shift＝Screen_TopHeight·F_{Aspect_ratio}-r_v’·tan(γ_v1)

…(15)

在式(15)中，垂直角γ_v1是包含在移动之后的显示区域31的显示区域图像帧大小信息(即内容图像帧大小信息)中的上边缘处的垂直角。在式(15)中，F_{Aspect_ratio}是表示在移动之前和移动之后从观看者看到的显示区域31的在垂直方向上的宽度与在水平方向上的宽度之间的比率的变化的因子，并且F_{Aspect_ratio}通过下面式(16)来表示。该因子F_{Aspect_ratio}使得能够估计对应于与在水平方向上的宽度变化的在垂直方向上的宽度变化。

[数学式16]

F_{A s p e c t_r a t i o} = \frac{(t a n ({γ_{v 1}}^{,}) - t a n ({γ_{v 2}}^{,})) \cdot (t a n (θ_{v 1}) - t a n (θ_{v 2}))}{(t a n ({θ_{v 1}}^{,}) - t a n ({θ_{v 2}}^{,})) \cdot (t a n (γ_{v 1}) - t a n (γ_{v 2}))} ... (16)

在式(16)中，γ_v2是包含在移动后的显示区域31的显示图像帧大小信息(即内容图像帧大小信息)中的下边缘处的垂直角，以及γ_v2′是包含在显示区域31的显示区域图像帧大小信息中的下边缘处的垂直角。

因此，位置确定单元122如上所述地使用所获得的信息来估计对象在显示图像中的对象位置信息。

具体地，当对象位于显示区域31中时，即如果满足θ_v2′≤θ_Ai≤θ_v1′和γ_v2′≤γ_Ai≤γ_v1′的条件(在图32至图35的示例中，该对象为对象#1)，位置确定单元122使用下面式(17)来估计在显示图像中的对象位置信息。

[数学式17]

{θ_{A i}}^{,} = \arctan (\frac{r_{v} \cdot \tan (θ_{A i}) - {Width}_{s h i f t}}{{r_{v}}^{,}})

{γ_{A i}}^{,} = \arctan (\frac{r_{v} \cdot \tan (γ_{A i}) - {Height}_{s h i f t}}{{r_{v}}^{,}})

{r_{A i}}^{,} = \frac{{r_{v}}^{,}}{\cos ({θ_{A i}}^{,}) \cdot \cos ({γ_{A i}}^{,})} ... (17)

在式(17)中，θ_Ai′是移动之后的对象#1的水平角，θ_Ai是移动之前的对象#1的水平角，γ_A1′是移动之后的对象#1的垂直角以及垂直角γ_Ai是移动之前的对象#1的水平角。在式(17)中，r_Ai′是移动之后的对象#1的距离以及r_Ai是移动之前的对象#1的距离。

另一方面，当没有对象位于显示区域31时，即如果不满足θ_v2′≤θ_Ai≤θ_v1′且γ_v2′≤γ_Ai≤γ_v1′的条件(在图32至图35的示例中，使用对象#1和#3)，位置确定单元122使用下面式(18)来估计在显示图像中的对象位置信息。

[数学式18]

{θ_{A i}}^{,} = \arctan (\frac{r_{A i} \cdot \sin (θ_{A i}) \cdot \cos (γ_{A i}) - {Width}_{s h i f t}}{r_{A i} \cdot \cos (θ_{A i}) \cdot \cos (γ_{A i}) - {Length}_{s h i f t}})

{γ_{A i}}^{,} = \arctan (\frac{r_{A i} \cdot \sin (γ_{A i}) - {Height}_{s h i f t}}{\sqrt{{(r_{A i} \cdot \cos (θ_{A i}) \cdot \cos (γ_{A i}) - {Length}_{s h i f t})}^{2} + {(r_{A i} \cdot \sin (θ_{A i}) \cdot \cos (γ_{A i}) - {Width}_{s h i f t})}^{2}}})

{r_{A i}}^{,} = \sqrt{{(r_{A i} \cdot \cos (θ_{A i}) \cdot \cos (γ_{A i}) - {Length}_{s h i f t})}^{2} + {(r_{A i} \cdot \sin (θ_{A i}) \cdot \cos (γ_{A i}) - {Width}_{s h i f t})}^{2} + {(r_{A i} \cdot \tan (γ_{A i}) - {Height}_{s h i f t})}^{2}} ... (18)

要指出的是，式(18)可以被变形成如下面式(19)那样。

[数学式19]

x_Ai’＝r_Ai·cos(θ_Ai)·Cos(γ_Ai)Length_shift

y_Ai’=r_Ai·sin(θ_Ai)·COS(γ_Ai)-Width_shift

z_Ai’==r_Ai·tan(γ_Ai)-Height_shift

{θ_{A i}}^{,} = \arctan (\frac{{y_{A i}}^{,}}{{x_{A i}}^{,}})

{γ_{A i}}^{,} = \arctan (\frac{{z_{A i}}^{,}}{\sqrt{{x_{A i}}^{, 2} + {y_{A i}}^{, 2}}})

{r_{A i}}^{,} = \sqrt{{x_{A i}}^{, 2} + {y_{A i}}^{, 2} + {z_{A i}}^{, 2}} ... (19)

在式(19)中，x_Ai′、y_v1′和z_Ai′分别是在移动之后的对象#i的xyz坐标系中在前后方向(深度方向)上的位置、在侧到侧方向上的位置以及在上下方向上的位置。作为式(18)的变形而获得式(19)，并且式(18)和式(19)彼此等价。

如上所述，使用移动之前的从观看者到对象帧的距离r_v和对象#i的距离r_Ai来估计移动之后的对象位置信息。然而，当r_v和r_Ai中的任一个未被给出时，可以假定r_v＝r_Ai。此外，当r_v和r_Ai均为给出，则可以假定r_v＝r_Ai＝1。

当r_v和r_Ai中的至少一个未被给出时，可以规定通过式(14)计算的r_v′不超过2*r_v的限制以防止观看者在前后方向上的移动量超过r_v。换言之，可使用式(14)计算的r_v′通过式r_v′＝min(2*r_v,r_v′)来获得r_v′的最终值。

(对由流媒体回放部进行的处理的说明)

除了步骤S134中的位置确定处理之外，要由根据应用本公开内容的信息处理系统的第三实施方式的流媒体回放部执行的流媒体回放处理与29所示的流媒体回放处理相同，因而下面仅给出对位置确定处理的描述。

图36是被示出以详细描述根据应用本公开内容的信息处理系统的第三实施方式的位置确定处理的流程图。

在图36的步骤S181中，位置确定单元122获取移动之前的显示区域31的显示区域图像帧大小信息和内容图像帧大小信息。具体地，位置确定单元122获取移动之前的显示区域31中的图像帧的左边缘处的水平角θ_v1′、右边缘处的水平角θ_v2′、上边缘处的垂直角γ_v1′、下边缘处的垂直角γ_v2′。位置确定单元122还获取视频内容的图像帧的左边缘处的水平角θ_v1、右边缘处的水平角θ_v2、上边缘处的垂直角γ_v1、下边缘处的垂直角γ_v2和距离r_v。

在步骤S182中，位置确定单元122使用水平角θ_v1′和θ_v2′、垂直角γ_v1′和距离r_v通过上面提到的式(13)来计算水平宽度Screen_Width、宽度Screen_Leftwidth和高度Screen_TopHeight。

在步骤S183中，位置确定单元122使用水平宽度Screen_Width以及水平角θ_v1和θ_v2通过上面提到的式(14)来估计移动之后的距离r_v′。

在步骤S184中，位置确定单元122使用宽度Screen_LeftWidth、高度Screen_TopHeight、距离r_v和r_v′、水平角θ_v1、θ_v2、θ_v1′和θ_v2′以及垂直角γ_vi、γ_v2、γ_v1′和γ_v2′通过上面提到的式(15)和(16)来估计移动量观看者的移动量Length_shift、Width_shift和Height_shift。

在步骤S185中，位置确定单元122选择对象#i作为要播放的第一对象。

在步骤S186中，位置确定单元122获取作为所选择的对象#i的在移动之前的对象位置信息的水平角θ_Ai、垂直角γ_Ai和距离r_Ai。

在步骤S187中，位置确定单元122确定对象#i是否位于显示区域31中，即是否满足θ_v2′≤θ_Ai≤θ_v1′且γ_v2′≤γ_Ai≤γ_v1′的条件。

如果在步骤S187中确定对象#i位于显示区域31中，即满足θ_v2′≤θ_Ai≤θ_v1′且γ_v2′≤γ_Ai≤γ_v1′的条件，则处理进行至步骤S188。

在步骤S188中，位置确定单元122使用移动量Width_shift和Height_shift、距离r_v和r_v′、水平角θ_Ai和θ_Ai′以及垂直角γ_Ai和γ_Ai′通过上面提到的式(17)来估计对象#i在显示图像中的对象位置信息。然后，处理进行至步骤S190。

另一方面，如果在步骤S187中确定对象#i不位于显示区域31中，即不满足θ_v2′≤θ_Ai≤θ_v1′且γ_v2′≤γ_Ai≤γ_v1′的条件，则处理进行至步骤S189。

在步骤S189中，位置确定单元122使用移动量Length_shift、Width_shift和Height_shift、距离r_Ai、水平角θ_Ai和θ_Ai′以及垂直角γ_Ai和γ_Ai′通过上面提到的式(18)来估计对象#i在显示图像中的对象位置信息。然后，处理进行至步骤S190。

在步骤S190中，位置确定单元122确定用于要播放的所有对象的对象位置信息是否被估计。如果在步骤S190中用于要播放的所有对象的位置确定信息尚未全部被估计，则处理进行至步骤S191。

在步骤S191中，位置确定单元122选择要播放的对象中在当前所选择的对象之后的对象，然后处理返回至步骤S186。

另一方面，如果在步骤S190中确定用于所述对象的对象位置信息被估计，则处理返回至步骤S192。

在步骤S192中，位置确定单元122将用于要播放的所有对象在显示图像中的对象位置信息输出至语音合成处理器123。在步骤S192中的处理之后，处理返回至图29的步骤S134，然后进行至步骤S135。

尽管显示图像的大小被定制成等于第二实施方式中的视频内容的大小，但二者的大小可以彼此不同。

在第三实施方式中，可以对一些对象(例如显示区域中的对象或距显示区域预定范围内的对象)的语音数据进行合成和输出，而不是对要播放的所有对象的语音数据进行合成和输出。选择要输出的语音数据的对象的方法可以被预先确定或者可以由用户决定。

<第四实施方式>

(对应用本公开内容的计算机的描述)

由上述Web服务器12执行的一系列处理可以通过硬件或软件来执行。当所述一系列处理通过软件来执行时，将构成软件的程序安装在计算机中。此处，计算机包括例如可以通过安装各种程序来执行各种功能的合并至专用硬件的计算机、通用个人计算机等。

图37是示出使用程序来执行由Web服务器12执行的上述一系列处理的计算机的硬件配置的示例的框图。

在该计算机中，中央处理单元(CPU)201、只读存储器(ROM)202和随机存取存储器(RAM)203通过总线204彼此连接。

总线204还与输入输出接口205连接。输入输出接口205与输入单元20、输出单元207、存储单元208、通信单元209和驱动器210连接。

输入单元206包括键盘、鼠标或麦克风等。输出单元207包括显示器或扬声器等。存储单元208包括硬盘或非易失性存储器等。通信单元209包括网络接口等。驱动器210驱动诸如磁盘、光盘、磁光盘或半导体存储器等可移除介质211。

当CPU201例如通过输入输出接口205和总线204将存储在存储单元208中的程序加载在RAM203中以用于执行时，在如上所述地配置的计算机中执行上述一系列处理。

可以通过记录在用作例如封装介质等的可移除介质211中来提供由计算机(CPU201)执行的程序。另外，可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。

可以通过将可移除介质211加载在驱动器210中来使用输入输出接口205将程序安装在存储单元208中。另外，可以通过通信单元209经由有线或无线传输介质来接收程序并将所接收的程序安装在存储单元208中。此外，可以预先将程序安装在ROM202中或存储单元208中。

要指出的是，由计算机执行的程序可以是按本说明书中所描述的顺序以时间序列方式执行处理的程序，或者可以是并行执行处理或在处理被调用的必要时刻执行处理的程序。

视频回放终端14可以具有与图37所示的硬件配置基本上相似的硬件配置。在该情况下，CPU201可以执行控制软件21、视频回放软件22和访问软件23。可以使用硬件来执行由视频回放终端14进行的处理。

此外，在本公开内容中，系统具有一组多个配置元件(诸如装置或模块(部件))的含义，而不考虑所有配置元件是否处于相同的壳体中。因此，系统可以是存储在单独壳体中并且通过网络连接的多个装置或者处于单个壳体内的多个模块。

本公开内容的实施方式不限于上述实施方式，并且在不背离本公开内容的范围的情况下可以做出各种改变和修改。

例如，文件生成设备11可以被配置成通过复用所有瓦片的编码数据来生成视频流以生成单个图像文件，而不是生成以瓦片为单元的图像文件。

与显示区域31对应的语音除了包括来自显示区域31内的对象的语音之外，还可以包括来自显示区域31外部的固定对象的语音。

此外，语音数据除了包括以对象为单元的语音数据以外，还可以包括声道音频的语音数据、高阶高保真度立体声响复制(HOA)音频的语音数据、空间音频对象编码的语音数据和语音数据的元数据(场景信息以及动态或静态元数据)。在该情况下，例如在除了每个对象的编码数据以外，这些数据的编码数据也被布置为子样本。

另外，本技术还可以被配置如下。

(1)一种信息处理设备，包括：

发送器，所述发送器被配置成发送图像帧大小信息和语音位置信息，所述图像帧大小信息表示图像数据的图像帧大小，所述语音位置信息表示语音数据的获取位置。

(2)根据(1)所述的信息处理设备，

其中，所述图像帧大小信息被配置成下述信息：该信息表示所述图像数据在水平方向和垂直方向上的视角以及所述视角的基点与图像平面之间的距离。

(3)根据(1)或(2)所述的信息处理设备，

(4)根据(1)至(3)中任一项所述的信息处理设备，还包括：

元文件生成器，所述元文件生成器被配置成生成所述语音数据的元数据文件，所述元数据文件包括所述语音位置信息；以及

信息生成器，所述信息生成器被配置成生成用于指定所述图像帧大小信息和所述元数据文件的信息作为控制信息，

其中，所述发送器被配置成发送由所述信息生成器生成的所述控制信息和由所述元文件生成器生成的所述元数据文件。

(5)根据(1)至(4)中任一项所述的信息处理设备，

其中，所述发送器被配置成发送与显示区域对应的语音数据，所述显示区域是要在与所述图像数据对应的图像中显示的区域，所述语音数据是基于所述图像帧大小信息和所述语音位置信息而请求的。

(6)根据(5)所述的信息处理设备，

其中，所述语音数据是以对象为单位的语音数据，并且

其中，所述发送器被配置成发送与所述显示区域对应的所述对象的语音数据。

(7)根据(6)所述的信息处理设备，还包括：

语音文件生成器，所述语音文件生成器被配置成生成语音文件，所述语音文件包括多个所述对象的语音数据以及表示所述语音数据的所述语音文件中的所述对象中的每一个对象的位置的数据位置信息，

其中，所述发送器被配置成发送由所述语音文件生成器生成的所述语音文件中的与所述显示区域对应的所述对象的语音数据。

(8)根据(6)所述的信息处理设备，还包括：

语音文件生成器，所述语音文件生成器被配置成生成包括多个所述对象的语音数据中的每一个语音数据的语音文件，

其中，所述发送器被配置成发送用于指定所述对象中的每一个对象的所述语音文件的文件指定信息以及发送包括与所述显示区域对应的所述对象的语音数据的所述语音文件，所述语音数据是基于所述图像帧大小信息、所述语音位置信息和所述文件指定信息而请求的。

(9)一种信息处理方法，包括：

通过信息处理设备发送图像帧大小信息和语音位置信息的发送步骤，所述图像帧大小信息表示图像数据的图像帧大小，所述语音位置信息表示语音数据的获取位置。

(10)一种信息处理设备，包括：

接收器，所述接收器被配置成接收图像帧大小信息和语音位置信息，所述图像帧大小信息表示图像数据的图像帧大小，所述语音位置信息表示语音数据的获取位置；以及

位置确定单元，所述位置确定单元被配置成基于由所述接收器接收到的所述图像数据的所述图像帧大小信息和所述语音位置信息，确定与所述图像数据对应的图像上的所述语音数据的获取位置。

(11)根据权利要求10所述的信息处理设备，

(12)根据(10)或(11)所述的信息处理设备，

其中，所述语音位置信息被配置成下述信息：该信息表示连接所述语音数据被获取的位置与基点的线在水平方向和垂直方向上的角度以及所述语音数据被获取的位置与所述基点之间的距离。

(13)根据(10)或(12)中任一项所述的信息处理设备，

其中，所述语音数据是以对象为单位的语音数据，并且

其中，所述位置确定单元被配置成基于所述图像帧大小信息和所述对象中的每一个对象的语音位置信息，确定与所述图像数据对应的图像上的对象中的每一个对象的所述语音数据的获取位置。

(14)根据(13)所述的信息处理设备，还包括：

语音选择器，所述语音选择器被配置成基于由所述位置确定单元所确定的所述对象中的每一个对象的所述语音数据的获取位置，选择与显示区域对应的所述对象的语音数据，所述显示区域是要在与所述图像数据对应的图像中显示的区域，

其中，所述接收器被配置成接收由所述语音选择器选择的语音数据。

(15)根据(14)所述的信息处理设备，

其中，所述接收器被配置成接收由所述语音选择器选择的所述对象的语音数据，所述对象的语音数据被包括在语音文件中，所述语音文件包括多个所述对象的语音数据以及表示所述语音数据的语音文件中的所述对象中的每一个对象的位置的数据位置信息。

(16)根据(14)所述的信息处理设备，

其中，所述接收器被配置成接收包括由所述语音选择器在包括多个所述对象的语音数据中的每一个语音数据的语音文件中选择的所述对象的语音数据的语音文件。

(17)根据(13)所述的信息处理设备，还包括：

语音合成处理器，所述语音合成处理器被配置成基于由所述位置确定单元确定的所述对象中的每一个对象的所述语音数据的获取位置，对多个所述对象的语音数据进行合成。

(18)根据(17)所述的信息处理设备，还包括：

变换器，所述变换器被配置成将显示区域中的图像数据的大小变换成所述图像数据的大小，所述显示区域是要在与所述图像数据对应的图像中显示的区域，

其中，所述位置确定单元被配置成基于所述图像数据的所述图像帧大小信息、所述对象中的每一个对象的语音位置信息以及所述显示区域的图像帧大小信息，确定与具有由所述变换器变换的尺寸的所述显示区域的图像数据对应的图像上的所述对象中的每一个对象的所述语音数据的获取位置。

(19)根据(18)所述的信息处理设备，

其中，所述显示区域的图像帧大小信息被配置成下述信息：该信息表示所述显示区域在水平方向和垂直方向上的视角以及所述视角的基点与图像平面之间的距离。

(20)一种信息处理方法，包括：

接收图像帧大小信息和语音位置信息的接收步骤，所述图像帧大小信息表示图像数据的图像帧大小，所述语音位置信息表示语音数据的获取位置；以及

基于通过所述接收步骤中的处理而接收到的所述图像数据的所述图像帧大小信息和所述语音位置信息，确定与所述图像数据对应的图像上的所述语音数据的获取位置。

附图标记列表

11文件生成设备

12Web服务器

14视频回放终端

56语音文件生成器

57MPD生成器

91MPD获取单元

94语音选择器

95语音文件获取单元

122位置确定单元

123语音合成处理器

124图像合成处理器

Claims

1.一种信息处理设备，包括：

2.根据权利要求1所述的信息处理设备，

3.根据权利要求1所述的信息处理设备，

4.根据权利要求1所述的信息处理设备，还包括：

5.根据权利要求1所述的信息处理设备，

6.根据权利要求5所述的信息处理设备，

其中，所述语音数据是以对象为单位的语音数据，并且

7.根据权利要求6所述的信息处理设备，还包括：

8.根据权利要求6所述的信息处理设备，还包括：

9.一种信息处理方法，包括：

10.一种信息处理设备，包括：

11.根据权利要求10所述的信息处理设备，

12.根据权利要求10所述的信息处理设备，

13.根据权利要求10所述的信息处理设备，

其中，所述语音数据是以对象为单位的语音数据，并且

14.根据权利要求13所述的信息处理设备，还包括：

15.根据权利要求14所述的信息处理设备，

16.根据权利要求14所述的信息处理设备，

17.根据权利要求13所述的信息处理设备，还包括：

18.根据权利要求17所述的信息处理设备，还包括：

19.根据权利要求18所述的信息处理设备，

20.一种信息处理方法，包括：