CN114521332A

CN114521332A - 信息处理装置、再现处理装置和信息处理方法

Info

Publication number: CN114521332A
Application number: CN202080066613.9A
Authority: CN
Inventors: 胜股充; 平林光浩; 高桥辽平
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-09-30
Filing date: 2020-08-28
Publication date: 2022-05-20
Also published as: WO2021065277A1; US20220406062A1; EP4013042A1; US11967153B2; JPWO2021065277A1

Abstract

提供了用于提高数据传输效率的信息处理装置、再现处理装置和信息处理方法。预处理单元(102)生成随时间变化的动态场景构成信息以及不随时间变化的作为与动态场景构成信息不同的场景构成信息的静态场景构成信息，作为表示三维空间中的三维对象所组成的6DoF内容的场景构成的场景构成信息。

Description

信息处理装置、再现处理装置和信息处理方法

技术领域

本发明涉及信息处理装置、再现处理装置和信息处理方法。

背景技术

在当前视频分发中，用于分发电影等的称为二维视频的二维内容分发是主流。此外，在因特网上的各种网站上也提供了可以在全部方向上观看的360度视频的分发。360度视频也称为3DoF(自由度)视频。在二维视频和3DoF视频中，基本上二维编码的内容被分发并显示在客户端装置上。

同时，作为具有进一步自由度的视频，已经提出了被称为6DoF视频的6DoF视频内容的分发。可以在三维空间中的全部方向上观看6DoF视频内容，并且还可以选择空间中的自由位置。6DoF视频内容是表示三维空间的内容，并且可以自由设置再现时的视点方向和视点位置。类似地，对于音频，存在分发6DoF音频内容的6DoF音频，在6DoF音频内容中可以选择三维空间中的观看位置和观看方向。通过将6DoF视频内容和6DoF音频内容组合获得的内容称为6DoFAV内容。6DoF视频用一条或多条三维模型数据表示三维空间。在下文中，三维模型数据称为3D模型数据。6DoF音频通过多个音频对象表示存在于三维空间中的多个声源。

6DoFAV内容是如下内容，在该内容中，包括包含被称为场景的6DoF视频的3D模型数据以及包含6DoF音频的音频对象的3D空间针对每个时间连续。每个场景包括3D模型数据或音频对象的比特流以及场景描述。场景描述包括用于重构三维空间的3D模型数据的布置信息以及比特流的访问信息。

此处，3D模型数据的位置可能针对每个时间变化。当3D模型数据针对每个时间变化时，场景也针对每个时间变化。例如，在MPEG-4场景描述中，在场景针对每个时间变化时，可以发送变化节点的差异信息，以减少要传送的数据的量。利用这种机制，就不必一直保存整个场景的信息。

引用列表

非专利文献

非专利文献1：“ISO/IEC 14496-12”，第五版，2015年12月15日

发明内容

技术问题

然而，在6DoF内容中实现选择时间和再现的随机访问再现的情况下，当期望随机访问的时间的场景信息是差异信息时，难以再现整个场景。因此，为了实现随机访问的再现，提出了如下技术，在该技术中，周期性地设置用于获取整个场景的配置信息的随机访问点并且在该随机访问点处保存整个场景的信息。

然而，6DoFAV内容的场景描述包括不随时间变化的静态信息和随时间变化的动态信息。当场景描述包括静态信息和动态信息时，针对每个随机访问点获取静态信息和动态信息两者。即，客户端甚至需要接收原本不需要多次接收的静态信息，这可能会导致传输效率降低和处理成本增加。

因此，本公开提出了一种提高数据传输效率的信息处理装置、再现处理装置和信息处理方法。

问题的解决方案

为了解决上述问题，根据本公开的实施例的信息处理装置包括预处理单元，该预处理单元生成随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示6DoF内容的场景的配置的场景配置信息，其中，静态场景配置信息是不同于动态场景配置信息的场景配置信息。

附图说明

图1是分发系统的示例的系统配置图。

图2是示出场景图的示例的图。

图3是示出音频比特流的配置的图。

图4是示出存储在场景图的每个节点中的语法的示例的图。

图5是文件生成装置的框图。

图6是示出根据第一实施例生成的场景描述的图。

图7是示出第一实施例中的ISOBMFF文件中的每个场景描述的存储的图。

图8是客户端装置的框图。

图9是根据第一实施例的文件生成装置进行的文件生成处理的流程图。

图10是根据第一实施例的客户端装置执行的再现处理的流程图。

图11是示出根据第一实施例的修改(1)生成的场景描述的图。

图12是示出根据第一实施例的修改(2)生成的场景描述的图。

图13是示出当每个场景描述存储在一个ISOBMFF中的情况下的存储状态的示例的图。

图14是示出在存储静态场景描述的框中登记的语法的示例的图。

图15是示出当每个场景描述存储在一个ISOBMFF中的情况下的存储状态的另一示例的图。

图16是示出在存储静态场景描述的框中登记的语法的另一示例的图。

图17是示出当每个场景描述存储在不同的ISOBMFF中的情况下的存储状态的另一示例的图。

图18是示出Matroscka媒体容器(Matroscka Media Container)的格式的图。

图19是示出存储音频比特流的ISOBFMM的文件的图。

图20是示出在存储静态音频对象元数据的框中登记的语法的示例的图。

图21是示出ISOBMFF中的音频对象元数据的单独存储的示例的图。

图22是示出MPD中的对音频场景和视频场景的访问信息的存储的示例的图。

图23是示出坐标变换信息的描述符的示例的图。

图24是示出使用坐标变换信息的描述符的语法的描述示例的图。

图25是存储在ISOBMFF中的坐标变换信息的语法的示例的图。

图26是文件生成装置的硬件配置图。

具体实施方式

在下文中，将参照附图详细描述本申请中公开的信息处理装置、再现处理装置和信息处理方法的实施例。注意，本技术公开的范围不仅包括实施例中描述的内容，还包括提交时已知的以下非专利文献中描述的内容。

非专利文献1：(上述)

非专利文献2：“ISO/IEC 14496-11”，第二版，2015年11月01日非专利文献3：“ISO/IEC 23009-1”，第三版，2019年08月

非专利文献4：“ISO/IEC 23008-3”，第二版，2019年02月

即，上述非专利文献中描述的内容也用作确定支持要求的基础。例如，甚至在实施例中未直接描述非专利文献1中描述的文件结构(File Structure)、非专利文献2中描述的场景描述(Scene Description)中使用的结构/术语、非专利文献3中描述的MPEG-DASH标准中使用的术语以及非专利文献4中描述的3D音频标准中使用的结构/术语的情况下，上述内容也落在本技术的公开范围内并且满足权利要求的支持要求。另外，例如，甚至在实施例中没有直接描述的情况下，诸如解析、语法和语义的技术术语也类似地在本技术的公开范围内，并且满足权利要求的支持要求。

(第一实施例)

[根据第一实施例的系统的配置]

图1是分发系统的示例的系统配置图。分发系统100包括作为信息处理装置的文件生成装置1、作为再现处理装置的客户端装置2、视点信息输入装置3和WEB服务器。此处，尽管在图1中示出了一个装置，但分发系统100可以包括多个文件生成装置1、客户端装置2以及视点信息输入装置3。

文件生成装置1生成通过组合6DoF视频的6DoF视频内容和6DoF音频内容而获得的6DoFAV内容。文件生成装置1将生成的6DoFAV内容上传到WEB服务器。此处，在本实施例中，将描述WEB服务器向客户端装置2提供6DoFAV内容的配置，但是分发系统100可以采用另外的配置。例如，文件生成装置1可以包括WEB服务器的功能，将生成的6DoFAV内容存储在文件生成装置1自身中，并且将生成的6DoFAV内容提供给客户端装置2。

WEB服务器(未示出)等经由因特网连接至客户端装置2。在下文中，将描述WEB服务器作为向客户端装置2提供数据的装置的示例。WEB服务器保存6DoFAV内容。然后，WEB服务器根据来自客户端装置2的请求提供指定的6DoFAV内容。

客户端装置2向WEB服务器发送针对由文件生成装置1生成的6DoFAV内容的发送请求。然后，客户端装置2从WEB服务器获取由发送请求指定的6DoFAV内容。此外，客户端装置2从视点信息输入装置3接收视点位置和视线方向的信息的输入。然后，客户端装置2使用6DoFAV内容的数据在指定视点位置处在视线方向上执行渲染，生成语音和图像以进行显示，并且将语音和图像显示在诸如显示器的显示装置上。此处，在文件生成装置1具有WEB服务器的功能的情况下，客户端装置2从文件生成装置1获取6DoFAV内容。

视点信息输入装置3是用于输入由操作者选择的视点位置和视线方向的装置。视点信息输入装置3可以像游戏机的控制器等那样手动输入各条信息，或者可以像头戴式显示器那样输入根据实际操作者的眼睛的位置和方向而获得的各条信息。

此处，将描述6DoF视频。6DoF视频用一条或多条三维模型数据表示三维空间。在下文中，三维模型数据称为3D模型数据。3D模型数据是作为以下任一者的3D模型的数据：(1)3D空间中的一个对象；(2)(1)中的对象的一部分；以及(3)3D空间中的多个对象的集合。

使用作为6DoF视频的局部坐标系的归一化边界框中的坐标系来表示3D模型数据，并且将其压缩和编码为比特流。使用场景描述来在三维空间中布置比特流。

存在场景描述的多个标准。基本上，由被称为场景图的具有树状层级结构的图来表示下述场景，在场景中显示每个时间的每个3D模型数据；并且以二进制格式或文本格式来表示场景图。此处，场景图是空间显示控制信息，并且通过下述方式进行配置：以节点为构成单位定义与3D模型数据的显示相关的信息，并以层级方式组合多个节点。节点包括：用于从一个坐标系变换到另一坐标系的坐标变换信息的节点、3D模型数据的位置信息或大小信息的节点、以及对3D模型数据和音频数据的访问信息的节点。

注意，在以下描述中，假设6DoFAV内容包括作为空间显示控制信息的场景描述数据、以及作为音频数据的多条3D模型数据的媒体数据(例如，一起表示的3D模型数据的网格数据和纹理数据)。诸如点云(Point Cloud)的另外的格式也适用于3D模型数据的媒体数据。另外，场景描述数据符合MPEG-4场景描述(ISO/IEC 14496-11)。

MPEG-4场景描述数据是通过以称为场景二进制格式(BIFS)的格式对场景图进行二值化而获得的。场景图可以通过预定的算法转化为BIFS。另外，通过以ISO基本媒体文件格式(ISOBMFF)存储数据，可以针对每个时间指定场景，并且可以表示位置和大小发生变化的3D模型数据。ISOBMFF的格式对应于“针对每个时间指定配置信息的格式”的示例。

另一方面，6DoF音频内容将三维空间中存在的每个声源对象表示为音频对象数据。为了使得能够基于能够在作为音频对象数据的MPEG-H_3D音频(ISO/IEC 23008-3)指定的固定位置收听的表示三维空间中的音频对象的比特流，在自由位置收听，正在研究用于在比特流中存储诸如音频对象数据的布置信息的音频对象元数据的方法。在这种情况下，多条音频对象数据及其位置信息包括在比特流中。

图2是示出场景图的示例的图。例如，当表示6DoFAV内容时，场景图如图2所示。由图2的场景图300表示的6DoFAV内容包括：表示包括视频场景的多条3D模型数据的信息的节点、以及表示音频场景的音频信息的节点。根组(Group)节点301具有变换(Transform)节点302和变换节点304作为子节点。

变换节点302以下的部分是指示音频场景的场景图。变换节点302是音频场景的坐标变换信息。该坐标变换信息用于将音频场景的坐标系与视频场景的坐标系进行匹配。变换节点302包括音频剪辑(AudioClip)节点303作为子节点。音频剪辑节点303包括对音频比特流321的访问信息。变换节点302和音频剪辑节点303是音频场景的场景图。

此处，音频比特流321具有例如图3所示的配置。图3是示出音频比特流的配置的图。音频比特流321包括音频对象元数据41、音频对象数据42和音频对象数据43。

音频对象元数据41包括表示布置音频对象的坐标的音频对象布置信息。由于存在两条音频对象数据42和43，因此音频对象布置信息包括两个音频对象的布置信息。

将再次利用图2继续描述。变换节点304以下的部分是指示视频场景的场景图。变换节点304是视频场景的坐标变换信息。其是为了将音频场景的坐标系与视频场景的坐标系进行匹配。在本实施例中，将音频场景和视频场景的坐标都变换为匹配一个坐标，但本发明不限于此，并且例如可以将音频场景或视频场景的一个坐标变换为匹配另一坐标。变换节点304包括变换节点305、310和315作为子节点。

变换节点305、310和315包括指定每条3D模型数据的位置和大小的信息。变换节点305具有形状(Shape)节点306作为子节点。变换节点310具有形状节点311作为子节点。变换节点315具有形状节点316作为子节点。

形状节点306、311和316包括用于定义3D模型数据的形状的形状和材料信息。形状节点306包括比特包装器(Bitwrapper)节点307和外观(Appearance)节点308作为子节点。形状节点311包括比特包装器节点312和外观节点313作为子节点。形状节点316包括比特包装器节点317和外观节点318作为子节点。比特包装器节点307、312和317分别包括对网格比特流322、324和326的访问信息。

外观节点308、313和318包括表示3D模型数据的纹理和纹理的信息。外观节点308包括电影(Movie)纹理节点309作为子节点。外观节点313包括电影纹理节点314作为子节点。外观节点318包括电影纹理节点319作为子节点。电影纹理节点309、314和319分别包括对纹理比特流323、325和327的访问信息。

变换节点305、形状节点306、比特包装器节点307、外观节点308和电影纹理节点309是一条3D模型数据的场景图。另外，变换节点310、形状节点311、比特包装器节点312、外观节点313和电影纹理节点314是另一条3D模型数据的场景图。另外，变换节点315、形状节点316、比特包装器节点317、外观节点318和电影纹理节点319是另一条3D模型数据的场景图。

此处，由每个节点保存的信息包括不随时间变化的静态信息和随时间变化的动态信息。例如，坐标变换信息包括不随时间变化的静态坐标变换信息和随时间变化的动态坐标变换信息两者。静态坐标变换信息是用于将坐标系变换到另一坐标系的坐标变换信息，并且是其布置不随时间的推移而变化的3D模型数据的坐标变换信息。另外，动态坐标变换信息是其布置随着时间的推移而变化的3D模型数据的坐标变换信息。

图4是示出存储在场景图的每个节点中的语法的示例的图。在这些节点中，针对每个信息(的类型)设置字段，并且在每个字段中存储与该字段相对应的信息。

[根据第一实施例的文件生成装置的配置]

接下来，将描述文件生成装置1的细节。图5是文件生成装置的框图。如图5所示，文件生成装置1包括生成处理单元10和控制单元11。控制单元11执行与生成处理单元10的控制相关的处理。例如，控制单元11执行诸如生成处理单元10的每个单元的操作定时的综合控制。生成处理单元10包括数据输入单元101、预处理单元102、编码单元103、文件生成单元104和发送单元105。

数据输入单元101接收数据的输入。由数据输入单元101接收的数据包括诸如3D模型数据和音频对象数据的元数据，以及音频对象和3D模型数据的布置信息。数据输入单元101将获取的数据输出至预处理单元102。

预处理单元102确定比特流配置，并且使用每个3D模型数据和音频对象数据的元数据以及对比特流的访问信息来生成场景图。作为表示6DoF内容的场景的配置的场景配置信息，生成随时间变化的动态场景配置信息的动态场景图和不随时间变化的静态场景配置信息的静态场景图，静态场景配置信息是不同于动态场景配置信息的场景配置信息。以下将描述预处理单元102的细节。

预处理单元102确定比特流配置，并且使用每个3D模型数据和音频对象数据的元数据以及对比特流的访问信息来生成场景图。生成随时间变化的动态场景配置信息的动态场景图和不随时间变化的静态场景配置信息的静态场景图，静态场景配置信息是不同于动态场景配置信息的场景配置信息。预处理单元102利用音频场景和视频场景中的每一个的坐标变换信息——即不随时间变化的静态信息——以及对音频场景和视频场景的访问信息来生成静态场景图，并且利用包括随时间变化的动态信息的视频场景的信息来生成动态场景图。在图2的场景图300的数据的情况下，在预处理单元102中，存储在变换节点302中的坐标变换信息、存储在音频剪辑节点303中的访问信息和存储在变换节点304中的坐标变换信息是静态场景图，而其他视频场景部分是动态场景图。然后，预处理单元102将3D模型数据、音频对象数据和所生成的场景图输出至编码单元103。

编码单元103对3D模型数据和音频对象数据进行编码以生成相应的比特流。对静态场景图和动态场景图进行编码以生成场景描述。下面将描述编码单元103的细节。

编码单元103从预处理单元102接收3D模型数据和音频对象数据的输入。然后，编码单元103对3D模型数据和音频对象数据进行编码以生成相应的比特流。然后，编码单元103将生成的比特流输出至文件生成单元104。

另外，编码单元103接收静态场景图的输入。然后，编码单元103对静态场景图进行编码以生成包括静态信息的场景描述。在下文中，将包括静态信息的场景描述称为“静态场景描述”。

另外，编码单元103接收动态场景图的输入。然后，编码单元103对动态场景图进行编码以生成包括动态信息的场景描述。在下文中，将包括两种动态信息的场景描述称为“动态场景描述”。

图6是示出根据第一实施例生成的场景描述的图。在本实施例中，编码单元103针对图2所示的场景图300生成图6所示的静态场景描述331。另外，编码单元103针对图2所示的场景图300生成图6所示的动态场景描述332。

此处，编码单元103将从静态场景描述331到动态场景描述332的访问信息设置为子节点。例如，在MPEG-4场景描述的情况下，作为子节点，编码单元103可以使用内联(Inline)节点333作为对动态场景描述332的访问信息。在这种情况下，编码单元103将稍后描述的组节点334的访问信息存储在内联节点333中。然后，编码单元103将静态场景描述331的数据输出至文件生成单元104。

另外，编码单元103生成组节点334作为动态场景描述332中的根，并且布置变换节点305、310和315作为组节点334的子节点。然后，编码单元103将动态场景描述332的数据输出至文件生成单元104。

以这种方式，编码单元103分别生成静态场景描述331和动态场景描述332。

文件生成单元104生成所生成的比特流的文件，生成包括不针对每个时间变化的静态场景描述的文件，并且生成包括针对每个时间变化的动态场景描述的文件。下面将描述文件生成单元104的细节。

文件生成单元104从编码单元103接收比特流的输入。然后，文件生成单元104将获取的比特流转换为针对每个段的文件，并且生成比特流的段文件。

另外，文件生成单元104从编码单元103接收静态场景描述331的数据的输入。然后，文件生成单元104将静态场景描述331的数据转换为针对每个段的文件，并且生成静态场景描述331的段文件。

由文件生成单元104生成的静态场景描述331的段文件存储在ISOBMFF中，如图7的文件401中所示。图7是示出第一实施例中的ISOBMFF文件中的每个场景描述的存储的图。文件生成单元104将静态场景描述331的管理信息存储在‘moov’框中。具体地，文件生成单元104将作为媒体数据单元的轨道的信息存储在‘trak’框中。另外，文件生成单元104将诸如媒体数据的类型和显示定时(时间信息)的信息存储在‘stsd’框中。然后，文件生成单元104将mp4s存储为样本条目的编码名称。另外，文件生成单元104将静态场景描述331的实际数据存储在‘mdat’框中。此处，由于静态场景描述331是固定的而不根据时间变化，因此以在任意时间使用相同的静态场景描述331的方式设置时间信息。因此，将与所有时间相对应的一个静态场景描述331存储为包括静态场景描述331的文件401的‘mdat’框中的样本。

另外，文件生成单元104从编码单元103接收动态场景描述332的数据的输入。然后，文件生成单元104将动态场景描述332的数据转换为针对每个段的文件，并且生成动态场景描述332的段文件。

由文件生成单元104生成的动态场景描述332的段文件存储在ISOBMFF中，如图7的文件402所示。文件生成单元104将与文件401的管理信息类似的管理信息存储在‘moov’框中。另外，文件生成单元104将静态场景描述331的实际数据存储在‘mdat’框中。在这种情况下，文件生成单元104将每个时间的动态场景描述332存储为‘mdat’框中的样本。

当使用MPEG-DASH(HTTP上的动态自适应流传输，ISO/IEC23009-1)时，文件生成单元104基于从预处理单元102获取的数据生成媒体呈现描述(MPD)文件。MPD文件存储6DoFAV内容的元信息，例如媒体类型以及运动图像或语音的段文件的信息。

发送单元105从文件生成单元104获取比特流的段文件、静态场景描述和动态场景描述，并且将其发送并上传到WEB服务器。

[根据第一实施例的客户端装置的配置]

图8是客户端装置的框图。如图8所示，客户端装置2包括再现处理单元20和控制单元21。控制单元21控制再现处理单元20的每个单元的操作。例如，控制单元21整体地控制再现处理单元20的每个单元的操作的定时。再现处理单元20包括显示单元201、显示控制单元202、显示信息生成单元203、解码处理单元204、文件处理单元205、文件获取单元206、文件获取单元206和测量单元207。

当使用MPEG-DASH时，文件获取单元206从WEB服务器获取与要再现的6DoFAV内容相对应的MPD文件。在这种情况下，文件获取单元206获取来自文件处理单元205的要再现的6DoFAV内容的静态场景描述和动态场景描述的信息。

文件获取单元206获取存储有通过访问WEB服务器要显示的6DoFAV内容的静态场景描述的ISOBMFF的文件。由于静态场景描述是固定的而与6DoFAV内容的再现的时间的推移无关，因此文件获取单元206在要显示的6DoFAV内容的再现中获取一次存储有静态场景描述的ISOBMFF的文件。然后，文件获取单元206将存储有静态场景描述的ISOBMFF的文件输出至文件处理单元205。

另外，文件获取单元206根据再现处理的时间的推移，获取存储有通过访问WEB服务器要再现的6DoFAV内容的动态场景描述的ISOBMFF的文件。然后，文件获取单元206将存储有所获取的动态场景描述的ISOBMFF的文件输出至文件处理单元205。

此外，文件获取单元206从文件处理单元205获取由文件处理单元205选择的比特流的信息。然后，文件获取单元206通过访问WEB服务器请求并获取所选择的比特流的段文件。之后，文件获取单元206将所获取的比特流的段文件输出至文件处理单元205。

测量单元207测量客户端装置2与WEB服务器之间的传输路径的传输频带。然后，测量单元207将传输频带的测量结果输出至文件处理单元205。

在使用MPEG-DASH的情况下，文件处理单元205从文件获取单元206接收与要再现的6DoFAV内容相对应的MPD文件的输入。然后，文件处理单元205获取用于解析并再现所获取的MPD文件的6DoFAV内容的静态场景描述。文件处理单元205还识别用于自适应分发的多条数据。例如，在切换比特率的自适应分发的情况下，获取与每个比特率相对应的比特流的段文件的信息。在这种情况下，文件处理单元205将要再现的6DoFAV内容的静态场景描述和动态场景描述的信息输出至文件获取单元206。

文件处理单元205从文件获取单元206接收存储有静态场景描述的ISOBMFF的文件的输入。文件处理单元205获取坐标变换信息、动态场景描述的访问信息和音频比特流的访问信息作为解析结果。另外，从文件获取单元206接收存储有动态场景描述的ISOBMFF的文件的输入。然后，文件处理单元205解析动态场景描述。因此，文件处理单元205获取视频场景的3D模型数据的布置信息和对3D模型数据的访问信息作为解析结果。

此外，文件处理单元205从测量单元207接收传输频带的测量结果的输入。然后，文件处理单元205基于静态场景描述和动态场景描述的解析结果、从测量单元207获取的指示传输频带的信息等，选择要再现的比特流的段文件。然后，文件处理单元205将所选择的比特流的段文件的信息输出至文件获取单元206。

此时，通过根据传输频带改变要选择的比特流的段文件，实现根据比特率的自适应分发。

之后，文件处理单元205从文件获取单元206接收所选择的比特流的段文件的输入。然后，文件处理单元205从所获取的比特流的段文件中提取比特流的数据，并且将该数据输出至解码处理单元204。

解码处理单元204接收从文件处理单元205输入的比特流数据。然后，解码处理单元204针对获取的比特流的数据执行解码处理。之后，解码处理单元204将解码的比特流的数据输出至显示信息生成单元203。

显示控制单元202从视点信息输入装置3接收操作者的视点位置和视线方向的信息的输入。然后，显示控制单元202将所获取的视点位置和视点方向的信息输出至显示信息生成单元203。

显示信息生成单元203接收静态场景描述、动态场景描述、解码的比特流数据以及所获取的视点位置和视点方向的信息，并且生成显示信息。下面将描述显示信息生成单元203的细节。

从解码处理单元204接收比特流的数据的输入。然后，显示信息生成单元203基于音频对象元数据、静态场景描述和动态场景描述，在三维空间中布置作为所获取的比特流的数据的音频对象和3D模型数据。此外，显示信息生成单元203从显示控制单元202接收操作者的视点位置和视线方向的信息的输入。然后，显示信息生成单元203根据视点位置和视线方向执行布置在三维空间中的音频对象和3D模型数据的渲染，以生成用于显示的语音和图像。之后，显示信息生成单元203将生成的显示语音和图像提供给显示单元191。

显示单元201包括诸如扬声器或监视器的显示装置。显示单元201接收由显示信息生成单元203生成的用于显示的语音和图像的输入。然后，显示单元201使显示装置显示所获取的语音和图像以进行显示。

[根据第一实施例的文件生成过程]

作为表示三维空间中的3D模型数据所配置的6DoF内容的场景的配置的场景配置信息，文件生成装置1生成作为随时间变化的动态场景配置信息的场景图以及作为不随时间变化的静态场景配置信息的场景图，静态场景配置信息是不同于动态场景配置信息的场景配置信息。接下来，将参照图9详细描述根据第一实施例的文件生成装置1的文件生成处理的流程。图9是根据第一实施例的文件生成装置的文件生成处理的流程图。

数据输入单元101获取包括每个时间的音频对象和3D模型数据的信息的场景信息(步骤S101)。数据输入单元101还获取3D模型数据和音频对象数据。然后，数据输入单元101将所获取的各种类型的信息输出至预处理单元102。

预处理单元102根据3D模型数据和音频对象数据中的每一个的元数据以及对比特流的访问信息，生成从数据输入单元101获取的数据的场景图。此时，生成仅包括不随时间变化的节点的静态场景图和包括随时间变化的动态节点的动态场景图(步骤S102)。静态场景图包括音频场景和视频场景中的每一个的坐标变换信息、以及对音频场景和视频场景的访问信息。动态场景图包括视频场景图。然后，预处理单元102将3D模型数据和音频对象数据输出至编码单元103。另外，预处理单元102将静态场景图和动态场景图输出至编码单元103。

编码单元103对从预处理单元102获取的3D模型数据和音频对象数据以及音频对象元数据进行编码，以生成3D模型数据的比特流和音频的比特流(步骤S103)。

另外，编码单元103对从预处理单元102获取的静态场景图进行编码以创建静态场景描述。另外，编码单元103对从预处理单元102获取的动态场景图进行编码以创建动态场景描述(步骤S104)。然后，编码单元103将比特流的数据以及静态场景描述和动态场景描述的数据输出至文件生成单元104。

文件生成单元104根据比特流的数据生成比特流的段文件。另外，文件生成单元104根据静态场景描述的数据和动态场景描述的数据生成静态场景描述的段文件和动态场景描述的段文件(步骤S105)。然后，文件生成单元104将生成的段文件输出至发送单元105。

发送单元105获取从文件生成单元104发送的段文件，并且将段文件发送并上传到WEB服务器(步骤S106)。

[根据第一实施例的再现处理过程]

接下来，将参照图10描述根据实施例的客户端装置2执行的再现处理的流程。图10是根据第一实施例的客户端装置执行的再现处理的流程图。

文件获取单元206从WEB服务器4获取要再现的6DoFAV对象的静态场景描述。静态场景描述被输出至文件处理单元205并被解析，并且动态场景描述的访问信息被获取并被发送至文件获取单元206。文件获取单元206从WEB服务器4获取动态场景描述(步骤S201)。然后，文件获取单元206将所获取的动态场景描述输出至文件处理单元205。

文件处理单元205对从文件获取单元206获取的静态场景描述和动态场景描述进行解析和分析(步骤S202)。因此，文件处理单元205获取音频场景和视频场景的坐标变换信息、比特流段文件的访问信息、以及视频场景的空间控制信息。

接下来，文件处理单元205从测量单元207获取传输路径的传输频带的测量结果。然后，文件处理单元205通过使用传输路径的传输频带和访问信息选择比特流。之后，文件处理单元205将所选择的比特流的段文件的访问信息输出至文件获取单元206。文件获取单元206从WEB服务器获取由文件处理单元205选择的比特流的段文件。之后，文件获取单元206将所获取的比特流的段文件输出至文件处理单元205。文件处理单元205从自文件获取单元206获取的比特流的段文件中提取比特流，并且将该比特流输出至解码处理单元204(步骤S203)。另外，文件处理单元205将视频场景的空间控制信息输出至显示信息生成单元203。

解码处理单元204对从文件处理单元205获取的比特流进行解码(步骤S204)。解码处理单元204将解码的比特流输出至显示信息生成单元203。包括音频对象数据、布置信息等的音频对象元数据存储在音频比特流中。因此，解码处理单元204还通过对音频比特流进行解码，获取每个音频对象的布置位置。解码处理单元204还将音频对象的布置位置的信息输出至显示信息生成单元203。

显示信息生成单元203针对从解码处理单元204获取的比特流使用布置位置和坐标变换信息将3D模型数据和音频对象中的每一个布置在三维空间中(步骤S205)。

接下来，显示信息生成单元203从显示控制单元202获取视点位置信息和视线方向信息(步骤S206)。

然后，显示信息生成单元203根据视点位置信息和视线方向信息执行布置在三维空间中的3D模型数据和音频对象中的每一个的渲染，以生成用于显示的语音和图像(步骤S207)。之后，显示信息生成单元203将生成的用于显示的语音和图像输出到显示单元201。

显示单元201将从显示信息生成单元203获取的用于显示的图像显示在诸如监视器的显示装置上(步骤S208)。

之后，控制单元21确定6DoFAV内容的再现是否完成(步骤S209)。

在再现未完成的情况下(步骤S209：否)，控制单元21指示文件获取单元206获取下一时间的动态场景描述。响应于来自控制单元21的指示，文件获取单元206从WEB服务器获取下一时间的动态场景描述(步骤S210)。之后，再现处理单元返回至步骤S202。

另一方面，当再现完成时(步骤S209：是)，控制单元11通知生成处理单元10的文件生成结束。生成处理单元10在接收到来自控制单元11的通知时结束文件生成。

此处，在本实施例中，已经描述了针对每个时间获取所有动态信息的情况。然而，甚至在获取针对每个时间的差异并且针对每个随机访问点获取所有动态信息的配置中，也可以应用本实施例中描述的功能。在这种情况下，客户端装置在除随机访问点以外的时间获取与差异相对应的动态场景描述。另外，客户端装置获取下述动态场景描述，在该动态场景描述中，在随机访问点用信号通知包括在动态场景描述中的整个场景。

如上所述，本实施例的文件生成装置将音频场景和视频场景的坐标变换信息和访问信息与作为不同的场景描述的其他信息相关联。音频场景和视频场景的坐标变换信息和访问信息是甚至时间推移后也保持不变的静态信息。另一方面，除音频场景和视频场景的坐标变换信息和访问信息以外的信息还包括动态信息。因此，获取一次音频场景和视频场景的坐标变换信息以及访问信息，并且根据时间的推移获取除音频场景和视频场景的坐标变换信息以及访问信息以外的信息。因此，可以再现6DoFAV。因此，可以通过减少再现6DoFAV内容时从WEB服务器获取的数据的量来提高传输效率，并且可以通过有效地利用网络的传输频带来缩短数据接收时间，并且缩短再现处理的整个处理时间。

另外，在本实施例中，可以根据静态场景描述独立地访问作为视频场景的动态场景描述和作为音频场景的音频的比特流，并且可以独立地对视频场景或音频场景进行自适应分发。即，当对于每个场景自适应地分发任一场景时，另一场景不受影响。因此，可以容易地执行应用分发，并且可以提高应用分发的灵活性。

[第一实施例的修改(1)]

根据本修改的文件生成装置1与实施例1的文件生成装置的不同之处在于，生成除了第一实施例的静态场景图所包括的信息以外还包括视频场景的静态信息的静态场景描述。根据本修改的文件生成装置1也在图5的框图中示出。

基于从数据输入单元101输入的元数据，预处理单元102根据音频场景和视频场景的坐标变换信息、直接连接至坐标变换信息的访问信息、以及3D模型数据的场景图中不随时间变化的场景图，生成静态场景图。此外，根据通过从3D模型数据的场景图中去除不随时间变化的信息而获得的场景图，生成动态场景图。然后，预处理单元102将所生成的两个场景图输出至编码单元103。

编码单元103从预处理单元102获取静态场景图和动态场景图。图11是示出根据第一实施例的修改(1)生成的每个场景描述的图。编码单元103对静态场景图进行编码以生成图11所示的静态场景描述341。另外，编码单元103对动态场景图进行编码以生成动态场景描述342。

此处，编码单元103生成组节点344作为动态场景描述342中的根，并且布置变换节点310和315作为组节点344的子节点。另外，编码单元103生成包括从静态场景描述341到动态场景描述332的组节点344的访问信息的内联节点343。

然后，编码单元103将静态场景描述341的数据和动态场景描述342的数据输出至文件生成单元104。

如上所述，编码单元103分别生成仅包括音频场景和不随时间变换的3D模型数据的视频场景信息的静态场景描述341，以及包括随时间变化的动态视频场景的动态场景描述342。之后，编码单元103将静态场景描述341和动态场景描述342输出至文件生成单元104。

在这种情况下，在静态场景配置信息包括运动图像的场景配置信息的情况下，文件生成单元104分别创建存储运动图像的场景配置信息的情况下的具有针对每个时间指定配置信息的格式的第一文件、以及存储除运动图像的场景配置信息以外的信息的具有该格式的第二文件。即，文件生成单元104可以通过与第一实施例的方法类似的方法将静态场景描述341和动态场景描述342存储在ISOBMFF中。

如上所述，根据本实施例的文件生成装置分别根据音频场景和视频场景的坐标变换信息以及直接连接至坐标变换信息的访问信息、以及3D模型数据的场景图中的不随时间变化的信息来生成静态场景描述，以及根据3D模型数据的场景图中除了不随时间变化的信息之外的信息来生成动态场景描述。在这种情况下，与第一实施例相比，包括在静态场景描述中的数据增加，并且包括在动态场景描述中的数据减少。因此，可以增加一次获取完成的数据的量，可以减少根据时间获取的数据的量，并且可以进一步提高传输效率。

[第一实施例的修改(2)]

根据本修改的文件生成装置1与第一实施例的修改(1)的不同之处在于，将音频场景和视频场景的坐标变换信息以及直接连接至坐标变换信息的访问信息、以及3D模型数据的元数据中不随时间变化的信息生成为不同的静态场景描述。根据本修改的文件生成装置1也在图5的框图中示出。

预处理单元102生成三个场景图，包括：音频场景和视频场景的坐标变换信息以及直接连接至坐标变换信息的访问信息的静态场景图、3D模型数据的场景图中的不随时间变化的信息的静态视频场景图、以及3D模型数据的场景图中不随时间变化的信息之外的动态视频场景图。然后，预处理单元102将所生成的三个场景图输出至编码单元103。

编码单元103从预处理单元102获取静态场景图、静态视频场景图和动态视频场景图。然后，编码单元103对静态场景图进行编码以生成图12所示的静态场景描述351。图12是示出根据第一实施例的修改(2)生成的场景描述的图。

另外，编码单元103对静态视频场景图进行编码以生成静态视频场景描述352。此外，编码单元103对动态视频场景图进行编码以生成动态视频场景描述353。

此处，编码单元103生成组节点357作为动态视频场景描述353中的根，并且布置变换节点310和315作为为组节点357的子节点。另外，编码单元103生成组节点355作为静态视频场景描述352中的根，并且布置变换节点305作为组节点355的子节点。此外，编码单元103生成包括从静态视频场景描述352到动态视频场景描述353的组节点357的访问信息的内联节点356作为组节点355的子节点。另外，编码单元103生成包括从静态场景描述351到静态视频场景描述352的组节点355的访问信息的内联节点354。

然后，编码单元103将静态场景描述351、静态视频场景描述352和动态视频场景描述353的数据输出至文件生成单元104。

如上所述，编码单元103分别生成：音频场景和视频场景的坐标变换信息以及直接连接至坐标变换信息的访问信息的静态场景描述351、3D模型数据的场景图中的不随时间变化的信息的静态视频场景描述352、以及3D模型数据的场景图中除了不随时间变化的信息之外的动态视频场景描述342。之后，编码单元103将静态场景描述351、静态视频场景描述352和动态视频场景描述353输出至文件生成单元104。

在这种情况下，文件生成单元104可以以与第一实施例的方式类似的方式将静态场景描述351、静态视频场景描述352和动态视频场景描述353存储在ISOBFF中。在这种情况下，在静态视频场景描述352的ISOBBFF的文件中，所有时间都由一个场景描述来表示。

如上所述，根据本实施例的文件生成装置分别生成：音频场景和视频场景的坐标变换信息以及直接连接至坐标变换信息的访问信息的静态场景描述、3D模型数据的场景图中的不随时间变化的信息的静态视频场景描述、以及3D模型数据的场景图中除了不随时间变化的信息之外的动态视频场景描述。同样在这种情况下，与第一实施例相比，视频场景的静态信息成为静态视频场景描述，并且可以通过一次获取来完成。因此，与第一实施例相比，可以减少数据的量并且可以提高传输效率。另外，在这种情况下，尽管场景描述的数目增加，但是可以独立地对视频场景和音频场景进行自适应分发，这在第一实施例中是可能的，而在第一实施例的修改(1)中是不可能的。

[第一实施例的修改(3)]

根据本修改的文件生成装置1与第一实施例的不同之处在于，静态场景描述和动态场景描述存储在ISOBMFF的一个文件中。根据本修改的文件生成装置1也在图5的框图中示出。图13是示出在每个场景描述存储在一个ISOBMFF中的情况下的存储状态的示例的图。

文件生成单元104将静态场景配置信息的场景描述和动态场景配置信息的场景描述存储在具有针对每个时间指定配置信息的格式的ISOBMFF的同一文件中，并且静态场景配置信息包括在ISOBMFF的文件中的样本条目中。在下文中，将描述根据本实施例的文件生成单元104的细节。

如图13的文件403所示，文件生成单元104生成框404，该框用于将新定义的静态场景描述存储在样本条目中。在图13中，新定义的框404是StaticSDBox(‘sscd’)。然后，文件生成单元104将静态场景描述存储在新定义的框中。图14是示出在存储静态场景描述的框中登记的语法的示例的图。文件生成单元104在StaticSDBox(‘sscd’)中存储如图14所示的语法，StaticSDBox(‘sscd’)是其中新定义了语法的框404。

另外，文件生成单元104将动态场景描述存储为‘mdat’框中的样本。在这种情况下，文件生成单元104将下述访问信息存储在用于指示对动态场景描述的访问信息的、静态场景描述的内联节点中：该访问信息指示，指示动态场景描述的信息被包括在静态场景描述所属的轨道中。例如，通过在作为内联节点的访问信息的URL字段中描述自包含，文件生成单元104可以表示，指示动态场景描述的信息被包括在静态场景描述所属的轨道的样本中。另外，文件生成单元104可以将新的自包含标志字段添加到内联节点，定义在标志为1的情况下指示动态场景描述的信息被包括在自身所属的轨道的样本中，并且将标志设置为1。

类似地，对于在第一实施例的修改(1)中生成的场景描述，文件生成单元104可以通过使用本实施例中的用于将场景描述存储在ISOBMFF中的方法，将场景描述存储在ISOBMFF中。

另外，在第一实施例的修改(2)中生成场景描述的情况下，文件生成单元104以多个场景描述可以存储在StaticSDBox(‘sscd’)中的方式生成文件。图15是示出在每个场景描述存储在一个ISOBMFF中的情况下的存储状态的另一示例的图。例如，如图15的文件405所示，文件生成单元104在StaticSDBox(‘sscd’)中包括静态场景描述406和静态视频场景描述407。静态场景描述406对应于图12中的静态场景描述351。另外，静态视频场景描述407对应于图12中的静态视频场景描述352。

文件生成单元104首先存储要作为根的场景描述。如图15所示，文件生成单元104首先将静态场景描述406存储为场景图的最上方的根。动态场景描述存储在‘mdat’框的样本中。例如，文件生成单元104将图16所示的语法登记为静态场景描述406和静态视频场景描述407。图16是示出在存储静态场景描述的框中登记的语法的另一示例的图。

在这种情况下，文件生成单元104例如在内联节点的url字段中描述“url＝“StaticSDBox:2””作为静态场景描述406中的对静态场景描述407的访问信息。url＝“StaticSDBox:2”指示在StaticSDBox中第二个存储的场景描述。

然而，尽管此处总是首先布置要作为根的场景描述406，但是用于指示要作为根的场景描述的方法可以是另外的方法。例如，文件生成单元104可以通过在StaticSDBox‘sscd’中在图16所示的语法中的SD_size字段之前添加root-flag(根标志)字段来明确地指示选择顺序。例如，在root-flag字段的值为1的情况下，认为文件生成单元104表示静态场景描述是应当首先处理的根的场景描述。

另外，在第一实施例的修改(2)中生成的场景描述的情况下，可以通过另外的方法将场景描述存储在ISOBMFF中。例如，文件生成单元104将构成视频场景的场景描述的静态视频场景描述和动态视频场景描述存储在ISOBMFFF的同一文件中，并且将静态场景描述存储在另一文件中。在下文中，将描述根据本实施例的文件生成单元104的细节。

图17是示出在每个场景描述存储在不同的ISOBMFF中的情况下的存储状态的另一示例的图。如图17所示，文件生成单元104可以分别生成包括静态场景描述411的ISOBMFF文件408和包括静态视频场景描述412的ISOBMFF文件409。

在这种情况下的StaticSDBox(‘sscd’)的语法与图16所示的语法类似。文件409的URL信息放入到url字段中，该url字段是指示从静态场景描述411到静态视频场景描述412访问的内联节点的访问信息。另外，从静态视频场景描述412到动态场景描述的访问信息用信号自包含到上述url字段，并且指示访问信息所属的轨道。

如上所述，通过将静态场景描述411和静态视频场景描述412存储在不同的ISOBMFF文件中，可以分别访问音频场景和视频场景。因此，可以分别对音频场景和视频场景进行自适应分发。然而，静态场景描述411的ISOBMFF的文件需要具有用于存储ISOBMFF中所使用的管理信息等的数据大小。

如上所述，根据本实施例的文件生成装置将静态场景描述和动态场景描述存储在ISOBMFF的一个文件中。因此，当获取一个文件时，可以读取静态场景描述和动态场景描述，并且静态场景描述的获取次数可以是一次。然后，当通过根据本实施例的方法获取静态场景描述的信息时，与第一实施例的情况相比，可以减少要获取的数据的量。

[第一实施例的修改(4)]

根据本修改的文件生成装置1与第一实施例的不同之处在于，使用MatroskaMedia Container代替ISOBMFF作为存储场景描述的文件的文件格式。根据本修改的文件生成装置1也在图5的框图中示出。图18是示出Matroska Media Container的格式的图。

在这种情况下，文件生成单元104新定义StaticSD元素，并且在由框421指示的轨道类型条目(Track Type Entry)元素中存储当场景描述存储在ISOBMFF的文件中时要存储在ISOBMFF的样本条目中的信息。然后，文件生成单元104将在场景描述存储在ISOBMFF的文件中的情况下要存储在样本中的信息存储为框422指示的块(Block)数据。在场景描述存储在ISOBMFF文件中的情况下存储在样本中的信息例如是动态场景描述的信息。

例如，当在同一个文件中传送静态信息和动态信息时，静态场景描述的信息作为二进制数据存储在轨道条目(Track Entry)元素中新定义的StaticSDBox(‘sscd’)中。

如上所述，根据本修改的文件生成装置将场景描述存储在Matroska MediaContainer的文件中。如上所述，文件生成装置不仅可以使用ISOBMFF，还可以使用诸如Matroska Media Container的格式作为存储场景描述的文件的格式。

[第一实施例的修改(5)]

同样在音频对象中，混合了位置随时间变化的动态布置信息和不总是移动的静态布置信息。因此，根据本修改的文件生成装置根据音频对象的布置信息生成并存储动态音频对象元数据和静态音频对象元数据。图19是示出存储音频比特流的ISOBFMM的文件的图。

音频比特流包括作为音频对象的布置信息的元数据的音频对象元数据和作为编码对象数据的音频对象数据。因此，在音频比特流存储在ISOBMFF中的情况下，例如，如图19的文件430中的框431所示，新定义样本条目的编码名称‘mh61’，并且在样本中存储比特流。

预处理单元102针对作为静态布置信息的静态音频对象元数据和作为动态布置信息的动态音频对象元数据分别生成音频对象的布置信息。编码单元103对由预处理单元102生成的静态音频对象元数据和动态音频对象元数据进行编码，并且将编码的数据输出至文件生成单元104。

文件生成单元104将音频场景配置信息中的静态场景配置信息包括在作为ISOBMFF的文件中的管理信息的样本条目中。即，文件生成单元104将静态音频对象元数据存储在StaticAudioMetaBox(静态音频元数据框)中，StaticAudioMetaBox是由框431指示的新定义的样本条目(‘mh61’)的样本条目。另外，文件生成单元104将动态音频对象元数据存储在‘mdat’框的样本中。在StaticAudioMetaBox中登记表示哪个音频对象数据对应于布置信息的信息。即，未存储在StaticAudioMetaBox中的对象元数据被包括在动态音频对象元数据中。

例如，文件生成单元104将图20所示的语法登记为静态音频对象元数据。图20是示出在存储静态音频对象元数据的框中登记的语法的示例的图。此处，在图20所示的语法中，使用标识符(Identifier)(ID)来识别StaticAudioMetaBox中包括的静态音频对象，但是可以按顺序指示比特流中包括的静态音频对象。

如上所述，根据本修改的文件生成装置针对动态信息和静态信息分别生成音频对象的布置信息，并且将生成的布置信息存储在ISOBMFF中。因此，对于音频对象，静态信息通过一次接收完成，并且音频对象可以通过重复接收动态信息进行再现。因此，也可以提高音频内容的传输效率。

[第一实施例的修改(6)]

根据本修改的文件生成装置1与修改(5)的不同之处在于，音频对象元数据和音频对象数据存储在不同的ISOBMFF中并且被传输。根据本修改的文件生成装置1也在图5的框图中示出。图21是示出在ISOBMFF中的音频对象元数据的单独存储的示例的图。

当将音频对象元数据的比特流存储在ISOBMFF中时，文件生成单元104如文件432中所示的那样存储比特流。即，如框434所示，文件生成单元104指定用于指示样本条目中是音频对象元数据的比特流的‘mh6m’并且使得能够进行识别。另外，文件生成单元104将由表示静态音频对象元数据的框435指示的StaticAudioMetaBox存储在样本(Sample)条目中，并且将动态音频对象元数据存储在‘mdat’框的样本中。

此外，文件生成单元104使用文件432的‘tref’框中的reference_type(参考类型)‘mh6r’来指示音频对象数据的ISOBMFF的文件433的track_id(轨道ID)作为对音频对象数据的访问信息。因此，文件生成单元104将音频对象元数据与音频对象数据相关联。

另外，在ISOBMFF中仅存储音频对象数据的比特流的情况下，如文件433所示的那样存储比特流。即，如框436所示，文件生成单元104指定用于指示样本条目中是仅音频对象数据的比特流的‘mh6d’并且使得能够进行识别。然后，文件生成单元104将音频对象数据作为样本存储在‘mdat’框中。

在这种情况下，文件生成单元104使用指示音频对象元数据的ISOBMM的文件的信息作为静态场景描述的对音频比特流的访问信息。

如上所述，根据本修改的文件生成装置将音频对象元数据和音频对象存储在不同的ISOBMFF文件中。因此，例如，在音频对象数据中准备了多个比特率变化的情况下，音频对象元数据可以是公共的。在这种情况下，客户端装置不需要通过在自适应分发中切换比特率来同时切换音频对象元数据，并且可以提高分发时的处理效率。另外，在内容创作中，作为校正音频对象元数据的情况下的处理，校正公共音频元数据的比特流就足够了，并且提高了校正音频对象时的处理效率。

另外，在上面的描述中，已经描述了使用ISOBMFF作为文件格式的情况，但是也可以使用Matroska Media Container。在这种情况下，编码名称使用轨道条目元素的CodecID和CodecName，并且通过新创建AudioObjectDataRederence(音频对象数据参考)元素将轨道参考的信息存储在轨道条目元素中包括的轨道操作(Track Operation)元素中。静态音频对象元数据在轨道条目元素中新创建了StaticAudioMeta(静态音频元数据)元素。此时，元素类型为Binary(二进制)，并且作为EBML数据，将StaticAudioMetaBox(‘Stam’)存储为二进制数据。

(第二实施例)

根据本实施例的文件生成装置1与第一实施例的不同之处在于，将包括在第一实施例的静态场景描述中的对音频场景和视频场景的访问信息以及用于执行音频场景与视频场景之间的位置同步的坐标变换信息存储在MPD文件中。根据本实施例的文件生成装置1也在图5的框图中示出。在以下描述中，将省略与第一实施例的单元的功能类似的单元的功能的描述。

在这种情况下，预处理单元102生成作为3D模型数据的布置信息的视频场景图作为动态场景配置信息。

文件生成单元104将对音频场景的访问信息和对视频场景的访问信息存储在不同的自适应集(AdaptationSet)中，如图22的MPD文件500所示。图22是示出MPD中的对音频场景和视频场景的访问信息的存储的示例的图。MPD文件500包括音频场景自适应集501和视频场景自适应集502。音频场景自适应集501保存对音频比特流511的访问信息。另外，视频场景自适应集502保存对视频的场景描述的访问信息。因此，MPD文件500可以指示对音频场景和视频场景的相应的访问信息。

另外，文件生成单元104在MPD文件500中存储用于扩展MPD并执行音频场景与视频场景之间的位置同步的坐标变换信息。具体地，文件生成单元104将音频场景自适应集501和视频场景自适应集502中的每一个的坐标变换信息存储在MPD文件500中。

例如，如图23所示定义指示坐标变换信息的新描述符。图23是示出坐标变换信息的描述符的示例的图。如图23所示，由这些描述符定义三维坐标系中的平移、旋转和放大。

图24是示出使用坐标变换信息的描述符的语法的描述示例的图。例如，“SceneTransform”(“场景变换”)被指定为补充属性(Supplemental Property)中的SchemeIdURI。此外，坐标变换信息由元素指定。在图24所示的语法中，执行坐标变换以在x轴方向上平移10并将z的值加倍。文件生成单元104使用如图24所示的语法将坐标变换信息存储在MPD文件500中。然而，图24中的语法是示例，并且例如，可以通过其他方法(例如使用变换矩阵的表示)来表示坐标变换。

如上所述，根据本实施例的文件生成装置将对音频场景和视频场景的访问信息以及用于执行音频场景与视频场景之间的位置同步的坐标变换信息存储在MPD文件中。因此，在MPD中给出最少信息的通知作为对音频场景和视频场景的访问信息以及用于执行音频场景与视频场景之间的位置同步的坐标变换信息。因此，可以减少发送至客户端装置的数据的量。另外，在针对音频场景和视频场景的自适应分发存在多个比特流的情况下，使MPD文件中存储的坐标变换信息适用于任意一个比特流。因此，在校正与坐标变换有关的值的情况下，可以通过校正MPD文件中描述的坐标变换信息来应对，并且可以提高数据管理的处理效率。

[第二实施例的修改(1)]

根据本修改的文件生成装置1生成静态场景配置信息中包括的坐标变换信息作为具有针对每个时间指定配置信息的格式的ISOBMFF文件。即，本修改与第二实施例的不同之处在于，音频场景和视频场景的坐标变换信息存储在ISOBMFF文件中。根据本修改的文件生成装置1也在图5的框图中示出。

文件生成单元104将图25中所示的场景变换框(SceneTransformBox)存储在图22中所示的音频比特流511和视频场景描述512中。图25是示出存储在ISOBMFF中的坐标变换信息的语法的示例的图。因此，客户端装置2可以通过获取音频比特流511和视频场景描述512来获取坐标变换信息。

在音频比特流511的情况下，文件生成装置104将场景变换框存储在例如包括图19的文件430中的框431的样本条目中。另外，在视频的场景描述的情况下，文件生成单元104将场景变换框存储在例如图7的文件402中的动态场景描述的样本条目中。此处，图22的语法是示例，并且例如坐标变换信息可以通过另外的方法(例如使用变换矩阵)来表示，只要能够表示坐标变换信息即可。

如上所述，根据本修改的文件生成装置将指示坐标变换信息的语法存储在ISOBMFF的文件中。在这种情况下，由于将最少信息作为坐标变换信息发送至客户端装置，因此可以减少要发送的数据的量。

另外，此处，已经描述了使用ISOBMFF作为文件格式的情况，但也可以使用Matroska Media Container。在这种情况下，坐标变换的语法存储在轨道条目元素中新创建的SceneTransfrom(场景变换)元素中。此时，ElementType(元素类型)是Binary(二进制)，并且作为EBML数据，将SceneTransformBox(‘sctr’)存储为二进制数据。

[第二实施例的修改(2)]

在本修改中，坐标变换信息存储在MPD和ISOBMFF两者中。根据本修改的文件生成装置1也在图5的框图中示出。

文件生成单元104将静态场景配置信息中包括的坐标变换信息包括在控制信息中，将坐标变换信息存储在具有针对每个时间指定配置信息的格式的文件中，并且生成控制信息中包括的坐标变换信息和文件中存储的坐标变换信息的优先级信息。具体地，与第二实施例类似，文件生成单元104将坐标变换信息存储在MPD文件500中。另外，与第二实施例的修改(2)类似，文件生成单元104将坐标变换信息存储在音频比特流511和视频场景描述512中。

当坐标变换信息存储在MPD文件和ISOBMFF文件两者中时，存在以下四个用于坐标变换的过程。(1)忽略ISOBMFF的文件的值，并且优先考虑MPD文件的值。(2)忽略MPD文件的值，并且优先考虑ISOBMFF的文件的值。(3)使用两个值。也就是说，执行两次坐标变换。(4)可以使用任一值。然而，在(4)的情况下，假设从任一文件提供相同的值。

因此，文件生成单元104将ST@TransformPriority(ST@变换优先级)属性添加到图23所示的描述符中，并且设置(1)至(4)中的任一个。因此，客户端装置2可以通过使用MPD文件500来检查坐标变换是在过程(1)至(4)中的哪一个过程中执行的。此处，在本修改中，对图23所示的描述符进行扩展，但是文件生成单元104可以使用另外的补充属性。

如上所述，根据本修改的文件生成装置将坐标变换信息存储在MPD文件和ISOBMFF文件两者中，并且执行使用方法的通知。以这种方式，即使不在任一文件中而在两个文件中存储坐标变换信息，也可以再现6DoFAV内容。另外，通过清楚地指示坐标变换的过程，管理员可以在要校正坐标变换的情况下容易地确定要校正ISOBMFF的文件和MPD文件中的哪一个。

[第二实施例的修改(3)]

本修改的文件生成装置1登记每个自适应集的场景类型。根据本修改的文件生成装置1也在图5的框图中示出。

文件生成单元104将用于识别6DOF内容中的语音场景和运动图像场景中的每一个的信息包括在作为控制信息的MPD文件中。具体地，文件生成单元104在补充属性的SchemeIdURI中登记“SceneType”(“场景类型”)，并且将“音频场景(audio scene)”、“视频场景(video scene)”或[音频场景和视频场景]设置为其值。例如，当向音频场景自适应集501通知“场景类型”时，文件生成单元104添加语句<SupplementalProperty SchemeIDUri＝“SceneType”value＝“Audio”/>。另外，可以在自适应集的@contentType(@内容类型)属性中登记指示“音频场景”、“视频场景”或[音频场景和视频场景]中的任一个的信息。另外，还可以使得能够确定具有另外的属性的场景类型。

如上所述，根据本修改的文件生成装置为每个自适应集登记场景类型。因此，可以容易地确定MPD文件中包括的自适应集中哪个自适应集具有对音频场景的访问信息以及哪个自适应集具有对视频的场景描述的访问信息。

[第二实施例的修改(4)]

在6DoFAV内容的分发中，可以在一个MPD中分发多个6DoFAV内容。在这种情况下，尽管存在多条音频对象数据和3D模型数据，但是难以确定哪个组合是相同的6DoFAV内容。因此，根据本修改的文件生成装置1在自适应集中存储指示数据为相同6DoFAV内容的数据的信息。

文件生成单元104将用于将6DoF内容中的音频场景和视频场景相关联的信息包括在控制信息中。具体地，文件生成单元104在补充属性的SchemeIdURI中登记“SceneID”(“场景ID”)，并且通过该值指示数据是哪个6DoFAV内容数据。也就是说，如果“SceneID”的值相同，则指示数据属于相同的6DoFAV内容。

如上所述，根据本修改的文件生成装置将访问信息指示的数据所属的6DoFAV内容的标识信息存储在自适应集中。这使得可以通过使用一个MPD文件来分发多条6DoFAV内容。

(硬件配置)

可以通过硬件或软件来执行上述一系列处理。在一系列处理由软件执行的情况下，构成软件的程序安装在计算机中。此处，计算机包括例如包括在专用硬件中的计算机、能够通过安装各种程序来执行各种功能的通用个人计算机等。

图26是文件生成装置的硬件配置图。文件生成装置1由图26所示的计算机900实现。在计算机900中，中央处理单元(CPU)901、只读存储器(ROM)902和随机存取存储器(RAM)903经由总线904彼此连接。

输入/输出接口910也连接至总线904。输入单元911、输出单元912、存储单元913、通信单元914和驱动器915连接至输入/输出接口910。

输入单元911包括例如键盘、鼠标、麦克风、触摸面板、输入终端等。输出单元912包括例如显示器、扬声器、输出终端等。存储单元913包括例如硬盘、RAM盘、非易失性存储器等。通信单元914包括例如网络接口。驱动器915驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除介质921。

在如上所述配置的计算机中，例如，CPU 901经由输入/输出接口910和总线904将存储在存储单元913中的程序加载到RAM 903中并且执行该程序。因此，执行上述一系列处理。RAM 903还适当地存储CPU 901执行各种处理所需的数据等。

可以例如通过记录在作为封装介质等的可移除介质921中来应用由CPU 901执行的程序。在这种情况下，可以通过将可移除介质921附接至驱动器915，经由输入/输出接口910将程序安装在存储单元913中。

此外，还可以经由诸如局域网、因特网、数字卫星广播的有线或无线传输介质提供该程序。在这种情况下，可以通过通信单元914接收该程序并将其安装在存储单元913中。

另外，该程序可以预先安装在ROM 902或存储单元913中。

尽管上面已经描述了本公开的实施例，但是本公开的技术范围不限于上述实施例，并且可以在不脱离本公开的主旨的情况下进行各种修改。另外，可以适当地组合不同实施例和修改的部件。

另外，本说明书中描述的实施例的效果仅是示例而非限制，并且可以提供其他效果。

注意，本技术还可以具有以下配置。

(1)

一种信息处理装置，包括：

预处理单元，其生成随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示由3D模型数据配置的6DoF内容的场景的配置的场景配置信息，所述静态场景配置信息是不同于所述动态场景配置信息的场景配置信息。

(2)

根据(1)所述的信息处理装置，其中，所述6DoF内容还包括音频对象数据。

(3)

根据(1)所述的信息处理装置，包括：编码单元，其分别基于所述静态场景配置信息生成静态场景描述以及基于所述动态场景配置信息生成动态场景描述。

(4)

根据(3)所述的信息处理装置，包括：文件生成单元，其将所述静态场景描述和所述动态场景描述分别存储在具有针对每个时间指定配置信息的格式的不同文件中。

(5)

根据(3)所述的信息处理装置，包括：文件生成单元，其将所述静态场景配置信息的场景描述和所述动态场景配置信息的场景描述分别存储在具有针对每个时间指定配置信息的格式的同一文件中，并且将所述静态场景配置信息包括在所述文件中的管理信息中。

(6)

根据(3)所述的信息处理装置，包括：文件生成单元，在所述静态场景配置信息包括运动图像的场景配置信息的情况下，所述文件生成单元分别创建存储所述运动图像的场景配置信息的、具有针对每个时间指定配置信息的格式的第一文件以及存储除所述运动图像的场景配置信息以外的信息的、具有所述格式的第二文件。

(7)

根据(3)所述的信息处理装置，包括：文件生成单元，在所述静态场景配置信息包括运动图像的场景配置信息的情况下，所述文件生成单元将所述动态场景配置信息和包括在所述静态场景配置信息中的所述运动图像的场景配置信息存储在具有针对每个时间指定配置信息的格式的同一文件中，并且将包括在所述静态场景配置信息中的所述运动图像的场景配置信息包括在所述文件中的管理信息中。

(8)

根据(3)所述的信息处理装置，其中，

所述预处理单元分别为了静态场景配置信息和动态场景配置信息生成语音的场景配置信息，并且

文件生成单元将所述语音的场景配置信息中的所述静态场景配置信息包括在具有针对每个时间指定配置信息的格式的文件中的管理信息中。

(9)

根据(1)所述的信息处理装置，包括：

编码单元，其生成所述动态场景配置信息作为场景描述；以及

文件生成单元，其将所述静态场景配置信息包括在所述6DoF内容的控制信息中。

(10)

根据(9)所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息包括在所述控制信息中。

(11)

根据(9)所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息存储在具有针对每个时间指定配置信息的格式的文件中。

(12)

根据(9)所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息包括在所述控制信息中，将所述坐标变换信息存储在具有针对每个时间指定配置信息的格式的文件中，并且生成所述控制信息中包括的坐标变换信息和所述文件中存储的坐标变换信息的优先级信息。

(13)

根据(9)所述的信息处理装置，其中，所述文件生成单元将用于识别6DoF内容中的语音场景和运动图像场景中的每一个的信息包括在所述控制信息中。

(14)

根据(9)所述的信息处理装置，其中，所述文件生成单元将用于将所述6DoF内容中的语音场景和运动图像场景相关联的信息包括在所述控制信息中。

(15)

一种再现处理装置，包括：

显示信息生成单元，其接收随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示三维空间中的音频对象数据和3D模型数据配置的6DoF内容的场景的配置的场景配置信息，并且基于所述动态场景配置信息和所述静态场景配置信息生成用于再现所述场景的显示信息，所述静态场景配置信息是不同于所述动态场景配置信息的场景配置信息。

(16)

一种信息处理方法，包括：

生成随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示三维空间中的3D模型数据配置的6DoF内容的场景的配置的场景配置信息，所述静态场景配置信息是不同于所述动态场景配置信息的场景配置信息。

附图标记列表

1 文件生成装置

2 客户端装置

3 视点信息输入装置

10 文件生成单元

11 控制单元

20 再现处理单元

21 控制单元

100 分发系统

101 数据输入单元

102 预处理单元

103 编码单元

104 文件生成单元

105 发送单元

106 存储单元

201 显示单元

202 显示控制单元

203 显示信息生成单元

204 解码处理单元

205 文件处理单元

206 文件获取单元

207 测量单元。

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，所述6DoF内容还包括音频对象数据。

3.根据权利要求1所述的信息处理装置，包括：编码单元，其分别基于所述静态场景配置信息生成静态场景描述以及基于所述动态场景配置信息生成动态场景描述。

4.根据权利要求3所述的信息处理装置，包括：文件生成单元，其将所述静态场景描述和所述动态场景描述分别存储在具有针对每个时间指定配置信息的格式的不同文件中。

5.根据权利要求3所述的信息处理装置，包括：文件生成单元，其将所述静态场景描述和所述动态场景描述分别存储在具有针对每个时间指定配置信息的格式的同一文件中，并且将所述静态场景配置信息包括在所述文件中的管理信息中。

6.根据权利要求3所述的信息处理装置，包括：文件生成单元，在所述静态场景配置信息包括运动图像的场景配置信息的情况下，所述文件生成单元分别创建存储所述运动图像的场景配置信息的、具有针对每个时间指定配置信息的格式的第一文件以及存储除所述运动图像的场景配置信息以外的信息的、具有所述格式的第二文件。

7.根据权利要求3所述的信息处理装置，包括：文件生成单元，在所述静态场景配置信息包括运动图像的场景配置信息的情况下，所述文件生成单元将所述动态场景配置信息和包括在所述静态场景配置信息中的所述运动图像的场景配置信息存储在具有针对每个时间指定配置信息的格式的同一文件中，并且将包括在所述静态场景配置信息中的所述运动图像的场景配置信息包括在所述文件中的管理信息中。

8.根据权利要求3所述的信息处理装置，其中，

所述信息处理装置包括：文件生成单元，其将所述语音的场景配置信息中的所述静态场景配置信息包括在具有针对每个时间指定配置信息的格式的文件中的管理信息中。

9.根据权利要求1所述的信息处理装置，包括：

编码单元，其生成所述动态场景配置信息作为下述场景描述，该场景描述是指示所述3D模型数据的数据的布置信息；以及

10.根据权利要求9所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息包括在所述控制信息中。

11.根据权利要求9所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息存储在具有针对每个时间指定配置信息的格式的文件中。

12.根据权利要求9所述的信息处理装置，其中，所述文件生成单元将所述静态场景配置信息中包括的坐标变换信息包括在所述控制信息中，将所述坐标变换信息存储在具有针对每个时间指定配置信息的格式的文件中，并且生成所述控制信息中包括的坐标变换信息和所述文件中存储的坐标变换信息的优先级信息。

13.根据权利要求9所述的信息处理装置，其中，所述文件生成单元将用于识别6DoF内容中的语音场景和运动图像场景中的每一个的信息包括在所述控制信息中。

14.根据权利要求9所述的信息处理装置，其中，所述文件生成单元将用于将所述6DoF内容中的语音场景和运动图像场景相关联的信息包括在所述控制信息中。

15.一种再现处理装置，包括：

显示信息生成单元，其接收随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示由3D模型数据配置的6DoF内容的场景的配置的场景配置信息，并且基于所述动态场景配置信息和所述静态场景配置信息生成用于再现所述场景的显示信息，所述静态场景配置信息是不同于所述动态场景配置信息的场景配置信息。

16.一种信息处理方法，包括：

生成随时间变化的动态场景配置信息和不随时间变化的静态场景配置信息作为指示由3D模型数据配置的6DoF内容的场景的配置的场景配置信息，所述静态场景配置信息是不同于所述动态场景配置信息的场景配置信息。