CN117980951A - 信息处理装置和方法 - Google Patents

信息处理装置和方法 Download PDF

Info

Publication number
CN117980951A
CN117980951A CN202280064001.5A CN202280064001A CN117980951A CN 117980951 A CN117980951 A CN 117980951A CN 202280064001 A CN202280064001 A CN 202280064001A CN 117980951 A CN117980951 A CN 117980951A
Authority
CN
China
Prior art keywords
texture
video
packed
file
textures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280064001.5A
Other languages
English (en)
Inventor
高桥辽平
平林光浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN117980951A publication Critical patent/CN117980951A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开内容涉及能够使用场景描述将多个视频分量同时用于一个对象的信息处理装置和方法。在场景描述文件的材料层中定义的3D对象视频扩展中,为3D对象视频中包括的视频分量设置分量索引,每个视频分量的分量索引具有不同的值。基于分量索引将视频分量存储在对应的缓冲器中,基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像。本公开内容可以应用于例如信息处理装置、信息处理方法等。

Description

信息处理装置和方法
技术领域
本公开内容涉及信息处理装置和方法,更具体地,涉及能够使用场景描述将多个视频分量同时用于一个对象的信息处理装置和方法。
背景技术
在相关技术中,存在GL传输格式(glTF)(注册商标)2.0,其是用于在三维空间中放置和呈现3D(three-dimensional,三维)对象的场景描述(Scene Description)的格式(例如,见非专利文献1)。
此外,在运动图像专家组(MPEG)-I场景描述中,已经提出了在时间方向上扩展glTF 2.0并处理动态内容的方法(例如,见非专利文献2)。
此外,提出了对包括纹理视频和动态网格的3D对象视频的呈现支持(例如,见非专利文献3)。此外,在包括纹理视频和动态网格的3D对象中,存在以视图相关纹理(VD纹理)格式对纹理视频进行编码的技术(例如,见专利文献1和专利文献2)。在VD纹理方法的情况下,可以显示比常规纹理视频具有更高图像质量的3D对象。
VD纹理是根据视点来映射到网格上的纹理视频,并且在VD纹理方法的情况下,针对一个动态网格准备从不同方向映射的多个VD纹理。这种VD纹理允许将多个VD纹理同时映射到一个网格上。
近年来,与VD纹理方法一样,人们也期望支持MPEG-I场景描述中的一个3D对象可以同时使用的多个视频分量的3D数据。
注意,在场景描述的mesh.primitives.attribute层中,已经存在针对每个图块划分访问器的方法(例如,见非专利文献4)。此外,存在将多个LoD纹理链接到场景描述的材料(material)层以使得可以根据视点位置的变化切换要使用的纹理的方法(例如,见非专利文献5)。注意,上述3D对象视频的比特流可以存储在例如国际标准化组织基本媒体文件格式(ISOBMFF)中(例如,见非专利文献6)。
引用列表
非专利文献
非专利文献1:Saurabh Bhatia,Patrick Cozzi,Alexey Knyazev,Tony Parisi,“Khronos glTF2.0”,https://github.com/KhronosGroup/glTF/tree/master/specification/2.0,2017年6月9日
非专利文献2:“Potential improvement of ISO/IEC DIS23090-14SceneDescription for MPEG Media”,ISO/IEC JTC 1/SC 29/WG 03N0321,2021-08-03
非专利文献3:“Technologies under Consideration on Scene Descriptionfor MPEG Media”,ISO/IEC JTC 1/SC 29/WG 03N292,2021-07-26
非专利文献4:Imed Bouazizi,Thomas Stockhammer,“Attribute Registrationfor V3C”,ISO/IEC JTC 1/SC 29/WG 03m57411,2021-07-07
非专利文献5:Saurabh Bhatia,Gary Hsu,Adam Gritt,John Copic,MarcAppelsmeier,Dag Frommhold,“MSFT_lod”,https://github.com/KhronosGroup/glTF/blob/main/extensions/2.0/Vendor/MSFT_lo d/README.md
非专利文献6:“Information technology-JPEG 2000image coding system-Part12:ISO base media file format”,ISO/IEC FDIS14496-12:2018,2020-12
专利文献
专利文献1:WO 2021/079592
专利文献2:WO 2021/193213
发明内容
本发明要解决的问题
然而,在常规的MPEG-I场景描述中,无法在场景描述中描述可以同时用于一个3D对象的多个视频分量。
针对这种情况提出了本公开内容,并且本公开内容能够使用场景描述将多个视频分量同时用于一个对象。
问题的解决方案
根据本技术的一个方面的信息处理装置是如下的信息处理装置,该信息处理装置包括:文件处理单元,其基于分量索引将3D对象视频中包括的视频分量存储在与该视频分量对应的缓冲器中;以及显示图像生成单元,其基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像,其中,在一个3D对象中能够同时使用多个视频分量,并且在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
根据本技术的一个方面的信息处理方法是如下的信息处理方法,该信息处理方法包括:基于分量索引将3D对象视频中包括的视频分量存储在与该视频分量对应的缓冲器中;以及基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像,其中,在一个3D对象中能够同时使用多个视频分量,并且在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
根据本技术的另一个方面的信息处理装置是如下的信息处理装置,该信息处理装置包括文件生成单元,该文件生成单元生成场景描述文件,并且在场景描述文件的材料层中定义的用于3D对象视频的扩展中为该3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值,其中,在一个3D对象中能够同时使用多个视频分量。
根据本技术的另一个方面的信息处理方法是如下的信息处理方法,该信息处理方法包括:生成场景描述文件,并且在场景描述文件的材料层中定义的用于3D对象视频的扩展中为该3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值,其中,在一个3D对象中能够同时使用多个视频分量。
在根据本技术的一个方面的信息处理装置和方法中,基于分量索引将3D对象视频中包括的视频分量存储在与该视频分量对应的缓冲器中,基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像。
在根据本技术的另一个方面的信息处理装置和方法中,生成场景描述文件,并且在场景描述文件的材料层中定义的用于3D对象视频的扩展中为该3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值。
附图说明
图1是示出glTF 2.0的主要配置示例的图。
图2是示出glTF对象和参考关系的示例的图。
图3是示出场景描述的描述示例的图。
图4是用于描述访问二进制数据的方法的图。
图5是示出场景描述的描述示例的图。
图6是用于描述对象扩展方法的图。
图7是示出客户端处理的配置的图。
图8是示出用于处理定时元数据的扩展的配置示例的图。
图9是示出场景描述的描述示例的图。
图10是示出客户端中对动态网格和纹理视频的处理的示例的图。
图11是示出场景描述中支持动态网格和纹理视频的对象的配置示例的图。
图12是示出场景描述的描述示例的图。
图13是用于描述VD纹理的图。
图14是用于描述打包的VD纹理的图。
图15是示出场景描述中支持图块结构的对象的配置示例的图。
图16是示出支持纹理切换的场景描述的描述示例的图。
图17是示出ISOBMFF的框结构的示例的图。
图18是示出使用场景描述将多个视频分量同时用于一个对象的方法的示例的图。
图19是示出其中可以将多个视频分量同时用于一个对象的场景描述中的对象的配置示例的图。
图20是示出场景描述的描述示例的图。
图21是示出场景描述中支持VD纹理的对象的配置示例的图。
图22是示出场景描述中支持打包的VD纹理的对象的配置示例的图。
图23是示出用于存储VD纹理的摄像装置参数的场景描述的描述示例的图。
图24是示出摄像装置参数的描述示例的图。
图25是示出用于存储其中为每个字段设置了索引的VD纹理的摄像装置参数的场景描述的描述示例的图。
图26是示出用于存储打包的VD纹理的摄像装置参数和打包元数据的场景描述的描述示例的图。
图27是示出摄像装置参数的描述示例的图。
图28是示出打包元数据的描述示例的图。
图29是示出用于存储其中为每个VD纹理设置了索引的打包的VD纹理的摄像装置参数和打包元数据的场景描述示例的图。
图30是示出摄像装置参数的描述示例的图。
图31是示出打包元数据的描述示例的图。
图32是示出其中为每个字段设置了索引的摄像装置参数的描述示例的图。
图33是场景描述的描述示例的图。
图34是示出文件生成装置的主要配置示例的框图。
图35是示出文件生成处理的流程的示例的流程图。
图36是示出客户端装置的主要配置示例的框图。
图37是示出再现处理的流程的示例的流程图。
图38是示出计算机的主要配置示例的框图。
具体实施方式
在下文中,将描述实施本公开内容的模式(在下文中称为实施方式)。注意,将按以下顺序进行描述。
1.支持技术内容和技术术语的文献等
2.MPEG-I场景描述
3.与多个视频分量对应的场景描述
4.第一实施方式(文件生成装置)
5.第二实施方式(客户端装置)
6.附录
<1.支持技术内容和技术术语的文献等>
本技术中公开的范围不仅包括实施方式中描述的内容,而且还包括以下非专利文献和专利文献等中描述的在提交时已公知的内容、以下非专利文献和专利文献中引用的其他文献的内容。
非专利文献1:(以上所述)
非专利文献2:(以上所述)
非专利文献3:(以上所述)
非专利证书4:(以上所述)
非专利文献5:(以上所述)
非专利文献6:(以上所述)
专利文献1:(以上所述)
专利文献2:(以上所述)
也就是说,上述非专利文献和专利文献中描述的内容、上述非专利文献和专利文献中引用的其他文献的内容等用作用于确定支持要求的基础。例如,即使在非专利文献1至非专利文献5中描述的glTF 2.0及其扩展、专利文献1和专利文献2中描述的3D对象配置中使用的术语、非专利文献6的文件格式结构等在本发明的详细描述中没有直接定义的情况下,上述内容也在本公开内容的范围内,并且满足权利要求书的支持要求。此外,例如,即使在本发明的详细描述中没有直接定义诸如解析、语法和语义的技术术语的情况下,类似地,它们也在本公开内容的范围内并且满足权利要求的支持要求。
<2.MPEG-I场景描述>
<glTF 2.0>
在相关技术中,例如,如非专利文献1所述,存在GL传输格式(glTF)(注册商标)2.0,其是用于在三维空间中放置3D(三维)对象的格式。例如,如图1所示,glTF 2.0包括JSON格式文件(glTF)、二进制文件(.bin)和图像文件(.png,.jpg等)。二进制文件存储二进制数据,例如几何形状和动画。图像文件存储诸如纹理的数据。
JSON格式文件是以JSON(JavaScript(注册商标)对象符号)描述的场景描述文件(scene description file)。场景描述是描述3D内容的场景(的描述)的元数据。场景描述的描述定义了场景是什么种类的场景。场景描述文件是存储这样的场景描述的文件。在本公开内容中,场景描述文件也被称为场景描述文件。
JSON格式文件的描述包括键(KEY)和值(VALUE)对的列表。以下将描述格式的示例。
“KEY”:“VALUE”
键包括字符串。值包括数值、字符串、真/假值、数组、对象、空等。
此外,可以使用{}(大括号)将键和值的多个对("KEY":"VALUE")放在一起。一起放在大括号中的对象也被称为JSON对象。以下将描述格式的示例。
“user”:{“id”:1,“name”:“tanaka”}
在本示例中,将一对“id”:1和一对“name”:“tanaka”放在一起的JSON对象被定义为与键(用户)对应的值。
此外,可以使用[](方括号)来设置零个或更多个值。这个数组也被称为JSON数组。例如,JSON对象可以被应用为该JSON数组的元素。下面将描述格式的示例。
test”:[“hoge”,“fuga”,“bar”]
“users”:[{“id”:1,“name”:“tanaka”},{“id”:2,“name”:“yamada”},{“id”:3,“name”:“sato”}]
图2示出了可以在JSON格式文件顶部处描述的glTF对象(glTF object)以及它们具有的参考关系。图2所示的树状结构中的长圆圈指示对象,对象之间的箭头指示参考关系。如图2所示,在JSON格式文件的顶部处描述了诸如“场景(scene)”、“节点(node)”、“网格(mesh)”、“摄像装置(camera)”、“皮肤(skin)”、“材料(material)”和“纹理”的对象。
这样的JSON格式文件的描述示例(场景描述)在图3中示出。图3的JSON格式文件20示出了顶部的一部分的描述示例。在JSON格式文件20中,所有所使用的顶层对象(top-level object)21在顶部处描述。顶层对象21是图2中示出的glTF对象。此外,在JSON格式文件20中,对象(object)之间的参考关系如由箭头22所指示的来指示。更具体地,通过指定要参考的对象的数组中的元素的索引(index)具有上级对象的性质(property)来指示参考关系。
<访问数据的方法>
图4是示出访问二进制数据的方法的图。如图4所示,二进制数据存储在缓冲器对象(buffer object)中。也就是说,指定了用于访问缓冲器对象中的二进制数据的信息(例如,统一资源标识符(URI)等)。在JSON格式文件中,如图4所示,可以经由访问器对象(accessor object)和缓冲视图对象(bufferView object)以例如从诸如网格(mesh)、摄像装置(camera)和皮肤(skin)的对象来访问缓冲器对象。
也就是说,在诸如网格(mesh)、摄像装置(camera)或皮肤(skin)的对象中指定要参考的访问器对象。图5示出了JSON格式文件中的网格对象(mesh)的描述示例。例如,如图5所示,在网格对象中,诸如NORMAL、POSITION、TANGENT和TEXCORD_0的顶点的属性(attribute)被定义为键,并且要参考的访问器对象被指定为每个属性的值。
<对象的扩展>
接下来,将描述这样的场景描述的对象的扩展。glTF 2.0的每个对象可以在扩展对象(extension object)中存储新定义的对象。图6示出了在指定新定义的对象(ExtensionExample)的情况下的描述示例。如图6所示,在使用新定义的扩展的情况下,扩展对象名称(在图6的示例中,ExtensionExample)在“extensionUsed”和“extensionRequired”中被描述。这指示该扩展是被使用的扩展或者是加载(load)所需要的扩展。
<客户端处理>
接下来,将描述运动图像专家组(MPEG)-I场景描述中客户端装置的处理。客户端装置获取场景描述,基于场景描述获取3D对象的数据,并且使用场景描述和3D对象的数据生成显示图像。
如非专利文献2中所述,在客户端装置中,呈现引擎、媒体访问功能等执行处理。例如,如图7所示,客户端装置50的呈现引擎(Presentation Engine)51获取场景描述的初始值和用于更新场景描述的信息(以下,也被称为更新信息),并在处理目标时间处生成场景描述。然后,呈现引擎51解析场景描述,并标识要再现的媒体(运动图像、音频等)。然后,呈现引擎51请求媒体访问功能(Media Access Function)52,以经由媒体访问API(MediaAccess API,应用程序接口)获取媒体。此外,呈现引擎51还执行设置流水线处理、指定缓冲器等。
媒体访问功能52从云(Cloud)、本地存储装置(Local Storage)等处获取由呈现引擎51请求的媒体的各种数据。媒体访问功能52将获取的媒体的各种数据(编码数据)提供至流水线(Pipeline)53。
流水线53通过流水线处理对所提供的媒体的各种数据(编码数据)进行解码,并且将解码结果提供至缓冲器(Buffer)54。缓冲器54保存所提供的介质的各种数据。
呈现引擎51使用保存在缓冲器54中的媒体的各种数据执行呈现(Rendering)等。
<定时媒体的应用>
近年来,例如,如非专利文献2中所述,在MPEG-I场景描述中,已经研究了扩展glTF2.0并应用定时媒体(Timed media)作为3D对象内容。定时媒体是在时间方向上像二维图像中的运动图像一样变化的媒体数据。在本说明书中,时间方向上的变化也被称为“动态”。此外,不在时间方向上的变化也被称为“静态”。
glTF只适用于作为媒体数据(3D对象内容)的静态数据。也就是说,glTF不对应于动态媒体数据。在3D对象变为动态的情况下,应用了动画(在时间方向上切换静态媒体数据的方法)。
在MPEG-I场景描述中,已经研究了应用glTF 2.0,应用JSON格式文件作为场景描述,并进一步扩展glTF,以便可以将定时媒体(例如视频数据)作为媒体数据来处理。为了处理定时媒体,例如执行以下扩展。
图8是用于描述用于处理定时媒体的扩展的图。在图8的示例中,运动图像专家组(MPEG)媒体对象(MPEG_media)是glTF的扩展,并且是指定例如MPEG媒体的属性(如uri、track、renderingRate、startTime等)的对象。
此外,如图8所示,MPEG纹理视频对象(MPEG_texture_video)作为纹理对象(texture)的扩展对象(extensions)被提供。在MPEG纹理视频对象中,关于与要访问的缓冲对象对应的访问器的信息被存储。也就是说,MPEG纹理视频对象是指定与缓冲器(buffer)对应的访问器
(accessor)的索引的对象,在该缓冲器中,由MPEG媒体对象(MPEG_media)指定的纹理媒体(texturemedia)被解码和存储。具有MPEG纹理视频对象的纹理对象被称为视频分量。
图9是示出用于描述用于处理定时媒体的扩展的场景描述中的MPEG媒体对象(MPEG_media)和MPEG纹理视频对象(MPEG_texture_video)的描述示例的图。在图9的示例中,在从顶部开始的第二行中,MPEG纹理视频对象(MPEG_texture_video)被设置为如下所述的纹理对象(texture)的扩展对象(extensions)。然后,访问器的索引(在本示例中为“2”)被指定为MPEG视频纹理对象的值。
“texture”:[{“sampler”:0,“source”:1,
“extensions”:{“MPEG_texture_video”:“accessor”:2}}],
此外,在图9的示例的情况下,在从顶部开始的第7至16行中,MPEG媒体对象(MPEG_media)被设置为如下文所述的glTF的扩展对象(extensions)。然后,作为MPEG媒体对象的值,例如,与MPEG媒体对象有关的各种信息例如MPEG媒体对象的编码和URI被存储。
此外,每一帧数据被解码并按顺序存储在缓冲器中,但其位置等是波动的。因此,场景描述具有某种机制来存储波动信息,以便呈现器(renderer)可以读取数据。例如,如图8所示,MPEG缓冲循环对象(MPEG_buffer_circular)被提供作为缓冲对象(buffer)的扩展对象(extensions)。用于将数据动态存储在缓冲对象中的信息被存储在MPEG缓冲循环对象中。例如,诸如指示缓冲头(bufferHeader)的数据长度的信息和指示帧数目的信息被存储在MPEG缓冲循环对象中。注意,缓冲头例如存储诸如索引(index)、存储帧数据的时间戳、数据长度等信息。
另外,如图8所示,MPEG访问器定时对象(MPEG_timed_accessor)被提供作为访问器对象(accessor)的扩展对象(extensions)。在这种情况下,由于媒体数据是运动图像,在时间方向上参考的缓冲视图对象(bufferView)可能会改变(位置可能会变化)。因此,指示要参考的缓冲视图对象的信息被存储在MPEG访问器定时对象中。例如,MPEG访问器定时对象存储指示对其中描述定时访问器信息头(timedAccessor information header)的缓冲视图对象(bufferView)的参考的信息。注意,定时访问器信息头是例如在动态变化的访问器对象和缓冲视图对象中存储信息的头信息。
<动态网格的流水线>
非专利文献3公开了对客户端中的动态网格和纹理视频的处理。在动态网格是动态网格的情况下,例如,如图10中粗线方框所示,网格的顶点信息(位置)、指示纹理的坐标系的纹理坐标信息(纹理坐标信息)、顶点的索引等被单独存储在缓冲器中。注意,这些数据可以被编码并存储在缓冲器中,或者可以不经编码而存储在缓冲器中。纹理视频是应用于动态网格的动态纹理(在本说明书中也称为映射)。纹理视频通过用于2D图像的编码方法(例如,高效视频编码(HEVC))进行编码,通过编码方法进行解码,并且存储在与动态网格不同的缓冲器中。
<动态网格纹理的设置>
此外,非专利文献3公开了支持这种纹理视频和动态网格的场景描述。图11示出了这种场景描述中对象的主要配置示例。如图11所示,动态网格被存储在与场景描述的原语的属性层中指定的访问器对应的缓冲器中。另一方面,纹理视频被存储在与场景描述的原语的材料层中指定的访问器对应的缓冲器中。这样,动态网格和纹理视频一一对应。也就是说,如图12所示的描述示例,在场景描述中,一个纹理视频的信息存储在材料层中。
<VD纹理>
专利文献1公开了视图相关纹理(View Dependent Texture,VD纹理)格式,其用于将与网格上的视点对应的纹理映射为网格(的纹理)的数据格式。
常规的纹理(在本说明书中,也称为视图独立纹理(View Independent Texture,VI纹理))是由映射到整个一条网格信息M的纹理配置而成的,如图13左侧所示。因此,在VI纹理格式的情况下,构成VI纹理的所有纹理都映射到网格信息M上,而不取决于视点。也就是说,无论视点的位置和方向如何(无论纹理是否用于呈现),纹理都映射到整个网格信息M上。如图13左侧所示,在编码时,VI纹理数据形成为UV纹理图,该UV纹理图被存储(也称为打包)在每个簇(也称为补丁)的UV坐标系的二维平面上。也就是说,在这种情况下,一条网格信息M和一个UV纹理图是相互关联编码的(即,网格和纹理是一对一相关联的)。
另一方面,VD纹理是根据视点映射到网格上的纹理。例如,如图13右侧所示,VD纹理包括通过从某个视点捕获3D对象的图像而获得的捕获图像(摄像装置视频)。在映射时,所捕获的图像(纹理)从视点方向映射到网格。也就是说,VD纹理包括网格的从视点观察到的部分的纹理。因此,一般情况下,整个网格信息M的纹理无法被一个VD纹理覆盖,因此,如图13右侧所示,从不同方向映射的多个VD纹理与一条网格信息M相关联。然后,根据呈现时视点的位置和方向选择必要的VD纹理(例如,靠近呈现的视点位置的VD纹理),并且将该VD纹理映射到网格信息M上。
一般来说,在比较VD纹理格式与VI纹理格式的情况下,VD纹理格式的呈现(映射)的处理负荷较大。然而,在VD纹理格式中,编码器侧的处理负荷较小。此外,VD纹理格式中代码量较大。然而,VD纹理格式更适合人类的感知特征,因为人类往往更重视纹理的分辨率和保真度,而不是凹凸不平的形状,而且呈现显示图像的主观图像质量较高。
注意,多个VD纹理可以同时映射到一个网格上。在本说明书中,“同时映射”指示在至少一个定时处存在“多个VD纹理映射到一个网格的状态”。多个VD纹理中的每一个的映射的定时可以彼此不同。
<封装的VD纹理>
专利文献2公开了称为打包的VD纹理的数据格式,在该数据格式中,多个VD纹理被打包在一个图像中并且发送到客户端。例如,在图14的情况下,由从不同视点捕获的图像配置的VD纹理61至66被打包在二维图像60中。也就是说,在打包的VD纹理的情况下,多个VD纹理被编码为一个图像。解码器对比特流进行解码以获得其图像,从图像中提取所需的VD纹理(也称为解包),并且将图像映射到网格上。
在打包的VD纹理格式的情况下,由于VD纹理通常都降低了分辨率并且被打包,因此显示图像的主观图像质量低于VD纹理格式的情况下的主观图像质量。另外,在打包的VD纹理格式的情况下,多个解包的VD纹理可以同时映射到一个网格上。
此外,打包的VD纹理和VD纹理可以结合使用。例如,编码器可以将多个VD纹理和打包的VD纹理与一个网格相关联地编码。此外,在这种情况下,解码器可以将VD纹理和打包的VD纹理的经解包的VD纹理二者映射到一个网格。
<同时使用多个视频分量>
近年来,人们期望在MPEG-I场景描述中支持能够对一个3D对象同时使用多个视频分量例如VD纹理格式和打包的VD纹理格式的3D数据。注意,在本说明书中,“同时使用”指示至少在一个定时处存在“多个视频分量用于一个3D对象的状态”。使用多个视频分量中的每一个的定时可以彼此不同。此外,“使用”指示使用视频分量执行一些处理。例如,“将纹理映射到网格”可以说是“使用纹理”。
<图块>
同时,非专利文献4公开了将网格与场景描述中的缓冲器以图块为单位关联起来的方法,例如,如图15所示。在图15的示例中,在原语的属性层中的每个图块都设置了扩展对象,并且扩展对象与不同的访问器相关联。因此,在这种方法的情况下,网格数据被存储在用于每个图块的不同缓冲器中。因此,呈现引擎(PE)可以选择和重新配置所需的图块。
<纹理切换>
此外,非专利文献5公开了例如图16所示的将多个纹理链接到原语的材料层的方法。在图16的示例中,如实线方框82中所示,在场景描述80中设置了扩展对象“MSFT_lod”,并且如实线方框84和实线方框86所示,基于分辨率等对纹理进行分层(转换为LoD)。因此,基本颜色信息纹理(baseColorTexture)设置有多个LoD(分辨率),如虚线方框81、虚线方框83和虚线方框85所示。然后,为每个LoD分配不同的索引。也就是说,每个LoD的纹理都与不同的访问器相关联。也就是说,每个LoD的纹理被存储在不同的缓冲器中。
解码器的呈现引擎(PE)选择并映射多个LoD中的任何一个。例如,呈现引擎根据视点位置选择任何一个LoD。以这种方式,呈现引擎可以例如根据视点位置的变化来切换要映射的纹理的LoD。
<ISOBMFF>
如上所述,包括动态网格和纹理视频(例如,VD纹理、打包的VD纹理等)的3D对象视频的编码数据可以被存储在例如图17中所示的国际标准化组织基本媒体文件格式(ISOBMFF)的文件容器中。ISOBMFF已在非专利文献6中公开。
<支持可以同时使用的多个视频分量>
然而,在常规的MPEG-I场景描述中,无法在场景描述中描述可以同时用于一个3D对象的多个视频分量。
例如,在非专利文献4中描述的方法中,动态网格可以与原语的属性层中的每个图块的不同访问器相关联,但是视频分量不能与材料层中的不同访问器相关联。此外,在非专利文献5所述的方法中,无法同时使用多个视频分量。
<3.与多个视频分量对应的场景描述>
<方法1>
因此,如图18的表格的顶部所示,在场景描述(SD)的材料层中定义3D对象视频的扩展对象(extension),并且为扩展对象中的每个视频分量设置索引(方法1)。
例如,信息处理装置(例如文件生成装置)包括文件生成单元,该文件生成单元生成场景描述文件,并且在场景描述文件的材料层中定义的用于3D对象视频的扩展中为该3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值。注意,在一个3D对象中能够同时使用多个视频分量。
此外,在信息处理方法(例如,文件生成方法)中,生成场景描述文件,并且在场景描述文件的材料层中定义的用于3D对象视频的扩展中为该3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值。注意,在一个3D对象中能够同时使用多个视频分量。
例如,信息处理装置(例如,再现装置)包括:文件处理单元,其基于分量索引将3D对象视频中包括的视频分量存储在与该视频分量对应的缓冲器中;以及显示图像生成单元,其基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像。注意,在一个3D对象中能够同时使用多个视频分量。此外,在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
此外,在信息处理方法(例如,再现方法)中,基于分量索引将3D对象视频中包括的视频分量存储在与该视频分量对应的缓冲器中,基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像。注意,在一个3D对象中能够同时使用多个视频分量。此外,在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
通过在场景描述中以这种方式进行描述,多个视频分量可以与不同的访问器相关联。因此,再现装置的媒体访问功能(MAF)可以基于场景描述将多个视频分量存储在不同的缓冲器中。因此,再现装置的呈现引擎可以选择所需的视频分量,并且将所选择的视频分量映射到一个对象上。也就是说,使用场景描述,多个视频分量可以同时用于一个对象。
<方法1-1>
此外,在应用方法1的情况下,可以为每个VD纹理或打包的VD纹理设置索引,如图18的表格的从顶部起第二行所示(方法1-1)。也就是说,VD纹理或打包的VD纹理可以应用为视频分量。
例如,在VD纹理的情况下,“使用”指示“映射VD纹理”。也就是说,“将多个VD纹理映射到一个网格”可以说是“同时使用多个视频分量”。此外,在打包的VD纹理的情况下,“使用”指示“从打包的VD纹理映射多个解包的VD纹理”。也就是说,“将多个解包的VD纹理从打包的VD纹理映射到一个网格”可以说是“同时使用多个视频分量”。
例如,在上述信息处理装置(例如,文件生成装置)中,视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。此外,文件生成单元可以在其扩展中为3D对象视频中包括的多个VD纹理中的每一个设置分量索引。
此外,在上述信息处理装置(例如,文件生成装置)中,视频分量可以是打包的VD纹理,在该打包的VD纹理中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理。此外,文件生成单元可以在扩展中为打包的VD纹理设置分量索引。
例如,在上述信息处理装置(例如,再现装置)中,视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。此外,文件处理单元可以基于分量索引,将具有彼此不同的视点的多个VD纹理存储在与VD纹理中的每一个对应的缓冲器中。此外,显示图像生成单元可以基于分量索引从缓冲器中获取所需的VD纹理。然后,显示图像生成单元可以将所获取的VD纹理映射到3D对象(网格)上。然后,显示图像生成单元可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
此外,在上述信息处理装置(例如,再现装置)中,视频分量可以是打包的VD纹理,在该打包的VD纹理中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理。此外,文件处理单元可以基于分量索引将打包的VD纹理存储在与打包的VD纹理对应的缓冲器中。此外,显示图像生成单元可以基于分量索引从缓冲器中获取打包的VD纹理。然后,显示图像生成单元可以从所获取的打包的VD纹理中解包所需的VD纹理。然后,显示图像生成单元可以将解包的VD纹理映射到3D对象(网格)上。然后,显示图像生成单元可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
例如,场景描述的对象的配置可以如图19所示的示例中那样。也就是说,3D对象视频的扩展对象“MPEG_video_components”可以在原语的材料层中提供,并且每个VD纹理或打包的VD纹理可以与MPEG_video_components中的不同访问器相关联。MPEG_video_components可以在原语中而不是在原语的材料层中提供。
因此,场景描述的描述可以如图20所示的示例中那样。也就是说,可以为每个VD纹理或打包的VD纹理设置索引(也称为分量索引)。如上所述,分量索引是使得每个视频分量的分量索引具有不同值的索引。也就是说,在图19和图20的示例中,每个VD纹理或打包的VD纹理的分量索引具有不同的值。在图20的示例中,如方框112所示,在材料层111中,为一个VD纹理(“vdTexture”)设置索引“1”(“index”:1),为一个打包的VD纹理(“packagedVdTexture”)设置索引“2”(“index”:2)。在存在多个VD纹理的情况下,为每个VD纹理设置具有不同值的分量索引。
通过在场景描述中以这种方式进行描述,每个VD纹理或打包的VD纹理都可以与不同的访问器相关联,如图19的示例中那样。因此,再现装置的媒体访问功能(MAF)可以基于场景描述将每个VD纹理或打包的VD纹理存储在不同的缓冲器中。因此,再现装置的呈现引擎可以选择所需的VD纹理或打包的VD纹理,并且将所选择的VD纹理映射到网格上。也就是说,可以使用场景描述将多个VD纹理或打包的VD纹理同时映射到一个网格上。
注意,视频分量仅包括VD纹理,并且可能不包括打包的VD纹理。也就是说,与一个网格相关联的多个VD纹理可以应用为多个视频分量。在这种情况下,场景描述的对象的配置可以如图21的示例中所示。也就是说,3D对象视频的扩展对象“MPEG_video_components”可以在原语的材料层中提供,并且每个VD纹理可以与MPEG_video_components中的不同访问器相关联。MPEG_video_components可以在原语中而不是在原语的材料层中提供。
此外,视频分量仅包括打包的VD纹理,并且可能不包括解包的VD纹理。也就是说,其中打包了与一个网格相关联的多个VD纹理的打包的VD纹理可以应用为多个视频分量。在这种情况下,场景描述的对象的配置可以如图22的示例中所示。也就是说,3D对象视频的扩展对象“MPEG_video_components”可以在原语的材料层中提供,并且打包的VD纹理可以与MPEG_video_components中的访问器相关联。MPEG_video_components可以在原语中而不是在原语的材料层中提供。
<方法1-2>
此外,在应用方法1的情况下,可以为基于视频的点云压缩(V-PCC)的每个视频分量(几何形状、属性或占用)设置索引,如图18的表格的从顶部起第三行所示(方法1-2)。也就是说,V-PCC的几何图、属性图和占用图可以应用为视频分量。
点云是3D数据,该3D数据指示由大量的点组成的3D形状。点云的数据包括每个点的几何形状和属性。几何形状指示点在三维空间中的位置(例如,三维坐标)。属性指示赋予该点的属性信息。属性信息可以是任何信息。例如,可以包括颜色信息、反射率信息、法线信息等。
V-PCC是点云的数据的编码方法之一。在V-PCC中,几何形状和属性分别被打包在每个补丁的二维平面中,并且编码为2D图像(使用2D图像的编码方案)。注意,在V-PCC中,可以将占用图附接至几何形状和属性。占用图是指示几何形状(和属性)在2D图像中存在的范围的信息。占用图是针对具有打包的几何图形的2D图像(本文中也称为几何图)和具有打包的属性的2D图像(在本说明书中也称为属性图)生成的,并且占用图使用与几何图和属性图类似的用于2D图像的编码方案进行编码。也就是说,在V-PCC的情况下,几何图、属性图和占用图分别被配置为视频分量。然后,点云的编码数据包括几何图的编码数据、属性图的编码数据和占用图的编码数据。
在解码时,几何图的编码数据、属性图的编码数据和占用图的编码数据分别使用用于2D图像的编码方法进行解码。然后,基于占用图,从几何图中解包几何图形(的每个补丁),从属性图中解包属性(的每个补丁)。然后,如上所述,使用解包的几何形状和属性重建点云。
也就是说,在V-PCC中,“使用”指示“重建点云”。该点云重建使用上述几何形状和属性进行。此外,为了解包几何形状和属性,使用占用图。也就是说,“使用几何图、属性图和占用图重建点云”可以说是“同时使用几何图、属性图和占用图”。
近年来,人们认为在应用这种V-PCC的情况下,视频分量(几何形状(几何图)、属性(属性图)和占用图)被用作视频分量,并且与场景描述的材料层中的访问器相关联。在这种情况下,与上述VD纹理或打包的VD纹理的情况一样,可以为视频分量设置分量索引,并且每个视频分量可以与不同的访问器相关联。也就是说,可以为几何形状(几何图)、属性(属性图)和占用图中的每一个设置具有不同值的索引,并且索引可以与不同的访问器相关联。
例如,在上述信息处理装置(例如,文件生成装置)中,视频分量可以是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图。此外,文件生成单元可以在扩展中为几何图、属性图和占用图中的每一个设置具有不同值的分量索引。
例如,在上述信息处理装置(例如,再现装置)中,视频分量可以是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图。此外,文件处理单元可以基于分量索引将几何图、属性图和占用图存储在与几何图、属性图和占用图对应的缓冲器中。此外,显示图像生成单元可以基于分量索引从缓冲器中获取几何图、属性图和占用图。然后,显示图像生成单元可以使用所获取的几何图、属性图和占用图重建点云。然后,显示图像生成单元可以使用重建的点云生成显示图像。
<方法1-3>
在应用方法1并且将VD纹理应用为视频分量的情况下,可以存储VD纹理的摄像装置参数(方法1-3),如图18的表格的从顶部起第四行所示。
VD纹理可以如上所述由从某个视点捕获的捕获图像构成。在场景描述中可以存储摄像装置参数,该摄像装置参数是与用于生成捕获图像的成像(摄像装置)有关的参数,即与VD纹理对应的摄像装置参数。例如,在将VD纹理映射到网格上时,可以使用该摄像装置参数。
例如,在上述信息处理装置(例如,文件生成装置)中,文件生成单元可以进一步将与VD纹理对应的摄像装置参数存储在3D对象视频的扩展中。
例如,在上述信息处理装置(例如,再现装置)中,文件处理单元可以进一步将与VD纹理对应的摄像装置参数存储在与VD纹理对应的缓冲器中。此外,显示图像生成单元可以进一步基于分量索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数。然后,显示图像生成单元可以使用的获取的摄像装置参数将VD纹理映射到3D对象上。
例如,如图23所示,在材料层中定义的3D对象视频的扩展对象“MPEG_video_components”中设置了与VD纹理对应的摄像装置参数(“cameraParam”)。也就是说,VD纹理的摄像装置参数被存储在缓冲器中。
图24示出了在场景描述中描述摄像装置参数的方法的示例。在本示例中,摄像装置参数可以包括诸如cam_id、intrinsic_param、Rs、Ts、distortion等的参数。cam_id是用于标识摄像装置的摄像装置标识符。intrinsic_param指示摄像装置的内部参数。Rs和Ts表示摄像装置的外部参数。例如,Rs表示摄像装置(视点)的姿态,而Ts表示摄像装置(视点)的位置。Distortion是指示失真系数的输出矢量的参数。当然,存储在场景描述中的摄像装置参数中包括的参数内容是任意的。例如,可以包括除上述示例中的参数以外的参数,或者可以省略上述示例中的某些参数。
被参考的访问器具有MPEG_accessor_timed。通过设置immutable=TRUE,可以访问从MPEG媒体中提取并且存储在缓冲器中的静态数据。
注意,如图23所示,在摄像装置参数(“cameraParam”)中,为每个VD纹理设置索引(访问器索引)。也就是说,对于每个VD纹理,摄像装置参数被存储在不同的缓冲器中。
如上所述,通过在场景描述中存储与(生成摄像装置的)VD纹理对应的摄像装置参数,再现装置可以更容易地基于摄像装置参数将VD纹理映射到网格上。
<方法1-3-1>
注意,在应用方法1-3的情况下,如图18的表格的从顶部第五行所示,可以为摄像装置参数的字段中的每一个设置索引(方法1-3-1)。也就是说,可以为摄像装置参数的字段中的每一个设置索引(也称为字段索引),字段中的每一个的索引具有不同的值。
例如,在上述信息处理装置(例如,文件生成装置)中,文件生成单元可以进一步在扩展中为摄像装置参数的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
例如,在上述信息处理装置(例如,再现装置)中,文件处理单元可以基于字段索引将摄像装置参数的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,显示图像生成单元可以进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数的字段中的每一个。然后,显示图像生成单元可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在扩展中,为摄像装置参数的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
在图25的示例中,为摄像装置标识符cameraId设置索引值“100”。此外,为内部参数intrinsicParam设置索引值“101”。此外,为外部参数Rs设置索引值“102”。此外,为外部参数Ts设置索引值“103”。此外,为失真系数的输出矢量失真设置索引值“104”。也就是说,在场景描述中,为摄像装置参数设置对于字段中的每一个具有不同值的索引。以这种方式,再现装置的媒体访问功能可以基于场景描述,将这些摄像装置参数存储在用于字段中的每一个的不同缓冲器中。因此,再现装置的呈现引擎通过基于场景描述选择缓冲器,可以容易地获取所需字段的摄像装置参数。
<方法1-4>
此外,在应用方法1并且打包的VD纹理被应用为视频分量的情况下,打包的VD纹理的摄像装置参数和打包元数据可以如图18的表格的从顶部起第六行所示进行存储(方法1-4)。
如上所述,在打包的VD纹理中,多个VD纹理被打包。可以在场景描述中存储摄像装置参数,该摄像装置参数是与生成每个VD纹理(捕获图像)的成像(摄像装置)有关的参数,即,与打包的VD纹理中打包的每个VD纹理对应的摄像装置参数。例如,当将解包的VD纹理映射到网格上时,可以使用该摄像装置参数。
此外,还可以在场景描述中存储指示VD纹理被打包在打包的VD纹理中的何处等的打包元数据。例如,该打包元数据可以用于从打包的VD纹理中解包VD纹理。
例如,在上述信息处理装置(例如,文件生成装置)中,文件生成单元可以进一步在扩展中存储与打包的VD纹理对应的摄像装置参数和打包元数据。
例如,在上述信息处理装置(例如,再现装置)中,文件处理单元可以进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在与打包的VD纹理对应的缓冲器中。此外,显示图像生成单元可以进一步基于分量索引从缓冲器中获取与打包的VD纹理对应的摄像装置参数和打包元数据。然后,显示图像生成单元可以基于所获取的打包元数据,从打包的VD纹理中解包所需的VD纹理。然后,显示图像生成单元可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。
例如,如图26所示,在材料层中定义的3D对象视频的扩展对象“MPEG_video_components”中设置与打包的VD纹理对应的摄像装置参数(“packagedCameraParam”)和打包元数据(“packagedMeta”)。也就是说,打包的VD纹理的摄像装置参数和打包元数据被存储在缓冲器中。
图27示出了在场景描述中描述摄像装置参数的方法的示例。同样在这种情况下,摄像装置参数中包括的参数内容是任意的。例如,可以包括诸如cam_id、intrinsic_param、Rs、Ts和distortion的参数。然而,由于打包的VD纹理包括多个VD纹理,因此与打包的VD纹理对应的摄像装置参数包括多个VD纹理中的每一个的摄像装置参数。因此,在图27的示例中,与图24的示例不同,使用for循环指示所有摄像装置(VD纹理)的每个参数。注意,参数camera_num指示摄像装置(VD纹理)的数量。
图28示出了在场景描述中描述打包元数据的方法的示例。打包元数据包括诸如每个VD纹理被打包在打包的VD纹理中的何处的信息。也就是说,与图27中示出的摄像装置参数的情况下一样,打包元数据被设置为使用for循环指示所有摄像装置(VD纹理)的每个参数。注意,参数camera_num指示摄像装置(VD纹理)的数量。
打包元数据中包括的参数的内容是任意的。例如,可以包括诸如cam_id、src_width[i]、src_height[i]、src_top[i]、src_left[i]、transform_type[i]、dst_width[i]、dst_height[i]、dst_top[i]、dst_left[i]的参数。cam_id是用于标识摄像装置的摄像装置标识符。src_width[i]是指示对应的VD纹理的宽度(横向方向上的长度)的参数。src_height[i]是指示对应的VD纹理的高度(竖直方向上的长度)的参数。src_top[i]是指示对应的VD纹理的上端的位置的参数。src_left[i]是指示对应的VD纹理的左端的位置的参数。这些参数指示从打包的VD纹理解包的状态的值。此外,transform_type[i]是指示打包的VD纹理的排列信息(旋转等)的参数。
dst_width[i]是指示对应的VD纹理的宽度(横向方向上的长度)的参数。dst_height[i]是指示对应的VD纹理的高度(纵向方向上的长度)的参数。dst_top[i]是指示对应的VD纹理的上端的位置的参数。这些参数指示打包的VD纹理中的打包的状态的值。
也就是说,打包元数据指示VD纹理的哪部分被存储在打包的VD纹理的哪部分中。当然,存储在场景描述中的打包元数据包括的参数的内容是任意的。例如,可以包括除上述示例中的参数以外的参数,或者可以省略上述示例中的一些参数。
注意,为摄像装置参数和打包元数据设置不同的索引(访问器索引)。在图26的示例的情况下,为摄像装置参数(“packedCameraParam”)设置索引值“200”,并且为打包元数据(“packedMeta”)设置索引值“201”。也就是说,摄像装置参数和打包元数据被存储在不同的缓冲器中。摄像装置参数被存储在静态缓冲器中,而打包元数据被存储在循环缓冲器中。此外,如图27所示,打包的VD纹理中打包的所有VD纹理的摄像装置参数都集中存储在一个缓冲器中。类似地,如图28所示,打包的VD纹理中打包的所有VD纹理的打包元数据都集中存储在一个缓冲器中。
如上所述,通过在场景描述中存储与打包的VD纹理对应的打包元数据,再现装置可以更容易地基于打包元数据解包VD纹理。此外,通过在场景描述中存储与打包的VD纹理对应的摄像装置参数,再现装置可以更容易地基于摄像装置参数将VD纹理映射到网格。
<方法1-4-1>
注意,在应用方法1-4的情况下,可以为打包的VD纹理中打包的每个VD纹理设置索引,如图18的表格的从顶部起第七行所示(方法1-4-1)。也就是说,可以为打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据设置索引(也称为VD纹理索引),对应的VD纹理中的每一个的VD纹理索引具有不同的值。
例如,在上述信息处理装置(例如,文件生成装置)中,文件生成单元可以进一步在扩展中为打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,对应的VD纹理中的每一个的VD纹理索引具有不同的值。
例如,在上述信息处理装置(例如,再现装置)中,文件处理单元可以基于VD纹理索引将打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据存储在与VD纹理中的每一个对应的缓冲器中。此外,显示图像生成单元可以进一步基于VD纹理索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据。然后,显示图像生成单元可以基于所获取的打包元数据,从打包的VD纹理中解包所需的VD纹理。然后,显示图像生成单元可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述扩展中,为VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,并且对应的VD纹理的VD纹理索引具有不同的值。
在图29的示例中,为与打包的VD纹理中打包的第一VD纹理对应的摄像装置参数(“packedCameraParam_1”)设置索引值“100”。此外,为与打包的VD纹理中的第二VD纹理对应的摄像装置参数(“packedCameraParam_2”)设置索引值“200”。也就是说,为每个摄像装置参数设置VD纹理索引。
在本示例的情况下,如上所述,每个VD纹理的摄像装置参数都被划分。因此,描述摄像装置参数的方法对于每个VD纹理都是独立的,例如,如图30所示。因此,像图27的示例那样使用camera_num的for循环是没有必要的。此外,由于能够标识对应的VD纹理的名称(如“packedCameraParam_1”和“packedCameraParam_2”)被应用为摄像装置参数的名称,因此也无需使用cam_id。
以这种方式,再现装置的媒体访问功能可以基于场景描述将这些摄像装置参数存储在对应的VD纹理中的每一个的不同缓冲器中。因此,再现装置的呈现引擎可以通过基于场景描述选择缓冲器,从而容易地获取所需的VD纹理的摄像装置参数。
类似地,为与打包的VD纹理中打包的第一VD纹理对应的打包元数据(“packedMeta_1”)设置索引值“101”。此外,为与打包的VD纹理中的第二VD纹理对应的打包元数据(“packedMeta_2”)设置索引值“201”。也就是说,为每一条打包元数据设置VD纹理索引。
在本示例的情况下,如上所述,每个VD纹理的打包元数据都被划分。因此,描述打包元数据的方法对于每个VD纹理都是独立的,例如,如图31所示。因此,像图28的示例那样使用camera_num的for循环是没有必要的。此外,由于能够标识对应的VD纹理的名称(如“packedMeta_1”和“packedMeta_2”)被应用为打包元数据的名称,因此也无需使用cam_id。
以这种方式,再现装置的媒体访问功能可以基于场景描述将这些打包元数据存储在对应的VD纹理中的每一个的不同缓冲器中。因此,再现装置的呈现引擎可以通过基于场景描述选择缓冲器,从而容易地获取所需的VD纹理的打包元数据。
<方法1-4-2>
注意,在应用方法1-4的情况下,可以为摄像装置参数和打包元数据的字段中的每一个设置索引,如图18的表格的从顶部起第八行所示(方法1-4-2)。也就是说,与图25的示例类似,可以为摄像装置参数和打包元数据的字段中的每一个设置索引(也称为字段索引),字段中的每一个的索引具有不同的值。
例如,在上述信息处理装置(例如,文件生成装置)中,文件生成单元可以进一步在扩展中为摄像装置参数和打包元数据的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
例如,在上述信息处理装置(例如,再现装置)中,文件处理单元可以基于字段索引将摄像装置参数和打包元数据的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,显示图像生成单元可以进一步基于字段索引,从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据的字段中的每一个。然后,显示图像生成单元可以基于所获取的打包元数据,从打包的VD纹理中解包所需的VD纹理。然后,显示图像生成单元可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在扩展中为摄像装置参数和打包元数据的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
以这种方式,再现装置的媒体访问功能可以基于场景描述将这些摄像装置参数和打包元数据存储在字段中的每一个的不同缓冲器中。因此,再现装置的呈现引擎可以通过基于场景描述选择缓冲器,从而容易地获取所需的摄像装置参数和打包元数据的字段。
注意,上述方法1-4-1和方法1-4-2可以结合应用。也就是说,对于摄像装置参数和打包元数据,可以为对应的VD纹理中的每一个和字段中的每一个设置具有不同值的索引。
在图32的示例中,为包括在摄像装置参数中的内部参数“instrinsicParam_1”设置索引值“101”,该摄像装置参数与打包的VD纹理中打包的一只眼睛的VD纹理对应。类似地,为与该一只眼睛的VD纹理对应的外部参数“Rs_1”设置索引值“102”。类似地,为与该一只眼睛的VD纹理对应的外部参数“Ts_1”设置索引值“103”。类似地,为与该一只眼睛的VD纹理对应的失真系数的输出矢量“distortion_1”设置索引值“104”。
此外,为关于从打包的VD纹理中处于解包状态的VD纹理的信息“src_video_1”设置索引值“201”,该信息被包括在与打包的VD纹理中打包的一只眼睛的VD纹理对应的打包元数据中。类似地,为与一只眼睛的VD纹理对应的打包的VD纹理的排列信息“transformType_1”设置索引值“202”。类似地,为关于与一只眼睛的VD纹理对应的打包的VD纹理中处于打包状态的VD纹理的信息“dst_video_1”设置索引值“203”。
以这种方式,再现装置的媒体访问功能可以基于场景描述将这些摄像装置参数和打包元数据存储在对应的VD纹理中的每一个和字段中的每一个的不同的缓冲器中。因此,再现装置的呈现引擎可以通过基于场景描述选择缓冲器,从而容易地获取与所需的VD纹理对应的摄像装置参数和打包元数据的所需字段。
注意,在图32的示例的情况下,由同一摄像装置捕获的VD纹理的每个参数类型的访问器都与名称(index_X)配对。例如,再现装置的呈现引擎可以通过获取名称为“XXX_1”(XXX是任意字符串)的字段来获取与打包的VD纹理中打包的第一VD纹理对应的摄像装置参数和打包元数据。也就是说,再现装置的呈现引擎可以容易地获取对应的VD纹理中的每一个的摄像装置参数和打包元数据。
<方法1-5>
此外,在应用方法1并且将打包的VD纹理应用为视频分量的情况下,媒体访问功能(MAF)可以从打包的VD纹理中解包VD纹理并且将解包的VD纹理存储在缓冲器中(方法1-5),如图18的表格的从顶部起第九行所示。
在这种情况下,文件生成装置不在场景描述的材料层中设置打包的VD纹理对象。再现装置的媒体访问功能根据打包的VD纹理生成VD纹理,并且将VD纹理存储在场景描述的材料层中的VD纹理对象所参考的循环缓冲器中。呈现引擎(PE)只需如将VD纹理应用为视频分量的情况下那样执行处理。
例如,在场景描述被设置为参考来自多个VD纹理的同一打包的VD纹理的情况下,再现装置的媒体访问功能可以执行上述处理。也就是说,媒体访问功能根据打包的VD纹理生成VD纹理,并且将VD纹理存储在场景描述的材料层中的VD纹理对象所参考的循环缓冲器中。
<方法1-6>
此外,在应用方法1并且将打包的VD纹理应用为视频分量的情况下,媒体访问功能(MAF)可以从打包的VD纹理中解包VD纹理,将VD纹理映射到3D对象(网格),生成VI纹理(UV纹理图),并且将VD纹理存储在缓冲器中(方法1-6),如图18的表格的底行所示。
在这种情况下,文件生成装置不在场景描述的材料层中设置打包的VD纹理对象或VD纹理对象。再现装置的媒体访问功能从打包的VD纹理生成VD纹理,将VD纹理映射到3D对象(网格),生成VI纹理(UV纹理图),并且将UV纹理图存储在对象“MPEG_media”所参考的循环缓冲器中。呈现引擎(PE)只需像将VI纹理(UV纹理图)应用为视频分量的情况下那样执行处理。
例如,在将VD纹理以外的对象设置为在场景描述的材料层中参考VD纹理或打包的VD纹理的情况下,再现装置的媒体访问功能可以执行上述处理。可以通过对象“MPEG_media”的track.codecs来指示从VD纹理以外的对象参考VD纹理或打包的VD纹理的设置。例如,可以将存储VD纹理的ISOBMFF的scheme_type设置为“vdte”,并且可以将存储打包的VD纹理的ISOBMFF的scheme_type设置为“pvdt”。在这种情况下,如果codecs=resv.vdte.***,则指示存储了VD纹理,如果codecs=resv.pvdt.***,则指示存储了打包的VD纹理。
例如,在场景描述如图33所示地设置的情况下,codecs=resv.vdte.***,因此VD纹理被存储在“vd_tex.mp4”中。也就是说,VD纹理以外的对象“MPEG_media”被设置为参考VD纹理。因此,再现装置的媒体访问功能执行上述处理。也就是说,媒体访问功能根据打包的VD纹理生成VD纹理,将VD纹理映射到3D对象(网格),生成VI纹理(UV纹理图),并且将UV纹理图存储在由对象“MPEG_media”参考的循环缓冲器中。
上述每种方法可以与另一种方法适当结合。
<4.第一实施方式>
<文件生成装置>
以上描述的本技术可以应用于任何装置。图34是示出作为应用本技术的信息处理装置的方面的文件生成装置的配置的示例的框图。图34中所示的文件生成装置300是对3D对象内容(例如,诸如点云的3D数据)进行编码并将编码的3D对象内容存储在诸如ISOBMFF的文件容器中的装置。此外,文件生成装置300生成3D对象内容的场景描述文件。
注意,虽然图34示出了诸如处理单元和数据流的主要要素,但是图34中示出的这些不一定包括所有要素。也就是说,在文件生成设备300中,可以存在图34中未示出为块的处理单元,或者可以存在图34中未示出为箭头等的处理或数据流。
如图34中所示,文件生成装置300包括控制单元301和文件生成处理单元302。控制单元301控制文件生成处理单元302。文件生成处理单元302由控制单元301控制并执行与文件生成有关的处理。例如,文件生成处理单元302可以获取要存储在文件中的3D对象内容的数据。此外,文件生成处理单元302可以通过将所获取的3D对象内容的数据存储在文件容器中来生成内容文件。此外,文件生成处理单元302可以生成与3D对象内容对应的场景描述,并且将该场景描述存储在场景描述文件中。文件生成处理单元302可以将生成的文件输出至文件生成装置300的外部。例如,文件生成处理单元302可以将生成的文件上传至分发服务器等。
文件生成处理单元302包括输入单元311、预处理单元312、编码单元313、文件生成单元314、记录单元315和输出单元316。
输入单元311执行与获取3D对象内容的数据(表示对象的三维结构的3D数据)有关的处理。例如,输入单元311可以从文件生成装置300外部获取包括多个视频分量的3D对象视频(动态3D对象)作为3D对象内容的数据。例如,视频分量可以是VD纹理、打包的VD纹理或两者。例如,输入单元311可以获取动态网格和多个VD纹理视频(动态VD纹理)。此外,输入单元311可以获取动态网格、多个VD纹理视频和打包的VD纹理视频(动态打包的VD纹理)。此外,视频分量可以是V-PCC的视频分量(几何图、属性图和占用图)。当然,只要在一个3D对象中可以同时使用多个视频分量,视频分量可以是任何数据,并且不限于这些示例。输入单元311可以将所获取的3D对象内容的数据提供至预处理单元312。
预处理单元312执行与在编码之前对3D对象内容的数据执行的预处理有关的处理。例如,预处理单元312可以获取从输入单元311提供的3D对象内容的数据。此外,预处理单元312可以获取对于从所获取的3D对象内容的数据等生成场景描述必要的信息。此外,预处理单元312可以将所获取的信息提供至文件生成单元314。此外,预处理单元312可以将3D对象内容的数据提供至编码单元313。
编码单元313执行与3D对象内容的数据的编码有关的处理。例如,编码单元313可以获取从预处理单元312提供的3D对象内容的数据。此外,编码单元313可以对所获取的3D对象内容的数据执行编码并生成编码数据。
例如,在提供动态网格和多个VD纹理视频的情况下,编码单元313可以对每个动态网格和多个VD纹理视频进行编码。此时,编码单元313使用2D图像的编码方法对VD纹理视频进行编码。注意,在提供打包的VD纹理视频的情况下,编码单元313可以对打包的VD纹理视频进行编码。此时,编码单元313使用2D图像的编码方法对打包的VD纹理视频进行编码。
此外,编码单元313可以将生成的3D对象内容的编码数据提供至文件生成单元314。
文件生成单元314执行与文件等的生成有关的处理。例如,文件生成单元314可以获取从编码单元313提供的3D对象内容的编码数据。此外,文件生成单元314可以获取从预处理单元312提供的信息。此外,文件生成单元314可以生成文件容器(内容文件),该文件容器(内容文件)用于存储从编码单元313提供的3D对象内容的编码数据。内容文件(文件容器)的规格等是任意的,只要能存储3D对象内容的编码数据,就可以使用任何文件。例如,文件容器(内容文件)可以是ISOBMFF。
此外,文件生成单元314可以通过使用从预处理单元312提供的信息,生成与3D对象内容的编码数据对应的场景描述。然后,文件生成单元314可以生成场景描述文件并存储所生成的场景描述。此外,文件生成单元314可以将生成的文件等(ISOBMFF、场景描述文件、MPD等)提供至记录单元315。
记录单元315包括例如任何记录介质(例如硬盘或半导体存储器),并执行与数据记录有关的处理。例如,记录单元315可以将从文件生成单元314提供的文件等记录在记录介质中。此外,记录单元315可以根据来自控制单元301或输出单元316的请求或在预定的定时处读取记录在记录介质中的文件等,并且将该文件等提供至输出单元316。
输出单元316可以获取从记录单元315提供的文件等以将文件等输出至文件生成装置300的外部(例如,分发服务器、再现装置等)。
在具有上述配置的文件生成装置300中,以上所述的本技术可以应用于<3.与多个视频分量对应的场景描述>。
例如,可以应用方法1,并且文件生成单元314可以生成场景描述文件,并且在场景描述文件的材料层中定义的3D对象视频的扩展中为3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值。注意,在一个3D对象中可以同时使用多个视频分量。
此外,在应用方法1的情况下,可以应用方法1-1,并且视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。然后,在上述3D对象视频的扩展中,文件生成单元314可以为3D对象视频中包括的多个VD纹理中的每一个设置分量索引。
此外,在应用方法1并且VD纹理被应用为分量的情况下,可以应用方法1-3,并且文件生成单元314可以进一步在上述3D对象视频的扩展中存储与VD纹理对应的摄像装置参数。
此外,在应用方法1-3的情况下,可以应用方法1-3-1,并且文件生成单元314可以进一步在上述3D对象视频的扩展中为摄像装置参数的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
此外,在应用方法1-1的情况下,可以应用方法1-1,并且视频分量可以是其中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理的打包的VD纹理。然后,文件生成单元314可以在上述3D对象视频的扩展中为打包的VD纹理设置分量索引。
此外,在应用方法1并且打包的VD纹理被应用为分量的情况下,可以应用方法1-4,并且文件生成单元314可以进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在上述3D对象视频的扩展中。
此外,在应用方法1-4的情况下,可以应用方法1-4-1,并且文件生成单元314可以进一步在上述3D对象视频的扩展中为打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,对应的VD纹理中的每一个的VD纹理索引具有不同的值。
此外,在应用方法1-4的情况下,可以应用方法1-4-2,并且文件生成单元314可以在上述3D对象视频的扩展中进一步为摄像装置参数和打包元数据的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
此外,在应用方法1的情况下,可以应用方法1-2,并且视频分量可以是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图。然后,在上述3D对象视频的扩展中,文件生成单元314可以为几何图、属性图和占用图中的每一个设置具有不同值的分量索引。
当然,上述其他本技术可以应用于<3.与多个视频分量对应的场景描述>。此外,可以适当组合和应用多项本技术。
通过这样的配置,文件生成装置300可以生成场景描述,该场景描述使可以同时用于一个对象的多个视频分量与不同的访问器相关联。因此,通过使用场景描述,再现装置可以将多个视频分量同时用于一个对象。
<文件生成处理的流程>
将参照图35的流程图描述由具有这样的配置的文件生成装置300通过应用上述方法1执行的文件生成处理的流程的示例。
当文件生成处理开始时,文件生成装置300的输入单元311在步骤S301中获取3D对象视频(动态3D数据)。例如,输入单元311获取包括多个视频分量的3D对象视频作为其3D数据。
在步骤S302中,预处理单元312对3D对象视频执行预处理。例如,预处理单元312从3D对象视频中获取用于生成场景描述的信息,即用于在3D空间中布置一个或多个3D对象的空间布置信息。
在步骤S303中,文件生成单元314、编码单元313对步骤S301中获取的3D对象视频进行编码,并且生成编码数据。
在步骤S304中,文件生成单元314生成存储编码数据的内容文件(例如,ISOBMFF)。
在步骤S305中,文件生成单元314生成场景描述文件。场景描述文件存储场景描述,在该场景描述中,步骤S301中获取的3D对象视频所代表的3D对象被放置在3D空间中。
在步骤S306中,文件生成单元314为每个缓冲器设置参考信息,在每个缓冲器中,在场景描述中存储了构成3D对象视频的数据。3D对象视频包括动态网格、多个视频分量、元数据等。文件生成单元314为场景描述中的每个缓冲器设置参考信息,以将这些配置数据(动态网格、每个视频分量和元数据)存储在不同的缓冲器中。例如,文件生成单元314可以应用方法1,并且在场景描述文件的材料层中定义的3D对象视频的扩展中为3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值。注意,在一个3D对象中可以同时使用多个视频分量。
在步骤S307中,记录单元315将生成的场景描述文件和生成的内容文件记录在记录介质中。输出单元316从记录介质中读取场景描述文件、内容文件等,并且在预定定时处将读取的文件输出到文件生成装置300的外部。例如,输出单元316可以经由诸如网络的通信介质将场景描述文件和内容文件发送(上传)至另一装置,如分发服务器或再现装置。此外,输出单元316可以将场景描述文件和内容文件记录在外部记录介质(如可移动介质)中。在这种情况下,输出文件例如可以经由外部记录介质被提供至另一装置(分发服务器、再现装置等)。
当步骤S307的处理结束时,文件生成处理结束。
通过以这种方式执行文件生成处理,文件生成装置300可以生成场景描述,该场景描述使可以同时用于一个对象的多个视频分量与不同的访问器相关联。因此,再现装置可以通过使用场景描述将多个视频分量同时用于一个对象。
注意,可以应用方法1-1,并且视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。然后,在步骤S306中,文件生成单元314可以在上述3D对象视频的扩展中为3D对象视频中包括的多个VD纹理中的每一个设置分量索引。
此外,在应用方法1-1的情况下,可以应用方法1-3,并且在步骤S306中,文件生成单元314可以进一步将与VD纹理对应的摄像装置参数存储在上述3D对象视频的扩展中。
此外,在应用方法1-3的情况下,可以应用方法1-3-1,并且在步骤S306中,文件生成单元314可以进一步在上述3D对象视频的扩展中为摄像装置参数的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
此外,可以应用方法1-1,并且视频分量可以是其中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理的打包的VD纹理。然后,在步骤S306中,文件生成单元314可以在上述3D对象视频的扩展中为打包的VD纹理设置分量索引。
此外,在应用方法1-1的情况下,可以应用方法1-4,并且在步骤S306中,文件生成单元314可以进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在上述3D对象视频的扩展中。
此外,在应用方法1-4的情况下,可以应用方法1-4-1,并且在步骤S306中,文件生成单元314可以进一步在上述3D对象视频的扩展中将为打包的VD纹理中打包的每个VD纹理的摄像装置参数和打包元数据设置VD纹理索引,对应的VD纹理索引中的每一个的VD纹理索引具有不同的值。
此外,在应用方法1-4的情况下,可以应用方法1-4-2,并且在步骤S306中,文件生成单元314可以进一步在上述3D对象视频的扩展中为摄像装置参数和打包元数据的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
此外,可以应用方法1-2,并且视频分量可以是其中打包了点云的几何图形的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图。然后,在步骤S306中,文件生成单元314可以在上述3D对象视频的扩展中为几何图、属性图和占用图中的每一个设置具有不同值的分量索引。
当然,上述其他本技术可以应用于<3.与多个视频分量对应的场景描述>。此外,多个本技术可以适当地组合和应用。
<5.第二实施方式>
<客户端装置>
图36是示出作为应用本技术的信息处理装置的方面的客户端装置的配置的示例的框图。图36中示出的客户端装置400是基于场景描述执行3D对象内容的再现处理的再现装置。例如,客户端装置400再现存储在由文件生成装置300生成的内容文件中的3D对象的数据。此时,客户端装置400基于场景描述执行与再现有关的处理。
注意,虽然图36示出了诸如处理单元和数据流的主要要素,但是图36中示出的这些不一定包括所有要素。也就是说,在客户端装置400中,可能存在在图36中未示出为块的处理单元,或者可能存在在图36中未示出为箭头等的处理或数据流。
如图36所示,客户端装置400包括控制单元401和再现处理单元402。控制单元401执行与再现处理单元402的控制有关的处理。再现处理单元402执行与3D对象的数据的再现有关的处理。
再现处理单元402包括文件获取单元411、文件处理单元412、解码单元413、显示信息生成单元414、显示单元415和显示控制单元416。
文件获取单元411执行与文件获取有关的处理。例如,文件获取单元411可以获取从客户端装置400的外部(例如,分发服务器或文件生成装置300)提供的文件等。此外,文件获取单元411可以获取存储在本地存储装置(未示出)中的文件等。例如,文件获取单元411可以获取场景描述文件。此外,文件获取单元411可以获取内容文件。例如,文件获取单元411可以将获取的文件提供至文件处理单元412。文件获取单元411可以在文件处理单元412的控制下执行与文件的获取有关的处理。例如,文件获取单元411可以从外部或本地存储装置获取由文件处理单元412请求的文件,并且将该文件提供至文件处理单元412。
文件处理单元412执行与对文件等的处理有关的处理。例如,文件处理单元412可以在参照图7所述的配置中具有媒体访问功能(MAF)52的功能,并且可以执行所述的由媒体访问功能52执行的处理。
例如,文件处理单元412可以在显示信息生成单元414的控制下控制文件获取单元411从客户端装置400外部、本地存储装置等获取场景描述文件。此外,文件处理单元412可以将场景描述文件提供至显示信息生成单元414。此外,文件处理单元412可以在显示信息生成单元414的控制下控制文件获取单元411以获取存储在客户端装置400外部或本地存储装置中的内容文件中的数据(例如,3D对象视频的编码数据等)。
此外,文件处理单元412可以将3D对象视频等的编码数据提供至解码单元413以进行解码,并且将获得的数据存储在缓冲器(对应于图7中的缓冲器54)(未示出)中。也就是说,可以说文件处理单元412实质上是将这些数据存储在缓冲器(未示出)(对应于图7中的缓冲器54)中。
此外,文件处理单元412可以将关于图像显示的信息(例如,场景描述等)提供至显示控制单元416。
解码单元413执行与解码有关的处理。例如,解码单元413可以具有参照图7所述配置中的流水线53(解码器)的功能,并且可以执行如流水线53(解码器)执行的处理那样相同的处理。
例如,解码单元413可以在文件处理单元412(媒体访问功能52)的控制下,对从文件处理单元412提供的3D对象视频等的编码数据进行解码。此外,在文件处理单元412(媒体访问功能52)的控制下,解码单元413可以将通过解码而获得的数据(视频分量等)存储在缓冲器(对应于图7中的缓冲器54)(未示出)中。此时,解码单元413通过场景描述将通过解码而获得的数据(视频分量等)存储在与数据相关联的缓冲器中。
显示信息生成单元414在显示控制单元416的控制下执行与生成显示图像有关的处理。因此,显示信息生成单元414也可以称为显示图像生成单元。例如,显示信息生成单元414可以具有参照图7所述的配置中的呈现引擎(PE)51的功能,并且可以执行如由呈现引擎51执行的处理所述的处理。
例如,显示信息生成单元414可以控制文件处理单元412(媒体访问功能52)获取场景描述文件。此外,显示信息生成单元414可以基于场景描述文件中存储的场景描述控制文件处理单元412(媒体访问功能52),以获取内容文件中存储的所需数据(例如,3D对象视频的编码数据等)。
此外,显示信息生成单元414可以基于场景描述从缓冲器(对应于图7中的缓冲器54)(未示出)中获取所需的数据。此外,显示信息生成单元414可以使用所获取的数据重建3D对象视频(3D数据)。此外,显示信息生成单元414可以使用3D对象视频执行呈现,以生成显示图像。该显示图像是从指定视点位置观看3D对象的2D图像。此外,显示信息生成单元414可以将生成的显示信息提供至显示单元415以进行显示。
显示单元415包括显示装置并执行与图像显示有关的处理。例如,显示单元415可以获取从显示信息生成单元414提供的显示信息,并且通过使用显示装置显示该显示信息。
显示控制单元416执行与图像显示控制有关的处理。例如,显示控制单元416可以获取从文件处理单元412提供的诸如场景描述的信息。此外,显示控制单元416可以基于该信息控制显示信息生成单元414。
在具有上述配置的客户端装置400中,以上所述的本技术可以应用于<3.与多个视频分量对应的场景描述>。
例如,可以应用方法1,并且文件处理单元412可以基于分量索引将3D对象视频中包括的视频分量存储在与视频分量对应的缓冲器中。此外,显示信息生成单元414可以基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像。
此外,在应用方法1的情况下,可以应用方法1-1,并且视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。然后,文件处理单元412可以基于分量索引,将具有彼此不同的多个视点的VD纹理存储在与每个VD纹理对应的缓冲器中。此外,显示信息生成单元414可以基于分量索引从缓冲器中获取所需的VD纹理。然后,显示信息生成单元414可以将获取的VD纹理映射到3D对象(网格)上。然后,显示信息生成单元414可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
此外,在应用方法1并且VD纹理被应用为分量的情况下,可以应用方法1-3,并且文件处理单元412可以进一步将与VD纹理对应的摄像装置参数存储在与VD纹理对应的缓冲器中。此外,显示信息生成单元414可以进一步基于分量索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数。然后,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。
此外,在应用方法1-3的情况下,可以应用方法1-3-1,并且文件处理单元412可以基于字段索引将摄像装置参数的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,显示信息生成单元414可以进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数的字段中的每一个。然后,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频扩展中,为摄像装置参数的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
此外,在应用方法1的情况下,可以应用方法1-1,并且视频分量可以是其中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理的打包的VD纹理。此外,文件处理单元412可以基于分量索引将打包的VD纹理存储在与打包的VD纹理对应的缓冲器中。此外,显示信息生成单元414可以基于分量索引从缓冲器中获取打包的VD纹理。然后,显示信息生成单元414可以从所获取的打包的VD纹理中解包所需的VD纹理。然后,显示信息生成单元414可以将解包的VD纹理映射到3D对象上。然后,显示信息生成单元414可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
此外,在应用方法1并且打包的VD纹理被应用为分量的情况下,可以应用方法1-4,并且文件处理单元412可以进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在与打包的VD纹理对应的缓冲器中。此外,显示信息生成单元414可以进一步基于分量索引从缓冲器中获取与打包的VD纹理对应的摄像装置参数和打包元数据。然后,显示信息生成单元414可以基于所获取的打包元数据,从打包的VD纹理中解包所需的VD纹理。然后,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。
此外,在应用方法1-4的情况下,可以应用方法1-4-1,并且文件处理单元412可以基于VD纹理索引,将打包的VD纹理中打包的每个VD纹理的摄像装置参数和打包元数据存储在与每个VD纹理对应的缓冲器中。此外,显示信息生成单元414可以基于VD纹理索引进一步从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据。然后,显示信息生成单元414可以基于获取的打包元数据,从打包的VD纹理中解包所需的VD纹理。然后,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频扩展中为每个VD纹理的摄像装置参数和打包元数据设置VD纹理索引,并且对应的VD纹理中的每一个的VD纹理索引具有不同的值。
此外,在应用方法1-4的情况下,可以应用方法1-4-2,并且文件处理单元412可以基于字段索引将摄像装置参数和打包元数据的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,显示信息生成单元414可以进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据的字段中的每一个。然后,显示信息生成单元414可以基于获取的打包元数据从打包的VD纹理中解包所需的VD纹理。此外,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频扩展中为摄像装置参数和打包元数据的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
此外,在应用方法1的情况下,可以应用方法1-2,并且视频分量可以是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何形状和属性图对应的占用图。此外,文件处理单元412可以基于分量索引将几何图、属性图和占用图存储在与几何图、属性图和占用图中的每一个对应的缓冲器中。此外,显示信息生成单元414可以基于分量索引从缓冲器中获取几何图、属性图和占用图。然后,显示信息生成单元414可以使用所获取的几何图、属性图和占用图重建点云。然后,显示信息生成单元414可以使用重建的点云生成显示图像。
当然,上述其他本技术也可以应用于<3.与多个视频分量对应的场景描述>。此外,多个本技术可以适当地组合和应用。
通过这样的配置,客户端装置400可以基于场景描述将可以同时用于一个对象的多个视频分量存储在不同的缓冲器中。因此,客户端装置400可以通过使用场景描述将多个视频分量同时用于一个对象。
<再现处理的流程>
将参照图37的流程图来描述由具有这样的配置的客户端装置400通过应用上述方法1执行的再现处理的流程的示例。
当再现处理开始时,在步骤S401中,客户端装置400的文件获取单元411获取场景描述文件。
在步骤S402中,显示信息生成单元414解析场景描述文件,并且将参考信息获取到其中存储了构成3D对象视频的每条数据(例如,每个视频分量)中的缓冲器。
在步骤S403中,显示信息生成单元414根据场景描述文件控制文件处理单元412,以获取3D对象视频的编码数据。文件处理单元412在显示信息生成单元414的控制下控制文件获取单元411,以获取3D对象视频的编码数据。在文件处理单元412的控制下,文件获取单元411获取存储在客户端装置400外部、本地存储中等的内容文件的3D对象视频的编码数据。
在步骤S404中,解码单元413在文件处理单元412的控制下对3D对象视频的编码数据进行解码。
在步骤S405中,文件处理单元412控制解码单元413,以根据场景描述将步骤S404中通过解码而获得的数据(构成3D对象视频的数据)存储在缓冲器(对应于图7中的缓冲器54)中(未示出)。在文件处理单元412的控制下,解码单元413将步骤S404中通过解码而获得的数据(构成3D对象视频的数据)存储在与场景描述中的数据相关联的缓冲器中。例如,文件处理单元412(由文件处理单元412控制的解码单元413)可以通过应用方法1,基于分量索引将3D对象视频中包括的每个视频分量存储在与视频分量对应的缓冲器中。
在步骤S406中,显示信息生成单元414根据场景描述从缓冲器中读取(获取)3D对象视频的配置数据(视频分量等)。
在步骤S407中,显示信息生成单元414使用配置数据(视频分量等)重建3D对象视频。
在步骤S408中,显示信息生成单元414基于场景描述从3D对象视频重建场景,并且生成显示图像。
例如,显示信息生成单元414可以应用方法1并且基于步骤S406中的分量索引从缓冲器中获取视频分量。此外,显示信息生成单元414可以应用方法1并且使用在步骤S407和S408中获取的视频分量生成显示图像。
在步骤S409中,显示单元415显示显示图像。
当步骤S409中的处理结束时,再现处理结束。
通过以这种方式执行再现处理,客户端装置400可以基于场景描述将可以同时用于一个对象的多个视频分量存储在不同的缓冲器中。因此,客户端装置400可以通过使用场景描述将多个视频分量同时用于一个对象。
注意,可以应用方法1-1,并且视频分量可以是VD纹理,该VD纹理是通过从预定视点捕获3D对象而获得的捕获图像。然后,在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于分量索引将具有彼此不同的视点的多个VD纹理存储在与VD纹理中的每一个对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以基于分量索引从缓冲器中获取所需的VD纹理。然后,在步骤S407中,显示信息生成单元414可以将所获取的VD纹理映射到3D对象(网格)上。然后,在步骤S408中,显示信息生成单元414可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
此外,在应用方法1-1的情况下,可以应用方法1-3,并且在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以进一步将与VD纹理对应的摄像装置参数存储在与VD纹理对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以进一步基于分量索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数。然后,在步骤S407中,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。
此外,在应用方法1-3的情况下,可以应用方法1-3-1,并且在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于字段索引将摄像装置参数的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数的字段中的每一个。然后,在步骤S407中,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频的扩展中,为摄像装置参数的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
此外,可以应用方法1-1,并且视频分量可以是其中打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理的打包的VD纹理。此外,在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于分量索引将打包的VD纹理存储在与打包的VD纹理对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以基于分量索引从缓冲器中获取打包的VD纹理。然后,显示信息生成单元414可以从获取的打包的VD纹理中解包所需的VD纹理。然后,在步骤S407中,显示信息生成单元414可以将解包的VD纹理映射到3D对象上。然后,在步骤S408中,显示信息生成单元414可以使用3D数据(其上映射了VD纹理的网格)生成显示图像。
此外,在应用方法1-1的情况下,可以应用方法1-4,并且在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在与打包的VD纹理对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以进一步基于分量索引从缓冲器中获取与打包的VD纹理对应的摄像装置参数和打包元数据。然后,显示信息生成单元414可以基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理。然后,在步骤S407中,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。
此外,在应用方法1-4的情况下,可以应用方法1-4-1,并且在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于VD纹理索引将打包的VD纹理中打包VD纹理中的每一个摄像装置参数和的打包元数据存储在与每个VD纹理对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以进一步基于VD纹理索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据。然后,显示信息生成单元414可以基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理。然后,在步骤S407中,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频扩展中为每个VD纹理的摄像装置参数和打包元数据设置VD纹理索引,并且对应的VD纹理中的每一个的VD纹理索引具有不同的值。
此外,在应用方法1-4的情况下,可以应用方法1-4-2,并且在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于字段索引将摄像装置参数和打包元数据的字段中的每一个存储在与字段中的每一个对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据的字段中的每一个。然后,显示信息生成单元414可以基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理。然后,在步骤S407中,显示信息生成单元414可以使用所获取的摄像装置参数将VD纹理映射到3D对象上。注意,在上述3D对象视频的扩展中,为摄像装置参数和打包元数据的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
此外,可以应用方法1-2,并且视频分量可以是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图。此外,在步骤S405中,文件处理单元412(由文件处理单元412控制的解码单元413)可以基于分量索引将几何图、属性图和占用图分别存储在与几何图、属性图和占用图对应的缓冲器中。此外,在步骤S406中,显示信息生成单元414可以基于分量索引从缓冲器中获取几何图、属性图和占用图。然后,在步骤S407中,显示信息生成单元414可以使用所获取的几何图、属性图和占用图重建点云。然后,在步骤S408中,显示信息生成单元414可以使用重建的点云生成显示图像。
当然,上述其他本技术可以应用于<3.与多个视频分量对应的场景描述>。此外,多个本技术可以适当地组合和应用。
<6.附录>
<组合>
只要不存在矛盾,以上所述的本技术的每个示例可以与其他示例适当结合应用。此外,以上所述的本技术的每个示例可以与上述技术以外的另一技术结合应用。
<计算机>
可以由硬件或软件执行上述一系列处理。在由软件执行一系列处理的情况下,形成软件的程序安装在计算机中。在此,计算机的示例包括内置专用硬件的计算机、可以通过安装各种程序来执行各种功能的通用个人计算机等。
图38是示出通过程序执行上述一系列处理的计算机的硬件的配置示例的框图。
在图38中示出的计算机900中,中央处理单元(CPU)901、只读存储器(ROM)902和随机存取存储器(RAM)903经由总线904相互连接。
输入/输出接口910也连接至总线904。输入单元911、输出单元912、存储单元913、通信单元914和驱动器915连接至输入/输出接口910。
输入单元911包括例如键盘、鼠标、麦克风、触摸板、输入终端等。输出单元912例如包括显示器、扬声器、输出端子等。存储单元913包括例如硬盘、RAM盘、非易失性存储器等。通信单元914包括例如网络接口。驱动915驱动诸如磁盘、光盘、磁光盘或半导体存储器等的可移除介质921。
在如上所述配置的计算机中,通过例如CPU 901经由输入/输出接口910和总线904将存储在存储单元913中的程序加载到RAM 903中并且执行该程序,执行上述系列处理。RAM903还适当地存储对于CPU 901执行各种处理必要的数据等。
由计算机执行的程序可以通过记录在例如作为封装介质等的可移除介质921上来应用。在这种情况下,通过将可移除介质921附接至驱动器915,可以经由输入/输出接口910将程序安装在存储单元913中。
此外,该程序也可以经由有线或无线传输介质例如局域网、因特网或数字卫星广播来提供。在这种情况下,程序可以被通信单元914接收,并且安装在存储单元913中。
另外,可以将该程序预先安装在ROM 902或存储单元913中。
<本技术所适用的对象>
本技术可以应用于任何编码/解码方法。
此外,可以将本技术应用于任何配置。例如,本技术可以应用于各种电子装置。
此外,例如,本技术还可以被实现为设备的部分配置,诸如作为系统大规模集成(LSI)等的处理器(例如,视频处理器)、使用多个处理器等的模块(例如,视频模块)、使用多个模块等的单元(例如,视频单元)、或者通过另外向单元添加其他功能而获得的集合(例如,视频集合)。
此外,例如,本技术还可以应用于包括多个设备的网络系统。例如,本技术可以被实现为云计算,其中多个装置经由网络共享并协同处理。例如,可以在向诸如计算机、视听(AV)装置、便携式信息处理终端或物联网(IoT)装置的任意终端提供关于图像(运动图像)的服务的云服务中实现本技术。
注意,在本说明书中,系统是指多个部件(装置、模块(零件)等)的集合,而所有部件是否在同一壳体中并不重要。因此,容纳在不同的壳体中并且经由网络连接的多个装置以及其中多个模块被容纳在一个壳体中的一个装置都是系统。
<本技术适用的领域和应用>
本技术所适用的系统、装置、处理单元等可以用于任意领域,例如交通、医疗、犯罪预防、农业、畜牧业、矿业、美容、工厂、家用电器、气象、自然监控等。此外,其应用也是可选的。
例如,可以将本技术应用于用于提供供欣赏的内容等的系统和装置。此外,例如,本技术还可以应用于用于交通例如交通状况管理和自动驾驶控制的系统和装置。此外,例如,本技术也可以应用于用于安全的系统和装置。此外,例如,本技术可以应用于用于机器等的自动控制的系统和装置。此外,例如,本技术还可以应用于提供至农业和畜牧业使用的系统和装置。此外,例如,本技术还可以应用于监测诸如火山、森林和海洋、野生动物等自然界状况的系统和装置。此外,例如,本技术还可以应用于用于体育的系统和装置。
<其他>
注意,在本说明书中,“标志”是用于识别多个状态的信息,并且不仅包括用于识别真(1)或假(0)两个状态的信息,而且包括可以识别三个或更多个状态的信息。因此,“标志”可以采用的值可以是例如二进制1/0或三进制或更多。也就是说,形成这个“标志”的比特数是任何数目,可以是一个比特或多个比特。此外,假设标识信息(包括标志)不仅包括其在比特流中的标识信息,而且包括标识信息相对于比特流中的某个参考信息的差异信息,因此,在本说明书中,“标志”和“标识信息”不仅包括其信息,而且包括相对于参考信息的差异信息。
此外,与编码数据(比特流)有关的各种类型的信息(如元数据)可以以任何形式传输或记录,只要它与编码数据相关联。在本文中,术语“相关联”旨在例如在处理一个数据时,使其他数据可用(可链接)。也就是说,彼此相关联的数据可以被收集为一个数据或者可以成为单独的数据。例如,与编码数据(图像)相关联的信息可以在与编码数据(图像)的传输路径不同的传输路径上发送。此外,例如,与编码数据(图像)相关联的信息可以被记录在与编码数据(图像)不同的记录介质中(或同一记录介质的另一记录区域)。注意,该“相关联”可以不是整个数据,而是数据的一部分。例如,图像和与图像对应的信息可以在任何单元(例如,多个帧、一个帧或帧内的一部分)中彼此关联。
注意,在本说明书中,例如,诸如“合成”、“复用”、“添加”、“集成”、“包括”、“存储”、“放入”、“引入”和“插入”等的术语意指将多个对象组合成一个,例如,将编码数据和元数据组合成一个数据,并且意指上述“关联”的一种方法。
此外,本技术的实施方式不限于上述实施方式,并且在不脱离本技术的范围的情况下各种修改可行。
例如,可以将被描述为一个设备(或处理单元)的配置划分成形成多个设备(或处理单元)。反之,上述描述为多个装置(或处理单元)的配置可以被集体配置为一个装置(或处理单元)。另外,不言而喻,可以将除上述之外的配置添加到每个装置(或每个处理单元)的配置。此外,当整个系统的配置和操作基本上相同时,某个装置(或处理单元)的配置的一部分可以被包括在另一装置(或另一处理单元)的配置中。
另外,例如,以上描述的程序可以在任何装置中执行。在该情况下,装置仅需要具有必要的功能(功能块等)并且获得必要的信息。
另外,例如,一个流程图中的每个步骤可以由一个装置执行,或者可以由多个装置共享和执行。此外,在一个步骤中包括多个处理的情况下,该多个处理可以由一个装置执行,或者可以由多个装置共享和执行。换句话说,一个步骤中包括的多个处理也可以作为多个步骤的处理被执行。反之,被描述为多个步骤的处理也可以作为一个步骤共同执行。
此外,例如,在由计算机执行的程序中,描述程序的步骤的处理可以按照本说明书中描述的顺序以时间顺序执行,或者可以在诸如进行调用时的需要的定时处单独执行或并行执行。也就是说,只要不存在矛盾,每个步骤的处理可以按照与上述顺序不同的顺序执行。此外,描述程序的步骤的处理可以与另一程序的处理并行地执行,或者可以与其他程序的处理组合执行。
此外,例如,只要不存在矛盾,与本技术有关的多个技术可以作为单个主体被独立地实现。不言而喻,任何多个本技术都可以组合实现。例如,任何实施方式中描述的本技术的部分或全部可以与其他实施方式中描述的本技术的部分或全部相结合地实现。此外,上面描述的本技术的部分或全部可以与上面没有描述的另一种技术一起实现。
注意,本技术还可以具有以下配置。
(1)一种信息处理装置,包括:
文件处理单元,其基于分量索引将3D对象视频中包括的视频分量存储在与视频分量对应的缓冲器中;以及
显示图像生成单元,其基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像,其中,
在一个3D对象中能够同时使用多个视频分量,并且
在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
(2)根据(1)所述的信息处理装置,其中,
视频分量是通过从预定视点捕获3D对象而获得的捕获图像的VD纹理,
文件处理单元基于分量索引,将具有彼此不同的视点的多个VD纹理存储在与VD纹理中的每一个对应的缓冲器中,并且
显示图像生成单元基于分量索引从缓冲器中获取所需的VD纹理,将所获取的VD纹理映射到3D对象上,并且生成显示图像。
(3)根据(2)所述的信息处理装置,其中,
文件处理单元进一步将与VD纹理对应的摄像装置参数存储在与VD纹理对应的缓冲器中,并且
显示图像生成单元进一步基于分量索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数,并且使用所获取的摄像装置参数将VD纹理映射到3D对象上。
(4)根据(3)所述的信息处理装置,其中,
文件处理单元基于字段索引将摄像装置参数的字段中的每一个存储在与字段中的每一个对应的缓冲器中,
显示图像生成单元进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数的字段中的每一个,并且使用所获取的摄像装置参数将VD纹理映射到3D对象上,并且
在扩展中,为摄像装置参数的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
(5)根据(1)至(4)中任一项所述的信息处理装置,其中,
视频分量是打包的VD纹理,在打包的VD纹理中,打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理,
文件处理单元基于分量索引将打包的VD纹理存储在与打包的VD纹理对应的缓冲器中,并且
显示图像生成单元基于分量索引从缓冲器中获取打包的VD纹理,从所获取的打包的VD纹理中解包所需的VD纹理,将所解包的VD纹理映射到3D对象上,并且生成显示图像。
(6)根据(5)所述的信息处理装置,其中,
文件处理单元进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在与打包的VD纹理对应的缓冲器中,并且
显示图像生成单元进一步基于分量索引从缓冲器中获取与打包的VD纹理对应的摄像装置参数和打包元数据,基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将VD纹理映射到3D对象上。
(7)根据(6)所述的信息处理装置,其中,
文件处理单元基于VD纹理索引将打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据存储在与VD纹理中的每一个对应的缓冲器中,
显示图像生成单元进一步基于VD纹理索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据,基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将VD纹理映射到3D对象上,并且
在扩展中,为VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,并且所对应的VD纹理中的每一个的VD纹理索引具有不同的值。
(8)根据(6)所述的信息处理装置,其中,
文件处理单元基于字段索引将摄像装置参数和打包元数据的字段中的每一个存储在与字段中的每一个对应的缓冲器中,
显示图像生成单元进一步基于字段索引从缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据的字段中的每一个,基于所获取的打包元数据从打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将VD纹理映射到3D对象上,并且
在扩展中,为摄像装置参数和打包元数据的字段设置字段索引,并且字段中的每一个的字段索引具有不同的值。
(9)根据(1)所述的信息处理装置,其中,
视频分量是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图,
文件处理单元基于分量索引将几何图、属性图和占用图存储在与几何图、属性图和占用图中的每一个对应的缓冲器中,并且
显示图像生成单元基于分量索引从缓冲器中获取几何图、属性图和占用图,使用所获取的几何图、所获取的属性图和所获取的占用图重建点云,并且生成显示图像。
(10)一种信息处理方法,包括:
基于分量索引将3D对象视频中包括的视频分量存储在与视频分量对应的缓冲器中;以及
基于分量索引从缓冲器中获取视频分量,并且使用所获取的视频分量生成显示图像,其中,
在一个3D对象中能够同时使用多个视频分量,并且
在场景描述的材料层中定义的用于3D对象视频的扩展中,为3D对象视频中包括的视频分量设置分量索引,并且视频分量中的每一个的分量索引具有不同的值。
(11)一种信息处理装置,包括:
文件生成单元,其生成场景描述文件,并且在用于场景描述文件的材料层中定义的3D对象视频的扩展中为3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值,其中,
在一个3D对象中能够同时使用多个视频分量。
(12)根据(11)所述的信息处理装置,其中,
视频分量是通过从预定视点捕获3D对象而获得的捕获图像的VD纹理,并且
文件生成单元在扩展中为3D对象视频中包括的多个VD纹理中的每一个设置分量索引。
(13)根据(12)所述的信息处理装置,其中,
文件生成单元进一步将与VD纹理对应的摄像装置参数存储在扩展中。
(14)根据(13)所述的信息处理装置,其中,
文件生成单元进一步在扩展中为摄像装置参数的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
(15)根据(11)至(14)中任一项所述的信息处理装置,其中,
视频分量是打包的VD纹理,在打包的VD纹理中,打包了作为通过从预定视点捕获3D对象而获得的捕获图像的多个VD纹理,并且
文件生成单元在扩展中为打包的VD纹理设置分量索引。
(16)根据(15)所述的信息处理装置,其中,
文件生成单元进一步将与打包的VD纹理对应的摄像装置参数和打包元数据存储在扩展中。
(17)根据(16)所述的信息处理装置,其中,
文件生成单元进一步在扩展中为打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,VD纹理中的每一个的VD纹理索引具有不同的值。
(18)根据(16)所述的信息处理装置,其中,
文件生成单元进一步在扩展中为摄像装置参数和打包元数据的字段中的每一个设置字段索引,字段中的每一个的字段索引具有不同的值。
(19)根据(11)所述的信息处理装置,其中,
视频分量是其中打包了点云的几何形状的几何图、其中打包了点云的属性的属性图以及与几何图和属性图对应的占用图,并且
文件生成单元在扩展中为几何图、属性图和占用图中的每一个设置具有不同值的分量索引。
(20)一种信息处理方法,包括:
生成场景描述文件,并且在用于场景描述文件的材料层中定义的3D对象视频的扩展中为3D对象视频中包括的视频分量设置分量索引,视频分量中的每一个的分量索引具有不同的值,其中,
在一个3D对象中能够同时使用多个视频分量。
附图标记列表
300文件生成装置
301控制单元
302文件生成处理单元
311输入单元
312预处理单元
313编码单元
314文件生成单元
315记录单元
316输出单元
400客户端装置
401控制单元
402客户端处理单元
411文件获取单元
412文件处理单元
413解码单元
414显示信息生成单元
415显示单元
416显示控制单元

Claims (20)

1.一种信息处理装置,包括:
文件处理单元,其基于分量索引将3D对象视频中包括的视频分量存储在与所述视频分量对应的缓冲器中;以及
显示图像生成单元,其基于所述分量索引从所述缓冲器中获取所述视频分量,并且使用所获取的视频分量生成显示图像,其中,
在一个3D对象中能够同时使用多个视频分量,并且
在场景描述的材料层中定义的用于所述3D对象视频的扩展中,为所述3D对象视频中包括的视频分量设置所述分量索引,并且所述视频分量中的每一个的分量索引具有不同的值。
2.根据权利要求1所述的信息处理装置,其中,
所述视频分量是通过从预定视点捕获所述3D对象而获得的捕获图像的VD纹理,
所述文件处理单元基于所述分量索引,将具有彼此不同的视点的多个所述VD纹理存储在与所述VD纹理中的每一个对应的缓冲器中,并且
所述显示图像生成单元基于所述分量索引从所述缓冲器中获取所需的VD纹理,将所获取的VD纹理映射到所述3D对象上,并且生成所述显示图像。
3.根据权利要求2所述的信息处理装置,其中,
所述文件处理单元进一步将与所述VD纹理对应的摄像装置参数存储在与所述VD纹理对应的缓冲器中,并且
所述显示图像生成单元进一步基于所述分量索引从所述缓冲器中获取与所需的VD纹理对应的摄像装置参数,并且使用所获取的摄像装置参数将所述VD纹理映射到所述3D对象上。
4.根据权利要求3所述的信息处理装置,其中,
所述文件处理单元基于字段索引将所述摄像装置参数的字段中的每一个存储在与所述字段中的每一个对应的缓冲器中,
所述显示图像生成单元进一步基于所述字段索引从所述缓冲器中获取与所需的VD纹理对应的摄像装置参数的字段中的每一个,并且使用所获取的摄像装置参数将所述VD纹理映射到所述3D对象上,并且
在所述扩展中,为所述摄像装置参数的字段设置所述字段索引,并且所述字段中的每一个的字段索引具有不同的值。
5.根据权利要求1所述的信息处理装置,其中,
所述视频分量是打包的VD纹理,在所述打包的VD纹理中,打包了作为通过从预定视点捕获所述3D对象而获得的捕获图像的多个VD纹理,
所述文件处理单元基于所述分量索引将所述打包的VD纹理存储在与所述打包的VD纹理对应的缓冲器中,并且
所述显示图像生成单元基于所述分量索引从所述缓冲器中获取所述打包的VD纹理,从所获取的打包的VD纹理中解包所需的VD纹理,将所解包的VD纹理映射到所述3D对象上,并且生成所述显示图像。
6.根据权利要求5所述的信息处理装置,其中,
所述文件处理单元进一步将与所述打包的VD纹理对应的摄像装置参数和打包元数据存储在与所述打包的VD纹理对应的缓冲器中,并且
所述显示图像生成单元进一步基于所述分量索引从所述缓冲器中获取与所述打包的VD纹理对应的摄像装置参数和打包元数据,基于所获取的打包元数据从所述打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将所述VD纹理映射到所述3D对象上。
7.根据权利要求6所述的信息处理装置,其中,
所述文件处理单元基于所述VD纹理索引将所述打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据存储在与所述VD纹理中的每一个对应的缓冲器中,
所述显示图像生成单元进一步基于所述VD纹理索引从所述缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据,基于所获取的打包元数据从所述打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将所述VD纹理映射到所述3D对象上,并且
在所述扩展中,为所述VD纹理中的每一个的摄像装置参数和打包元数据设置所述VD纹理索引,并且所对应的VD纹理中的每一个的VD纹理索引具有不同的值。
8.根据权利要求6所述的信息处理装置,其中,
所述文件处理单元基于字段索引将所述摄像装置参数和所述打包元数据的字段中的每一个存储在与所述字段中的每一个对应的缓冲器中,
所述显示图像生成单元进一步基于所述字段索引从所述缓冲器中获取与所需的VD纹理对应的摄像装置参数和打包元数据的字段中的每一个,基于所获取的打包元数据从所述打包的VD纹理中解包所需的VD纹理,并且使用所获取的摄像装置参数将所述VD纹理映射到所述3D对象上,并且
在所述扩展中,为所述摄像装置参数和所述打包元数据的字段设置所述字段索引,并且所述字段中的每一个的字段索引具有不同的值。
9.根据权利要求1所述的信息处理装置,其中,
所述视频分量是其中打包了点云的几何形状的几何图、其中打包了所述点云的属性的属性图以及与所述几何图和所述属性图对应的占用图,
所述文件处理单元基于所述分量索引将所述几何图、所述属性图和所述占用图存储在与所述几何图、所述属性图和所述占用图中的每一个对应的缓冲器中,并且
所述显示图像生成单元基于所述分量索引从所述缓冲器中获取所述几何图、所述属性图和所述占用图,使用所获取的几何图、所获取的属性图和所获取的占用图重建所述点云,并且生成所述显示图像。
10.一种信息处理方法,包括:
基于分量索引将3D对象视频中包括的视频分量存储在与所述视频分量对应的缓冲器中;以及
基于所述分量索引从所述缓冲器中获取所述视频分量,并且使用所获取的视频分量生成显示图像,其中,
在一个3D对象中能够同时使用多个所述视频分量,并且
在场景描述的材料层中定义的用于所述3D对象视频的扩展中,为所述3D对象视频中包括的视频分量设置所述分量索引,并且所述视频分量中的每一个的分量索引具有不同的值。
11.一种信息处理装置,包括:
文件生成单元,其生成场景描述文件,并且在所述场景描述文件的材料层中定义的用于3D对象视频的扩展中为所述3D对象视频中包括的视频分量设置分量索引,所述视频分量中的每一个的分量索引具有不同的值,其中,
在一个3D对象中能够同时使用多个所述视频分量。
12.根据权利要求11所述的信息处理装置,其中,
所述视频分量是通过从预定视点捕获所述3D对象而获得的捕获图像的VD纹理,并且
所述文件生成单元在所述扩展中为所述3D对象视频中包括的多个所述VD纹理中的每一个设置所述分量索引。
13.根据权利要求12所述的信息处理装置,其中,
所述文件生成单元进一步将与所述VD纹理对应的摄像装置参数存储在所述扩展中。
14.根据权利要求13所述的信息处理装置,其中,
所述文件生成单元进一步在所述扩展中为所述摄像装置参数的字段中的每一个设置字段索引,所述字段中的每一个的字段索引具有不同的值。
15.根据权利要求11所述的信息处理装置,其中,
所述视频分量是打包的VD纹理,在所述打包的VD纹理中,打包了作为通过从预定视点捕获所述3D对象而获得的捕获图像的多个VD纹理,并且
所述文件生成单元在所述扩展中为所述打包的VD纹理设置所述分量索引。
16.根据权利要求15所述的信息处理装置,其中,
所述文件生成单元进一步将与所述打包的VD纹理对应的摄像装置参数和打包元数据存储在所述扩展中。
17.根据权利要求16所述的信息处理装置,其中,
所述文件生成单元进一步在所述扩展中为所述打包的VD纹理中打包的VD纹理中的每一个的摄像装置参数和打包元数据设置VD纹理索引,所对应的VD纹理中的每一个的VD纹理索引具有不同的值。
18.根据权利要求16所述的信息处理装置,其中,
所述文件生成单元进一步在所述扩展中为所述摄像装置参数和所述打包元数据的字段中的每一个设置字段索引,所述字段中的每一个的字段索引具有不同的值。
19.根据权利要求11所述的信息处理装置,其中,
所述视频分量是其中打包了点云的几何形状的几何图、其中打包了所述点云的属性的属性图以及与所述几何图和所述属性图对应的占用图,并且
所述文件生成单元在所述扩展中为所述几何图、所述属性图和所述占用图中的每一个设置具有不同值的分量索引。
20.一种信息处理方法,包括:
生成场景描述文件,并且在所述场景描述文件的材料层中定义的用于3D对象视频的扩展中为所述3D对象视频中包括的视频分量设置分量索引,所述视频分量中的每一个的分量索引具有不同的值,其中,
在一个3D对象中能够同时使用多个所述视频分量。
CN202280064001.5A 2021-09-29 2022-09-22 信息处理装置和方法 Pending CN117980951A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163249664P 2021-09-29 2021-09-29
US63/249,664 2021-09-29
PCT/JP2022/035332 WO2023054156A1 (ja) 2021-09-29 2022-09-22 情報処理装置および方法

Publications (1)

Publication Number Publication Date
CN117980951A true CN117980951A (zh) 2024-05-03

Family

ID=85782559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280064001.5A Pending CN117980951A (zh) 2021-09-29 2022-09-22 信息处理装置和方法

Country Status (2)

Country Link
CN (1) CN117980951A (zh)
WO (1) WO2023054156A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3804320A4 (en) * 2018-06-26 2021-06-30 Huawei Technologies Co., Ltd. HIGH LEVEL SYNTAX VERSIONS FOR POINT CLOUD CODING
EP3939318A1 (en) * 2019-03-11 2022-01-19 VID SCALE, Inc. Sub-picture bitstream extraction and reposition
US20220343583A1 (en) 2019-10-21 2022-10-27 Sony Group Corporation Information processing apparatus, 3d data generation method, and program
WO2021193213A1 (ja) 2020-03-26 2021-09-30 ソニーグループ株式会社 情報処理装置、3dモデル生成方法およびプログラム

Also Published As

Publication number Publication date
WO2023054156A1 (ja) 2023-04-06

Similar Documents

Publication Publication Date Title
JP7472220B2 (ja) 方法、プログラム、及びデバイス
KR102320455B1 (ko) 미디어 콘텐트를 전송하는 방법, 디바이스, 및 컴퓨터 프로그램
CN111869201B (zh) 处理和发送三维内容的方法
US20230209091A1 (en) Method, apparatus, and articles of manufacture to generate packed video frames for a volumetric video bitstream and an immersive video bitstream
GB2509953A (en) Displaying a Region of Interest in a Video Stream by Providing Links Between Encapsulated Video Streams
KR20210016530A (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
GB2579389A (en) Method, device and computer program for encapsulating media data into a media file
WO2021251185A1 (ja) 情報処理装置および方法
CN112929705B (zh) 纹理压缩和解压方法、装置、计算机设备和存储介质
WO2021251173A1 (ja) 情報処理装置および方法
CN113852829A (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
CN115379189A (zh) 一种点云媒体的数据处理方法及相关设备
US20240046562A1 (en) Information processing device and method
US20230334804A1 (en) Information processing device and method
WO2023054156A1 (ja) 情報処理装置および方法
US20230300374A1 (en) Information processing apparatus and method
WO2022220255A1 (ja) 情報処理装置および方法
WO2022220291A1 (ja) 情報処理装置および方法
US20240193869A1 (en) Information processing device and method thereof
US20240193862A1 (en) Information processing device and method
WO2022220278A1 (ja) 情報処理装置および方法
US20230222693A1 (en) Information processing apparatus and method
WO2024071283A1 (ja) 情報処理装置および方法
WO2023176928A1 (ja) 情報処理装置および方法
US20230088144A1 (en) Data processing method and apparatus for immersive media, related device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication