CN113170088B - 用于生成包括三维视频内容的媒体文件的方法和装置,以及用于重放三维视频内容的方法和装置 - Google Patents

用于生成包括三维视频内容的媒体文件的方法和装置,以及用于重放三维视频内容的方法和装置 Download PDF

Info

Publication number
CN113170088B
CN113170088B CN201980066274.1A CN201980066274A CN113170088B CN 113170088 B CN113170088 B CN 113170088B CN 201980066274 A CN201980066274 A CN 201980066274A CN 113170088 B CN113170088 B CN 113170088B
Authority
CN
China
Prior art keywords
track
dimensional video
metadata
pcc
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980066274.1A
Other languages
English (en)
Other versions
CN113170088A (zh
Inventor
叶浩晴
裵宰贤
梁贤九
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN113170088A publication Critical patent/CN113170088A/zh
Application granted granted Critical
Publication of CN113170088B publication Critical patent/CN113170088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开涉及用于生成和发送包含三维(3D)视频内容的媒体文件的方法和设备。本公开还涉及用于从接收到的媒体文件重构和再现3D视频内容的方法和设备。根据本公开的实施例的一方面,一种生成包含3D视频内容的媒体文件的方法可以包括:将包含在2D视频帧中的多个分量插入到媒体文件的媒体数据盒中,在2D视频帧中,3D视频内容被压缩;将与多个分量中的每一个相对应的第一轨道和包含元数据的第二轨道插入到媒体文件的元数据盒中;以及将关于多个分量中的每一个的入口点的信息插入到第二轨道中。

Description

用于生成包括三维视频内容的媒体文件的方法和装置,以及 用于重放三维视频内容的方法和装置
技术领域
本公开涉及用于生成和发送包含三维(3D)视频内容的媒体文件的方法和设备。此外,本公开涉及用于从接收到的媒体文件重构和再现三维视频内容的方法和设备。
背景技术
点云是指大量点的集合,并且大体积(large-volume)三维数据可以用点云来表示。点云用于通过使用不同于在二维图像中使用的值来表示三维空间中的点,并且是可以同时包含点的位置坐标和颜色的向量的形式。例如,点云的点可以用(x,y,z,R,G,B)来表示。大量的颜色和位置数据构成了点云的空间配置,并且随着其密度的增加,点云对于数据变得更详细,并且作为三维模型变得更有意义。
因为表示三维数据的点云需要大量的存储器和处理器资源,所以需要一种压缩点云的方法来发送点云。因此,需要一种高效压缩三维数据的方法。此外,需要一种处理三维数据的方法。
发明内容
技术问题
为了根据现有的媒体文件格式来承载点云内容,需要定义适用于被称为“点云”的新格式的数据的新格式。
解决问题的方案
根据本公开的实施例的一方面,生成包含三维视频内容的媒体文件的方法可以包括:将包含在二维视频帧中的多个分量插入到媒体文件的媒体数据盒(box)中,在二维视频帧中,三维视频内容被压缩;将分别与所述分量相对应的第一轨道(track)和包含元数据的第二轨道插入媒体文件的元数据盒中;以及将关于多个分量中的每一个的入口点的信息插入第二轨道中。
附图说明
图1示出了根据本公开的实施例的、由发送设备执行的压缩和发送三维视频内容的操作。
图2示出了根据本公开的实施例的、由接收设备执行的接收和输出三维视频内容的操作。
图3是根据本公开的实施例的、用于解释在基于ISO的媒体文件格式(ISOBMFF)媒体文件中承载PCC内容的方法的示例的图。
图4是根据本公开的各种实施例的系统的框图,该系统包括用于压缩和发送三维视频内容的设备,以及用于接收和再现经压缩的三维视频内容的设备。
图5示出了根据本公开的实施例的点云数据存储在ISOBMFF媒体文件中的示例。
图6是根据本公开的实施例的、由发送设备发送三维视频内容的方法的流程图。
图7是根据本公开的实施例的、由发送设备生成包含三维视频内容的媒体文件的方法的流程图。
图8是根据本公开的实施例的、由接收设备再现三维视频内容的方法的流程图。
具体实施方式
根据本公开的实施例的一方面,生成包含三维视频内容的媒体文件的方法可以包括:将包含在二维视频帧中的多个分量插入到媒体文件的媒体数据盒中,在二维视频帧中,三维视频内容被压缩;将分别与分量相对应的第一轨道和包含元数据的第二轨道插入到媒体文件的元数据盒中;以及将关于多个分量中的每一个的入口点的信息插入到第二轨道中。
根据本公开的实施例的一方面,一种发送三维视频内容的方法可以包括:生成二维视频帧以及从二维视频帧重构三维内容所需的元数据,在二维视频帧中,包含点云数据的三维视频内容被压缩;对二维视频帧进行编码;将经编码的二维视频帧和元数据封装(encapsulate)到媒体文件中;以及打包(packetize)和发送经封装的数据,其中封装可以包括:将包含在经编码的二维视频帧中的多个分量插入到媒体文件的媒体数据盒中;以及将分别与多个分量相对应的第一轨道和与元数据相对应的第二轨道插入到媒体文件的元数据盒中,其中当媒体文件被解析时,第二轨道可以为多个分量中的每一个提供入口点。
根据本公开的实施例的一方面,一种用于发送三维视频内容的设备可以包括:至少一个处理器,该至少一个处理器被配置为生成二维视频帧以及从二维视频帧重构三维内容所需的元数据,在二维视频帧中,包含点云数据的三维视频内容被压缩,对二维视频帧进行编码,将经编码的二维视频帧和元数据封装到媒体文件中以及打包经封装的数据;以及通信器,该通信器被配置为发送打包后的数据,其中至少一个处理器还可以被配置为通过将包含在经编码的二维视频帧中的多个分量插入到媒体文件的媒体数据盒中,并且将分别与多个分量相对应的第一轨道和与元数据相对应的第二轨道插入到媒体文件的元数据盒中来生成媒体文件,并且当媒体文件被解析时,第二轨道可以为多个分量中的每一个提供入口点。
根据本公开的实施例的一方面,一种接收三维视频内容的方法可以包括:通过处理接收到的包(packet)来重构媒体文件;解析媒体文件以提取经编码的二维视频帧和元数据;对经编码的二维视频帧进行解码;以及基于二维视频帧和元数据重构并输出三维视频内容,其中对媒体文件的解析可以包括:识别包含在媒体文件中的媒体数据盒和元数据盒;从元数据盒中识别分别与包含在经编码的二维视频帧中的多个分量相对应的第一轨道以及包含元数据的第二轨道;以及从第二轨道中识别媒体数据盒中的多个分量中的每一个的入口点。
根据本公开的实施例的一方面,一种用于接收三维视频内容的设备可以包括:通信器,该通信器被配置为接收打包后的数据;以及至少一个处理器,该至少一个处理器被配置为通过处理打包后的数据来重构媒体文件,解析媒体文件以提取经编码的二维视频帧和元数据,对经编码的二维视频帧进行解码,并且基于二维视频帧和元数据来重构和输出三维视频内容,其中至少一个处理器还可以被配置为识别包含在媒体文件中的媒体数据盒和元数据盒,从元数据盒中识别分别与包含在经编码的二维视频帧中的多个分量相对应的第一轨道以及包含元数据的第二轨道,并且从第二轨道中识别媒体数据盒中的多个分量中的每一个的入口点。
在下文中,现在将参考附图详细描述本公开的实施例,以便本领域技术人员能够毫无困难地执行本公开。然而,本公开可以以多种不同的形式实施,并且不应该被解释为限于本文所阐述的本公开的实施例。此外,附图中与详细描述无关的部分被省略以确保本公开的清楚,并且附图中相同的附图标记表示相同的元件。
本公开的一些实施例可以由功能块组件和各种处理操作来表示。功能块中的一些或所有可以用被配置为执行特定功能的各种数量的硬件和/或软件组件来实现。例如,本公开的功能块可以由至少一个微处理器或用于特定功能的电路组件来实现。此外,例如,本公开的功能块可以通过使用各种编程或脚本语言来实现。功能块可以用在至少一个处理器中执行的算法来实现。此外,本公开可以将相关技术用于电子配置、信号处理和/或数据处理。
此外,附图中所示的部件之间的连接线或连接件仅是功能连接和/或物理或电路连接的示例。在实际设备中,组件之间的连接可以由各种功能连接、物理连接或可以被替换或添加的电路连接来表示。
在整个说明书中,术语“图像”可以包括静止图像、运动图像、视频帧和/或视频流,并且可以包括二维帧和三维帧。例如,“图像”可以包括由点云或全向媒体帧表示的三维帧。
贯穿本说明书使用的术语“图像”是包含性术语,表示相关领域中已知的各种形式的视频或图像信息,诸如“画面(picture)”、“帧”、“场(field)”或“片(slice)”。例如,“图像”可以表示构成视频内容的多个画面或多个帧中的一个、或者表示包含多个画面或多个帧的整个视频内容。
在下文中,将参考附图详细描述本公开。
图1示出了根据本公开的实施例的、由发送设备执行的压缩和发送三维视频内容的操作。
参考图1,根据本公开的实施例的发送设备10的媒体源11可以获得已经由其自身捕获或预先存储的一个或多个三维对象。例如,三维对象可以是包含点云数据的多边形文件格式(ply)文件。点云是指由三维空间中具有颜色值的点(或体素(voxel))的集合表示的图像数据。三维对象可以是包含多个点云帧的三维视频内容。
根据本公开的实施例的发送设备10的预处理器12可以通过使用二维视频编码器来执行用于压缩三维对象的预处理操作。预处理器12可以从三维对象输出要用作视频编码器13的输入的视频帧、以及接收设备重构三维对象所需的元数据。
预处理器12可以通过将包括在三维对象中的三维图像数据投影到二维平面上来生成至少一个二维图像。根据本公开的实施例的预处理器12可以将三维空间中的全向图像投影到预定义格式的矩形画面上。预处理器12可以从投影的二维图像生成二维视频帧。
例如,预处理器12可以通过将包括在三维点云中的多个点投影到二维平面上来生成面片(patch)。包括在三维点云中的多个点可以基于每个点的法向量的方向、每个点的位置或每个点的颜色中的至少一个来分组。预处理器12可以通过将经分组的点投影到平面上来生成面片。预处理器12可以通过对高相似性面片进行分类,并收集和打包经分类的面片来生成几何形状图像、纹理图像和占用图(occupancy map)图像。几何形状图像可以指示包括在点云中的点的位置信息,并且纹理图像可以指示点的颜色信息。占用图图像可以指示关于几何形状图像和纹理图像的像素中具有关于点云的信息的像素的信息。
预处理器12可以输出包括几何形状图像、纹理图像和占用图图像的视频帧,以及接收设备重构三维对象所需的元数据。例如,预处理器12可以输出辅助信息作为元数据。
接下来,根据本公开的实施例的发送设备10可以通过使用视频编码器13和元数据编码器14来压缩视频帧和元数据。取决于实现方式,发送设备10可以包括两个或更多个视频编码器13、或者可以不包括元数据编码器14。
根据本公开的实施例的发送设备10的ISOBMFF封装器15可以将由视频编码器13和元数据编码器14压缩的视频数据和元数据封装到媒体文件中。例如,ISOBMFF封装器15可以将经压缩的视频数据和经压缩的元数据封装到ISOBMFF媒体文件中。
根据本公开的实施例的发送设备10的打包器16可以打包经封装的媒体文件,并发送打包后的媒体文件。例如,打包器16可以发送包含根据MPEG媒体传输(MMT)方案生成的包的比特流。
根据本公开的实施例的发送设备10可以通过使用一个或多个视频编解码器来压缩视频帧,以便向具有不同能力的接收设备提供相同的内容。在这种情况下,一个ISOBMFF文件可以仅包含通过使用一个视频编解码器而生成的视频数据段(piece)、或者可以包含通过使用多个视频编解码器而生成的所有视频数据段。
在一个ISOBMFF文件包含通过使用多个视频编解码器而生成的所有视频数据段的情况下,例如,接收设备可以通过选择视频编解码器之一来选择性地执行解码。作为另一个示例,发送设备和接收设备之间的网络中的处理实体可以根据接收设备的请求或预共享偏好信息,将文件修改为仅包含通过使用特定视频编解码器而生成的视频数据,然后发送修改后的文件。
图2示出了根据本公开的实施例的、由接收设备执行的接收和输出三维视频内容的操作。
根据本公开的实施例的接收设备20的解包器21可以处理接收到的包以重构媒体文件。可替代地,解包器21可以在接收到包时对包进行处理,而无需等待构成媒体文件的所有包。例如,解包器21可以通过处理接收到的包来重构ISOBMFF文件。
根据本公开的实施例的接收设备20的ISOBMFF解析器22可以处理重构的媒体文件中的全部或部分,以提取经编码的视频数据和经编码的元数据。ISOBMFF解析器22可以从重构的ISOBMFF文件中提取经编码的视频数据和经编码的元数据。
根据本公开的实施例的接收设备20可以通过使用视频解码器23和元数据解码器24来对经编码的视频数据和经编码的元数据进行解码。
根据本公开的实施例的接收设备20的重构器25可以通过使用解码后的视频数据和解码后的元数据来重构三维对象。根据本公开的实施例的接收设备20还可以包括用于改善例如图像质量的后处理器。
例如,视频数据可以包含纹理图像、几何形状(geometry)图像和占用图图像,并且元数据可以包含包括面片信息的辅助信息。根据本公开的实施例的重构器25可以通过使用几何形状图像、占用图图像和辅助信息来重构点的几何形状。重构器25可以基于重构的几何形状图像和纹理图像来重构点云。
根据本公开的实施例的接收设备20的渲染器26可以通过渲染重构的三维对象来在屏幕上显示三维图像。
如参考图1所述的,为了发送三维视频内容,根据本公开的实施例的发送设备10可以将三维视频内容压缩为二维视频数据,并根据预定义的媒体文件格式封装经压缩的数据。根据本公开的实施例,经压缩的点云可以被封装在ISOBMFF文件中并被发送。
图3是示出根据本公开的实施例的、在ISOBMFF媒体文件中承载PCC内容的方法的示例的图。
如图3所示,PCC内容301可以具有包括几何形状帧、纹理视频帧以及辅助信息和占用图的结构。通过使用HEVC方案编码的PCC内容301可以被组织成HEVC NAL单元302。HEVCNAL单元302可以被打包为ISOBMFF文件303。经压缩的PCC内容301的不同分量流可以被映射到ISOBMFF文件的各个轨道。例如,如图3的ISOBMFF文件303所示,逻辑轨道可以包括在moov盒中,并且根据HEVC方案或算术编码方案压缩的实际数据可以包括在mdat盒中。
尽管图3示出了根据HEVC方案压缩PCC内容301的几何形状帧和纹理帧的情况,但是本公开的实施例不限于此,并且可以根据各种方案的二维视频编解码器压缩PCC内容301的几何形状帧和纹理帧。
本公开可以提供一种用于以ISOBMFF存储V-PCC数据的特定设计。V-PCC编解码器设计的主要技术概念是重新使用现有的视频编解码器来压缩PCC数据的主要分量。因此,根据本公开的各种实施例,现有的ISOBMFF可以用于存储通过使用现有的视频编解码器所编码的PCC数据、或者存储通过使用将在未来开发的编解码器所编码的PCC数据。
根据本公开的实施例,可以通过元数据轨道提供关于文件的入口点的附加信息。可替代地,轨道参考盒可以指主要轨道和其他分量轨道。
因此,根据本公开的各种实施例,有可能在发送或解码时支持经编码的PCC数据的灵活组合,这被称为后期绑定(late binding)。尽管当前的PCC分量主要使用HEVC作为视频压缩编解码器,但PCC不限于使用HEVC。PCC数据可以由先前开发的视频编解码器(诸如AVC)编码、或者由当前正在开发的视频编解码器(诸如VVC)编码。
此外,由于商用设备可以支持不同的编解码器的组合,所有PCC数据不需要用相同简档(profile)和等级(level)的相同视频编解码器来编码。因此,通过使用PCC的参考描述盒,该提议的设计可以使得用各种视频编解码器、简档和等级编码的相同PCC数据的多个版本能够被存储,并且可以使得能够在进行发送或解码时取决于PCC解码器的能力选择各种视频编解码器的组合。
在下文中,将更详细地描述PCC文件的结构。
可以使用多个独立的编解码器来压缩PCC数据,因此可以定义各种类型的基本流来存储PCC内容。例如,PCC数据可以包含几何形状数据基本流、纹理数据基本流、占用图数据基本流和元数据基本流。
具体地,几何形状数据基本流可以包括由二维视频编解码器压缩的点云的几何形状。纹理数据基本流可以包括由二维视频编解码器压缩的点云的纹理。占用图数据基本流可以包括由二维视频编解码器压缩的点云的占用图。
元数据基本流可以包括其他经压缩的元数据,诸如PCC参数集和帧辅助信息。元数据基本流还可以包括作为其他经压缩的元数据的占用图。元数据基本流还可以提供包括经压缩的点云流的其他基本流的列表。
几何形状数据基本流、纹理数据基本流和占用图数据基本流中的每一个可以符合二维视频编解码器,并且可以作为兼容的二维视频媒体轨道存储在媒体文件中。元数据基本流应该提供PCC文件的入口点,并且应该为几何形状数据基本流、纹理数据基本流和占用图数据基本流提供参考。
构成单个PCC帧的帧辅助信息、占用图帧、几何形状帧和纹理帧的样本应该具有相同的解码时间。因此,用于这些样本的PCC参数集应该具有等于或晚于这样的解码时间的解码时间。
本公开提出了各种关键设计,作为以ISOBMFF承载PCC数据的和谐的解决方案。在下文中,将详细描述根据本公开的各种实施例的用于以ISOBMFF承载PCC数据的方法。
根据本公开的各种实施例,包含PCC内容的ISOBMFF文件可以包含PCC元数据轨道、PCC轨道参考盒、PCC轨道分组类型和盒(在每一个PCC分量轨道和元数据轨道内)和/或“EntityGroupBox”(在“MetaBox”内)、辅助信息或占用图元数据中的至少一个。
根据本公开的实施例的包含PCC内容的ISOBMFF文件可以包含PCC元数据轨道作为解析PCC文件的入口点。
根据本公开的实施例的PCC轨道参考盒可以提供用于PCC内容的灵活配置的PCC分量的轨道的列表。然而,实施例不限于此,并且可以提供其他轨道参考方案。下面将给出详细描述。
根据实施例,PCC轨道分组类型和盒(在每一个PCC分量轨道和元数据轨道内)和/或“EntityGroupBox”(在“MetaBox”内)可以提供表示点云流的不同版本的轨道的列表。
根据实施例,辅助信息和占用图元数据可以一起承载在PCC元数据轨道中、或者可以分别承载在辅助信息定时元数据轨道和占用图定时元数据轨道中。
图4是根据本公开的各种实施例的系统的框图,该系统包括用于压缩和发送三维视频内容的设备以及用于接收和再现经压缩的三维视频内容的设备。
如图4所示,根据本公开的实施例的发送设备100可以压缩三维视频内容并将经压缩的三维视频内容发送到接收设备200,并且接收设备200可以对接收到的比特流进行解压缩以重构三维视频内容。例如,根据本公开的实施例的发送设备100可以是用于提供与三维图像相关的数据或服务的服务器。根据本公开的实施例的接收设备200可以包括能够接收和再现与三维图像相关的数据的各种类型的设备。因此,接收设备200可以被称为再现三维视频内容的再现设备。
图4的发送设备100可以包括处理器110和通信器120,并且接收设备200可以包括通信器210和处理器220。然而,并非示出的组件中的所有都是必要的组件。发送设备100和接收设备200可以由比所示组件更多的组件来实现、或者可以由比所示组件更少的组件来实现。例如,图4的处理器110和处理器220可以通过运行存储在存储器(未示出)中的一个或多个指令来操作以处理与三维视频内容相关的数据。
尽管图4示出了发送设备100包括一个处理器110并且接收设备200也包括一个处理器220,但是发送设备100和接收设备200可以包括多个处理器。因此,下面描述的由处理器110和/或处理器220执行的操作和功能可以由多个处理器部分地执行。
根据本公开的实施例的发送设备100的处理器110可以生成包含三维视频内容的媒体文件。例如,处理器110可以通过使用V-PCC技术将包含点云数据的三维视频内容压缩为二维视频帧,并从二维视频帧生成ISOBMFF文件。
具体地,根据本公开的实施例的处理器110可以生成二维视频帧和从二维视频帧重构三维内容所需的元数据,在二维视频帧中,包含点云数据的三维视频内容被压缩。处理器110可以通过使用视频编解码器技术来对二维视频帧进行编码。处理器110可以将经编码的二维视频帧和元数据封装到媒体文件中。
为了生成媒体文件,根据本公开的实施例的处理器110可以将包括在二维视频帧中的多个分量插入到媒体文件的媒体数据盒中,在二维视频帧中,三维视频内容被压缩。例如,在媒体文件是ISOBMFF文件的情况下,媒体数据盒可以是mdat盒。
根据本公开的实施例的处理器110可以将分别与多个分量相对应的第一轨道和包含元数据的第二轨道插入到媒体文件的元数据盒中。例如,在媒体文件是ISOBMFF文件的情况下,元数据盒可以是moov盒。
处理器110可以将关于多个分量中的每一个的入口点的信息插入到第二轨道中。因此,当媒体文件被解析时,媒体文件中的元数据盒中的第二轨道可以为二维视频帧的多个分量中的每一个提供入口点。
根据本公开的实施例的处理器110可以打包经封装的数据,并且通信器120可以将包含打包后的数据的比特流发送到接收设备200。
根据本公开的实施例的接收设备200的通信器210可以从发送设备100接收包含在比特流中的打包后的数据。
根据本公开的实施例的处理器220可以通过处理打包后的数据来重构媒体文件。处理器220可以通过解析媒体文件来获得经编码的二维视频帧和元数据。
根据本公开的实施例的处理器220可以识别包含在媒体文件中的媒体数据盒和元数据盒。首先,处理器220可以从元数据盒中识别分别与包含在经编码的二维视频帧中的多个分量相对应的第一轨道以及包含元数据的第二轨道。处理器220可以从第二轨道中识别媒体数据盒中的多个分量中的每一个的入口点。因此,处理器220可以基于识别出的入口点从媒体文件获得经编码的二维视频帧和元数据。
处理器220可以对经编码的二维视频帧进行解码,并基于二维视频帧和元数据重构和输出三维视频内容。例如,处理器220可以从ISOBMFF文件中提取V-PCC内容,并重构三维视频内容。V-PCC内容可以包括二维视频帧,该二维视频帧包含指示包括在点云中的点的位置信息的几何形状图像、指示点的颜色信息的纹理图像、以及指示关于包括在二维视频帧中的二维图像的像素中具有关于点云的信息的像素的信息的占用图图像。V-PCC内容还可以包括包含辅助信息的元数据,该辅助信息包括关于从点云获得的面片的信息。
根据本公开的各种实施例的媒体文件可以包括至少一个盒。盒可以是包含媒体数据或与媒体数据相关的元数据的数据块或对象。这些盒可以构成层级结构,并且可以根据层级结构对数据进行分类,并且因此,媒体文件可以具有适合于存储和传送大量媒体数据的形式。此外,媒体文件可以具有使用户能够容易地访问媒体信息的结构,例如,跳到要再现的媒体内容的特定点。
根据本公开的实施例,发送设备100可以生成并发送包含V-PCC内容的ISOBMFF文件。在下文中,将参考图5描述根据本公开的实施例的点云数据存储在ISOBMFF媒体文件中的示例。
根据本公开的实施例,在媒体文件是ISOBMFF文件501的情况下,媒体文件可以包含ftyp盒(未示出)、moov盒502和mdat盒503。Ftyp盒(文件类型盒)可以为相应的媒体文件提供文件类型或兼容性相关信息。moov盒502(影片盒)可以是包含关于相应的媒体文件的媒体数据的元数据的盒。moov盒可以作为所有元数据段的容器。
mdat盒(媒体数据盒)503可以是用于包含相应的媒体文件的实际多段媒体数据的盒。媒体数据可以包含音频样本和/或视频样本,并且mdat盒可用作包含媒体样本的容器。
根据本公开的实施例的发送设备100可以分别在多个轨道中承载多个V-PCC分量,用于以ISOBMFF承载V-PCC内容。
当将经压缩的V-PCC分量流映射到轨道中的每一个时,逻辑轨道可以包含在moov盒502中,并且实际的经压缩的数据可以以样本的形式包含在mdat盒503中。
V-PCC内容可以包含几何形状数据基本流、纹理数据基本流、占用图数据基本流和元数据基本流。
几何形状数据基本流、纹理数据基本流和占用图数据基本流中的每一个可以符合二维视频编解码器,并且可以作为兼容的二维视频媒体轨道存储在媒体文件中。元数据基本流应该提供PCC文件的入口点,并且还必须为几何形状数据基本流、纹理数据基本流和占用图数据基本流提供参考。
构成单个PCC帧的帧辅助信息、占用图帧、几何形状帧和纹理帧的样本应该具有相同的解码时间。因此,用于这些样本的PCC参数集应该具有等于或晚于这样的解码时间的解码时间。
如图5所示,几何形状数据基本流、纹理数据基本流和占用图数据基本流可以分别被存储为几何形状轨道、纹理轨道和占用图轨道。
根据本公开的实施例的发送设备100还可以包括moov盒502中的PCC元数据轨道。当接收实体解析PCC文件时,PCC元数据轨道可以提供PCC流的入口点。PCC文件可以包含多个PCC流以及与多个PCC流相对应的多个PCC元数据轨道。在此,PCC流中的每一个的入口点可以由PCC元数据轨道指示。
根据本公开的实施例的PCC元数据轨道可以包含PCC配置记录、PCC轨道参考盒或轨道分组盒中的至少一个。
PCC配置记录可以指示对由PCC配置记录描述的分量进行解码所需的PCC解码器的简档和等级。
PCC轨道参考盒可以提供PCC分量轨道的列表以及轨道相关信息,诸如所使用的视频编解码器、简档、等级和由轨道表示的分量的类型。
轨道分组盒可以提供指示点云流的不同版本的轨道的列表。此外,轨道分组盒可以是相应的PCC文件/流的入口点。
在下文中,将描述与用于PCC流的轨道设计相关的三个实施例。
首先,作为与用于PCC流的轨道设计相关的实施例,发送设备100可以生成包含PCC轨道参考盒的媒体文件。PCC轨道参考盒可以提供PCC分量轨道的列表,以用于对PCC内容的灵活配置。PCC轨道参考盒可以用作包含指示分量数据类型、编解码器、简档和等级的多条轨道参考信息的入口点。
下表1示出了PCC轨道参考盒的定义。
Box Type:′pctr′
Container:TrackBox
Mandatory:Yes
Quantity:One
表1中的术语如下:BoxType盒类型,Container容器,TrackBox轨道盒,Mandatory强制,Yes是,Quantity数量,One一。
根据表1,PCC轨道参考盒的盒类型为“pctr”并且包含在moov盒的轨道盒中。
PCC轨道参考盒可以提供包含几何形状数据、纹理数据和占用图数据的轨道的列表。对于对支持各种客户端能力的PCC内容的灵活配置,可以支持通过使用各种视频编解码器、简档和等级编码的数据以及流类型表示的多个版本(例如,是d0和d1帧都包含还是只有一种帧类型包含在流中),并且支持无损编码。
下表2示出了PCC轨道参考盒的语法。
在表2的语法中,numOfDataTrackReferences指示盒中参考的轨道参考的数量。
数据类型指示下面表3中列出的类型中、所参考的轨道中的PCC数据的类型。
PCC数据类型
0x00 为ISO使用预留
0x01 几何形状d0视频流
0x02 几何形状d1视频流
0x03 纹理视频流
0x04 占用图视频流
0x05~0x0E 为ISO使用预留
VideoCodecType指示下面表4中列出的规范中的视频编码规范的类型,并且用于对所参考的轨道中的PCC数据进行编码。
VideoProfileIndication包含下表4中列出的规范中的视频编码规范的profile_idc,并且用于对所参考的轨道中的PCC数据进行编码。
VideoLevelIndication包含下面表4中列出的规范中的视频编码规范的level_idc,并且用于对所参考的轨道中的PCC数据进行编码。
无损指示是否对所参考的轨道中的PCC数据进行无损编码。
track_ID指示所参考的轨道的轨道标识符。track_ID的值应该不为0,并且给定的值在此盒中应该是唯一的。
同时,作为与用于PCC流的轨道设计相关的另一个实施例,可以使用ISOBMFF的现有的轨道参考工具和方案类型。
然而,在使用ISOBMFF的现有的轨道参考工具和方案类型的情况下,客户端应该解析每个轨道以便识别每个分量。
为了将点云元数据轨道链接到分量视频轨道,可以使用ISOBMFF标准的轨道参考工具。可以生成从PCC元数据轨道到分量轨道的内容描述参考‘cdsc’。为此,应该向TrackBox添加TrackReferenceBox,并在TrackReferenceBox中布置类型“cdsc”的TrackReferenceTypeBox。TrackReferenceTypeBox可能包含指定由PCC元数据轨道所参考的分量视频轨道的track_ID数组。可替代地,可以定义和使用用于PCC比特流的新的轨道参考类型,而不使用“cdsc”。可替代地,媒体文件可以包含一连串的轨道参考,这可以通过将来自PCC元数据轨道的“cdsc”轨道参考添加到(多个)几何形状视频轨道、并将来自这些PCC元数据轨道的“auxl”轨道参考添加到占用图轨道和纹理轨道来实现。
每个轨道的类型称为轨道方案类型。在几何形状视频流轨道的情况下,SchemeTypeBox的scheme_type字段可以被配置为“pcgm”,以指示受点云几何形状限制的方案。在纹理视频流轨道的情况下,scheme_type字段可以被配置为“pctx”,以指示点云纹理限制方案。
同时,作为与用于PCC流的轨道设计相关的另一个实施例,可以使用ISOBMFF的MetaBox的基于EntityToGroupBox的轨道设计。
V-PCC比特流是与相关时间相对应的、可独立解码的视频流(几何形状、纹理和占用图)和静态元数据的集合。ISOBMFF为对这样的流的集合进行编码和封装提供了成熟的结构。ISOBMFF的轨道结构适用于定时流(视频和定时元数据)。样本项、样本组或轨道级元数据盒适用于静态元数据。在该实施例中,提出了轨道级设计。
鉴于V-PCC需要四个时间对齐的数据流(纹理、几何形状、占用图和元数据),具有四个独立轨道的设计可能是合适的。流之间的同步可以由ISOBMFF轨道定时结构(stts、ctts和cslg、或影片片段中的等效机制)来处理。
单个V-PCC文件的轨道可以通过使用具有V-PCC特定的分组四字符代码(4CC)值的文件级EntityToGroupBox(例如,对于视觉点云组为‘vpcg’)进行分组。单个V-PCC流共有的所有元数据段可以在该V-PCC特定的EntityToGroupBox中被指定。EntityToGroupBox可以作为访问V-PCC内容的入口点。
在从ISOBMFF导出的规范中很好地定义了使用MPEG特定的编解码器对经编码的视频轨道的承载。例如,在ISO/IEC 14496-15中定义了对经AVC或HEVC编码的视频的承载。对于需要不同的编解码器类型的那些,ISOBMFF还提供了扩展机制(参见ISO/IEC 14496-15的Annex C)。
在再现实体中,显示纹理、几何形状或占用图轨道而不重构点云是没有意义的,因此可以分别对于PCC轨道指定和使用受限的视频方案类型‘pcct’、‘pccg’和‘pcco’。
V-PCC元数据可以包含在定时元数据轨道中。对定时元数据的承载可以以与用于对视频轨道的承载的方式相同或相似的方式被处理。可以指定定时元数据轨道‘vpcm’的V-PCC特定的样本条目类型。
一般地,V-PCC解决方案所需的元数据可以分类为流等级、帧组(GOF)等级或每帧可用信息。因此,可能提出以下ISOBMFF结构。假设V-PCC编码规范定义了下面描述的数据结构。
例如,流级元数据应该被全局使用,并且由于其静态特性,不应该随时间而变化。因此,流级元数据可以存储在包含在文件级MetaBox中的V-PCC特定的EntityToGroupBox‘vpcg’中。
下面的表5是存储在V-PCC特定的EntityToGroupBox‘vpcg’中的流级元数据的语法。
可以在V-PCC编码规范中指定vpcc_bitstream_metadata()。
作为另一个示例,帧组(GOF)级元数据可以是在帧组之间可修改的,并且可以是可索引的以供随机访问。因此,GOF级元数据可以存储在‘vpcm’轨道的SampleGroupDescriptionBox中。SampleGroupDescriptionEntry可以被扩展以匹配到新的V-PCC特定的盒,VPCCSampleGroupEntry‘vpcs’。
下面的表6是存储在‘vpcm’轨道的SampleGroupDescriptionBox中的GOF级元数据的语法。
可以在V-PCC编码规范中指定vpcc_gof_metadata()。
作为另一个示例,帧级元数据可以是在每一个帧中可修改的,并且可以存储在定时元数据轨道‘vpcm’中。
下面的表7是存储在定时元数据轨道‘vpcm’中的帧级元数据的语法。
可以在V-PCC编码规范中指定vpcc_frame_metadata()。
根据本公开的实施例的PCC元数据轨道可以包含PCC解码器配置记录。
PCC解码器配置记录可以提供对由PCC解码器配置记录描述的基本流进行解码所需的PCC解码器的简档和等级的指示。符合所指示的简档和等级的PCC解码器应该能够对文件的所有基本流进行解码,而不管每个基本流符合的视频简档和等级。
PCC解码器配置记录可以提供对版本的指示。在本公开中使用了PCC解码器配置记录的版本1。该字段的新值应该用于符合版本1的解码器不可解码的修改。
下面的表8是PCC解码器配置记录的语法。
configurationVersion指示此记录的版本。
PCCProfileIndication包含PCC标准的profile_idc。
PCCLevelIndication包含PCC标准的level_idc。
同时,根据本公开的实施例的PCC元数据轨道可以包含PCC参数集。
PCC参数集可以为PCC解码器提供初始化信息。
下面的表9是PCC参数集的语法。
对表9的语法的元素的定义与在PCC标准中定义的相同,因此在本公开中将被省略。
由视频编码规范压缩的PCC数据应该存储在具有样本条目的轨道中,该样本条目是表的同一行中所列的4CC之一。
在下文中,将描述PCC元数据轨道的定时元数据轨道。
下表10示出了对PCC元数据轨道的定时元数据轨道的定义。
表10中术语如下:Sample Entry Type样本条目类型,Container容器SampleDescription Box样本描述盒,Mandatory强制,No否,Quantity质量,Or或。
PCC元数据轨道的定时元数据轨道可以包含在PCC元数据轨道的stsd盒(样本描述盒)中。stsd盒可以包含在stbl盒(样本表盒)中,stbl盒可以包含在minf盒(媒体信息盒)中,并且minf盒可以包含在PCC元数据轨道的mdia盒(媒体盒)中。
轨道样本条目类型“pcc1”可以用作定时元数据轨道的样本条目类型。该样本条目类型的样本条目可以由下表11指定。
PCC元数据轨道可以在样本条目中包含静态配置参数(其不随时间变化),并且可以在样本格式中包含取决于帧而变化的动态辅助信息或动态面片信息。
PCC元数据轨道的每个样本可以生成一个点云实例(点云“帧”)。一个点云实例的各种分量(辅助信息、占用图、几何形状和纹理)的解码时间与PCC元数据样本的解码时间(通过使用解码时间被定义为样本盒“stts”)相同。因此,由PCC元数据样本参考的其他轨道的所有样本应该具有相同的解码时间戳。
取决于是否存在由单独的二维视频编解码器压缩的占用图数据流,每个样本可以包含辅助信息和占用图数据、或者仅包含辅助信息。
样本条目类型“pcc1”的样本语法可以由下表12指定。
在表12的语法中,CodecType指示用于对相应的盒中承载的PCC元数据(辅助信息、占用图)进行编码的编码规范类型。
PatchAuxInfoStruct()包含在V-PCC标准中针对每个面片指定一次的语法元素。
BlockAuxInfoStruct()包含在V-PCC标准中针对每个块指定一次的语法元素。
BlockOccupancyMapStruct()包含在V-PCC标准中为非空块指定的语法元素。
对语法的其他元素的定义与在PCC规范中定义的相同,因此在本公开中将被省略。
尽管表12示出了辅助信息包含在PCC元数据轨道中,并且占用图可选地包含在PCC元数据轨道中,但是本公开的实施例不限于表12。当根据本公开的另一个实施例的发送设备100通过使用单独的辅助信息元数据轨道和单独的占用图元数据轨道、为每个定时元数据分量生成新的元数据样本条目时,只有配置信息和参数集信息可以包含在“PCC元数据轨道”中。
在下文中,将描述占用图轨道和辅助信息轨道。
解码器可以基于几何形状流、通过使用作为每个GOF单元内的其他流的部分的占用图和辅助信息来重构点云。因此,该流可以被布置在单独的定时元数据轨道上,该轨道可以被称为占用图轨道。该轨道可以由该轨道的样本描述符内的下一个样本条目来识别。轨道的样本不仅可以包含单个帧的辅助信息,还可以包含占用图。
下面的表13示出了相对于预定义元数据样本条目的样本条目的语法。
根据本公开的另一个实施例,可以使用两个单独的定时元数据轨道来承载占用地图信息和辅助信息。占用图轨道应该包含与上述针对单个组合的占用图和辅助信息轨道的情况相同的样本条目。辅助信息的定时元数据轨道应该在相应的元数据轨道的样本描述符中包含如下表14所示的样本条目。
在通过使用视频编码器对占用图进行编码的情况下,生成的视频流可以被布置在受限的视频方案轨道上。该轨道的SchemeTypeBox的scheme_type字段可以被配置为“pomv”,其指示点云的占用图的受限的视频方案。该视频轨道可以由PCC轨道参考盒参考(或者在与上述轨道参考相关的其他实施例内被参考)。
在下文中,将描述对点云流的多个版本的分组。
ISOBMFF容器可以包含多个点云流。
这些多点云流可以是相同点云流(表示相同的对象)的不同版本、或者可以是彼此不同的多个点云流(表示不同的对象)。
通过在PCC流(包括经压缩的视频和元数据流)的所有轨道(分量)内将TrackGroupBox添加到TrackBox,可以通过使用ISOBMFF中的轨道分组工具来识别由轨道集表示的点云流的预定义版本。
下面表15所示的语法定义了新的轨道分组类型PCCStreamGroupBox。
对于track_group_type‘pccs’,属于相同PCC流的轨道具有相同的track_group_id值,并且一个PCC流的track_group_id不同于其他PCC流的track_group_id。因此具有track_group_type‘pccs’的TrackGroupTypeBox中的track_group_id可以用作PCC流的标识符。
在单个容器中允许表示不同点云(对象)的多个点云流的情况下,对于(其他对象的)每个点云流,可以存在至少一个唯一的PCC元数据轨道。
如上所述,根据本公开的各种实施例,提出了一种通过在多个轨道中承载多个V-PCC分量来在ISOBMFF文件中承载V-PCC内容的方法。每个轨道可以是PCC流的个体基本流,并且个体基本流可以由与个体基本流相对应的解码器解码。
根据本公开的实施例的PCC元数据轨道可以包含其他轨道的列表,并且所有内容相关的轨道的列表可以指示相应的内容的入口点(entry point)。因此,根据本公开的各种实施例,可以在媒体文件中定义通过使用PCC元数据轨道来实现对V-PCC内容的灵活配置的入口点。
此外,根据本公开的各种实施例,通过定义包含与V-PCC数据相关的数据的新的V-PCC元数据样本格式,可以移除ISOBMFF文件中的mdat盒中的重复头部。
此外,根据本公开的各种实施例,经编码的PCC数据可以在发送或解码时被灵活地组合。此外,可以提供可以通过使用各种视频编解码器、简档和等级来编码和解码的内容,并且可以实现针对多个版本的点云流的分组。
在下文中,将参考图6所示的流程图描述根据本公开的各种实施例的、由发送设备100发送三维视频内容的方法。下述的方法可以由图4所示的发送设备100的配置来执行。
在操作S610中,根据本公开的实施例的发送设备100可以生成二维视频帧和从二维视频帧重构三维内容所需的元数据,在二维视频帧中,包含点云数据的三维视频内容被压缩。
根据本公开的实施例的发送设备100可以通过将包括在三维视频内容中的点云帧投影到二维平面上来生成至少一个二维图像。例如,发送设备100生成至少一个几何形状图像、至少一个纹理图像和占用图图像。发送设备100可以从生成的二维图像生成二维视频帧。
根据本公开的实施例的发送设备100可以生成从二维视频帧重构三维内容所需的元数据。发送设备100可以生成包含与面片相关的信息的辅助信息作为元数据。
在操作S620中,根据本公开的实施例的发送设备100可以对二维视频帧进行编码。发送设备100可以通过使用视频编解码器来对二维视频帧进行编码。发送设备100可以选择性地对元数据进行编码。
在操作S630中,根据本公开的实施例的发送设备100可以将经编码的二维视频帧和元数据封装到媒体文件中。例如,发送设备100可以将经编码的二维视频帧和元数据封装到ISOBMFF媒体文件中。
根据本公开的实施例的发送设备100可以将包含在经编码的二维视频帧中的多个分量插入到媒体文件的媒体数据盒中。包含在经编码的二维视频帧中的多个分量可以包括几何形状数据、纹理数据或占用图数据中的至少一个。例如,发送设备100可以将几何形状数据、纹理数据和占用图数据插入到ISOBMFF文件的mdat盒中的样本中。
根据本公开的实施例的发送设备100可以将分别与多个分量相对应的第一轨道和包含元数据的第二轨道插入到媒体文件的元数据盒中。例如,发送设备100可以将与几何形状数据相对应的视频轨道、与纹理数据相对应的视频轨道和与占用图数据相对应的视频轨道插入到ISOBMFF文件中的moov盒中。发送设备100可以将与元数据相对应的第二轨道插入到ISOBMFF文件中的moov盒中。第二轨道可以是上述的PCC元数据轨道。重复的描述被省略。
当接收设备200解析媒体文件时,根据本公开的实施例的第二轨道可以为PCC内容的多个分量中的每一个提供入口点。根据本公开的实施例的第二轨道可以提供第一轨道的列表。因此,接收设备200可以基于第二轨道提供的信息快速地获得关于第一轨道的信息,而无需解析第一轨道。
将参考图7更详细地描述生成媒体文件的方法。
在操作S640中,根据本公开的实施例的发送设备100可以打包经封装的数据,并将打包后的数据发送到接收设备200。例如,发送设备100可以生成具有适合于MMT方案的形式的比特流,并且发送打包后的媒体数据。
图7是根据本公开的实施例的、由发送设备100生成包含三维视频内容的媒体文件的方法的流程图。
在操作S710中,根据本公开的实施例的发送设备100可以将包含在二维视频帧中的多个分量插入到媒体文件的媒体数据盒中,在二维视频帧中,三维视频内容被压缩。
根据本公开的实施例的媒体文件可以是符合ISOBMFF的文件,并且媒体数据盒可以是mdat盒。
根据本公开的实施例的三维视频内容可以包含点云,并且可以通过V-PCC技术被压缩为二维视频帧。二维视频帧可以包含指示包括在点云中的点的位置信息的几何形状图像、指示点的颜色信息的纹理图像、或者指示关于包括在二维视频帧中的二维图像的像素中具有关于点云的信息的像素的信息的占用图图像中的至少一个。
元数据可以包含辅助信息,该辅助信息包括关于从点云获得的面片的信息。
在操作S720中,根据本公开的实施例的发送设备100可以将分别与多个分量相对应的第一轨道和包含元数据的第二轨道插入到媒体文件的元数据盒中。
经压缩的三维视频内容的多个分量可以被映射到元数据盒中的轨道。根据本公开的实施例的媒体文件的元数据盒可以是ISOBMFF文件中的moov盒。
根据本公开的实施例的第一轨道可以包括包含关于经编码的几何形状图像的信息的几何形状轨道、包含关于经编码的纹理图像的信息的纹理轨道或者包含关于经编码的占用图图像的信息的占用图轨道中的至少一个。
在操作S730中,根据本公开的实施例的发送设备100可以将关于多个分量中的每一个的入口点的信息插入到第二轨道中。
通过进一步包含第一轨道的列表,根据本公开的实施例的第二轨道可以是多个分量中的每一个的入口点。
根据本公开的实施例的第二轨道可以包含第二轨道中参考的第一轨道的数量、第一轨道的数据类型、用于对第一轨道的数据进行编码的视频编码规范的类型、简档和等级、第一轨道的数据是否被无损编码或者第一轨道的轨道标识符中的至少一个。
例如,在第二轨道是ISOBMFF文件的PCC元数据轨道的情况下,第二轨道可以包含表2的PCC轨道参考盒。
此外,根据本公开的实施例的第二轨道还可以包含PCC解码器配置记录或PCC参数集中的至少一个。例如,在第二轨道是ISOBMFF文件的PCC元数据轨道的情况下,PCC解码器配置记录或PCC参数集中的至少一个可以包含在第二轨道的样本描述符盒的样本条目中。
包含在元数据盒中的轨道中的每一个可以包含用于识别包括每个轨道的组的识别信息。例如,在媒体文件是ISOBMFF文件的情况下,发送设备100可以将TrackGroupBox添加到PCC流的所有轨道的TrackBox,并且向属于相同PCC流的轨道分配相同的轨道组标识符。
在下文中,将参考图8所示的流程图描述根据本公开的各种实施例的、由接收设备200接收和重构三维视频内容的方法。下面描述的方法可以由图4所示的接收设备200的配置来执行。
在操作S810中,根据本公开的实施例的接收设备200可以通过处理包含在从发送设备100接收到的比特流中的包来重构媒体文件。
在操作S820中,根据本公开的实施例的接收设备200可以解析媒体文件,以从媒体文件中提取经编码的二维视频帧和元数据。
根据本公开的实施例的二维视频帧可以是通过使用V-PCC技术压缩包含点云的三维视频内容而获得的数据。二维视频帧可以包含几何形状图像、纹理图像或占用图图像中的至少一个,并且元数据可以包含辅助信息,该辅助信息包括关于从点云获得的面片的信息。
根据本公开的实施例的接收设备200可以识别包含在媒体文件中的媒体数据盒和元数据盒,以便解析媒体文件。例如,媒体文件可以是ISOBMFF文件,媒体数据盒可以是mdat盒,并且元数据盒可以是moov盒。
根据本公开的实施例的接收设备200可以从元数据盒中识别分别与包含在经编码的二维视频帧中的多个分量相对应的第一轨道以及包含元数据的第二轨道。
例如,第一轨道可以包含几何形状轨道、纹理轨道或占用图轨道中的至少一个。包含元数据的第二轨道还可以包括第一轨道的列表。
根据本公开的实施例的接收设备200可以从第二轨道中识别媒体数据盒中的多个分量中的每一个的入口点。
根据本公开的实施例的第二轨道可以包含第二轨道中参考的第一轨道的数量、第一轨道的数据类型、用于对第一轨道的数据进行编码的视频编码规范的类型、简档和等级、第一轨道的数据是否被无损编码或者第一轨道的轨道标识符中的至少一个。例如,在第二轨道是ISOBMFF文件的PCC元数据轨道的情况下,第二轨道可以包含表2的PCC轨道参考盒。
根据本公开的实施例的接收设备200可以基于识别出的入口点从媒体文件中提取经编码的二维视频帧和元数据。
在操作S830中,根据本公开的实施例的接收设备200可以对经编码的二维视频帧进行解码。
接收设备200可以通过使用已经由发送设备100使用的视频编解码器来对经编码的二维视频帧进行解码。
根据本公开的实施例的第二轨道还可以包含PCC解码器配置记录或PCC参数集中的至少一个。例如,在第二轨道是ISOBMFF文件的PCC元数据轨道的情况下,PCC解码器配置记录或PCC参数集中的至少一个可以包含在第二轨道的样本描述符盒的样本条目中。
构成PCC数据的每个分量可以由独立的视频编解码器编码和发送。因此,根据本公开的实施例的接收设备200可以基于PCC元数据轨道的PCC轨道参考盒、基于合适的视频编解码器、简档和等级来对二维视频帧进行解码。
在操作S840中,根据本公开的实施例的接收设备200可以基于二维视频帧和元数据来重构和输出三维视频内容。
根据本公开的实施例的媒体文件可以包含多个点云流。根据本公开的实施例的接收设备200可以通过从媒体文件的元数据盒中的轨道中识别包括每个轨道的数据的组的标识符,从包括在相同组中的轨道的数据重构点云。
上述实施例可以实现为计算机可执行程序,并且可以在使用计算机可读记录介质执行该程序的通用数字计算机中实现。此外,上述实施例中使用的数据结构可以通过各种方式被写入计算机可读记录介质。此外,上述实施例可以以包括计算机可执行指令的计算机可读记录介质的形式实现,诸如可由计算机执行的程序模块。例如,由软件模块或算法实现的方法可以作为计算机可读和计算机可执行代码或程序命令存储在计算机可读记录介质上。
计算机可读记录介质可以是可由计算机访问的任何可用介质,并且可以包括易失性或非易失性介质以及可拆卸和不可拆卸介质。计算机可读记录介质可以包括但不限于磁存储介质(诸如ROM、软盘或硬盘),以及光存储介质(诸如CD-ROM或DVD)。此外,计算机可读记录介质可以包括计算机存储介质和通信介质。
此外,多个计算机可读记录介质可以分布在通过网络连接的计算机系统中,并且存储在分布式记录介质中的数据(例如程序指令和代码)可以由至少一个计算机执行。
本文描述的特定实现方式仅是本公开的实施例,并且不以任何方式限制本公开的范围。为了简明起见,可以省略对相关技术的电子配置、控制系统、软件和系统的其他功能方面的描述。

Claims (15)

1.一种生成包含三维视频内容的媒体文件的方法,所述方法包括:
将包含在二维视频帧中的多个分量插入到所述媒体文件的媒体数据盒中包括的多个样本,其中所述二维视频帧对应于被压缩的三维视频内容;
将每个与所述多个分量的类型相对应的多个第一轨道和包含元数据的第二轨道插入到所述媒体文件中的元数据盒中;以及
将关于插入到所述多个样本的所述多个分量中的每一个分量的入口点的信息插入到所述第二轨道中,以在解析所述媒体文件时使用,其中所述第二轨道还包含所述多个第一轨道的列表以及所述多个分量的经编码的每一个的多个版本的列表。
2.根据权利要求1所述的方法,其中,所述媒体文件是根据基于ISO的媒体文件格式ISOBMFF的文件,所述媒体数据盒是mdat盒,并且所述元数据盒是moov盒。
3.根据权利要求1所述的方法,其中,所述三维视频内容包含点云,并且通过基于视频的点云压缩V-PCC技术被压缩为所述二维视频帧,
所述二维视频帧包含指示包括在所述点云中的点的位置信息的几何形状图像、指示所述点的颜色信息的纹理图像、以及指示关于包含在所述二维视频帧中的二维图像的像素中具有关于所述点云的信息的像素的信息的占用图图像,并且
所述元数据包含辅助信息,所述辅助信息包括关于从所述点云获得的面片的信息。
4.根据权利要求1所述的方法,其中,所述多个第一轨道包括包含关于经编码的几何形状图像的信息的几何形状轨道、包含关于经编码的纹理图像的信息的纹理轨道或包含关于经编码的占用图图像的信息的占用图轨道中的至少一个。
5.根据权利要求1所述的方法,其中,所述第二轨道还包含在所述第二轨道中参考的所述多个第一轨道的数量、所述多个第一轨道的至少一个的数据类型、用于对所述多个第一轨道的至少一个的数据进行编码的视频编码规范的类型、简档和等级、指示所述多个第一轨道的至少一个的数据是否被无损编码的信息、或者所述多个第一轨道的至少一个的轨道标识符中的至少一个。
6.根据权利要求1所述的方法,其中,所述第二轨道还包含点云压缩PCC解码器配置记录和PCC参数集。
7.根据权利要求1所述的方法,其中,所述多个第一轨道和所述第二轨道分别包含用于识别包括相应的轨道的组的识别信息。
8.一种用于发送三维视频内容的设备,所述设备包括:
至少一个处理器,被配置为生成包含点云数据的三维视频内容被压缩在其中的二维视频帧以及生成从所述二维视频帧重构所述三维视频内容所需的元数据;对所述二维视频帧进行编码;将经编码的二维视频帧和所述元数据封装到媒体文件中,以及对封装的数据进行打包;以及
通信器,被配置为发送打包后的数据,
其中,所述至少一个处理器还被配置为通过将包含在经编码的二维视频帧中的多个分量插入到所述媒体文件中的媒体数据盒中包括的多个样本中,并且将每个与所述多个分量的类型相对应的多个第一轨道和与元数据相对应的第二轨道插入到所述媒体文件中的元数据盒中,来生成所述媒体文件,并且
其中,所述第二轨道包含所述多个第一轨道的列表以及所述多个分量的经编码的每一个的多个版本的列表,并且当所述媒体文件被解析时,所述第二轨道提供插入到所述多个样本的所述多个分量中的每一个的入口点。
9.一种接收三维视频内容的方法,所述方法包括:
通过处理接收到的包来重构媒体文件;
解析所述媒体文件以提取经编码的二维视频帧和元数据;
对经编码的二维视频帧进行解码;以及
基于所述二维视频帧和所述元数据重构并输出三维视频内容,
其中,对所述媒体文件的解析包括:
识别包含在所述媒体文件中的媒体数据盒和元数据盒;
从所述元数据盒中识别每个与包含在经编码的二维视频帧中的多个分量的类型相对应的多个第一轨道以及包含所述元数据的第二轨道;以及
从所述第二轨道中识别所述多个第一轨道的列表以及所述多个分量的经编码的每一个的多个版本的列表、以及所述媒体数据盒中的多个样本中的多个分量中的每一个的入口点。
10.根据权利要求9所述的方法,其中,所述媒体文件是根据基于ISO的媒体文件格式ISOBMFF的文件,所述媒体数据盒是mdat盒,并且所述元数据盒是moov盒。
11.根据权利要求9所述的方法,其中,所述三维视频内容包含点云,所述经编码的二维视频帧是其中所述三维视频内容通过基于视频的点云压缩V-PCC技术压缩的数据,
所述二维视频帧包含指示包括在所述点云中的点的位置信息的几何形状图像、指示所述点的颜色信息的纹理图像、以及指示关于包含在所述二维视频帧中的二维图像的像素中具有关于所述点云的信息的像素的信息的占用图图像,并且
所述元数据包含辅助信息,所述辅助信息包括关于从所述点云获得的面片的信息。
12.根据权利要求9所述的方法,其中,所述多个第一轨道包括包含关于经编码的几何形状图像的信息的几何形状轨道、包含关于经编码的纹理图像的信息的纹理轨道或包含关于经编码的占用图图像的信息的占用图轨道中的至少一个。
13.根据权利要求9所述的方法,其中,所述第二轨道还包含在所述第二轨道中参考的所述多个第一轨道的数量、所述多个第一轨道的至少一个的数据类型、用于对所述多个第一轨道的至少一个的数据进行编码的视频编码规范的类型、简档和等级、指示所述多个第一轨道的至少一个的数据是否被无损编码的信息、或者所述多个第一轨道的至少一个的轨道标识符中的至少一个。
14.根据权利要求9所述的方法,其中,所述第二轨道还包含点云压缩PCC解码器配置记录和PCC参数集。
15.根据权利要求9所述的方法,其中,所述多个第一轨道和所述第二轨道分别包含用于识别包括每个轨道的组的识别信息,并且
所述三维视频内容是基于具有相同组识别信息的轨道集重构的。
CN201980066274.1A 2018-10-08 2019-10-08 用于生成包括三维视频内容的媒体文件的方法和装置,以及用于重放三维视频内容的方法和装置 Active CN113170088B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862742578P 2018-10-08 2018-10-08
US62/742,578 2018-10-08
PCT/KR2019/013208 WO2020076058A1 (ko) 2018-10-08 2019-10-08 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치

Publications (2)

Publication Number Publication Date
CN113170088A CN113170088A (zh) 2021-07-23
CN113170088B true CN113170088B (zh) 2023-10-03

Family

ID=70165040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980066274.1A Active CN113170088B (zh) 2018-10-08 2019-10-08 用于生成包括三维视频内容的媒体文件的方法和装置,以及用于重放三维视频内容的方法和装置

Country Status (5)

Country Link
US (1) US11606576B2 (zh)
EP (1) EP3843385A4 (zh)
KR (1) KR102655630B1 (zh)
CN (1) CN113170088B (zh)
WO (1) WO2020076058A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020189903A1 (ko) * 2019-03-20 2020-09-24 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
KR102596003B1 (ko) * 2019-03-21 2023-10-31 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신장치 및 포인트 클라우드 데이터 수신 방법
JP2023504097A (ja) * 2019-11-29 2023-02-01 中興通訊股▲ふん▼有限公司 マルチビュービデオ処理方法および装置
EP4135319A4 (en) * 2020-04-11 2023-05-03 Lg Electronics Inc. POINT CLOUD DATA TRANSMITTING DEVICE, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING DEVICE AND POINT CLOUD DATA RECEIVING METHOD
CN114079781B (zh) * 2020-08-18 2023-08-22 腾讯科技(深圳)有限公司 一种点云媒体的数据处理方法、装置、设备及存储介质
JP2023551010A (ja) * 2020-11-30 2023-12-06 中興通訊股▲ふん▼有限公司 没入型メディアのマルチアトラスカプセル化
WO2023056455A1 (en) * 2021-10-01 2023-04-06 Bytedance Inc. Methods, apparatus, and medium for video prcessing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388988A (zh) * 2007-06-08 2009-03-18 三星电子株式会社 用于记录三维视频数据的方法及其介质
CN106973569A (zh) * 2014-05-13 2017-07-21 Pcp虚拟现实股份有限公司 生成和回放虚拟现实多媒体的方法、系统和装置
CN107534801A (zh) * 2015-02-10 2018-01-02 诺基亚技术有限公司 用于处理图像序列轨道的方法、装置和计算机程序产品

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080252719A1 (en) * 2007-04-13 2008-10-16 Samsung Electronics Co., Ltd. Apparatus, method, and system for generating stereo-scopic image file based on media standards
KR101257386B1 (ko) * 2007-10-08 2013-04-23 에스케이플래닛 주식회사 통합 멀티미디어 파일 구조를 이용한 3d 멀티미디어콘텐츠 서비스 시스템 및 방법
KR101480186B1 (ko) * 2007-12-10 2015-01-07 삼성전자주식회사 2d 영상과 3d 입체영상을 포함하는 영상파일을 생성 및재생하기 위한 시스템 및 방법
WO2009075495A1 (en) 2007-12-10 2009-06-18 Samsung Electronics Co., Ltd. System and method for generating and reproducing image file including 2d image and 3d stereoscopic image
US8933925B2 (en) 2009-06-15 2015-01-13 Microsoft Corporation Piecewise planar reconstruction of three-dimensional scenes
JP5510097B2 (ja) 2010-06-16 2014-06-04 ソニー株式会社 信号伝送方法、信号送信装置および信号受信装置
KR20120118622A (ko) * 2011-04-19 2012-10-29 전자부품연구원 디지털 홀로그램 콘텐츠 서비스 방법 및 장치
WO2013126784A2 (en) * 2012-02-23 2013-08-29 Huston Charles D System and method for creating an environment and for sharing a location based experience in an environment
GB2519746B (en) * 2013-10-22 2016-12-14 Canon Kk Method, device and computer program for encapsulating scalable partitioned timed media data
US20180048877A1 (en) * 2016-08-10 2018-02-15 Mediatek Inc. File format for indication of video content
JP2020017946A (ja) * 2018-07-03 2020-01-30 財團法人工業技術研究院Industrial Technology Research Institute ポイントクラウドパッチ処理方法および装置
US11202098B2 (en) * 2018-07-05 2021-12-14 Apple Inc. Point cloud compression with multi-resolution video encoding
WO2020008758A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11095908B2 (en) * 2018-07-09 2021-08-17 Samsung Electronics Co., Ltd. Point cloud compression using interpolation
US11386524B2 (en) * 2018-09-28 2022-07-12 Apple Inc. Point cloud compression image padding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388988A (zh) * 2007-06-08 2009-03-18 三星电子株式会社 用于记录三维视频数据的方法及其介质
CN106973569A (zh) * 2014-05-13 2017-07-21 Pcp虚拟现实股份有限公司 生成和回放虚拟现实多媒体的方法、系统和装置
CN107534801A (zh) * 2015-02-10 2018-01-02 诺基亚技术有限公司 用于处理图像序列轨道的方法、装置和计算机程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
[PCC] ISOBMFF Container for V-PCC Bitstreams;Ahmed Hamza;《INTERNATIONAL ORGANISATION FOR STANDARDISATION ORGANISATION INTERNATIONALE DE NORMALISATION ISO/IEC JTC1/SC29/WG11 CODING OF MOVING PICTURES AND AUDIO》;1 Introduction,2 ISOBMFF-based V-PCC Bitstream *
Carriage of PCC in ISO Base Media File Format;Eric Yip;《INTERNATIONAL ORGANISATION FOR STANDARDISATION ORGANISATION INTERNATIONALE DE NORMALISATION ISO/IEC JTC1/SC29/WG11 CODING OF MOVING PICTURES AND AUDIO》;2 Carriage of PCC in ISO base media file format *

Also Published As

Publication number Publication date
KR20210056999A (ko) 2021-05-20
WO2020076058A1 (ko) 2020-04-16
CN113170088A (zh) 2021-07-23
US20220053216A1 (en) 2022-02-17
US11606576B2 (en) 2023-03-14
EP3843385A1 (en) 2021-06-30
EP3843385A4 (en) 2021-09-22
KR102655630B1 (ko) 2024-04-08

Similar Documents

Publication Publication Date Title
CN113170088B (zh) 用于生成包括三维视频内容的媒体文件的方法和装置,以及用于重放三维视频内容的方法和装置
KR102450781B1 (ko) 생성된 콘텐츠를 포함하는 미디어 데이터를 인코딩하기 위한 방법 및 장치
US11595670B2 (en) Method and apparatus for storage and signaling of sub-sample entry descriptions
JP7154314B2 (ja) メディアコンテンツを送信する方法、装置及びコンピュータプログラム
CN112534825B (zh) 封装方法、生成图像的方法、计算装置和可读存储介质
CN110800311B (zh) 用于传输媒体内容的方法、装置和计算机程序
US11638066B2 (en) Method, device and computer program for encapsulating media data into a media file
CN115443652B (zh) 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法
CN117978993A (zh) 对点云数据进行编码/解码的设备
CN114697668B (zh) 点云媒体的编解码方法及相关产品
CN115398926A (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
CN115668937A (zh) 为体积视频比特流和沉浸式视频比特流生成打包视频帧的方法、装置和制品
CN114697631B (zh) 沉浸媒体的处理方法、装置、设备及存储介质
GB2608469A (en) Method, device, and computer program for dynamically encapsulating media content data
CN115004716A (zh) 容积媒体处理方法和装置
US20220366611A1 (en) Three-dimensional content processing methods and apparatus
US20220345714A1 (en) Multi-atlas encapsulation of immersive media
CN117581551A (zh) 动态封装媒体内容数据的方法、装置及计算机程序
CN116781913A (zh) 点云媒体的编解码方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant