CN115280296A - 用于媒体场景描述的方法和装置 - Google Patents

用于媒体场景描述的方法和装置 Download PDF

Info

Publication number
CN115280296A
CN115280296A CN202180020882.6A CN202180020882A CN115280296A CN 115280296 A CN115280296 A CN 115280296A CN 202180020882 A CN202180020882 A CN 202180020882A CN 115280296 A CN115280296 A CN 115280296A
Authority
CN
China
Prior art keywords
cbor
format
binary data
data blob
gltf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180020882.6A
Other languages
English (en)
Inventor
赵帅
史蒂芬·文格尔
刘杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/499,380 external-priority patent/US11797476B2/en
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115280296A publication Critical patent/CN115280296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)
  • Details Of Television Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

管理媒体存储和传递的系统、方法和设备,包括:通过媒体访问功能(MAF)获取与场景对应的图形语言传输格式(glTF)文件;从所述glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数;确定所述二进制数据blob具有简明二进制对象表示(CBOR)格式;使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示(JSON)格式的对象;以及基于所述对象获取与所述场景对应的媒体内容。

Description

用于媒体场景描述的方法和装置
技术领域
本公开的实施例涉及一种系统设计,以使用3D建模语法来支持媒体对象,实现媒体语法以支持各种媒体编解码器、容器和格式,通过预定义的编程接口来管理媒体存储和传递方法,并提供媒体缓冲器控制和呈现功能。
背景技术
图形语言传输格式(glTF,Graphics Language Transmission Format)是一种API中性的运行时资源3D建模传递格式。与传统的3D建模工具相比,glTF为3D内容的传输和加载提供了更高效、可扩展、可互操作的格式。glTF2.0是由科纳斯3D小组(Khronos 3DGroup)编写的glTF规范的最新版本。该格式支持简单的场景图格式,其通常能够支持场景中的静态(不定时)对象,包括“png”和“jpeg”图像格式。glTF2.0支持简单的动画,包括支持使用glTF基元(primitives)描述的基本形状(即几何对象)的平移、旋转和缩放。glTF2.0不支持定时媒体,因此不支持视频和音频。
“信息技术—视听对象的编码—第12部分:ISO基本媒体文件格式”,ISO/IEC14496-12(2015年12月),“ISO/IEC 23000-19分段媒体的通用媒体应用格式的FDIS草案”,ISO/IEC JTC1/SC29/WG11 MPEG117/16819(2017年4月),以及“ISO/IEC FDIS 23009-1文本第4版”,ISO/IEC JTC 1/SC 29/WG 11N18609(2019年8月)和glTF2.0规范通过引用整体并入本文。
发明内容
根据实施例,一种管理媒体存储和传递的方法由至少一个处理器实现,包括:通过媒体访问功能(MAF)获取与场景对应的图形语言传输格式(glTF)文件;从所述glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数;确定所述二进制数据blob具有简明二进制对象表示(CBOR)格式;使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示(JSON)格式的对象;以及基于所述对象获取与所述场景对应的媒体内容。
根据实施例,一种管理媒体存储和传递的设备包括:至少一个存储器,被配置为存储程序代码;以及至少一个处理器,被配置为读取所述程序代码并按照所述程序代码的指示操作,所述程序代码包括:第一获取代码,被配置为使所述至少一个处理器通过媒体访问功能(MAF)获取与场景对应的图形语言传输格式(glTF)文件;第二获取代码,被配置为使所述至少一个处理器从所述glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数;确定代码,被配置为使所述至少一个处理器确定所述二进制数据blob具有简明二进制对象表示(CBOR)格式;转换代码,被配置为使所述至少一个处理器使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示(JSON)格式的对象;以及第三获取代码,被配置为使所述至少一个处理器基于所述对象获取与所述场景对应的媒体内容。
根据实施例,一种非易失性计算机可读介质存储指令,所述指令包括一个或多个指令,所述一个或多个指令被配置为在由管理媒体存储和传递的设备的至少一个处理器执行时,使所述至少一个处理器:通过媒体访问功能(MAF)获取与场景对应的图形语言传输格式(glTF)文件;从所述glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数;确定所述二进制数据blob具有简明二进制对象表示(CBOR)格式;使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示(JSON)格式的对象;以及基于所述对象获取与所述场景对应的媒体内容。
附图说明
根据以下详细描述和附图,所公开的主题的其他特征、性质和各种优点将进一步明确,其中:
图1是根据实施例的可以实现本文所述的方法、装置和系统的环境的示意图。
图2是根据实施例的图1的一个或多个设备的示例组件的框图。
图3是根据实施例的glTF场景描述对象的示意图。
图4是根据实施例的媒体场景描述系统参考架构的示意图。
图5是根据实施例的glTF JavaScript对象表示(JSON)格式表示的示例。
图6是根据实施例的MPEG glTF扩展的示例。
图7A是根据实施例的具有JSON格式的文件的示意图。
图7B是根据实施例的具有CBOR格式的文件的示意图。
图8是根据实施例的glTF语法的示例的示意图。
图9A-9C是根据实施例的用于管理媒体存储和传递的示例过程的示意图。
具体实施方式
图1是根据实施例的可以实现本文所述的方法、装置和系统的环境100的示意图。如图1所示,环境100可以包括用户设备110、平台120和网络130。环境100的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。
用户设备110包括一个或多个设备,该一个或多个设备能够接收、生成、存储、处理和/或提供与平台120相关的信息。例如,用户设备110可以包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,智能眼镜或智能手表)或相似设备。在一些实施方式中,用户设备110可以从平台120接收信息和/或向平台120发送信息。
平台120包括一个或多个设备,如本文中其它地方所描述的。在一些实施方式中,平台120可以包括云服务器或云服务器组。在一些实施方式中,平台120可以被设计成模块化的,使得软件组件可以根据特定需要被换入或换出。这样,可以容易地和/或快速地重新配置平台120以用于不同的用途。
在一些实施方式中,如图所示,平台120可以被托管(hosted)在云计算环境122中。值得注意的是,虽然本文所述的实施方式将平台120描述为托管在云计算环境122中,但是在一些实施方式中,平台120可以不是基于云的(即,可以在云计算环境外部实现)或者可以是部分基于云的。
云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务,这些服务不需要终端用户(例如,用户设备110)了解托管平台120的系统和/或设备的物理位置和配置。如图所示,云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并分别称为“计算资源(computing resource)124”)。
计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中,计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实施方式中,计算资源124可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。
如图1进一步所示,计算资源124包括一组云资源,例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。
应用程序124-1包括一个或多个软件应用程序,其可以提供给用户设备110和/或平台120或由用户设备110和/或平台120访问。应用程序124-1可以消除在用户设备110上安装和执行软件应用程序的需要。例如,应用程序124-1可以包括与平台120相关的软件和/或能够通过云计算环境122提供的任何其它软件。在一些实施方式中,一个应用程序124-1可以通过虚拟机124-2向/从一个或多个其它应用程序124-1发送/接收信息。例如,应用程序124-1可以提供媒体流,其包括但不限于音频流、视频流、对象描述流、场景描述流等。场景描述通常是指描述场景的描述符。场景通常可以指任何2D、3D和/或沉浸式(immersive)对象及其相关联的属性、命令和/或行为。场景描述可以以场景图的形式传输,场景图是音频、视频和图形对象的分层表示。应注意,场景描述可以独立于其它类型的流进行传输,例如,音频流、视觉流、对象描述流等。
虚拟机124-2包括机器(例如,计算机)的软件实现,该机器执行程序,类似于物理机。虚拟机124-2可以是系统虚拟机,也可以是进程虚拟机,这取决于虚拟机124-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台,其支持完整操作系统(“OS”)的执行。进程虚拟机可以执行单个程序,并且可以支持单个进程。在一些实施方式中,虚拟机124-2可以代表用户(例如,用户设备110)执行,并且可以管理云计算环境122的基础架构,例如数据管理、同步或长期数据传输。
虚拟化存储124-3包括一个或多个存储系统和/或一个或多个设备,该一个或多个设备在计算资源124的存储系统或设备内使用虚拟化技术。在一些实施方式中,在存储系统的上下文内,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离),以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。
管理程序(Hypervisor)124-4可以提供硬件虚拟化技术,其允许多个操作系统(例如,“客户操作系统”)在诸如计算资源124的主计算机上同时执行。管理程序124-4可以向客户操作系统提供虚拟操作平台,并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。
网络130包括一个或多个有线和/或无线网络。例如,网络130可以包括蜂窝网络(例如,第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、互联网、基于光纤的网络等,和/或这些或其它类型的网络的组合。
图1所示的设备和网络的数量和排列被作为示例来提供。实际上,与图1所示的设备和/或网络相比,可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外,图1所示的两个或更多个设备可以在单个设备内实现,或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地,环境100的一组设备(例如,一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。
图2是图1的一个或多个设备的示例组件的框图。设备200可以对应于用户设备110和/或平台120。如图2所示,设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。
总线210包括允许设备200的组件之间进行通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中,处理器220包括一个或多个能够被编程以执行功能的处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光存储器),其存储供处理器220使用的信息和/或指令。
存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如,存储组件240可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质,以及相应的驱动器。
输入组件250包括允许设备200例如通过用户输入接收信息的组件,例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地,输入组件250可以包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件,例如,显示器、扬声器和/或一个或多个发光二极管(LED)。
通信接口270包括类似收发器的组件(例如,收发器和/或单独的接收器和发送器),该组件使设备200能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如,通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备200可以执行本文中所描述的一个或多个过程。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如存储器230和/或存储组件240)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。
软件指令可以通过通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240。当被执行时,存储在存储器230和/或存储组件240中的软件指令可以使处理器220执行本文中所描述的一个或多个过程。另外或可替代地,可以使用硬连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此,本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。
图2所示的组件的数量和排列被作为示例来提供。实际上,与图2所示的组件相比,设备200可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地,设备200的一组组件(例如,一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。
参考图3,图形语言传输格式(glTF)是一种应用编程接口(API)中性的运行时资源3D建模传递格式。与传统的3D建模工具相比,glTF为3D内容的传输和加载提供了更高效、可扩展、可互操作的格式。
glTF场景可以是多个glTF资源的组合。glTF资源可以是包含完整场景描述的JSON(JavaScript Object Notation)格式的文件,该完整场景描述可以包括,例如场景对象301、节点302、相机303、网格304、灯光305、动画306、存取器307、素材308、皮肤309、缓冲视图310、技术311、纹理312、缓冲器313、程序314、图像315、采样器316、着色器317以及支持的外部数据。
glTF还支持可在任何上述场景对象中引用的外部数据源。在实施例中,二进制文件可用于动画306或其它基于缓冲器的数据313。图像文件可用于对象纹理312。
参考图5,如上所述,glTF场景可以以JSON格式组织。glTF资源可以包括零个或多个场景503,其可以是要呈现的视觉对象的集合。场景可以在场景阵列中定义。在图5所示的示例中,存在具有单个节点501的单个场景506,但实施例不限于此,可以与每个节点对象相关联的各种参数。例如,名称502可以指定节点对象的名称,场景名称504可以指定单个场景的名称。
glTF场景资源可以由呈现引擎使用,以向用户呈现3D或沉浸式场景。现有的glTF语法仅支持3D对象,包括静态或计算机生成的动画。不支持视频或音频等媒体类型,更不用说呈现这些视频/音频媒体类型。
同时,现有的glTF不能使用地理坐标系来描述场景,在某些媒体呈现场景中,这样的特征是需要的。
因此,需要扩展glTF以支持媒体类型,包括传统的2D平面视频、沉浸式媒体内容,例如虚拟现实(VR)、增强现实(AR)、扩展现实(XR)和空间音频。这可能需要进行扩展以支持视频/音频语法,并需要用于媒体传递和呈现的系统。
运动图像专家组(MPEG)在glTF规范的基础上定义了一些扩展,以支持沉浸式媒体内容。参考图3,新的扩展是MPEG_media 330、MPEG_scene_dynamic 331、MPEG_texture_video 333、MEPG_animation_timing 332、MPEG_audio_spatial 334、MPEG_accessor_timed 335、MPEG_buffer_circular 336。在图3中,通常,具有圆形轮廓的元素(例如元素301-317)可以是glTF元素,具有方形轮廓的元素(例如元素330-336)可以对应于glTF规范的基于MPEG的扩展,但实施例不限于此。
如果指定MPEG_media 330作为根标识符,则可以支持MPEG媒体。参考图6,支持MPEG媒体的语法可以声明为顶级JSON语法。如果支持,图6中从601到604的语法可以完全如图所示进行呈现。
可以使用JSON补丁协议来表达场景更新,并且可以使用MPEG_scene_dynamic 331来支持JSON补丁协议。
由MPEG_texture_video 333标识的MPEG纹理视频扩展可以提供将glTF纹理对象链接到MPEG媒体及其各自的轨迹(由MPEG_media对象列出)的可能性。MPEG纹理视频扩展还可以提供对MPEG_accessor_timed 335的参考,其中解码的定时纹理将可用。
MPEG_audio_spatial 334扩展可以支持多种音频类型。
为了支持定时数据访问,可以扩展缓冲器元素以提供循环缓冲功能。该扩展命名为MPEG_buffer_circular 336,并且可以作为glTF“缓冲器”对象的一部分而包括在内,例如缓冲器313。
上述MEPG扩展可以允许使用glTF创建沉浸式体验。最后,具有MPEG扩展的glTF资源可用于加载到呈现引擎中以进行可视化。
参考图4,参考媒体场景描述架构400示出了如何使用MPEG扩展来支持诸如音频/视频的媒体类型的示例。可以使用媒体检索引擎和媒体访问功能(MAF)402从诸如媒体云401的外部源检索媒体内容,可以使用视频解码器403、音频解码器404和其它数据压缩器405处理媒体内容,可以在视频缓冲器406、音频缓冲器407和其它缓冲器408中缓冲媒体内容,并且可以由呈现引擎409呈现媒体内容。在某些情况下,媒体内容可以存储在本地存储器410中。MAF提供了一个框架,用于将多个MPEG标准中的元素集成到单个规范中,该规范适用于特定但广泛使用的应用。例如,MAF可以指定如何以明确定义的格式将元数据与定时媒体信息结合起来,以便于媒体的交换、管理、编辑和呈现。呈现可以是系统的“本地”呈现,也可以通过网络或其它流传递机制来访问。
参考图4,MPEG场景描述扩展可以将呈现引擎409与媒体检索引擎402分离。呈现引擎409和媒体检索引擎402可以通过预定义的编程接口进行通信,这允许呈现引擎409请求场景呈现所需的媒体数据。媒体检索引擎402可以检索所请求的媒体,并使其以可以由呈现引擎409立即处理的格式及时可用。例如,所请求的媒体资源可以被压缩并驻留在网络中,因此媒体检索引擎402将检索并解码该资源,并将得到的媒体数据传递给呈现引擎409进行呈现。媒体数据可以以缓冲器的形式从媒体检索引擎402传递到呈现引擎409。对媒体数据的请求可以通过媒体检索API从呈现引擎409传递到媒体检索引擎402。为了灵活使用视频解码资源,可以使用视频解码器403。当使用视频解码器403时,呈现引擎409可以通过应用配置API向视频解码器403提供用于输入格式化和输出格式化的信息。
如上所述,glTF语法可以在JSON文件中表达。与传统的JSON格式相比,互联网工程任务组(IETF)简明二进制对象表示(CBOR,Concise Binary Object Representation)可以表示一种简明的数据格式。CBOR与名称/值对格式的JSON等类似数据对象相关,但以二进制和紧凑的方式表示,并且对键值类型有更多支持。CBOR格式的文件的大小可以小于JSON格式的相应文件。在某些情况下,CBOR文件可以比相应的JSON文件小50%以上。CBOR在互联网号码分配局(IANA,Internet Assigned Numbers Authority(IANA))注册为“应用/CBOR”。
CBOR可以用作glTF可互换压缩文件格式之一,由于其紧凑的数据大小和与JSON的可互换性,它也得到了广泛的支持。
CBOR中的信息以二进制形式存储。因为信息的许多用例包括多个理解数据的机器,所以与人类可读的数据格式(如JSON或XML)相比,二进制数据格式可具有速度优势,而人类可读的数据格式在每次使用计算机或机器来理解存储的数据时,可能需要进行解析。
图7A示出了JSON格式的文件的示例,图7B示出了CBOR格式的相应文件的示例。例如,图7A的JSON格式文件中的字符“a”(711)可以对应于图7B的CBOR格式文件中的0x61(721)。类似地,图7A的JSON格式文件中的字符“b”(712)可以对应于图7B的CBOR格式文件中的0x62(722),而图7A的JSON格式文件中的字符“c”(713)可以对应于图7B的CBOR格式文件中的0x63(723)。
与JSON相比,使用CBOR进行场景描述可以带来数据量小、支持多种键值类型而不只是JSON中的字符串对象等优点。函数编程接口可以用在所呈现的媒体场景描述参考架构中,更准确地说是用在媒体访问功能模块中。
由于glTF对CBOR的支持越来越受欢迎,因此可以将这种支持添加到MPEG场景描述中,以例如增加glTF文件格式的互操作性,减少本地存储或缓存的文件大小,并在MAF 402处以最小的处理能力减少glTF文件传输时延。
根据实施例,CBOR解析器功能可以由MAF 402实现,以将CBOR输入转换为glTF本机支持的JSON格式,并且还可以用作文件压缩器,以将大型glTF文件保存到本地存储或缓存410中。
CBOR解析器API提供诸如cbor2Json()、json2Cbor和save()等方法之一,如下表1所示:
表1
方法 简要描述
cbor2Json(文件) 将CBOR格式转换为JSON格式
json2Cbor(文件) 将JSON格式转换为CBOR格式
cbor2Json(对象) 将CBOR数据blob转换为JSON格式
详细的接口描述如下:
Figure BDA0003843004260000071
Figure BDA0003843004260000081
上面提出的功能例如可用于以下各种场景。
参考图8,glTF“url”或“uri”语法可以指向CBOR二进制数据blob(802)。在实施例中,可以有两种方式来指定二进制数是否确实是CBOR数据格式。根据示例1,可以发信号通知多用途互联网邮件扩展(MIME)类型,其使用“application/cbor”指定“mimeTypes”(801)。根据示例2,前缀“application/cbor;”可以包括在实际二进制数据之前。示例1和2可以一起使用。在任何情况下,可以调用名为“cbor2Json(Object)”的函数,该函数采用CBOR二进制数据,以将CBOR文件格式解析为JSON。
如果输入glTF是CBOR格式,则输出可以是使用cbor2Json()API的glTF。
如果输入是本机glTF格式,则不需要转换。
出于本地存储或缓存的目的,可以使用json2Cbor()和save()接口将glTF文件保存为CBOR。
因此,实施例可以涉及如下方法:提供glTF文件格式与CBOR的互操作性、减小本地存储或缓存的文件大小、提高数据传输速度、减少文件传输时延。
参考图9A-9C,下面描述用于管理媒体存储和传递的过程900A、900B和900C。
图9A是用于管理媒体存储和传递的示例过程900A的流程图。
如图9A所示,过程900A可以包括通过媒体访问功能(MAF)获取与场景对应的glTF文件(框911)。在实施例中,MAF可以对应于MAF 402。
如图9A进一步所示,过程900A可以包括从glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数(框912)。
如图9A进一步所示,过程900A可以包括确定二进制数据blob具有CBOR格式(框913)。
如图9A进一步所示,过程900A可以包括使用由MAF实现的CBOR解析器功能将二进制数据blob转换为具有JSON格式的对象(框914)。
如图9A所示,过程900A可以包括基于对象获取与场景对应的媒体内容(框914)。
在实施例中,具有JSON格式的对象可以大于具有CBOR格式的二进制数据blob。
在实施例中,可以基于在glTF文件中发信号通知的多用途互联网邮件扩展(MIME)类型,确定二进制数据blob具有CBOR格式。
在实施例中,可以基于二进制数据blob开头包含的前缀,确定二进制数据blob具有CBOR格式。
在实施例中,可以基于在glTF文件中发信号通知的多用途互联网邮件扩展(MIME)类型和二进制数据blob开头包含的前缀,确定二进制数据blob具有CBOR格式。
在实施例中,MAF可以包括在运动图像专家组(MPEG)场景描述架构中。
在实施例中,可以使用与MAF相关联的应用编程接口来实现CBOR解析器功能。
图9B是用于管理媒体存储和传递的示例过程900B的流程图。在实施例中,过程900B的一个或多个框可以与过程900A的一个或多个框组合执行。例如,过程900B的一个或多个框可以在过程900A的一个或多个框之后执行。
如图9B进一步所示,过程900B可以包括确定glTF文件具有CBOR格式(框921)。
如图9B所示,过程900B可以包括使用由MAF实现的CBOR解析器功能将glTF文件转换为具有JSON格式的转换glTF文件(框922)。在实施例中,该CBOR解析器功能可以不同于框914中使用的CBOR解析器功能。
在实施例中,具有JSON格式的转换glTF文件可以大于具有CBOR格式的glTF文件。
图9C是用于管理媒体存储和传递的示例过程900C的流程图。在实施例中,过程900C的一个或多个框可以与过程900A和/或900B的一个或多个框组合执行。例如,过程900C的一个或多个框可以在过程900A的一个或多个框之后或在过程900B的一个或多个框之后执行。
如图9C所示,过程900C可以包括使用由MAF实现的JSON解析器功能将转换glTF文件重新转换为具有CBOR格式的重新转换的glTF(框931)。
如图9C进一步所示,过程900C可以包括将重新转换的glTF文件存储在本地存储器或缓存中的至少一个中(框932)。
虽然图9A-9C示出了过程900A、900B和900C的示例框,但是在一些实施方式中,过程900A、900B和900C可以包括比图9A-9C所描述的更多的框、更少的框、不同的框、或不同排列的框。另外或可替代地,过程900A、900B和900C的两个或更多个过程框可以并行执行。在实施例中,过程900A、900B和900C中的任何一个或多个框可以按任何顺序与过程900A、900B和900C的任何其它一个或多个框组合,并且过程900A、900B和900C中的任何一个或多个框可以根据需要拆分或组合。
进一步地,所提出的方法可以由处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现。在一个示例中,该一个或多个处理器执行存储在非易失性计算机可读介质中的程序,以执行所提出的方法中的一个或多个。
前述的公开内容提供了说明和描述,但并不旨在穷举或将实施方式限制为所公开的精确形式。根据上述的公开内容,可以进行修改和变化,或者可以从实施方式的实践中获得修改和变化。
很明显,本文中所述的系统和/或方法可以以硬件、固件或硬件和软件的组合的不同形式来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制实施方式。因此,应当理解,可以基于本文中的描述对软件和硬件进行设计以实现该系统和/或方法。
即使特征的具体组合在权利要求中叙述和/或在说明书中公开,这些组合也不旨在限制可能的实施方式的公开。实际上,这些特征中的许多特征可以以在权利要求中没有具体叙述和/或在说明书中没有公开的方式组合。虽然下面列出的每个从属权利要求可能直接依赖于仅一个权利要求,但是可能的实施方式的公开包括权利要求集中的每个从属权利要求与每个其它权利要求的组合。
除非明确说明,否则本文中使用的元件、动作或指令不应被解释为关键的或必需的。此外,如本文中所使用的,冠词“一个(a)”和“一个(an)”旨在包括一个或多个项,并且可以与“一个或多个(one or more)”互换使用。此外,如本文中所使用的,术语“集”旨在包括一个或多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或多个(one or more)”互换使用。在仅意指一个项的情况下,使用术语“一个(one)”或类似的语言。此外,如本文中所使用的,术语“具有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外,短语“基于”旨在表示“至少部分地基于”,除非另有明确说明。

Claims (20)

1.一种管理媒体存储和传递的方法,其特征在于,所述方法由至少一个处理器实现,包括:
通过媒体访问功能MAF获取与场景对应的图形语言传输格式glTF文件;
从所述glTF文件获取指示二进制数据blob的统一资源定位符URL参数;
确定所述二进制数据blob具有简明二进制对象表示CBOR格式;
使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示JSON格式的对象;以及
基于所述对象获取与所述场景对应的媒体内容。
2.根据权利要求1所述的方法,其特征在于,具有所述JSON格式的所述对象大于具有所述CBOR格式的所述二进制数据blob。
3.根据权利要求1所述的方法,其特征在于,基于在所述glTF文件中发信号通知的多用途互联网邮件扩展MIME类型,确定所述二进制数据blob具有所述CBOR格式。
4.根据权利要求1所述的方法,其特征在于,基于所述二进制数据blob开头包含的前缀,确定所述二进制数据blob具有所述CBOR格式。
5.根据权利要求1所述的方法,其特征在于,基于在所述glTF文件中发信号通知的多用途互联网邮件扩展MIME类型和所述二进制数据blob开头包含的前缀,确定所述二进制数据blob具有所述CBOR格式。
6.根据权利要求1所述的方法,其特征在于,所述MAF包括在运动图像专家组MPEG场景描述架构中。
7.根据权利要求1所述的方法,其特征在于,使用与所述MAF相关联的应用编程接口来实现所述CBOR解析器功能。
8.一种管理媒体存储和传递的设备,其特征在于,所述设备包括:
至少一个存储器,被配置为存储程序代码;以及
至少一个处理器,被配置为读取所述程序代码并按照所述程序代码的指示操作,所述程序代码包括:
第一获取代码,被配置为使所述至少一个处理器通过媒体访问功能MAF获取与场景对应的图形语言传输格式glTF文件;
第二获取代码,被配置为使所述至少一个处理器从所述glTF文件获取指示二进制数据blob的统一资源定位符URL参数;
确定代码,被配置为使所述至少一个处理器确定所述二进制数据blob具有简明二进制对象表示CBOR格式;
转换代码,被配置为使所述至少一个处理器使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示JSON格式的对象;以及
第三获取代码,被配置为使所述至少一个处理器基于所述对象获取与所述场景对应的媒体内容。
9.根据权利要求8所述的设备,其特征在于,具有所述JSON格式的所述对象大于具有所述CBOR格式的所述二进制数据blob。
10.根据权利要求8所述的设备,其特征在于,基于在所述glTF文件中发信号通知的多用途互联网邮件扩展MIME类型,确定所述二进制数据blob具有所述CBOR格式。
11.根据权利要求8所述的设备,其特征在于,基于所述二进制数据blob开头包含的前缀,确定所述二进制数据blob具有所述CBOR格式。
12.根据权利要求8所述的设备,其特征在于,基于在所述glTF文件中发信号通知的多用途互联网邮件扩展MIME类型和所述二进制数据blob开头包含的前缀,确定所述二进制数据blob具有所述CBOR格式。
13.根据权利要求8所述的设备,其特征在于,所述MAF包括在运动图像专家组MPEG场景描述架构中。
14.根据权利要求8所述的设备,其特征在于,使用与所述MAF相关联的应用编程接口来实现所述CBOR解析器功能。
15.一种非易失性计算机可读介质,其特征在于,用于存储指令,所述指令包括:一个或多个指令,所述一个或多个指令被配置为在由管理媒体存储和传递的设备的至少一个处理器执行时,使所述至少一个处理器:
通过媒体访问功能(MAF)获取与场景对应的图形语言传输格式(glTF)文件;
从所述glTF文件获取指示二进制数据blob的统一资源定位符(URL)参数;
确定所述二进制数据blob具有简明二进制对象表示(CBOR)格式;
使用由所述MAF实现的CBOR解析器功能将所述二进制数据blob转换为具有JavaScript对象表示(JSON)格式的对象;以及
基于所述对象获取与所述场景对应的媒体内容。
16.根据权利要求15所述的非易失性计算机可读介质,其特征在于,具有所述JSON格式的所述对象大于具有所述CBOR格式的所述二进制数据blob。
17.根据权利要求15所述的非易失性计算机可读介质,其特征在于,基于在所述glTF文件中发信号通知的多用途互联网邮件扩展(MIME)类型,确定所述二进制数据blob具有所述CBOR格式。
18.根据权利要求15所述的非易失性计算机可读介质,其特征在于,基于所述二进制数据blob开头包含的前缀,确定所述二进制数据blob具有所述CBOR格式。
19.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述MAF包括在运动图像专家组(MPEG)场景描述架构中。
20.根据权利要求15所述的非易失性计算机可读介质,其特征在于,使用与所述MAF相关联的应用编程接口来实现所述CBOR解析器功能。
CN202180020882.6A 2021-01-06 2021-10-13 用于媒体场景描述的方法和装置 Pending CN115280296A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163134569P 2021-01-06 2021-01-06
US63/134,569 2021-01-06
US17/499,380 2021-10-12
US17/499,380 US11797476B2 (en) 2021-01-14 2021-10-12 Method and apparatus for media scene description
PCT/US2021/054746 WO2022150080A1 (en) 2021-01-06 2021-10-13 Method and apparatus for media scene description

Publications (1)

Publication Number Publication Date
CN115280296A true CN115280296A (zh) 2022-11-01

Family

ID=82358290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180020882.6A Pending CN115280296A (zh) 2021-01-06 2021-10-13 用于媒体场景描述的方法和装置

Country Status (5)

Country Link
EP (1) EP4088193A4 (zh)
JP (1) JP7399548B2 (zh)
KR (1) KR20220131342A (zh)
CN (1) CN115280296A (zh)
WO (1) WO2022150080A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797475B2 (en) 2021-01-14 2023-10-24 Tencent America LLC Method and apparatus for media scene description
CN117689789A (zh) * 2023-12-28 2024-03-12 湖南芒果融创科技有限公司 一种实时渲染3d资产文件编解码方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8400497B2 (en) * 2007-09-07 2013-03-19 Samsung Electronics Co., Ltd Method and apparatus for generating stereoscopic file
JP6821609B2 (ja) 2015-07-02 2021-01-27 コンヴィーダ ワイヤレス, エルエルシー リソース駆動動的承認フレームワーク
JP7071161B2 (ja) 2018-02-28 2022-05-18 キヤノン株式会社 情報処理装置及びその制御方法、並びにプログラム
US10984579B2 (en) 2018-08-27 2021-04-20 Microsoft Technology Licensing, Llc Playback for embedded and preset 3D animations
WO2020081727A1 (en) * 2018-10-16 2020-04-23 Eluvio, Inc. Decentralized content fabric
US10636209B1 (en) * 2019-09-13 2020-04-28 Bongfish GmbH Reality-based three-dimensional infrastructure reconstruction
JP6746024B1 (ja) 2020-03-31 2020-08-26 株式会社ドワンゴ 3dモデルデータの管理システム、モデル配信サーバ、3dサービスサーバ、3dモデルデータの管理方法、モデル配信サーバのプログラム、および3dサービスサーバのプログラム

Also Published As

Publication number Publication date
JP7399548B2 (ja) 2023-12-18
EP4088193A4 (en) 2023-06-28
KR20220131342A (ko) 2022-09-27
EP4088193A1 (en) 2022-11-16
WO2022150080A1 (en) 2022-07-14
JP2023519378A (ja) 2023-05-10

Similar Documents

Publication Publication Date Title
US20210392386A1 (en) Data model for representation and streaming of heterogeneous immersive media
US20220004405A1 (en) 3D API Redirection for Virtual Desktop Infrastructure
CN115280296A (zh) 用于媒体场景描述的方法和装置
US20240007708A1 (en) Method and apparatus for media scene description
US20230418783A1 (en) Method and apparatus for media scene description
US11327993B2 (en) Systems and methods for managing and delivering digital content
JP7271791B2 (ja) 混合イベントメッセージトラックを含むメディアシステムおよび方法
JP7274581B2 (ja) ツリーベースのポイントクラウド圧縮メディアストリームのための方法、装置、およびプログラム
JP7513748B2 (ja) イベントメッセージトラックにおけるイベント間の拡張された関係シグナリング
CN115606166A (zh) 事件消息轨道中的信令方案

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075533

Country of ref document: HK