CN117099375A - 通过实时传输协议传输经heif格式化的图像 - Google Patents

通过实时传输协议传输经heif格式化的图像 Download PDF

Info

Publication number
CN117099375A
CN117099375A CN202280024294.4A CN202280024294A CN117099375A CN 117099375 A CN117099375 A CN 117099375A CN 202280024294 A CN202280024294 A CN 202280024294A CN 117099375 A CN117099375 A CN 117099375A
Authority
CN
China
Prior art keywords
image
data
images
superimposed
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280024294.4A
Other languages
English (en)
Inventor
I·布阿齐齐
N·K·梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/656,159 external-priority patent/US11863767B2/en
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority claimed from PCT/US2022/071317 external-priority patent/WO2022213034A1/en
Publication of CN117099375A publication Critical patent/CN117099375A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种用于取回媒体数据的示例设备,所述设备包括:存储器,其被配置为存储场景数据和图像数据;以及一个或多个处理器,其在电路中实现并且被配置为:接收针对比特流的数据,所述数据指示比特流包括一个或多个叠加图像,叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与场景数据的帧一起呈现时以规律的周期性进行重复;从比特流接收一个或多个叠加图像;接收包括一个或多个场景图像的场景数据;以及呈现场景图像和叠加图像。

Description

通过实时传输协议传输经HEIF格式化的图像
本申请要求享受于2022年3月23日递交的美国专利申请No.17/656,159,以及于2021年3月30日递交的美国临时申请No.63/168,157的权益,将上述申请中的每个申请的全部内容通过引用的方式并入本文。于2022年3月23日递交的美国专利申请No.17/656,159要求享受于2021年3月30日递交的美国临时申请No.63/168,157的权益。
技术领域
本公开内容涉及经编码的媒体数据的存储和传输。
背景技术
数字视频能力可以被合并到各种各样的设备中,包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型计算机或台式计算机、数字相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝或卫星无线电电话、视频电话会议设备等。数字视频设备实现视频压缩技术(诸如在由MPEG-2、MPEG-4、ITU-T H.263或ITU-TH.264/MPEG-4(第10部分,高级视频编码(AVC))、ITU-T H.265(也被称为高效率视频编码(HEVC))以及此类标准的扩展定义的标准中描述的那些技术),以更加高效地发送和接收数字视频信息。
在诸如视频数据的媒体数据已经被编码之后,可以将媒体数据分组以进行发送或存储。媒体数据可以被组装成符合各种标准(诸如国际标准化组织(ISO)的基媒体文件格式(ISOBMFF)以及其扩展(诸如AVC))中的任何一种的媒体文件。
发明内容
概括而言,本公开内容描述了用于支持作为用于叠加的源的图像的传输和呈现的技术。叠加或叠加图像通常对应于在动态视频内容之上呈现的静态图像。也就是说,当在可以逐帧地改变的动态视频内容之上呈现时,静态图像叠加保持不变。替代地,一系列图像可以作为叠加来呈现,例如,以循环的形式。在这样的情况下,叠加图像序列可以以规律的周期性进行重复,例如,根据在叠加图像序列中包括的图像数量。叠加是沉浸式电话会议的重要方面,因为叠加可以用于叠合(super-impose)场景中的各种各样的内容。例如,叠加可以允许将幻灯片、徽标和/或信息屏幕叠合在场景中。叠加纹理可以来自视频流、一个或多个静止图像或一系列图像。沉浸式远程会议和远程终端临场感(ITT4RT)小组正在努力支持图像作为用于叠加的源。本公开内容描述了使用高效率图像文件(HEIF)格式作为用于包含图像叠加的格式。
在一个示例中,一种取回媒体数据的方法包括:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
在另一示例中,一种用于取回媒体数据的设备包括:存储器,其被配置为存储场景数据和图像数据;以及一个或多个处理器,其在电路中实现并且被配置为:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
在另一示例中,一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得处理器进行以下操作:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
在另一示例中,一种用于接收媒体数据的设备包括:用于接收针对比特流的数据的单元,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;用于从所述比特流接收所述一个或多个叠加图像的单元;用于接收包括一个或多个场景图像的场景数据的单元;以及用于呈现所述场景图像和所述叠加图像的单元。
在附图和以下描述中阐述了一个或多个示例的细节。根据说明书和附图以及根据权利要求书,其它特征、目的和优点将是显而易见的。
附图说明
图1是示出实现用于在网络上对媒体数据进行流式传输的技术的示例系统的框图。
图2是更详细地示出图1的取回单元52的示例组件集合的框图。
图3是示出示例多媒体内容的元素的概念图。
图4是示出可以对应于表示的分段的示例视频文件的元素的框图。
图5是示出用于包含图像数据的高效率图像文件(HEIF)格式的示例结构的概念图。
图6是示出根据本公开内容的技术的取回媒体数据的示例方法的流程图。
具体实施方式
概括而言,本公开内容描述了用于使用特定格式(诸如高效率图像文件(HEIF)格式)来包含图像叠加的技术。叠加或叠加图像通常对应于在动态视频内容之上呈现的静态图像。也就是说,当在可以逐帧地改变的动态视频内容之上呈现时,静态图像叠加保持不变。替代地,一系列图像可以例如以循环的形式被呈现为叠加。在这样的情况下,叠加图像序列可以以规律的周期性进行重复,例如,根据在叠加图像序列中包括的图像的数量。例如,如果叠加图像序列包括N个图像,则图像序列中的第i图像将在每j*N+i个帧呈现,其中,j的范围可以从零到无穷,并且i的范围可以从零到N-1。HEIF格式是在ISO/IEC 23008-12中定义的。ISO/IEC 23008-12规定了将图像和图像序列及其元数据存储到基于ISOBMFF的容器文件中。HEIF定义了用于图像的存储的通用的、与编解码器无关的结构,并且还提供了基于H.265/HEVC(高效率视频译码)编解码器的实例。
在各种环境(诸如视频电话和视频会议会话)中,可能期望在参与者之间共享图像。然而,在一些视频流式协议(诸如实时传输协议(RTP))中,没有定义对图像的携带。HEIF是一种允许存储使用例如HEVC或其它视频编解码器而编码的图像集合和图像序列的图像格式。目前未规定通过RTP携带这些图像。本公开内容描述了用于通过RTP携带和呈现HEIF图像集合和图像序列的技术。这些技术描述了对用于例如HEVC的RTP有效载荷格式的扩展以及会话描述协议(SDP)中的图像的信令。以这种方式,可以在视频会议会话期间传输图像和图像序列,对于所述视频会议会话,可以使用RTP或其它此类协议传输数据。
本公开内容的技术可以应用于符合根据以下各项中的任何一项封装的媒体数据的媒体文件(诸如视频文件):ISO基媒体文件格式(ISOBMFF)、可缩放视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP)文件格式、和/或多视图视频译码(MVC)文件格式、或其它类似的视频文件格式。
图1是示出实现用于在网络上对媒体数据进行流式传输的技术的示例系统10的框图。在该示例中,系统10包括内容准备设备20、服务器设备60和客户端设备40。客户端设备40和服务器设备60通过可以包括互联网的网络74通信地耦合。在一些示例中,内容准备设备20和服务器设备60也可以通过网络74或另一网络耦合,或者可以直接通信地耦合。在一些示例中,内容准备设备20和服务器设备60可以包括相同的设备。
在图1的示例中,内容准备设备20包括音频源22和视频源24。音频源22可以包括例如麦克风,其产生表示被捕获的要由音频编码器26编码的音频数据的电信号。替代地,音频源22可以包括存储先前记录的音频数据的存储介质、音频数据生成器(诸如计算机合成器)、或任何其它音频数据源。视频源24可以包括产生要由视频编码器28编码的视频数据的摄像机、编码有先前记录的视频数据的存储介质、视频数据生成单元(诸如计算机图形源)、或任何其它视频数据源。在所有示例中,内容准备设备20不一定通信地耦合到服务器设备60,而是可以将多媒体内容存储到由服务器设备60读取的单独介质中。
原始音频和视频数据可以包括模拟或数字数据。模拟数据可以在被音频编码器26和/或视频编码器28编码之前被数字化。音频源22可以在讲话参与者正在讲话时从讲话参与者获得音频数据,并且视频源24可以同时获得讲话参与者的视频数据。在其它示例中,音频源22可以包括包含存储的音频数据的计算机可读存储介质,而视频源24可以包括包含存储的视频数据的计算机可读存储介质。以这种方式,在本公开内容中描述的技术可以被应用于实况的、流式传输的、实时的音频和视频数据或者被存档的、预先记录的音频和视频数据。
对应于视频帧的音频帧通常是包含音频数据的音频帧,音频数据是与由视频源24捕获(或生成)的被包含在视频帧内的视频数据同时地由音频源22捕获(或生成)的。例如,当讲话参与者通常通过讲话产生音频数据时,音频源22捕获音频数据,而视频源24同时(即,当音频源22捕获音频数据时)捕获讲话参与者的视频数据。因此,音频帧可以在时间上对应于一个或多个特定视频帧。相应地,对应于视频帧的音频帧通常对应于以下情形:其中音频数据和视频数据是同时捕获的,并且音频帧和视频帧分别包括同时捕获的音频数据和视频数据。
在一些示例中,音频编码器26可以将表示用于每个经编码的音频帧的音频数据被记录的时间的时间戳编码到该经编码的音频帧中,并且类似地,视频编码器28可以将表示用于每个经编码的视频帧的视频数据被记录的时间的时间戳编码在该经编码的视频帧中。在这样的示例中,音频帧对应于视频帧可以包括:包括时间戳的音频帧和包括相同时间戳的视频帧。内容准备设备20可以包括内部时钟,其中音频编码器26和/或视频编码器28可以根据该内部时钟来生成时间戳,或者音频源22和视频源24可以使用该内部时钟将音频数据和视频数据分别与时间戳关联。
在一些示例中,音频源22可以向音频编码器26发送与音频数据被记录的时间相对应的数据,而视频源24可以向视频编码器28发送与视频数据被记录的时间相对应的数据。在一些示例中,音频编码器26可以将序列标识符编码到经编码的音频数据中,以指示经编码的音频数据的相对时间顺序,但是不一定指示音频数据被记录的绝对时间,并且类似地,视频编码器28也可以使用序列标识符来指示经编码的视频数据的相对时间顺序。类似地,在一些示例中,序列标识符可以被映射或以其它方式与时间戳相关。
音频编码器26通常产生经编码的音频数据的流,而视频编码器28产生经编码的视频数据的流。每个单独的数据流(无论是音频还是视频)都可以被称为基本流。基本流是表示的单个经数字编码的(可能是被压缩的)分量。例如,表示的经编码的视频或音频部分可以是基本流。基本流可以在被封装在视频文件内之前,被转换为分组化基本流(PES)。在同一表示内,流ID可以用于将属于一个基本流的PES分组与另一基本流的PES分组区分开。基本流的基础数据单元是分组化基本流(PES)分组。因此,经编码的视频数据通常对应于基本视频流。类似地,音频数据对应于一个或多个相应的基本流。
许多视频译码标准(诸如ITU-T H.264/AVC、ITU-T H.265/高效率视频译码(HEVC)和即将到来的ITU-T H.266/通用视频译码(VVC)标准)定义了用于无错误比特流的语法、语义和解码过程,其中的任何一者符合某个简档或级别。视频编码标准通常不指定编码器,但是编码器的任务是保证所生成的比特流对于解码器是符合标准的。在视频编码标准的背景下,“简档”对应于适用于它们的算法、特征、或工具和约束的子集。例如,如由H.264标准所定义的,“简档”是由H.264标准所指定的整个比特流语法的子集。“级别”对应于与图像的分辨率、比特率和块处理率有关的解码器资源消费的限制,例如,解码器存储器和计算。可以利用profile_idc(简档指示符)值来用信号通知简档,而可以利用level_idc(级别指示符)值来用信号通知级别。
例如,H.264标准认可的是,在给定简档的语法所施加的界限内,仍然可能需要编码器和解码器的性能的大变化,这取决于比特流中的语法元素所采用的值,诸如解码图像的指定大小。H.264标准进一步认可的是,在许多应用中,实现能够处理特定简档内的语法的所有假设用途的解码器是不实用也不经济的。因此,H.264标准将“级别”定义为对在比特流中的语法元素的值施加的指定约束集合。这些约束可以是对值的简单限制。替代地,这些约束可以采取对值的算术组合的约束的形式(例如,图像宽度乘以图像高度乘以每秒解码的图像数量)。H.264标准还规定,各种实现方式可以支持针对每个支持的简档的不同级别。
符合简档的解码器通常支持在简档中定义的所有特征。例如,作为编码特征,B图像编码在H.264/AVC的基准简档中是不支持的,但是在H.264/AVC的其它简档中是支持的。符合级别的解码器应当能够对不需要超出在该级别中定义的限制的资源的任何比特流进行解码。简档和级别的定义可以有助于可解释性。例如,在视频传输期间,可以为整个传输会话协商并且商定一对简档和级别定义。更具体地说,在H.264/AVC中,级别可以定义对以下各项的限制:需要被处理的宏块数量、解码图像缓冲区(DPB)大小、编码图像缓冲区(CPB)大小、垂直运动矢量范围、每两个连续MB的运动矢量的最大数量、以及B块是否可以具有小于8x8个像素的子宏块分区。以这种方式,解码器可以确定该解码器是否能够正确地解码比特流。
在图1的示例中,内容准备设备20的封装单元30从视频编码器28接收包括经编码的视频数据的基本流,并且从音频编码器26接收包括经编码的音频数据的基本流。在一些示例中,视频编码器28和音频编码器26可以分别包括用于从经编码的数据形成PES分组的分组化器。在其它示例中,视频编码器28和音频编码器26可以分别与用于从经编码的数据形成PES分组的相应分组化器进行对接。在其它示例中,封装单元30可以包括用于从经编码的音频和视频数据形成PES分组的分组化器。
视频编码器28可以以各种方式对多媒体内容的视频数据进行编码,以产生多媒体内容的处于各种比特率并且具有各种特性(例如,像素分辨率、帧速率、符合各种编码标准、符合用于各种编码标准的各个简档和/或简档的级别、具有一个或多个视图的表示(例如,用于二维或三维回放)或其它此类特性)的不同表示。在本公开内容中使用的表示可以包括音频数据、视频数据、文本数据(例如,用于隐藏式字幕)或其它这样的数据中的一者。表示可以包括基本流,诸如音频基本流或视频基本流。每个PES分组可以包括标识该PES分组所属的基本流的stream_id。封装单元30负责将基本流组装成各个表示的视频文件(例如,分段)。
封装单元30从音频编码器26和视频编码器28接收用于表示的基本流的PES分组,并且从PES分组形成对应的网络抽象层(NAL)单元。可以将经编码的视频分段组织为NAL单元,这些NAL单元提供了“网络友好”的视频表示,其解决诸如视频电话、存储、广播或流式传输之类的应用。NAL单元可以被分类为视频编码层(VCL)NAL单元和非VCL NAL单元。VCL单元可以包含核心压缩引擎,并且可以包括块、宏块和/或切片级数据。其它NAL单元可以是非VCL NAL单元。在一些示例中,在一个时间实例中通常被呈现为主编码图像的编码图像可以被包含在访问单元中,访问单元可以包括一个或多个NAL单元。
除此之外,非VCL NAL单元还可以包括参数集NAL单元和SEI NAL单元。参数集可以包含序列级报头信息(在序列参数集(SPS)中)和不频繁变化的图像级报头信息(在图像参数集(PPS)中)。利用参数集(例如,PPS和SPS),不需要针对每个序列或图像重复不频繁变化的信息,因此可以提高编码效率。此外,使用参数集可以实现对重要报头信息的带外传输,从而避免为了错误恢复而对于冗余传输的需求。在带外传输示例中,可以在与其它NAL单元(诸如SEI NAL单元)不同的信道上发送参数集NAL单元。
补充增强信息(SEI)可能包含对于从VCL NAL单元解码编码图像样本而言不必要的信息,但是可能有助于与解码、显示、错误恢复和其它目的有关的过程。SEI消息可以被包含在非VCL NAL单元中。SEI消息是一些标准规范的规范性部分,并且因此对于符合标准的解码器实现而言并非总是强制的。SEI消息可以是序列级SEI消息或图像级SEI消息。一些序列级信息可以被包含在SEI消息中,诸如在SVC示例中的可伸缩性信息SEI消息、以及在MVC中的视图可伸缩性信息SEI消息。这些示例SEI消息可以传递关于例如操作点的提取和操作点的特性的信息。另外,封装单元30可以形成清单文件,诸如描述表示的特性的媒体呈现描述符(MPD)。封装单元30可以根据可扩展标记语言(XML)来将MPD格式化。
封装单元30可以将用于多媒体内容的一个或多个表示的数据以及清单文件(例如,MPD)一起提供给输出接口32。输出接口32可以包括网络接口、或用于写入存储介质的接口(诸如通用串行总线(USB)接口、CD或DVD刻录机或烧录机、与磁或闪速存储介质的接口、或用于存储或发送介质数据的其它接口)。封装单元30可以将多媒体内容的表示中的每个表示的数据提供给输出接口32,输出接口32可以经由网络传输或存储介质将数据发送给服务器设备60。在图1的示例中,服务器设备60包括存储各种多媒体内容64的存储介质62,每种多媒体内容包括相应的清单文件66和一个或多个表示68A-68N(表示68)。在一些示例中,输出接口32还可以直接向网络74发送数据。
在一些示例中,表示68可以被分成自适应集。也就是说,表示68的各个子集可以包括相应的公共特性集,诸如编解码器、简档和级别、分辨率、视图数量、用于分段的文件格式、可以标识将与表示和/或要被解码和由例如扬声器呈现的音频数据一起显示的文本的语言或其它特性的文本类型信息、可以描述针对自适应集中的表示的场景的相机角度或现实世界视角的相机角度信息、描述内容对于特定受众的适合性的评级信息等。
清单文件66可以包括指示与特定的自适应集相对应的表示68的子集以及用于自适应集的公共特性的数据。清单文件66还可以包括表示用于自适应集中的单独表示的各个特性的数据,诸如比特率。以这种方式,自适应集可以提供简化的网络带宽自适应。可以使用清单文件66的自适应集元素中的子元素来指示在自适应集中的表示。
服务器设备60包括请求处理单元70和网络接口72。在一些示例中,服务器设备60可以包括多个网络接口。此外,服务器设备60的任何或所有特征可以在内容递送网络的其它设备上实现,诸如路由器、桥接器、代理设备、交换机或其它设备。在一些示例中,内容递送网络的中间设备可以对多媒体内容64的数据进行高速缓存,并且包括基本上与服务器设备60的组件一致的组件。通常,网络接口72被配置为经由网络74发送和接收数据。
请求处理单元70被配置为从诸如客户端设备40之类的客户端设备接收对存储介质62的数据的网络请求。例如,请求处理单元70可以实现如在RFC 2616中(1999年6月,IETF,网络工作组,R.Fielding等人的“Hypertext Transfer Protocol–HTTP/1.1”)中描述的超文本传输协议(HTTP)版本1.1。也就是说,请求处理单元70可以被配置为接收HTTP GET或部分GET请求,并且响应于所述请求而提供多媒体内容64的数据。请求可以指定表示68中的一个表示的分段(例如,使用该分段的URL)。在一些示例中,请求还可以指定分段的一个或多个字节范围,由此包括部分GET请求。请求处理单元70还可以被配置为对HTTP HEAD请求进行服务以提供表示68中的一个表示的分段的报头数据。在任何情况下,请求处理单元70可以被配置为处理这些请求以将所请求的数据提供给请求设备,诸如客户端设备40。
另外或替代地,请求处理单元70可以被配置为经由诸如eMBMS之类的广播或多播协议来递送媒体数据。内容准备设备20可以以与所描述的基本相同的方式来创建DASH分段和/或子分段,但是服务器设备60可以使用eMBMS或另一广播或多播网络传输协议来递送这些分段或子分段。例如,请求处理单元70可以被配置为从客户端设备40接收多播组加入请求。也就是说,服务器设备60可以向包括客户端设备40的客户端设备通告与多播组相关联的互联网协议(IP)地址,该多播组与特定的媒体内容(例如,实况事件的广播)相关联。客户端设备40进而可以提交用于加入多播组的请求。该请求可以在整个网络74(例如,组成网络74的路由器)中传播,从而使路由器将去往与多播组相关联的IP地址的业务引导到订制客户端设备(诸如客户端设备40)。
如在图1的示例中所示,多媒体内容64包括清单文件66,清单文件66可以对应于媒体呈现描述(MPD)。清单文件66可以包含对不同替代表示68(例如,具有不同质量的视频服务)的描述,并且该描述可以包括例如表示68的编解码器信息、简档值、级别值、比特率和其它描述性特性。客户端设备40可以取回媒体呈现的MPD以确定如何访问表示68的分段。
具体地,取回单元52可以取回客户端设备40的配置数据(未示出)以确定视频解码器48的解码能力和视频输出44的渲染能力。配置数据还可以包括以下各项中的任何一项或全部:由客户端设备40的用户选择的语言偏好、与由客户端设备40的用户设置的深度偏好相对应的一个或多个相机视角、和/或由客户端设备40的用户选择的评级偏好。取回单元52可以包括例如被配置为提交HTTP GET和部分GET请求的网页浏览器或媒体客户端。取回单元52可以对应于由客户端设备40的一个或多个处理器或处理单元(未示出)执行的软件指令。在一些示例中,关于取回单元52描述的功能中的全部或部分功能可以用硬件、或者用硬件、软件和/或固件的组合来实现,其中可以提供必需的硬件来执行针对软件或固件的指令。
取回单元52可以将客户端设备40的解码和渲染能力与由清单文件66的信息所指示的表示68的特性进行比较。取回单元52可以初始地取回清单文件66的至少一部分以确定表示68的特性。例如,取回单元52可以请求清单文件66的描述一个或多个自适应集的特性的一部分。取回单元52可以选择表示68的具有可以由客户端设备40的编码和渲染能力满足的特性的子集(例如,自适应集)。取回单元52然后可以确定用于在自适应集中的表示的比特率,确定当前可用的网络带宽量,并且从表示中的一个表示中取回具有网络带宽可以满足的比特率的分段。
通常,较高比特率的表示可以产生较高质量的视频回放,而较低比特率的表示可以在可用网络带宽减小时提供足够质量的视频回放。相应地,当可用网络带宽是相对高的时,取回单元52可以从相对高比特率的表示中取回数据,而当可用网络带宽是低的时,取回单元52可以从相对低比特率的表示中取回数据。以这种方式,客户端设备40可以在网络74上对多媒体数据进行流式传输,同时还适应于网络74的变化的网络带宽可用性。
另外或替代地,取回单元52可以被配置为根据诸如eMBMS或IP多播之类的广播或多播网络协议来接收数据。在这样的示例中,取回单元52可以提交用于加入与特定的媒体内容相关联的多播网络组的请求。在加入多播组之后,取回单元52可以接收该多播组的数据,而无需向服务器设备60或内容准备设备20发出另外的请求。当不再需要多播组的数据时,取回单元52可以提交用于离开该多播组的请求,例如以停止回放或者将信道改变到不同的多播组。
网络接口54可以接收所选择的表示的分段的数据并且将其提供给取回单元52,取回单元52进而可以将这些分段提供给解封装单元50。解封装单元50可以将视频文件的元素解封装为组成的PES流,对PES流进行解分组化以取回经编码的数据,并且向音频解码器46或视频解码器48发送经编码的数据,这取决于经编码的数据是音频流还是视频流的一部分(例如,如该流的PES分组报头所指示的)。音频解码器46对经编码的音频数据进行解码并且将经解码的音频数据发送到音频输出42,而视频解码器48对经编码的视频数据进行解码并且将经解码的视频数据(其可以包括流的多个视图)发送到视频输出44。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、取会单元52和解封装单元50各自可以在适用的情况下被实现为各种适当的处理电路中的任何一者,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑电路、软件、硬件、固件或其任何组合。视频编码器28和视频解码器48中的每一者可以被包括在一个或多个编码器或解码器中,其中任一者可以被集成为组合视频编码器/解码器(CODEC)的一部分。同样,音频编码器26和音频解码器46中的每一者可以被包括在一个或多个编码器或解码器中,其中任一者可以被集成为组合CODEC的一部分。包括视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、取回单元52和/或解封装单元50的装置可以包括集成电路、微处理器和/或无线通信设备(诸如蜂窝电话)。
客户端设备40、服务器设备60和/或内容准备设备20可以被配置为根据本公开内容的技术进行操作。出于示例的目的,本公开内容关于客户端设备40和服务器设备60描述了这些技术。然而,应当理解的是,内容准备设备20可以被配置为执行这些技术,代替(或者除了)服务器设备60。
封装单元30可以形成NAL单元,NAL单元包括标识该NAL单元所属的程序的报头以及有效载荷(例如,音频数据、视频数据、或描述NAL单元所对应的传输或程序流的数据)。例如,在H.264/AVC中,NAL单元包括1字节的报头和大小可变的有效载荷。在其有效载荷中包括视频数据的NAL单元可以包括各种粒度级别的视频数据。例如,NAL单元可以包括视频数据块、多个块、视频数据的切片、或视频数据的整个图像。封装单元30可以以基本流的PES分组的形式从视频编码器28接收经编码的视频数据。封装单元30可以将每个基本流与对应的程序相关联。
封装单元30还可以从多个NAL单元组装访问单元。通常,访问单元可以包括一个或多个NAL单元,其用于表示视频数据的帧、以及与该帧相对应的音频数据(当这样的音频数据是可用时)。访问单元通常包括用于一个输出时间实例的所有NAL单元,例如,用于一个时间实例的所有音频和视频数据。例如,如果每个视图具有20帧每秒(fps)的帧速率,则每个时间实例可以对应于0.05秒的时间间隔。在该时间间隔期间,可以同时渲染用于同一访问单元(同一时间实例)的所有视图的特定帧。在一个示例中,访问单元可以包括在一个时间实例中的编码图像,其可以被呈现为主编码图像。
相应地,访问单元可以包括公共时间实例的所有音频和视频帧,例如,对应于时间X的所有视图。本公开内容还将特定视图的编码图像称为“视图分量”。也就是说,视图分量可以包括在特定时间处针对特定视图的编码图像(或帧)。相应地,访问单元可以被定义为包括公共时间实例的所有视图分量。访问单元的解码顺序不一定需要与输出或显示顺序相同。
媒体呈现可以包括媒体呈现描述(MPD),其可以包含不同替代表示(例如,具有不同质量的视频服务)的描述,并且该描述可以包括例如编解码器信息、简档值和级别值。MPD是清单文件(例如,清单文件66)的一个示例。客户端设备40可以取回媒体呈现的MPD,以确定如何访问各个呈现的电影片段。电影片段可以位于视频文件的电影片段盒(moof盒(box))中。
清单文件66(其可以包括例如MPD)可以通告表示68的分段的可用性。也就是说,MPD可以包括指示表示68中的一个表示的第一分段变得可用的时钟时间的信息、以及指示表示68内的分段的持续时间的信息。以这种方式,客户端设备40的取回单元52可以基于在特定分段之前的分段的开始时间以及持续时间来确定每个分段何时可用。
在封装单元30已经基于所接收的数据将NAL单元和/或访问单元组装为视频文件之后,封装单元30将视频文件传递到输出接口32以进行输出。在一些示例中,封装单元30可以将视频文件进行本地存储或者经由输出接口32将视频文件发送给远程服务器,而不是将视频文件直接发送给客户端设备40。输出接口32可以包括例如发射机、收发机、用于将数据写入计算机可读介质的设备(诸如光学驱动器、磁介质驱动器(例如,软盘驱动器))、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读介质,诸如例如,传输信号、磁性介质、光学介质、存储器、闪存驱动器或其它计算机可读介质。
网络接口54可以经由网络74接收NAL单元或访问单元,并且经由取回单元52将NAL单元或访问单元提供给解封装单元50。解封装单元50可以将视频文件的元素解封装为组成的PES流,将PES流进行解分组化以取回经编码的数据,并且向音频解码器46或视频解码器48发送经编码的数据(取决于经编码的数据是音频流还是视频流的一部分,例如如由PES流的PES分组报头指示的)。音频解码器46对经编码的音频数据进行解码并且将经解码的音频数据发送到音频输出42,而视频解码器48对经编码的视频数据进行解码并且将经解码的视频数据(其可以包括流的多个视图)发送到视频输出44。
出于示例目的,图1的示例描述了使用DASH和基于HTTP的流式传输。然而,应当理解,可以使用其它类型的协议来传输媒体数据。例如,请求处理单元70和取回单元52可以被配置为根据实时传输协议(RTP)、实时流式协议(RTSP)等进行操作,并且使用诸如会话描述协议(SDP)或会话发起协议(SIP)之类的支持协议。
图2是更详细地示出图1的取回单元52的示例组件集合的框图。在该示例中,取回单元52包括eMBMS中间件单元100、DASH客户端110和媒体应用112。
在该示例中,eMBMS中间件单元100还包括eMBMS接收单元106、高速缓存104和代理服务器单元102。在该示例中,eMBMS接收单元106被配置为经由eMBMS(例如,根据基于单向传输的文件传送(FLUTE))来接收数据,FLUTE是在2012年11月、RFC 6726、网络工作组、T.Paila等人的“FLUTE—通过单向传输的文件递送”中描述的,其可在tools.ietf.org/html/rfc6726获得。也就是说,eMBMS接收单元106可以经由广播从例如服务器设备60接收文件,服务器设备60可以充当广播/多播服务中心(BM-SC)。
随着eMBMS中间件单元100接收用于文件的数据,eMBMS中间件单元可以将所接收的数据存储在高速缓存104中。高速缓存104可以包括计算机可读存储介质,诸如闪存、硬盘、RAM或任何其它适当的存储介质。
代理服务器单元102可以充当用于DASH客户端110的服务器。例如,代理服务器单元102可以向DASH客户端110提供MPD文件或其它清单文件。代理服务器单元102可以在MPD文件中通告针对分段的可用性时间以及分段可以从其中被取回的超链接。这些超链接可以包括与客户端设备40相对应的本地主机地址前缀(例如,对于IPv4而言,为127.0.0.1)。以这种方式,DASH客户端110可以使用HTTP GET或部分GET请求从代理服务器单元102请求分段。例如,对于可从链接http://127.0.0.1/rep1/seg3得到的分段,DASH客户端110可以构造包括针对http://127.0.0.1/rep1/seg3的请求的HTTP GET请求,并且向代理服务器单元102提交该请求。代理服务器单元102可以响应于这样的请求来从高速缓存104取回所请求的数据,并且将该数据提供给DASH客户端110。
客户端设备40表示一种用于取回媒体数据的设备的示例,包括:被配置为存储场景数据和图像数据的存储器;以及一个或多个处理器,其在电路中实现并且被配置为:接收用于比特流的数据,所述数据指示比特流包括一个或多个叠加图像,叠加图像包括将与场景数据一起呈现的单个静态图像或者图像序列,所述单个静态图像在逐帧地与场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与场景数据的帧一起呈现时以规律的周期性进行重复;从比特流接收一个或多个叠加图像;接收包括一个或多个场景图像的场景数据;以及呈现场景图像和叠加图像。
图3是示出示例多媒体内容120的元素的概念图。多媒体内容120可以对应于多媒体内容64(图1)或被存储在存储介质62中的另一多媒体内容。在图3的示例中,多媒体内容120包括媒体呈现描述(MPD)122和多个表示124A-124N(表示124)。表示124A包括可选的报头数据126和分段128A-128N(分段128),而表示124N包括可选的报头数据130和分段132A-132N(分段132)。为了方便起见,字母N用于指定表示124中的每个表示中的最后一个电影片段。在一些示例中,在表示124之间可以存在不同数量的电影片段。
MPD 122可以包括与表示124分开的数据结构。MPD 122可以对应于图1的清单文件66。同样,表示124可以对应于图1的表示68。通常,MPD 122可以包括通常描述表示124的特性的数据,诸如编码和渲染特性、自适应集、MPD 122所对应的简档、文本类型信息、相机角度信息、评级信息、轨道模式信息(例如,指示包括时间子序列的表示的信息)、和/或用于取回远程时段的信息(例如,用于在回放期间将目标广告插入到媒体内容中)。
报头数据126(当存在时)可以描述分段128的特性,例如,随机访问点(RAP,也被称为流访问点(SAP))的时间位置、分段128中的哪些包括随机访问点、对分段128内的随机访问点的字节偏移、分段128的统一资源定位符(URL)、或分段128的其它方面。报头数据130(当存在时)可以描述分段132的类似特性。另外或替代地,这样的特性可以完全被包括在MPD 122内。
分段128、132包括一个或多个编码视频样本,每个编码视频样本可以包括视频数据的帧或切片。分段128的编码视频样本中的每一者可以具有类似的特性,例如,高度、宽度和带宽要求。虽然在图3的示例中未示出这样的数据,但是这样的特性可以由MPD 122的数据来描述。MPD 122可以包括由3GPP规范描述的特性,其中添加了在本公开内容中描述的用信号发送的信息中的任何或全部信息。
分段128、132中的每个分段可以与唯一的统一资源定位符(URL)相关联。因此,分段128、132中的每个分段可以是可使用诸如DASH之类的流式传输网络协议来独立地取回的。以这种方式,诸如客户端设备40之类的目的地设备可以使用HTTP GET请求来取回分段128或132。在一些示例中,客户端设备40可以使用HTTP部分GET请求来取回分段128或132的特定字节范围。
图4是示出示例视频文件150的元素的框图,视频文件150可以对应于表示的分段,诸如图3的分段128、132中的一个分段。分段128、132中的每个分段可以包括基本上符合在图4的示例中示出的数据的布置的数据。视频文件150可以认为是封装分段。如上所述,根据ISO基媒体文件格式以及其扩展的视频文件将数据存储在被称为“盒(box)”的一系列对象中。在图4的示例中,视频文件150包括文件类型(FTYP)盒152、电影(MOOV)盒154、分段索引(sidx)盒162、电影片段(MOOF)盒164、以及电影片段随机访问(MFRA)盒166。尽管图4表示视频文件的示例,但是应当理解的是,其它媒体文件可以包括根据ISO基媒体文件格式以及其扩展而与视频文件150的数据类似地构造的其它类型的媒体数据(例如,音频数据、时序文本数据等)。
文件类型(FTYP)盒152通常描述用于视频文件150的文件类型。文件类型盒152可以包括标识描述用于视频文件150的最佳用途的规范的数据。文件类型盒152可以替代地被放置在MOOV盒154、电影片段盒164和/或MFRA盒166之前。
在一些示例中,诸如视频文件150之类的分段可以在FTYP盒152之前包括MPD更新盒(未示出)。MPD更新盒可以包括指示与包括视频文件150的表示相对应的MPD将被更新的信息以及用于更新MPD的信息。例如,MPD更新盒可以提供用于要用于更新MPD的资源的URI或URL。作为另一示例,MPD更新盒可以包括用于更新MPD的数据。在一些示例中,MPD更新盒可以紧跟在视频文件150的分段类型(STYP)盒(未显示)之后,其中STYP盒可以定义用于视频文件150的分段类型。
在图4的示例中,MOOV盒154包括电影报头(MVHD)盒156、轨道(TRAK)盒158以及一个或多个电影扩展(MVEX)盒160。通常,MVHD盒156可以描述视频文件150的一般特性。例如,MVHD盒156可以包括描述视频文件150最初何时被创建、视频文件150最近何时被修改、用于视频文件150的时间标度、用于视频文件150的回放的持续时间的数据、或者通常描述视频文件150的其它数据。
TRAK盒158可以包括用于视频文件150的轨道的数据。TRAK盒158可以包括描述与TRAK盒158相对应的轨道的特性的轨道报头(TKHD)盒。在一些示例中,TRAK盒158可以包括经编码的视频图像,而在其它示例中,轨道的经编码的视频图像可以被包括在电影片段164中,电影片段164可以通过TRAK盒158和/或sidx盒162的数据来引用。
在一些示例中,视频文件150可以包括一个以上的轨道。因此,MOOV盒154可以包括一数量的TRAK盒,TRAK盒的数量等于视频文件150中的轨道的数量。TRAK盒158可以描述视频文件150的对应轨道的特性。例如,TRAK盒158可以描述用于对应轨道的时间和/或空间信息。当封装单元30(图3)在诸如视频文件150之类的视频文件中包括参数集轨道时,类似于MOOV盒154的TRAK盒158的TRAK盒可以描述参数集轨道的特性。封装单元30可以用信号通知在TRAK盒内的参数集轨道中描述参数集轨道的序列级SEI消息的存在。
MVEX盒160可以描述对应的电影片段164的特性,例如,以用信号通知除了被包括在MOOV盒154内的视频数据(如果有的话)之外,视频文件150还包括电影片段164。在流式传输视频数据的情况下,经编码的视频图像可以被包括在电影片段164中,而不是在MOOV盒154中。因此,所有经编码的视频样本可以被包括在电影片段164中,而不是在MOOV盒154中。
MOOV盒154可以包括一数量的MVEX盒160,MVEX盒160的数量等于视频文件150中的电影片段164的数量。MVEX盒160中的每一者可以描述电影片段164中的相应片段的特性。例如,每个MVEX盒可以包括电影扩展报头盒(MEHD),其描述用于电影片段164中的相应片段的持续时间。
如上所述,封装单元30可以将序列数据集存储在不包括实际经编码的视频数据的视频样本中。视频样本通常可以对应于访问单元,访问单元是在特定时间实例处的编码图像的表示。在AVC的情况下,编码图像包括包含要构造访问单元的所有像素的信息的一个或多个VCL NAL单元和其它关联的非VCL NAL单元(诸如,SEI消息)。相应地,封装单元30可以在电影片段164中的一个电影片段中包括序列数据集,序列数据集可以包括序列级SEI消息。封装单元30还可以在MVEX盒160中的与电影片段164中的一个电影片段相对应的MVEX盒内将序列数据集和/或序列级SEI消息的存在用信号通知为存在于电影片段164的该电影片段中。
SIDX盒162是视频文件150的可选元素。也就是说,符合3GPP文件格式或其它这样的文件格式的视频文件不一定包括SIDX盒162。根据3GPP文件格式的示例,SIDX盒可以用于标识分段(例如,被包含在视频文件150内的分段)的子分段。3GPP文件格式将子分段定义为“具有对应媒体数据盒的一个或多个连续电影片段盒的自包含集,并且包含由电影片段盒引用的数据的媒体数据盒必须跟随在该电影片段盒之后并且在包含关于相同轨道信息的下一电影片段盒之前。”3GPP文件格式还指示SIDX盒“包含对该盒所记载的(子)分段的子分段的引用的序列。所引用的子分段在呈现时间上是连续的。类似地,由分段索引盒所引用的字节在分段内始终是连续的。所引用的大小给出了在所引用的材料中的字节数量的计数。”
SIDX盒162通常提供表示被包括在视频文件150中的分段的一个或多个子分段的信息。例如,此类信息可以包括子分段开始和/或结束的回放时间、针对子分段的字节偏移、子分段是否包括流访问点(SAP)(例如,从其开始)、用于SAP的类型(例如,SAP是否是即时解码器刷新(IDR)图像、清除随机访问(CRA)图像、断链访问(BLA)图像等)、SAP在子分段中的位置(依据回放时间和/或字节偏移)等。
电影片段164可以包括一个或多个经编码的视频图像。在一些示例中,电影片段164可以包括一个或多个图像组(GOP),每个图像组可以包括多个经编码的视频图像,例如帧或图像。另外,如上所述,在一些示例中,电影片段164可以包括序列数据集。电影片段164中的每个电影片段可以包括电影片段报头盒(MFHD,在图4中未示出)。MFHD盒可以描述对应电影片段的特性,诸如用于该电影片段的序列号。电影片段164可以按照序列号的顺序被包括在视频文件150中。
MFRA盒166可以描述在视频文件150的电影片段164内的随机访问点。这可以辅助执行轨道模式,诸如对通过视频文件150封装的分段内的特定时间位置(即,回放时间)执行搜索。MFRA盒166通常是可选的,并且在一些示例中不需要被包括在视频文件中。同样,客户端设备(诸如客户端设备40)不一定需要引用MFRA盒166来正确地解码和显示视频文件150的视频数据。MFRA盒166可以包括一数量的轨道片段随机访问(TFRA)盒(未示出),TFRA盒的数量等于视频文件150的轨道数量,或者在一些示例中,等于视频文件150的媒体轨道(例如,非提示轨道)的数量。
在一些示例中,电影片段164可以包括一个或多个流访问点(SAP),诸如IDR图像。同样,MFRA盒166可以提供对SAP在视频文件150内的位置的指示。相应地,视频文件150的时间子序列可以从视频文件150的SAP形成。时间子序列还可以包括其它图像,诸如依赖于SAP的P帧和/或B帧。可以将时间子序列的帧和/或切片布置在分段内,使得时间子序列的依赖于该子序列的其它帧/切片的帧/切片可以被正确地解码。例如,在数据的分层布置中,用于针对其它数据的预测的数据也可以被包括在时间子序列中。
图5是示出用于在媒体文件200中包含图像数据的高效率图像文件(HEIF)格式的示例结构的概念图。HEIF格式是在ISO/IEC 23008-12中定义的。HEIF规定了将图像和图像序列以及其元数据存储在基于ISOBMFF的容器文件中。HEIF定义了用于图像存储的通用的、与编解码器无关的结构,但是也提供了基于H.265/HEVC编解码器的实例。在一些示例中,图4的分段128、132可以符合图5的HEIF格式。
HEIF遵循用于媒体存储的ISOBMFF设计规则。因此,图像序列是以轨道来存储的,并且静止图像是作为元数据项目来存储的。在前者中,图像被一起译码。因此,经译码的图像将具有一些解码依赖性。在后者中,图像是彼此独立地译码的。
如图5所示,经HEIF格式化的媒体文件200包括:FTYP盒202;MOOV盒204,其可以包括TRAK盒206,所述TRAK盒206包括图像序列208中的零个或更多个图像;META盒214,其包括图像位置(ILOC)盒216和项目属性(IPRP)盒220,所述ILOC盒216包括零个或更多个图像项目218;MDAT盒210,其包括零个或更多个图像212;以及项目数据(IDAT)盒222,其包括零个或更多个图像224。
利用HEVC编码存储图像的ISOBMFF容器文件可以对应地由“heic”或“hevc”品牌标识,它们存在于ISOBMFF盒的开始处的FTYP盒202中。对于静止图像,这些文件的MIME类型可以被设置为“image/heic”,或者对于图像序列,其可以被设置为“image/heic-sequence”。
容器中的图像可以被指派不同的角色。以下角色是可以被指派给图像(诸如图像212、224)的示例:
·封面图像:在显示偏好上不存在其它信息的情况下显示的默认图像。在HEIF中仅可以定义一个封面图像。
·缩略图图像:与主图像相对应的小分辨率图像。
·辅助图像:补充主图像的图像,包括例如深度图。
·主图像:容器文件中的全分辨率的主要图像。
·隐藏图像:不打算显示的图像。
·预计算的派生图像:已经从其它图像派生的经译码图像。
·经译码图像:图像的经译码的表示。
·派生图像:必须使用一些操作和对容器文件中的其它图像的引用而派生的图像。所定义的操作包括:裁剪、旋转、镜像和合成。
图像序列可以承担主图像序列、辅助图像序列或缩略图图像序列的角色。
图像212、224可以与它们自己的元数据一起存储在容器文件中。初始化信息可以作为用于图像序列的样本描述盒的一部分存储在样本条目中。对于静止图像,初始化信息可以作为IPRP容器盒220的一部分存储为项目属性。该元数据可以包含诸如图像的尺寸、编解码器初始化信息等的信息。
额外元数据(诸如像素纵横比、色彩信息和比特深度)可以存在于项目属性容器盒中,并且使用在项目引用盒中的“cdsc”引用类型来引用实际图像。
对于图像序列(诸如图像序列208),规范定义了回放控制特征,以描述例如以下各项中的任何或全部:
·将不显示的图像
·幻灯片对比图像集合
·用于幻灯片的回放定时
·幻灯片的循环
·对图像的变换
为了促进访问图像序列中的特定图像,可以使用样本分组来指示该图像的解码依赖性。解码器不需要解码图像序列208中的所有图像212。
用于HEVC的实时传输协议(RTP)有效载荷格式是在以下文档中定义的:IETF RFC7798,RTP Payload Format for High Efficiency Video Coding(HEVC)(用于高效率视频译码(HEVC)的RTP有效载荷格式)。MTSI目前支持RFC 7798以用于传输视频流。有效载荷格式定义了在携带HEVC有效载荷时使用RTP报头、将经HEVC译码的NAL单元分组化为RTP分组、SDP描述和有效载荷报头扩展机制。
在ITT4RT的背景下,图像和图像序列都可以用作叠加。HEIF格式可以用作用于叠加的源。传输可以是符合HEVC的,即,图像项目和图像序列可以从HEIF源来提取,并且使用HEVC有效载荷格式来发送。
ITT4RT-tx客户端可以向接收机指示以下信息:
·流是图像叠加流。
·流是否携带图像序列或静止图像或两者。
·静止图像项目的数量。
·图像序列中的图像数量。
·用于静止图像或图像序列的传输模式。传输模式可以被设置为“耦合”以指示对传输和显示的耦合,在这种情况下,显示时间总是通过RTP时间戳来确定的。替代地,传输模式可以是“解耦”,以指示传输是独立于呈现的,使得分别地提供呈现定时以支持诸如存储和循环之类的用例。
·在传输模式被设置为“解耦”的情况下,静止图像集合或图像序列中的图像的显示顺序。
·针对图像项目或样本中的每一项的图像元数据,包括图像尺寸、图像角色等。
为了支持该信令,可以使用“image”SDP属性来标识流携带一个或多个叠加图像,包括静止图像和/或图像序列。“image”属性可以具有以下增强的Backus-Naur Form(ABNF)语法:
·image_attribute=“a=image:”pt SP transmission_mode SP item_count
·transmission_mode=“tmode=”(”coupled”/“decoupled”[“;”store][“;”loop])
·item_count=“count=”1*DIGIT
·metadata_index=“meta=”1*DIGIT
·store=“store=”(“0”/”1”)
·loop=“loop=”(“0”/”1”)
针对以上语法元素的语义可以定义如下:
pt:用于携带该图像集合或图像序列的有效载荷类型。在存在多个图像序列或者存在图像集合和图像序列的混合的情况下,应针对不同的序列或图像集合使用不同的有效载荷类型。
transmission_mode:耦合的传输模式,其指示在长达叠加将被渲染的时间内,叠加图像将被连续地流式传输(重传)。RTP时间戳可以用于确定叠加图像的呈现时间。不需要存储图像,并且也不需要执行循环。在这种情况下,图像可以是主图像。在“解耦”传输模式的情况下,图像的呈现可以被图像元数据覆写。RTP时间戳可以用于确定图像的索引。
item_count:提供在对应的图像集合或图像序列中的图像数量。
store:对于解耦传输模式,store标志告诉接收机是否存储用于连续呈现的图像。这允许传输会话比实际呈现要短得多。具体而言,静止图像叠加通常被存储以在叠加的整个生命期中呈现。
loop:对于解耦传输模式,loop标志指示是否应循环图像集合或图像序列,或者该集合或图像序列中的最后一个图像项目是否将保持显示。
使用“image-metadata”属性来执行用于图像集合或图像序列中的图像项目的元数据的携带,所述“image-metadata”属性可以定义如下:
image-metadata=”a=image-metadata:”pt SP coded-metadata
在以上示例中,coded-metadata是用于对应的图像集合或图像序列的经base64译码的图像元数据。
图像元数据可以具有以下格式:
所有图像属性可以根据其相应的定义进行格式化,例如,如在以下文档中定义的:ISO/IEC 23008-12,MPEG systems Technologies—Part 12:Image File Format。
display_info元素可以提供关于图像集合或序列中的每个图像的显示顺序的信息。顺序为0意味着将不渲染图像。这可能是辅助图像或隐藏图像的情况。Duration指示图像将以90kHz时钟为单位来渲染多长时间。
元数据信息可以是经base64编码的,并且作为用于每个图像集合或图像序列的image-metadata属性的一部分来独立地提供。
耦合的传输模式可以适于实时叠加流,例如,实时幻灯片呈现。解耦传输模式可以适于预设内容,诸如定时的幻灯片。
下表提供了用于携带图像集合和图像序列的示例SDP数据集:
.
.
.
m=video 49170RTP/AVP 98,99
a=rtpmap:98H265/90000
a=fmtp:98profile-id=1;sprop-vps=<video parameter sets data>
a=image:98tmode=coupled count=14
a=image-metadata:98coded-metadata=<base64 coded metadata>
a=rtpmap:99H265/90000
a=fmtp:99profile-id=1;sprop-vps=<video parameter sets data>
a=image:99tmode=decoupled;store=1;loop=1count=6
a=image-metadata:99coded-metadata=<base64 coded metadata>
.
.
.
图6是示出根据本公开内容的技术的取回媒体数据的示例方法的流程图。关于图1和2的客户端设备40和取回单元52解释了图6的方法。其它设备可以被配置为执行该方法或类似方法。
如上所讨论的,比特流可以包括用于指示比特流包括一个或多个叠加图像的数据。具体而言,叠加图像可以包括静态图像或图像序列中的任一者或两者。静态图像可以是将与场景数据(例如,视频数据、扩展现实(XR)内容、增强现实(AR)内容、虚拟现实(VR)内容等)一起呈现的图像,所述图像在逐帧地与场景数据的帧一起呈现时保持不变。另外或替代地,图像序列可以是在逐帧地与场景数据的帧一起呈现时以规律的周期性进行重复的图像的序列。
叠加图像可以在整个视口呈现中占据比作为整体的场景数据要小的区域。也就是说,虽然场景数据通常可以占据整个视口(即,整个屏幕、镜头或其它显示设备),但是叠加图像可以占据视口的相对较小的部分,并且被呈现在场景数据之上(前面),使得叠加图像遮挡场景数据的小部分。
比特流的数据可以包括用于指示例如有效载荷类型的SDP图像属性或其它数据,所述有效载荷类型指示叠加图像是否包括静态图像、图像序列或两者。数据还可以指示传输模式,例如,“耦合”或“解耦”。为“耦合”的传输模式指示在比特流中连续地发送叠加图像。为“解耦”的传输模式指示不重传叠加图像。在一些示例中,数据还可以指示叠加图像是否将被存储(缓冲),和/或叠加图像是否将被循环播放。
因此,例如,图1的客户端设备40的取回单元52可以接收比特流的数据,所述数据指示在比特流中包括一个或多个叠加图像(250)。取回单元52然后可以使用该数据来确定叠加图像类型(252)。例如,取回单元52可以确定叠加图像是否包括静态图像和/或图像序列。
取回单元52还可以确定用于叠加图像的传输模式(254)。例如,取回单元52可以确定叠加图像是连续地重传还是发送一次(或者,例如,经由单播来按需发送,而不是广播或多播)。因此,取回单元52可以确定何时以及如何提取叠加图像、是否缓冲叠加图像、如何呈现叠加图像(例如,通过循环或作为单个呈现)等等。取回单元52可以向解封装单元50提供用于表示对叠加图像的提取的数据,并且向例如视频输出44提供叠加图像的呈现。
取回单元52可以接收用于场景的场景数据(256),以及接收叠加图像本身(258)。叠加图像可以被包括在诸如图5的媒体文件200之类的媒体文件中。假设所接收的数据指示将缓冲叠加图像,取回单元52可以将叠加图像缓冲在例如高速缓存104(图2)中。
然后,取回单元52的媒体应用112(图2)可以将叠加图像与场景数据一起呈现(260)。例如,媒体应用112可以被配置为经由视频输出44逐帧地呈现场景数据,同时在场景数据之上呈现叠加图像。例如,媒体应用112可以被配置为在逐帧地呈现的场景数据上,呈现单个的静止叠加图像。替代地,如果叠加图像包括将被循环的图像序列,则媒体应用112可以按顺序重复地呈现叠加图像。也就是说,如果视频序列包括N个图像(其中N是正整数),那么对于循环j(其中j是非负整数),媒体应用112可以在时间j*N+i处呈现图像i。所接收的数据可以指示用于叠加图像的呈现时间,并且媒体应用112可以相应地在所指示的呈现时间处呈现叠加图像。
DASH客户端110可以被配置为使用单播从分别的服务器设备取回叠加图像,或者从代理服务器102取回叠加图像。具体而言,如果图像将被本地存储在高速缓存104中,则DASH客户端110可以经由代理服务器102重复地从高速缓存104(即,本地存储器)取回叠加图像。替代地,可以向媒体应用112分配在与高速缓存104分别的存储设备中的存储器,并且在所分配的存储器中缓冲叠加图像。
以这种方式,图6的方法表示一种方法的示例,该方法包括:接收用于比特流的数据,所述数据指示比特流包括一个或多个叠加图像,叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与场景数据的帧一起呈现时保持不变;所述图像序列在逐帧地与场景数据的帧一起呈现时以规律的周期性进行重复;接收来自比特流的一个或多个叠加图像;接收包括一个或多个场景图像的场景数据;以及呈现场景图像和叠加图像。
在以下条款中总结了本公开内容的技术的各个示例:
条款1:一种取回媒体数据的方法,所述方法包括:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的场景数据;以及呈现所述场景图像和所述叠加图像。
条款2:根据条款1所述的方法,还包括:接收针对所述比特流的、用于指示以下内容的数据:所述一个或多个叠加图像是否包括一个或多个图像序列,以及所述一个或多个叠加图像是否包括一个或多个静止图像。
条款3:根据条款2所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个图像序列时,所述图像序列中的每个图像序列中的图像数量。
条款4:根据条款2和3中任一项所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个静止图像时,所述静止图像的数量。
条款5:根据条款2-4中任一项所述的方法,还包括:接收用于表示针对所述图像序列和所述静止图像的传输模式的数据。
条款6:根据条款5所述的方法,还包括:当所述传输模式中的一种传输模式是“耦合”时,根据所述比特流的时间戳数据来确定用于所述叠加图像的显示时间。
条款7:根据条款6所述的方法,其中,所述时间戳数据包括实时传输协议(RTP)时间戳数据。
条款8:根据条款5-7中任一项所述的方法,还包括:当所述传输模式中的一种传输模式是“解耦”时:分别接收用于表示针对所述叠加图像的显示时间的数据;以及根据所分别接收的数据来确定针对所述叠加图像的所述显示时间。
条款9:根据条款1-8中任一项所述的方法,还包括:当所述一个或多个叠加图像包括两个或更多个叠加图像时,接收用于表示所述叠加图像的显示顺序的数据。
条款10:根据条款1-9中任一项所述的方法,还包括:从所述比特流接收用于所述叠加图像中的每个叠加图像的图像元数据,所述元数据指示图像尺寸或图像角色中的一项或多项。
条款11:根据条款10所述的方法,其中,所述图像角色包括以下各项中的至少一项:封面图像、缩略图图像、辅助图像、主图像、隐藏图像、预计算的派生图像、经译码图像或派生图像。
条款12:根据条款10和11中任一项所述的方法,其中,所述元数据包括以下各项中的一项或多项:image_properties()元素、display_info()元素或者extension_info()元素。
条款13:根据条款12所述的方法,其中,所述image_properties()元素包括以下各项中的一项或多项:ispe_present_flag、pasp_present_flag、colr_present_flag、pixi_present_flag、clap_present_flag、irot_present_flag、imir_present_flag、other_properties()元素、ImageSpatialExtentsProperty()元素、PixelAspectRatioBox()元素、ColourInformationBox()元素、PixelInformationProperty()元素、CleanApertureBox()元素、或者ImageRotation()元素。
条款14:根据条款12和13中任一项所述的方法,其中,所述display_info()元素包括以下各项中的一项或多项:指示所述叠加图像的呈现的顺序的顺序元素、或者指示所述叠加图像中的对应的一个叠加图像将被显示的时间量的持续时间元素。
条款15:根据条款1-14中任一项所述的方法,还包括:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款16:根据条款15所述的方法,其中,所述SDP图像属性包括一个或多个语法元素,所述一个或多个语法元素包括image_attribute、transmission_mode、item_count、metadata_index、store或者loop。
条款17:根据条款1所述的方法,还包括:接收针对所述比特流的、用于指示以下内容的数据:所述一个或多个叠加图像是否包括一个或多个图像序列,以及所述一个或多个叠加图像是否包括一个或多个静止图像。
条款18:根据条款17所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个图像序列时,所述图像序列中的每个图像序列中的图像数量。
条款19:根据条款18所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个静止图像时,所述静止图像的数量。
条款20:根据条款18所述的方法,还包括:接收用于表示针对所述图像序列和所述静止图像的传输模式的数据。
条款21:根据条款20所述的方法,还包括:当所述传输模式中的一种传输模式是“耦合”时,根据所述比特流的时间戳数据来确定用于所述叠加图像的显示时间。
条款22:根据条款21所述的方法,其中,所述时间戳数据包括实时传输协议(RTP)时间戳数据。
条款23:根据条款20所述的方法,还包括:当所述传输模式中的一种传输模式是“解耦”时:分别接收用于表示针对所述叠加图像的显示时间的数据;以及根据所分别接收的数据来确定针对所述叠加图像的所述显示时间。
条款24:根据条款1所述的方法,还包括:当所述一个或多个叠加图像包括两个或更多个叠加图像时,接收用于表示所述叠加图像的显示顺序的数据。
条款25:根据条款1所述的方法,还包括:从所述比特流接收用于所述叠加图像中的每个叠加图像的图像元数据,所述元数据指示图像尺寸或图像角色中的一项或多项。
条款26:根据条款25所述的方法,其中,所述图像角色包括以下各项中的至少一项:封面图像、缩略图图像、辅助图像、主图像、隐藏图像、预计算的派生图像、经译码图像或派生图像。
条款27:根据条款26所述的方法,其中,所述元数据包括以下各项中的一项或多项:image_properties()元素、display_info()元素或者extension_info()元素。
条款28:根据条款27所述的方法,其中,所述image_properties()元素包括以下各项中的一项或多项:ispe_present_flag、pasp_present_flag、colr_present_flag、pixi_present_flag、clap_present_flag、irot_present_flag、imir_present_flag、other_properties()元素、ImageSpatialExtentsProperty()元素、PixelAspectRatioBox()元素、ColourInformationBox()元素、PixelInformationProperty()元素、CleanApertureBox()元素、或者ImageRotation()元素。
条款29:根据条款27所述的方法,其中,所述display_info()元素包括以下各项中的一项或多项:用于指示所述叠加图像的呈现的顺序的顺序元素、或者用于指示所述叠加图像中的对应的一个叠加图像将被显示的时间量的持续时间元素。
条款30:根据条款1所述的方法,还包括:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款31:根据条款30所述的方法,其中,所述SDP图像属性包括一个或多个语法元素,所述一个或多个语法元素包括image_attribute、transmission_mode、item_count、metadata_index、store或者loop。
条款32:一种用于取回媒体数据的设备,所述设备包括用于执行根据条款1-31中任一项所述的方法的一个或多个单元。
条款33:根据条款32条所述的设备,其中,所述一个或多个单元包括在电路中实现的一个或多个处理器。
条款34:根据条款32所述的设备,其中,所述设备包括以下各项中的至少一项:集成电路;微处理器;或者无线通信设备。
条款35:一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得处理器执行根据条款1-31中任一项所述的方法。
条款36:一种用于接收媒体数据的设备,所述设备包括:用于接收针对比特流的数据的单元,所述数据指示所述比特流包括一个或多个叠加图像;用于从所述比特流接收所述一个或多个叠加图像的单元;用于接收包括一个或多个场景图像的场景数据的单元;以及用于呈现所述场景图像和所述叠加图像的单元。
条款37:一种取回媒体数据的方法,所述方法包括:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
条款38:根据条款37所述的方法,还包括:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款39:根据条款38所述的方法,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
条款40:根据条款39所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,呈现所述场景图像和所述叠加图像包括:在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
条款41:根据条款39所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,呈现所述场景图像和所述叠加图像包括:按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
条款42:根据条款38所述的方法,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
条款43:根据条款38所述的方法,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
条款44:根据条款43所述的方法,其中,当所述数据指示所述叠加图像将以所述循环来重复地呈现时,呈现所述场景图像和所述叠加图像包括:确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
条款45:根据条款38所述的方法,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
条款46:根据条款45所述的方法,其中,当所述数据指示在接收之后所述叠加图像将被本地存储时,所述方法还包括:将所述叠加图像存储在本地存储器中,并且其中,呈现所述场景图像和所述叠加图像包括:从所述本地存储器中取回所述叠加图像;以及呈现所取回的叠加图像。
条款47:根据条款45所述的方法,其中,当所述数据指示所述叠加图像将被重传时,呈现所述场景图像和所述叠加图像包括:接收所述叠加图像的重传版本;以及呈现所述叠加图像的所述重传版本。
条款48:根据条款38所述的方法,其中,所述SDP图像属性包括用于指示在所述叠加图像中包括的图像数量的数据。
条款49:根据条款37所述的方法,还包括:接收针对所述比特流的、用于指示以下内容的数据:所述一个或多个叠加图像是否包括一个或多个图像序列,以及所述一个或多个叠加图像是否包括一个或多个静止图像。
条款50:根据条款49所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个图像序列时,接收针对所述比特流的、用于指示所述图像序列中的每个图像序列中的图像数量的数据。
条款51:根据条款49所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个静止图像时,接收针对所述比特流的、用于指示所述静止图像的数量的数据。
条款52:根据条款49所述的方法,还包括:接收用于表示针对所述图像序列和所述静止图像的传输模式的数据。
条款53:根据条款52所述的方法,还包括:当所述传输模式中的一种传输模式是“耦合”时,根据所述比特流的时间戳数据来确定用于所述叠加图像的显示时间。
条款54:根据条款53所述的方法,其中,所述时间戳数据包括实时传输协议(RTP)时间戳数据。
条款55:根据条款52所述的方法,还包括:当所述传输模式中的一种传输模式是“解耦”时:分别接收用于表示针对所述叠加图像的显示时间的数据;以及根据所分别接收的数据来确定针对所述叠加图像的所述显示时间。
条款56:根据条款37所述的方法,还包括:当所述一个或多个叠加图像包括两个或更多个叠加图像时,接收用于表示所述叠加图像的显示顺序的数据。
条款57:根据条款37所述的方法,还包括:从所述比特流接收用于所述叠加图像中的每个叠加图像的图像元数据,所述元数据指示图像尺寸或图像角色中的一项或多项。
条款58:根据条款57所述的方法,其中,所述图像角色包括以下各项中的至少一项:封面图像、缩略图图像、辅助图像、主图像、隐藏图像、预计算的派生图像、经译码图像或派生图像。
条款59:根据条款57所述的方法,其中,所述元数据包括以下各项中的一项或多项:用于指示所述叠加图像的呈现的顺序的顺序元素、或者用于指示所述叠加图像中的对应的一个叠加图像将被显示的时间量的持续时间元素。
条款60:一种用于取回媒体数据的设备,所述设备包括:存储器,其被配置为存储场景数据和图像数据;以及一个或多个处理器,其在电路中实现并且被配置为:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
条款61:根据条款60所述的设备,其中,所述一个或多个处理器还被配置为:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款62:根据条款61所述的设备,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
条款63:根据条款62所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
条款64:根据条款62所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
条款65:根据条款61所述的设备,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
条款66:根据条款61所述的设备,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
条款67:根据条款66所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将以所述循环来重复地呈现时:确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
条款68:根据条款61所述的设备,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
条款69:根据条款68所述的设备,其中,所述一个或多个处理器还被配置为:当所述数据指示在接收之后所述叠加图像将被本地存储时,将所述叠加图像存储在所述存储器中,并且其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:从所述存储器中取回所述叠加图像;以及呈现所取回的叠加图像。
条款70:根据条款68所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将被重传时:接收所述叠加图像的重传版本;以及呈现所述叠加图像的所述重传版本。
条款71:一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得处理器进行以下操作:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
条款72:一种用于接收媒体数据的设备,所述设备包括:用于接收针对比特流的数据的单元,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;用于从所述比特流接收所述一个或多个叠加图像的单元;用于接收包括一个或多个场景图像的场景数据的单元;以及用于呈现所述场景图像和所述叠加图像的单元。
条款73:一种取回媒体数据的方法,所述方法包括:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
条款74:根据条款73所述的方法,还包括:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款75:根据条款74所述的方法,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
条款76:根据条款75所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,呈现所述场景图像和所述叠加图像包括:在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
条款77:根据条款75所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,呈现所述场景图像和所述叠加图像包括:按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
条款78:根据条款74-77中任一项所述的方法,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
条款79:根据条款74-78中任一项所述的方法,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
条款80:根据条款79所述的方法,其中,当所述数据指示所述叠加图像将以所述循环来重复地呈现时,呈现所述场景图像和所述叠加图像包括:确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
条款81:根据条款74-80中任一项所述的方法,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
条款82:根据条款81所述的方法,其中,当所述数据指示在接收之后所述叠加图像将被本地存储时,所述方法还包括:将所述叠加图像存储在本地存储器中,并且其中,呈现所述场景图像和所述叠加图像包括:从所述本地存储器中取回所述叠加图像;以及呈现所取回的叠加图像。
条款83:根据条款81所述的方法,其中,当所述数据指示所述叠加图像将被重传时,呈现所述场景图像和所述叠加图像包括:接收所述叠加图像的重传版本;以及呈现所述叠加图像的所述重传版本。
条款84:根据条款74-83中任一项所述的方法,其中,所述SDP图像属性包括用于指示在所述叠加图像中包括的图像数量的数据。
条款85:根据条款73-84中任一项所述的方法,还包括:接收针对所述比特流的、用于指示以下内容的数据:所述一个或多个叠加图像是否包括一个或多个图像序列,以及所述一个或多个叠加图像是否包括一个或多个静止图像。
条款86:根据条款85所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个图像序列时,接收针对所述比特流的、用于指示所述图像序列中的每个图像序列中的图像数量的数据。
条款87:根据条款85和86中任一项所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个静止图像时,接收针对所述比特流的、用于指示所述静止图像的数量的数据。
条款88:根据条款85-87中任一项所述的方法,还包括:接收用于表示针对所述图像序列和所述静止图像的传输模式的数据。
条款89:根据条款88所述的方法,还包括:当所述传输模式中的一种传输模式是“耦合”时,根据所述比特流的时间戳数据来确定用于所述叠加图像的显示时间。
条款90:根据条款89所述的方法,其中,所述时间戳数据包括实时传输协议(RTP)时间戳数据。
条款91:根据条款88所述的方法,还包括:当所述传输模式中的一种传输模式是“解耦”时:分别接收用于表示针对所述叠加图像的显示时间的数据;以及根据所分别接收的数据来确定针对所述叠加图像的所述显示时间。
条款92:根据条款73-91中任一项所述的方法,还包括:当所述一个或多个叠加图像包括两个或更多个叠加图像时,接收用于表示所述叠加图像的显示顺序的数据。
条款93:根据条款73-92中任一项所述的方法,还包括:从所述比特流接收用于所述叠加图像中的每个叠加图像的图像元数据,所述元数据指示图像尺寸或图像角色中的一项或多项。
条款94:根据条款93所述的方法,其中,所述图像角色包括以下各项中的至少一项:封面图像、缩略图图像、辅助图像、主图像、隐藏图像、预计算的派生图像、经译码图像或派生图像。
条款95:根据条款93和94中任一项所述的方法,其中,所述元数据包括以下各项中的一项或多项:用于指示所述叠加图像的呈现的顺序的顺序元素、或者用于指示所述叠加图像中的对应的一个叠加图像将被显示的时间量的持续时间元素。
条款96:一种用于取回媒体数据的设备,所述设备包括:存储器,其被配置为存储场景数据和图像数据;以及一个或多个处理器,其在电路中实现并且被配置为:接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;从所述比特流接收所述一个或多个叠加图像;接收包括一个或多个场景图像的所述场景数据;以及呈现所述场景图像和所述叠加图像。
条款97:根据条款96所述的设备,其中,所述一个或多个处理器还被配置为:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
条款98:根据条款97所述的设备,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
条款99:根据条款98所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
条款100:根据条款98所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
条款101:根据条款97-100中任一项所述的设备,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
条款102:根据条款101所述的设备,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
条款103:根据条款102所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将以所述循环来重复地呈现时:确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
条款104:根据条款97-103中任一项所述的设备,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
条款105:根据条款104所述的设备,其中,所述一个或多个处理器还被配置为:当所述数据指示在接收之后所述叠加图像将被本地存储时,将所述叠加图像存储在所述存储器中,并且其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:从所述存储器中取回所述叠加图像;以及呈现所取回的叠加图像。
条款106:根据条款104和105中任一项所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将被重传时:接收所述叠加图像的重传版本;以及呈现所述叠加图像的所述重传版本。
在一个或多个示例中,所描述的功能可以用硬件、软件、固件或其任何组合来实现。如果用软件来实现,则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过其进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质或者通信介质,所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取得用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。
通过举例而非限制性的方式,这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构形式存储期望的程序代码以及能够由计算机访问的任何其它介质。此外,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(例如,红外线、无线电和微波)从网站、服务器或其它远程源传输指令,则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(例如,红外线、无线电和微波)被包括在介质的定义中。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,而是替代地针对非暂时性的有形存储介质。如本文所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则利用激光来光学地复制数据。上述各项的组合也应当被包括在计算机可读介质的范围之内。
指令可以由一个或多个处理器来执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效的集成或分立逻辑电路。因此,如本文所使用的术语“处理器”可以指代前述结构中的任何一者或者适于实现本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者被并入经组合的编解码器中。此外,所述技术可以完全在一个或多个电路或逻辑元件中实现。
本公开内容的技术可以在多种多样的设备或装置中实现,包括无线手机、集成电路(IC)或一组IC(例如,芯片组)。在本公开内容中描述了各种组件、模块或单元以强调被配置以执行所公开的技术的设备的功能性方面,但是不一定需要通过不同的硬件单元来实现。确切而言,如上所述,各种单元可以被组合在编解码器硬件单元中,或者由可互操作的硬件单元的集合(包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。
已经描述了各个示例。这些和其它示例在所附的权利要求的范围内。

Claims (36)

1.一种取回媒体数据的方法,所述方法包括:
接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;
从所述比特流接收所述一个或多个叠加图像;
接收包括一个或多个场景图像的所述场景数据;以及
呈现所述场景图像和所述叠加图像。
2.根据权利要求1所述的方法,还包括:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
3.根据权利要求2所述的方法,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
4.根据权利要求3所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,呈现所述场景图像和所述叠加图像包括:在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
5.根据权利要求3所述的方法,其中,当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,呈现所述场景图像和所述叠加图像包括:按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
6.根据权利要求2所述的方法,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
7.根据权利要求2所述的方法,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
8.根据权利要求7所述的方法,其中,当所述数据指示所述叠加图像将以所述循环来重复地呈现时,呈现所述场景图像和所述叠加图像包括:
确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及
对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
9.根据权利要求2所述的方法,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
10.根据权利要求9所述的方法,其中,当所述数据指示在接收之后所述叠加图像将被本地存储时,所述方法还包括:将所述叠加图像存储在本地存储器中,并且其中,呈现所述场景图像和所述叠加图像包括:
从所述本地存储器中取回所述叠加图像;以及
呈现所取回的叠加图像。
11.根据权利要求9所述的方法,其中,当所述数据指示所述叠加图像将被重传时,呈现所述场景图像和所述叠加图像包括:
接收所述叠加图像的重传版本;以及
呈现所述叠加图像的所述重传版本。
12.根据权利要求2所述的方法,其中,所述SDP图像属性包括用于指示在所述叠加图像中包括的图像数量的数据。
13.根据权利要求1所述的方法,还包括:接收针对所述比特流的、用于指示以下内容的数据:所述一个或多个叠加图像是否包括一个或多个图像序列,以及所述一个或多个叠加图像是否包括一个或多个静止图像。
14.根据权利要求13所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个图像序列时,接收针对所述比特流的、用于指示所述图像序列中的每个图像序列中的图像数量的数据。
15.根据权利要求13所述的方法,还包括:当所述数据指示所述一个或多个叠加图像包括所述一个或多个静止图像时,接收针对所述比特流的、用于指示所述静止图像的数量的数据。
16.根据权利要求13所述的方法,还包括:接收用于表示针对所述图像序列和所述静止图像的传输模式的数据。
17.根据权利要求16所述的方法,还包括:当所述传输模式中的一种传输模式是“耦合”时,根据所述比特流的时间戳数据来确定用于所述叠加图像的显示时间。
18.根据权利要求17所述的方法,其中,所述时间戳数据包括实时传输协议(RTP)时间戳数据。
19.根据权利要求16所述的方法,还包括:当所述传输模式中的一种传输模式是“解耦”时:
分别接收用于表示针对所述叠加图像的显示时间的数据;以及
根据所分别接收的数据来确定针对所述叠加图像的所述显示时间。
20.根据权利要求1所述的方法,还包括:当所述一个或多个叠加图像包括两个或更多个叠加图像时,接收用于表示所述叠加图像的显示顺序的数据。
21.根据权利要求1所述的方法,还包括:从所述比特流接收用于所述叠加图像中的每个叠加图像的图像元数据,所述元数据指示图像尺寸或图像角色中的一项或多项。
22.根据权利要求21所述的方法,其中,所述图像角色包括以下各项中的至少一项:封面图像、缩略图图像、辅助图像、主图像、隐藏图像、预计算的派生图像、经译码图像或派生图像。
23.根据权利要求21所述的方法,其中,所述元数据包括以下各项中的一项或多项:用于指示所述叠加图像的呈现的顺序的顺序元素、或者用于指示所述叠加图像中的对应的一个叠加图像将被显示的时间量的持续时间元素。
24.一种用于取回媒体数据的设备,所述设备包括:
存储器,其被配置为存储场景数据和图像数据;以及
一个或多个处理器,其在电路中实现并且被配置为:
接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;
从所述比特流接收所述一个或多个叠加图像;
接收包括一个或多个场景图像的所述场景数据;以及
呈现所述场景图像和所述叠加图像。
25.根据权利要求24所述的设备,其中,所述一个或多个处理器还被配置为:接收用于标识所述比特流的会话描述协议(SDP)图像属性。
26.根据权利要求25所述的设备,其中,所述SDP图像属性包括用于指示有效载荷类型的图像属性,所述有效载荷类型指示所述一个或多个叠加图像包括所述单个静态图像还是所述图像序列。
27.根据权利要求26所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述单个静态图像时,在逐图像地呈现所述场景图像时,重复地呈现所述单个静态图像。
28.根据权利要求26所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述有效载荷类型指示所述一个或多个图像包括所述图像序列时,按顺序将所述图像序列中的图像连同所述场景图像的对应图像一起呈现。
29.根据权利要求25所述的设备,其中,所述SDP图像属性包括传输模式属性,所述传输模式属性指示在长达所述叠加图像将与所述场景数据的帧一起被呈现的时间内,所述叠加图像是否被连续地重传。
30.根据权利要求25所述的设备,其中,所述SDP图像属性包括用于指示所述叠加图像是否将以循环来重复地呈现的数据。
31.根据权利要求30所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将以所述循环来重复地呈现时:
确定所述叠加图像包括图像序列中的N个图像,N是正整数;以及
对于循环数j,其中j是非负整数,在时间j*N+i处呈现所述叠加图像的所述图像序列中的图像i,i对应于所述叠加图像的所述图像序列的第i图像。
32.根据权利要求25所述的设备,其中,所述SDP图像属性包括用于指示在接收之后所述叠加图像是否将被本地存储的数据。
33.根据权利要求32所述的设备,其中,所述一个或多个处理器还被配置为:当所述数据指示在接收之后所述叠加图像将被本地存储时,将所述叠加图像存储在所述存储器中,并且其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:
从所述存储器中取回所述叠加图像;以及
呈现所取回的叠加图像。
34.根据权利要求32所述的设备,其中,为了呈现所述场景图像和所述叠加图像,所述一个或多个处理器被配置为:当所述数据指示所述叠加图像将被重传时:
接收所述叠加图像的重传版本;以及
呈现所述叠加图像的所述重传版本。
35.一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得处理器进行以下操作:
接收针对比特流的数据,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;
从所述比特流接收所述一个或多个叠加图像;
接收包括一个或多个场景图像的所述场景数据;以及
呈现所述场景图像和所述叠加图像。
36.一种用于接收媒体数据的设备,所述设备包括:
用于接收针对比特流的数据的单元,所述数据指示所述比特流包括一个或多个叠加图像,所述叠加图像包括:将与场景数据一起呈现的单个静态图像,或者图像序列,所述单个静态图像在逐帧地与所述场景数据的帧一起呈现时保持不变,所述图像序列在逐帧地与所述场景数据的帧一起呈现时以规律的周期性进行重复;
用于从所述比特流接收所述一个或多个叠加图像的单元;
用于接收包括一个或多个场景图像的场景数据的单元;以及
用于呈现所述场景图像和所述叠加图像的单元。
CN202280024294.4A 2021-03-30 2022-03-24 通过实时传输协议传输经heif格式化的图像 Pending CN117099375A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/168,157 2021-03-30
US17/656,159 2022-03-23
US17/656,159 US11863767B2 (en) 2021-03-30 2022-03-23 Transporting HEIF-formatted images over real-time transport protocol
PCT/US2022/071317 WO2022213034A1 (en) 2021-03-30 2022-03-24 Transporting heif-formatted images over real-time transport protocol including overlay images

Publications (1)

Publication Number Publication Date
CN117099375A true CN117099375A (zh) 2023-11-21

Family

ID=88781673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280024294.4A Pending CN117099375A (zh) 2021-03-30 2022-03-24 通过实时传输协议传输经heif格式化的图像

Country Status (1)

Country Link
CN (1) CN117099375A (zh)

Similar Documents

Publication Publication Date Title
CN110431850B (zh) 在使用mime类型参数的网络视频流式传输中发信重要视频信息
CN110089122B (zh) 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体
AU2017271981A1 (en) Advanced signaling of a most-interested region in an image
KR20190014500A (ko) Http 를 통한 동적 적응형 스트리밍에서의 가상 현실 비디오 시그널링
US10567734B2 (en) Processing omnidirectional media with dynamic region-wise packing
CN112154672B (zh) 一种检索媒体数据的方法、设备及可读存储介质
CN114503599A (zh) 使用gltf2场景描述中的扩展来支持视频和音频数据
CN109155876B (zh) 一种检索视频数据的方法、装置、设备及可读存储媒体
KR102434299B1 (ko) 샘플 엔트리들 및 랜덤 액세스
CN112771876B (zh) 检索媒体数据的方法和设备以及发送媒体数据的方法和设备
CN114930862A (zh) 用于流式媒体数据的多解码器接口
CN110870323B (zh) 使用全向媒体格式处理媒体数据
US20190014362A1 (en) Enhanced region-wise packing and viewport independent hevc media profile
US11863767B2 (en) Transporting HEIF-formatted images over real-time transport protocol
US20240163461A1 (en) Transporting heif-formatted images over real-time transport protocol
CN117099375A (zh) 通过实时传输协议传输经heif格式化的图像

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination