CN118056407A - 用于视频处理的方法、装置和介质 - Google Patents
用于视频处理的方法、装置和介质 Download PDFInfo
- Publication number
- CN118056407A CN118056407A CN202280066803.XA CN202280066803A CN118056407A CN 118056407 A CN118056407 A CN 118056407A CN 202280066803 A CN202280066803 A CN 202280066803A CN 118056407 A CN118056407 A CN 118056407A
- Authority
- CN
- China
- Prior art keywords
- video
- msr
- representation
- edrap
- descriptor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 title claims abstract description 29
- 230000006978 adaptation Effects 0.000 claims description 52
- 230000001419 dependent effect Effects 0.000 claims description 14
- 230000000153 supplemental effect Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 description 16
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 102100021277 Beta-secretase 2 Human genes 0.000 description 6
- 101000894883 Homo sapiens Beta-secretase 2 Proteins 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 108091000069 Cystinyl Aminopeptidase Proteins 0.000 description 3
- 102100020872 Leucyl-cystinyl aminopeptidase Human genes 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 235000005102 isau Nutrition 0.000 description 2
- 244000016886 isau Species 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000804 electron spin resonance spectroscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Library & Information Science (AREA)
Abstract
本公开的各实施例提供了一种用于视频处理的方案。提出了一种用于视频处理的方法。该方法包括:在第一设备处,接收来自第二设备的元数据文件;以及确定元数据文件中的数据集中的描述符,该描述符的存在指示数据集中的表示是主流表示(MSR)。
Description
相关申请的交叉引用
本申请要求于2021年10月1日提交的美国临时申请号63/251,336的权益,该申请的内容在此通过引用而全部并入本文。
技术领域
本公开的各实施例总体上涉及视频编解码技术,并且更具体地,涉及主流表示(representation)描述符。
背景技术
媒体流式传输应用通常基于互联网协议(IP)、传输控制协议(TCP)以及超文本传输协议(HTTP)传送方法,并且通常依赖于诸如ISO基媒体文件格式(ISO base media fileformat,ISOBMFF)之类的文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流式传输(dynamic adaptive streaming over HTTP,DASH)。在DASH中,可能存在多媒体内容的视频和/或音频数据的多个表示,不同的表示可对应于不同的编解码特性(例如,视频编解码标准的不同档次或级别、不同比特率、不同空间分辨率等)。此外,已经提出了基于扩展依赖随机接入点(extended dependent random access point,EDRAP)图片的视频编解码和流式传输。因此,有必要研究用于标识主流表示的机制。
发明内容
本公开的各实施例提供了一种用于视频处理的方案。
在第一方面,提出了一种用于视频处理的方法。该方法包括:在第一设备处,接收来自第二设备的元数据文件;以及确定元数据文件中的数据集中的描述符,该描述符的存在指示数据集中的表示是主流表示(MSR)。
基于根据本公开的第一方面的方法,采用描述符来标识MSR。与其中利用属性来标识MSR的常规解决方案相比,所提出的方法可以有利地更高效地标识MSR。
在第二方面,提出了另一种用于视频处理的方法。该方法包括:在第二设备处,确定元数据文件中的数据集中的描述符,该描述符的存在指示数据集中的表示是MSR;以及向第一设备传输元数据文件。
基于根据本公开的第二方面的方法,采用描述符来标识MSR。与其中利用属性来标识MSR的常规解决方案相比,所提出的方法可以有利地更高效地标识MSR。
在第三方面,提出了一种用于处理视频数据的装置。用于处理视频数据的该装置包括处理器和其上具有指令的非暂态存储器。该指令在由处理器执行时使处理器执行根据本公开的第一方面或第二方面的方法。
在第四方面,提出了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储指令,该指令使处理器执行根据本公开的第一方面或第二方面的方法。
提供本发明内容是为了以简化的形式介绍以下在具体实施例中进一步描述的概念的选择。本发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
通过参考附图的以下详细描述,本公开的示例实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的示例实施例中,相同的附图标记通常指代相同的组件。
图1图示了根据本公开一些实施例的示例视频编解码系统的框图;
图2图示了根据本公开一些实施例的示例视频编码器的框图;
图3图示了根据本公开一些实施例的示例视频解码器的框图;
图4和图5图示了随机接入点(random access point,RAP)的概念;
图6和图7图示了依赖随机接入点(dependent random access point,DRAP)的概念;
图8和图9图示了扩展依赖随机接入点(EDRAP)的概念;
图10和图11图示了基于EDRAP的视频流式传输;
图12图示了根据本公开一些实施例的用于视频处理的方法的流程图;
图13图示了根据本公开一些实施例的用于视频处理的方法的流程图;以及
图14图示了可以在其中实现本公开各实施例的计算设备的框图。
在附图中,相同或相似的附图标记通常指代相同或相似的元素。
具体实施方式
现在将参考一些实施例来描述本公开的原理。应当理解的是,描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的,而不暗示对本公开的范围的任何限制。除了下文所述的方式之外,本文所描述的公开内容还可以以各种方式实施。
在以下描述和权利要求中,除非另有定义,否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性,但是并非每个实施例都必须包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合示例实施例描述特定的特征、结构或特性时,无论是否明确描述,认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。
应当理解的是,尽管术语“第一”和“第二”等可以用于描述各种元素,但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如,第一元素可以被称为第二元素,类似地,第二元素可以被称为第一元素,而不脱离示例实施例的范围。如本文中所使用的,术语“和/或”包括一个或多个所列术语的任何和所有组合。
本文中所使用的术语仅用于描述特定实施例的目的,并不旨在限制示例实施例。如本文中所用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确指示。还应理解,术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等,但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。
示例环境
图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的,视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备,并且目的设备120也可以称为视频解码设备。在操作中,源设备110可以被配置为生成经编码的视频数据,并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。
视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成比特流。比特流可以包括形成视频数据的编码表示的位序列。比特流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上,以供目的设备120访问。
目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成,或者可以在目的设备120的外部,该目的设备120被配置为与外部显示设备接口连接。
视频编码器114和视频解码器124可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或进一步的标准。
图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图,视频编码器200可以是图1所示的系统100中的视频编码器114的示例。
视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在一些实施例中,视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编解码单元214,该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成,但是为了解释的目的,这些组件在图2的示例中被分离地示出。
划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。
模式选择单元203可以例如基于误差结果来选择多种编解码模式(帧内编码或帧间编码)中的一种编解码模式,并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据,并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择针对运动矢量的分辨率(例如,亚像素精度或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本,来确定针对当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的,“I条带”可以是指由宏块构成的图片的一部分,所有宏块均基于同一图片内的宏块。此外,如本文中使用的,在一些方面中,“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以搜索列表0或列表1的参考图片,以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量,该参考索引指示列表0或列表1中的包含参考视频块的参考图片,并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
备选地,在其他示例中,运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块,并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量,该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片,并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。备选地,在一些实施例中,运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值,该值指示当前视频块具有与另一视频块相同的运动信息。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。
在其他示例中,例如在跳过模式中,针对当前视频块可以不存在针对当前视频块的残差数据,并且残差生成单元207可以不执行减去操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块,来生成针对当前视频块的一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换,以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本,以产生与当前视频块相关联的重建视频块,以供存储在缓冲213中。
在重建单元212重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块效应伪像。
熵编解码单元214可以从视频编码器200的其他功能组件接收数据。当熵编解码单元214接收数据时,熵编解码单元214可以执行一个或多个熵编码操作,以生成熵编解码数据并且输出包括该熵编解码数据的比特流。
图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图,视频解码器300可以是图1所示的系统100中的视频解码器124的示例。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图3的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中,视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。
熵解码单元301可以取回经编码的比特流。经编码的比特流可以包括经熵编码的视频数据(例如,经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码,并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息,该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用,包括基于相邻PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和垂直运动矢量位移值、一个或两个参考图片索引,并且在B条带中的预测区域的情况下,还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的,在一些方面中,“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。
运动补偿单元302可以产生运动补偿块,可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。
运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器,并且运动补偿单元302可以使用插值滤波器来产生预测块。
运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的,在一些方面,“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片,或者也可以是图片的区域。
帧内预测单元303可以使用例如在比特流中接收的帧内预测模式,以从空间相邻块形成预测块。反量化单元304反量化(即,去量化)在比特流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。
重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话,还可以应用去块效应滤波器以对经解码的块进行滤波,以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中,缓冲307为后续运动补偿/帧内预测提供参考块,并且缓冲307还产生经解码的视频以供在显示设备上呈现。
下文将详细描述本公开的一些示例实施例。应当注意,在本文件中使用章节标题是为了便于理解,而不是将章节中公开的实施例仅限于该章节。此外,尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例,但是所公开的技术也适用于其他视频编解码技术。此外,尽管一些实施例详细描述了视频编码步骤,但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外,术语视频处理包括视频编解码或压缩、视频解码或解压缩以及视频转码,在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。
1.概要
本公开涉及视频流式传输。具体地,其涉及针对基于扩展依赖随机接入点(EDRAP)的视频流式传输的主流表示描述符和外部流表示描述符的设计,以及主流表示中的流接入点(stream access point,SAP)的信令传送。概念可单独地或以各种组合适用于媒体流式传输系统,例如,以基于HTTP的动态自适应流式传输(DASH)标准或其扩展为基础。
2.背景
2.1视频编解码标准
视频编解码标准主要通过公知的ITU-T和ISO/IEC标准的发展而演进。ITU-T产生了H.261和H.263,而ISO/IEC产生了MPEG-1和MPEG-4Visual,并且两个组织联合产生了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)以及H.265/HEVC标准。自从H.262起,视频编解码标准基于混合视频编解码结构,其中利用时间预测加变换编解码。为了探索HEVC之外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索组(JointVideo Exploration Team,JVET)。从此以后,JVET采用了许多新方法,并将其应用于名为联合探索模型(Joint Exploration Model,JEM)的参考软件中。随后,在通用视频编解码(VVC)项目正式启动时,JVET更名为联合视频专家组(Joint Video Experts Team,JVET)。VVC是新的编解码标准,目标是相比于HEVC达50%的比特率降低,该标准已由JVET在其2020年7月1日结束的第19次会议上最终确定。通用视频编解码(VCC)标准(ITU-T H.266|ISO/IEC 23090-3)和关联的通用补充增强信息(Versatile Supplemental EnhancementInformation,VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)被设计用于最广泛的应用,包括传统用途,诸如电视广播、视频会议或从存储介质播放,以及更新和更先进的用例,诸如自适应比特率流式传输、视频区域提取、来自多个经编解码视频比特流的内容的合成及合并、多视点视频、可扩展分层编解码以及视口自适应360°沉浸式媒体。基本视频编解码(Essential Video Coding,EVC)标准(ISO/IEC 23094-1)是最近由MPEG开发的另一视频编解码标准。
2.2文件格式标准
媒体流式传输应用通常基于IP、TCP和HTTP传送方法,并且通常依赖于诸如ISO基媒体文件格式(ISOBMFF)之类的文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流式传输(DASH)。为了使用具有ISOBMFF和DASH的视频格式,将会需要特定于视频格式(诸如AVC文件格式和HEVC文件格式)的文件格式规范,以便将视频内容封装在ISOBMFF轨道中以及DASH表示和段(segment)中。需要将关于视频比特流的重要信息(例如,档次、层和级别以及许多其他信息)暴露为文件格式级别元数据和/或DASH媒体表示描述(mediapresentation description,MPD)以供内容选择目的,例如,用于选择适当的媒体段以供在流式传输会话开始时的初始化以及流式传输会话期间的流自适应。
类似地,为了使用具有ISOBMFF的图像格式,将会需要特定于图像格式(诸如AVC图像文件格式和HEVC图像文件格式)的文件格式规范。
VVC视频文件格式,即基于ISOBMFF的用于存储VVC视频内容的文件格式,目前正在由MPEG开发。
基于ISOBMFF的VVC图像文件格式,即用于存储使用VVC编解码的图像内容的文件格式,目前正在由MPEG开发。
2.3 DASH
在基于HTTP的动态自适应流式传输(DASH)中,可能存在多媒体内容的视频和/或音频数据的多个表示,不同的表示可对应于不同的编解码特性(例如,视频编解码标准的不同档次或级别、不同比特率、不同空间分辨率等)。这样的表示的清单可在媒体表示描述(MPD)数据结构中定义。媒体表示可对应于可由DASH流式传输客户端设备访问的结构化数据集合。DASH流式传输设备可请求和下载媒体数据信息以向客户端设备的用户呈现流式传输服务。媒体表示可在MPD数据结构中描述,其可以包括MPD的更新。
媒体表示可包含一个或多个时段(period)的序列。每个时段可以延续直到下一时段开始,或者在最后时段的情况下直到媒体表示的结束。每个时段可包含同一媒体内容的一个或多个表示。表示可以是音频、视频、定时文本或其他此类数据的一定数目的备选经编码版本中的一个。表示可因编码类型而不同,例如,对于视频数据,因比特率、分辨率和/或编解码器而不同,以及对于音频数据,因比特率、语言和/或编解码器而不同。术语表示可以用于指与多媒体内容的特定时段相对应并且以特定方式编码的一段经编码音频或视频数据。可以将特定时段的表示分配给由MPD中的属性所指示的组,该属性指示表示所属于的自适应集。同一自适应集中的表示通常被认为是彼此的备选项,原因在于客户端设备可以在这些表示之间动态地和无缝地切换,例如,以执行带宽自适应。例如,可以将特定时段的视频数据的每个表示分配给相同的自适应集,使得可以选择任何表示来进行解码,以呈现对应时段的多媒体内容的媒体数据,诸如视频数据或音频数据。在一些示例中,一个时段内的媒体内容可由来自组0(如果存在)的一个表示来表示,或者来自每个非零组的至多一个表示的组合来表示。可以相对于时段的开始时间来表达时段的每个表示的定时数据。
表示可以包括一个或多个段。每个表示可以包括初始化段,或者表示的每个段可以是自初始化的。当存在时,初始化段可以包含用于访问表示的初始化信息。通常,初始化段不包含媒体数据。段可由标识符唯一地引用,这样的标识符诸如为统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可以提供针对每个段的标识符。在一些示例中,MPD还可以提供范围属性形式的字节范围,该范围属性可以对应于可由URL、URN或URI访问的文件内的段的数据。
可以选择不同的表示用于不同类型媒体数据的基本上同时的检索。例如,客户端设备可以选择音频表示、视频表示和定时文本表示,以从中检索段。在一些示例中,客户端设备可以选择特定自适应集用于执行带宽自适应。也就是说,客户端设备可以选择包括视频表示的自适应集、包括音频表示的自适应集,以及/或者包括定时文本的自适应集。备选地,客户端设备可以针对某些类型的媒体(例如,视频)选择自适应集,并且针对其他类型的媒体(例如,音频和/或定时文本)直接选择表示。
以下步骤示出了典型DASH流式传输过程:
1)客户端获取MPD。
2)客户端估计下行链路带宽,以及根据经估计的下行链路带宽和编解码器、解码能力、显示器大小、音频语言设置等选择视频表示和音频表示。
3)除非到达媒体表示的末尾,否则客户端请求所选择的表示的媒体段,并向用户呈现流式传输内容。
4)客户端持续估计下行链路带宽。当带宽向某一方向显著改变(例如,变得更低)时,客户端选择不同的视频表示以匹配新估计的带宽,并转到步骤3。
2.4基于扩展依赖随机接入点(EDRAP)图片的视频编解码和流式传输在JVET-U0084中的提案中提出了使用补充增强信息(SEI)消息进行EDRAP图片的信令传送,并在2021年1月的第21次JVET会议上将其纳入VSEI规范。在2021年1月的第133次MPEG会议上,基于MPEG输入文档m56020中的提案,商定了EDRAP样本组。为了支持基于EDRAP的视频流式传输,在2021年4月的第134次MPEG会议上,MPEG输入文档m56675提出针对ISOBMFF的外部流轨道(external stream track,EST)设计。MPEG输入文档m57430提出了针对DASH的外部流表示(external stream representation,ESR)设计。图4和图5图示了随机接入点(RAP)的现有概念。应用(例如,自适应流式传输)确定随机接入点(RAP)的频率,例如,RAP时段1s或2s。常规而言,RAP是通过对IRAP图片进行编解码来提供的,如图4中所示。注意,没有示出RAP图片之间的非关键图片的帧间预测参考,并且从左到右为输出顺序。当从CRA6随机接入时,解码器接收并正确地解码图片,如图5中所示。
图6和图7图示了依赖随机接入点(DRAP)的概念。DRAP方法通过允许DRAP图片(以及后续图片)参考先前IRAP图片以供帧间预测而提供了提高的编解码效率,如图6中所示。注意,没有示出RAP图片之间非关键图片的帧间预测,并且从左到右为输出顺序。当从DRAP6随机接入时,解码器接收并正确地解码图片,如图7中所示。图8和图9图示了扩展依赖随机接入点(EDRAP)的概念。EDRAP方法通过允许EDRAP图片(以及后续图片)参考一些更早的RAP图片(IRAP或EDRAP)而提供更多的灵活性,例如,如图8中所示。注意,没有示出RAP图片之间非关键图片的帧间预测,并且从左到右为输出顺序。当从EDRAP6随机接入时,解码器接收并正确地解码图片,如图9中所示。
图10和图11图示了基于EDRAP的视频流式传输。当从起始于EDRAP6的段随机接入或切换到该段时,解码器接收段并对其进行解码,如图11中所示。
MPEG输入文档m57430中提出的ESR设计如下:
2.1.1概要
外部流表示(ESR)与关联的主流表示(main stream representation,MSR)(“正常”表示)时间同步。ESR仅包含当从MSR中的时间同步的扩展依赖随机接入点(EDRAP)图片/样本随机接入时额外需要的随机接入点(RAP)图片。
设计总结如下:
1)提出了针对术语EDRAP图片、外部基本流、外部图片、外部流表示(ESR)和主流表示(MSR)的五个定义。
2)提出了名为@esasFlag的可选的自适应集级别属性,以指示自适应集中的表示是ESR还是MSR。
3)作为@esasFlag属性的语义的组成部分,提出了以下各项:
a.基于ESR通过现有表示属性@associationId和@associationType到MSR的关联的、新指定的关联类型值‘aest’(“关联外部流轨道”;与ISOBMFF轨道参考类型相同的4CC)。
b.提出了将新的EssentialProperty描述符包括在包含ESR的自适应集中,以指示在无其他视频表示的情况下,这样的自适应集中的表示本身不可被消耗或播放。
c.用于简化基于EDRAP的流式传输操作的一些约束:
i.MSR中的每个EDRAP图片应当是段中的第一个图片。
ii.对于彼此关联的MSR和ESR,适用以下约束:
1.对于MSR中以EDRAP图片起始的每个段,在ESR中应当存在具有从MPD导出的与MSR中的段相同的段起始时间的段,其中ESR中的段携带针对按解码顺序解码MSR中携带的比特流中的该EDRAP图片和后续图片所需的外部图片。
2.对于MSR中不以EDRAP图片起始的每个段,在ESR中不应当存在具有从MPD导出的与MSR中的段相同的段起始时间的段。
2.1.2定义
扩展依赖随机接入点(EDRAP)图片
样本中属于ISOBMFF轨道中的EDRAP或DRAP样本组的成员的图片
外部基本流
包含具有外部图片的接入单元的基本流
外部图片
存在于ESR中的外部基本流中,并且当从MSR中的某些EDRAP图片随机接入时在对MSR中的基本流进行的解码中的帧间预测参考所需的图片
外部流表示(ESR)
包含外部基本流的表示
主流表示(MSR)
包含视频基本流的表示
2.1.3 AdaptationSet(自适应集)元素的语义
表1-AdaptationSet元素的语义
/>
/>
2.1.4XML语法
/>
/>
3.问题
MPEG输入文档m57430中提出的设计具有如下所述的问题。对于主流表示(MSR),没有任何不同流接入点(SAP)类型的当前定义可适用于基于EDRAP的随机接入点,原因在于需要来自不同轨道或表示的外部图片。这使得无法通过信号传输段是否起始于SAP以及SAP是什么类型。
4.详细解决方案
为了解决上述问题,公开了如下总结的方法。实施例应被视为解释一般概念的示例,而不应以狭隘的方式进行解释。此外,这些实施例可以单独应用或以任何方式组合应用。
1)指定主流表示(MSR)描述符来标识MSR。
a.在一个示例中,MSR描述符被定义为如下的EssentialProperty描述符,该EssentialProperty描述符具有@schemeIdUri的特定值,例如urn:mpeg:dash:msr:2021。
i.在一个示例中,指定将MSR描述符包括在自适应集中,即,在自适应集级别。当被包括在自适应集中时,MSR描述符指示自适应集中的所有表示均为MSR。
ii.在一个示例中,指定将MSR描述符包括在表示中,即,在表示级别。当被包括在表示中时,MSR描述符指示表示是MSR。
iii.在一个示例中,指定将MSR描述符包括在自适应集中或表示中,即,在自适应集级别或表示级别。
1.当被包括在自适应集中时,MSR描述符指示自适应集中的所有表示均为MSR。
a.备选地,当被包括在自适应集中时,MSR描述符指示自适应集中的一些或所有表示可以是MSR。
2.当被包括在表示中时,MSR描述符指示表示是MSR。
b.在一个示例中,MSR描述符被定义为如下的SupplementalProperty描述符,该SupplementalProperty描述符具有@schemeIdUri的特定值,例如urn:mpeg:dash:msr:2021。
2)指定MSR中的每个流接入点(SAP)可以用于接入表示中的内容,前提是:当时间同步样本存在于关联的ESR中携带的轨道中时,时间同步样本对于客户端可用。
3)可选地,指定MSR中的每个EDRAP图片应当是段中的第一个图片(即,每个EDRAP图片应当开始段)。
4)指定外部流表示(ESR)描述符来标识ESR。
a.在一个示例中,ESR描述符被定义为如下的EssentialProperty描述符,该EssentialProperty描述符具有@schemeIdUri的特定值,例如urn:mpeg:dash:msr:2021。
i.在一个示例中,指定将ESR描述符包括在自适应集中,即,在自适应集级别。当被包括在自适应集中时,ESR描述符指示自适应集中的所有表示均为ESR。
ii.在一个示例中,指定将ESR描述符包括在表示中,即,在表示级别。当被包括在表示中时,ESR描述符指示表示是ESR。
iii.在一个示例中,指定将ESR描述符包括在自适应集中或表示中,即,在自适应集级别或表示级别。
1.当被包括在自适应集中时,ESR描述符指示自适应集中的所有表示均为ESR。
a.备选地,当被包括在自适应集中时,ESR描述符指示自适应集中的一些或所有表示可以是ESR。
2.当被包括在表示中时,ESR描述符指示表示是ESR。
b.在一个示例中,ESR描述符被定义为如下的SupplementalProperty描述符,该SupplementalProperty描述符具有@schemeIdUri的特定值,例如urn:mpeg:dash:msr:2021。
5)指定应当按照以下方式来通过MSR中的(现有的)表示级别属性@associationId和@associationType将每个ESR与MSR相关联:关联的ESR的@id应当由属性@associationId中所包含的如下值来引用,针对该值,属性@associationType中的对应值等于‘aest’。
5.实施例
以下是上文在第4节中总结的所有解决方案项及其一些子项的一些示例实施例。
这些实施例可适用于DASH。变更相对于第2.4条中的设计的文本而被标记。大多数被添加或修改的相关部分以下划线表示,并且一些被删除的部分可能还有一些其他变更是编辑性质的,并且因此没有突出显示。
5.1.1定义
扩展依赖随机接入点(EDRAP)图片
样本中属于ISOBMFF中的EDRAP或DRAP样本组的成员的图片
外部基本流
包含具有外部图片的接入单元的基本流
外部图片
存在于ESR中的外部基本流中,并且当从MSR中的某些EDRAP图片随机接入时在对MSR中的基本流进行的解码中的帧间预测参考所需的图片
外部流表示(ESR)
包含外部基本流的表示
主流表示(MSR)
包含视频基本流的表示
5.1.2 MSR和ESR描述符
自适应集可具有EssentialProperty描述符,其中@schemeIdUri等于urn:mpeg:
dash:msr:2021。该描述符被称为MSR描述符。该EssentialProperty的存在指示该自适应集
中的每个表示是MSR。以下适用于MSR:
-自适应集中的MSR表示中的每个SAP可以用于接入表示中的内容,前提是当时间
同步样本存在于关联的ESR中携带的轨道中时其可供客户端使用。
-MSR中的每个EDRAP图片应当是段中的第一个图片(即,每个EDRAP图片应当开始
段)。
自适应集可具有EssentialProperty描述符,其中@schemeIdUri等于urn:mpeg:
dash:esr:2021。该描述符被称为ESR描述符。该EssentialProperty的存在指示该自适应集
中的每个表示是ESR。在无其他视频表示的情况下,ESR本身不应被消耗或播放。
应当按如下所述,通过MSR中的(现有)表示级别属性@associationId和@
associationType将每个MSR与MSR相关联:应当通过属性@associationType中的对应值等
于‘aest’所针对的属性@associationId中所包含的值来参考关联的ESR的@id。
可选地,对于通过MSR中的表示属性@associationId和@associationType彼此关
联的MSR和ESR,适用以下约束:
-对于MSR中以EDRAP图片起始的每个段,在ESR中应当存在具有从MPD导出的与MSR
中的段相同的段起始时间的段,其中ESR中的段携带针对按解码顺序解码MSR中携带的比特
流中的该EDRAP图片和后续图片所需的外部图片。
-对于MSR中不以EDRAP图片起始的每个段,在ESR中不应当存在具有从MPD导出的
与MSR中的段相同的段起始时间的段。
5.1.3 AdaptationSet元素的语义
表2-AdaptationSet元素的语义
/>
/>
5.1.4XML语法
/>
/>
本公开的各实施例涉及主流表示描述符。
图12图示了根据本公开一些实施例的用于视频处理的方法1200的流程图。方法1200可在第一设备处实现。例如,方法1200可以植入在客户端或服务器处。本文所使用的术语“客户端”可以指作为计算机网络的客户端-服务器模型的组成部分的,访问由服务器提供的服务的计算机硬件或软件。仅作为示例,客户端可以是智能电话或平板计算机。在一些实施例中,第一设备可在图1中所示的目的地设备120处实现。
在框1210处,第一设备接收来自第二设备的元数据文件。元数据文件可包括关于视频比特流的重要信息,例如,档次(profile)、层(tier)和级别(level)等。例如,元数据文件可以是DASH媒体表示描述(MPD)。应当理解,描述上述示例仅仅是为了描述的目的。本公开的范围在这方面不受限制。
在框1220处,第一设备确定元数据文件中的数据集中的描述符。描述符的存在指示数据集中的表示是主流表示(MSR)。换句话说,如果数据集包括描述符,则意味着数据集中的表示是MSR。
根据方法1200,采用描述符来标识MSR。与其中利用属性来标识MSR的常规解决方案相比,所提出的方法可以有利地更高效地标识MSR。
在一些实施例中,描述符可被定义为具有如下属性的数据结构,该属性等于统一资源名称(URN)字符串。在一个示例中,元数据文件可以是媒体表示描述(MPD),并且数据结构可以是MPD中的EssentialProperty。此外,属性可以是schemeIdUri属性,并且URN字符串可以是“urn:mpeg:dash:msr:2022”。也就是说,描述符可被定义为如下EssentialProperty描述符,该EssentialProperty描述符具有的@schemeIdUri的值等于特定URN字符串,例如,“urn:mpeg:dash:msr:2022”。应当理解,这里描述的URN字符串的可能的实现可以仅仅是说明性的,并且因此不应当被解释为以任何方式限制本公开。
在另一示例中,元数据文件可以是MPD,并且数据结构可以是MPD中的SupplementalProperty。同样地,属性可以是schemeIdUri属性,并且URN字符串可以是“urn:mpeg:dash:msr:2022”。也就是说,描述符可被定义为如下SupplementalProperty描述符,该SupplementalProperty描述符具有的@schemeIdUri的值等于特定URN字符串,例如,“urn:mpeg:dash:msr:2022”。应当理解,这里描述的URN字符串的可能的实现可以仅仅是说明性的,并且因此不应当被解释为以任何方式限制本公开。
在一些实施例中,数据集可以是自适应集。在这样的情况下,自适应集中的所有表示可以是MSR。备选地,自适应集中的一些表示可以是MSR。
在一些实施例中,数据集可以是表示。在这样的情况下,表示可以是MSR。
在一些实施例中,MSR中的扩展依赖随机接入点(EDRAP)样本可以包括流接入点(SAP)的起始接入单元(starting access unit,SAU)的指示。在一个示例中,EDRAP样本的第一个字节位置可以是SAU的索引。应当理解,描述了上述示例仅仅是为了描述的目的。本公开的范围在这方面不受限制。因此,所提出的方法可以有利地提高MSR与流接入点(SAP)的兼容性。
在一些附加实施例中,可以在可以将关联于EDRAP样本的外部流表示(ESR)样本提供给解码器之后,将EDRAP样本提供给解码器。也就是说,MSR中的每个EDRAP样本的第一个字节位置可以是SAP的ISAU,这使得能够播放MSR中的媒体流,前提是紧接在EDRAP样本之前将对应的ESR媒体样本提供给媒体解码器。因此,所提出的方法使得段是否以SAP开始以及SAP是什么类型的信令传送成为可能。
在一些实施例中,元数据文件可以是MDP,并且MDP中的段以MSR中的EDRAP图片开始。在一个示例中,MSR中的每个EDRAP图片是段中的第一个图片。
图13图示了根据本公开一些实施例的用于视频处理的方法1300的流程图。方法1300可在第二设备处实现。例如,方法1300可以植入在服务器或发送器处。本文所使用的术语“服务器”可以指能够进行计算的设备,在这样的情况下,客户端通过网络访问服务。服务器可以是物理计算设备或虚拟计算设备。在一些实施例中,第二设备可以在图1中所示的源设备110处实现。
在框1310处,第二设备确定元数据文件中的数据集中的描述符。元数据文件可以包括关于视频比特流的重要信息,例如,档次、层和级别等。例如,元数据文件可以是DASH媒体表示描述(MPD)。描述符的存在指示数据集中的表示是主流表示(MSR)。换句话说,如果数据集包括描述符,则意味着数据集中的表示是MSR。
在框1320处,第二设备向第一设备传输元数据文件。
根据方法1300,采用描述符来标识MSR。与其中利用属性来标识MSR的常规解决方案相比,所提出的方法可以有利地更高效地标识MSR。
在一些实施例中,描述符可被定义为具有如下属性的数据结构,该属性等于统一资源名称(URN)字符串。在一个示例中,元数据文件可以是媒体表示描述(MPD),并且数据结构可以是MPD中的EssentialProperty。此外,属性可以是schemeIdUri属性,并且URN字符串可以是“urn:mpeg:dash:msr:2022”。也就是说,描述符可被定义为如下EssentialProperty描述符,该EssentialProperty描述符具有的@schemeIdUri的值等于特定URN字符串,例如,“urn:mpeg:dash:msr:2022”。应当理解,这里描述的URN字符串的可能的实现可以仅仅是说明性的,并且因此不应当被解释为以任何方式限制本公开。
在另一示例中,元数据文件可以是MPD,并且数据结构可以是MPD中的SupplementalProperty。同样地,属性可以是schemeIdUri属性,并且URN字符串可以是“urn:mpeg:dash:msr:2022”。也就是说,描述符可被定义为如下SupplementalProperty描述符,该SupplementalProperty描述符具有的@schemeIdUri的值等于特定URN字符串,例如,“urn:mpeg:dash:msr:2022”。应当理解,这里描述的URN字符串的可能的实现可以仅仅是说明性的,并且因此不应当被解释为以任何方式限制本公开。
在一些实施例中,数据集可以是自适应集。在这样的情况下,自适应集中的所有表示可以是MSR。备选地,自适应集中的一些表示可以是MSR。
在一些实施例中,数据集可以是表示。在这样的情况下,表示可以是MSR。
在一些实施例中,MSR中的扩展依赖随机接入点(EDRAP)样本可以包括流接入点(SAP)的起始接入单元(SAU)的指示。在一个示例中,EDRAP样本的第一个字节位置可以是SAU的索引。应当理解,描述了上述示例仅仅是为了描述的目的。本公开的范围在这方面不受限制。因此,所提出的方法可以有利地提高MSR与流接入点(SAP)的兼容性。
在一些附加实施例中,可以在可以将关联于EDRAP样本的外部流表示(ESR)样本提供给解码器之后,将EDRAP样本提供给解码器。也就是说,MSR中的每个EDRAP样本的第一个字节位置可以是SAP的ISAU,这使得能够播放MSR中的媒体流,前提是紧接在EDRAP样本之前将对应的ESR媒体样本提供给媒体解码器。因此,所提出的方法使得段是否以SAP开始以及SAP是什么类型的信令传送成为可能。
在一些实施例中,元数据文件可以是MDP,并且MDP中的段以MSR中的EDRAP图片开始。在一个示例中,MSR中的每个EDRAP图片是段中的第一个图片。
本公开的各实施例可以单独地被实施。备选地,本公开的各实施例可以以任何合适的组合而被实施。本公开的各实现方式可以参照以下条款进行描述,其特征可以以任何合理的方式组合。
条款1.一种用于视频处理的方法,所述方法包括:在第一设备处,接收来自第二设备的元数据文件;以及确定所述元数据文件中的数据集中的描述符,所述描述符的存在指示所述数据集中的表示是主流表示(MSR)。
条款2.一种用于视频处理的方法,所述方法包括:在第二设备处,确定元数据文件中的数据集中的描述符,所述描述符的存在指示所述数据集中的表示是MSR;以及向第一设备传输所述元数据文件。
条款3.根据条款1-2中任一项所述的方法,其中所述描述符被定义为具有如下属性的数据结构,该属性等于统一资源名称(URN)字符串。
条款4.根据条款3所述的方法,其中所述元数据文件是媒体表示描述(MPD),并且所述数据结构是所述MPD中的EssentialProperty。
条款5.根据条款3所述的方法,其中所述元数据文件是媒体表示描述(MPD),并且所述数据结构是所述MPD中的SupplementalProperty。
条款6.根据条款4-5中任一项所述的方法,其中所述属性是schemeIdUri属性,并且所述URN字符串是“urn:mpeg:dash:msr:2022”。
条款7.根据条款1-6中任一项所述的方法,其中所述数据集是自适应集或表示。
条款8.根据条款1-6中任一项所述的方法,其中所述数据集是自适应集,并且所述自适应集中的所有表示或一些表示是MSR。
条款9.根据条款1-8中任一项所述的方法,其中所述MSR中的扩展依赖随机接入点(EDRAP)样本包括流接入点(SAP)的起始接入单元(SAU)的指示。
条款10.根据条款9所述的方法,其中在与所述EDRAP样本相关联的外部流表示(ESR)样本被提供给解码器之后,所述EDRAP样本被提供给所述解码器。
条款11.根据条款9-10中任一项所述的方法,其中所述EDRAP样本的第一个字节位置是所述SAU的索引。
条款12.根据条款1-11中任一项所述的方法,其中所述元数据文件是MDP,并且所述MDP中的段以所述MSR中的EDRAP图片开始。
条款13.一种用于处理视频数据的装置,所述装置包括处理器和其上具有指令的非暂态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据条款1-12中任一项所述的方法。
条款14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储指令,所述指令使处理器执行根据条款1-12中任一项所述的方法。
示例设备
图14示出了可以在其中实现本公开的各种实施例的计算设备1400的框图。计算设备1400可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300),或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。
应当理解的是,图14中示出的计算设备1400仅为了说明的目的,而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。
如图14所示,计算设备1400包括通用计算设备1400。计算设备1400可以至少包括一个或多个处理器或处理单元1410、存储器1420、存储单元1430、一个或多个通信单元1440、一个或多个输入设备1450以及一个或多个输出设备1460。
在一些实施例中,计算设备1400可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,并且包括这些设备的附件和外围设备或其任何组合。可以设想的是,计算设备1400可以支持到用户的任何类型的接口(诸如"可穿戴"电路装置等)。
处理单元1410可以是物理处理器或虚拟处理器,并且可以基于存储在存储器1420中的程序实现各种处理。在多处理器系统中,多个处理单元并行地执行计算机可执行指令,以便改善计算设备1400的并行处理能力。处理单元1410也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。
计算设备1400通常包括各种计算机存储介质。这样的介质可以是由计算设备1400可访问的任何介质,包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1420可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1430可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1400中被访问的介质。
计算设备1400还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图14中未示出,但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器,以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
通信单元1440经由通信介质与另一计算设备通信。另外,计算设备1400中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备1400可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。
输入设备1450可以是各种输入设备中的一种或多种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1460可以是各种输出设备中的一种或多种输出设备,诸如显示器、扬声器、打印机等。借助于通信单元1440,计算设备1400还可以与一个或多个外部设备(未示出)通信,外部设备诸如是存储设备和显示设备,计算设备1400还可以与一个或多个使用户能够与计算设备1400交互的设备通信,或任何使计算设备1400能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信,如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。
在一些实施例中,计算设备1400的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算架构中,组件可以被远程提供并且共同工作,以实现本公开中描述的功能。在一些实施例中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中,云计算使用合适的协议经由广域网(例如互联网)提供服务。例如,云计算提供商通过广域网提供应用程序,可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务,尽管它们表现为作为用户的单一接入点。因此,云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地,它们可以由常规服务器提供,或者直接或以其他方式安装在客户端设备上。
在本公开的实施例中,计算设备1400可以被用于实现视频编码/解码。存储器1420可以包括具有一个或多个程序指令的一个或多个视频编解码模块1425。这些模块能够由处理单元1410访问和执行,以执行本文描述的各种实施例的功能。
在执行视频编码的示例实施例中,输入设备1450可以接收视频数据作为待编码的输入1470。视频数据可以由例如视频编解码模块1425处理,以生成经编码的比特流。经编码的比特流可以经由输出设备1460作为输出1480被提供。
在执行视频解码的示例实施例中,输入设备1450可以接收经编码的比特流作为输入1470。经编码的比特流可以由例如视频编解码模块1425处理,以生成经解码的视频数据。经解码的视频数据可以经由输出设备1460作为输出1480被提供。
虽然已经参考本公开的优选实施例具体示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本申请的精神和范围的情况下,可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此,本申请的实施例的前述描述不旨在是限制性的。
Claims (14)
1.一种用于视频处理的方法,所述方法包括:
在第一设备处,接收来自第二设备的元数据文件;以及
确定所述元数据文件中的数据集中的描述符,所述描述符的存在指示所述数据集中的表示是主流表示(MSR)。
2.一种用于视频处理的方法,所述方法包括:
在第二设备处,确定元数据文件中的数据集中的描述符,所述描述符的存在指示所述数据集中的表示是MSR;以及
向第一设备传输所述元数据文件。
3.根据权利要求1-2中任一项所述的方法,其中所述描述符被定义为具有如下属性的数据结构,该属性等于统一资源名称(URN)字符串。
4.根据权利要求3所述的方法,其中所述元数据文件是媒体表示描述(MPD),并且所述数据结构是所述MPD中的EssentialProperty。
5.根据权利要求3所述的方法,其中所述元数据文件是媒体表示描述(MPD),并且所述数据结构是所述MPD中的SupplementalProperty。
6.根据权利要求4-5中任一项所述的方法,其中所述属性是schemeIdUri属性,并且所述URN字符串是“urn:mpeg:dash:msr:2022”。
7.根据权利要求1-6中任一项所述的方法,其中所述数据集是自适应集或表示。
8.根据权利要求1-6中任一项所述的方法,其中所述数据集是自适应集,并且所述自适应集中的所有表示或一些表示是MSR。
9.根据权利要求1-8中任一项所述的方法,其中所述MSR中的扩展依赖随机接入点(EDRAP)样本包括流接入点(SAP)的起始接入单元(SAU)的指示。
10.根据权利要求9所述的方法,其中在与所述EDRAP样本相关联的外部流表示(ESR)样本被提供给解码器之后,所述EDRAP样本被提供给所述解码器。
11.根据权利要求9-10中任一项所述的方法,其中所述EDRAP样本的第一个字节位置是所述SAU的索引。
12.根据权利要求1-11中任一项所述的方法,其中所述元数据文件是MDP,并且所述MDP中的段以所述MSR中的EDRAP图片开始。
13.一种用于处理视频数据的装置,所述装置包括处理器和其上具有指令的非暂态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的方法。
14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储指令,所述指令使处理器执行根据权利要求1-12中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163251336P | 2021-10-01 | 2021-10-01 | |
US63/251,336 | 2021-10-01 | ||
PCT/US2022/077299 WO2023056386A1 (en) | 2021-10-01 | 2022-09-29 | Method, apparatus, and medium for video processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118056407A true CN118056407A (zh) | 2024-05-17 |
Family
ID=85783650
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280066804.4A Pending CN118044199A (zh) | 2021-10-01 | 2022-09-29 | 用于视频处理的方法、装置和介质 |
CN202280066803.XA Pending CN118056407A (zh) | 2021-10-01 | 2022-09-29 | 用于视频处理的方法、装置和介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280066804.4A Pending CN118044199A (zh) | 2021-10-01 | 2022-09-29 | 用于视频处理的方法、装置和介质 |
Country Status (3)
Country | Link |
---|---|
KR (2) | KR20240052832A (zh) |
CN (2) | CN118044199A (zh) |
WO (2) | WO2023056392A1 (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7451229B2 (en) * | 2002-06-24 | 2008-11-11 | Microsoft Corporation | System and method for embedding a streaming media format header within a session description message |
US20070110074A1 (en) * | 2004-06-04 | 2007-05-17 | Bob Bradley | System and Method for Synchronizing Media Presentation at Multiple Recipients |
DK2526671T3 (en) * | 2010-01-18 | 2017-02-27 | ERICSSON TELEFON AB L M (publ) | METHODS AND DEVICES FOR HTTP MEDIA FLOW DISTRIBUTION |
US9497290B2 (en) * | 2010-06-14 | 2016-11-15 | Blackberry Limited | Media presentation description delta file for HTTP streaming |
KR20120034550A (ko) * | 2010-07-20 | 2012-04-12 | 한국전자통신연구원 | 스트리밍 컨텐츠 제공 장치 및 방법 |
US9661104B2 (en) * | 2011-02-07 | 2017-05-23 | Blackberry Limited | Method and apparatus for receiving presentation metadata |
US10616297B2 (en) * | 2012-07-09 | 2020-04-07 | Futurewei Technologies, Inc. | Content-specific identification and timing behavior in dynamic adaptive streaming over hypertext transfer protocol |
GB2509953B (en) * | 2013-01-18 | 2015-05-20 | Canon Kk | Method of displaying a region of interest in a video stream |
US9338209B1 (en) * | 2013-04-23 | 2016-05-10 | Cisco Technology, Inc. | Use of metadata for aiding adaptive streaming clients |
US10904642B2 (en) * | 2018-06-21 | 2021-01-26 | Mediatek Singapore Pte. Ltd. | Methods and apparatus for updating media presentation data |
US11616822B2 (en) * | 2019-09-30 | 2023-03-28 | Tencent America LLC | Session-based information for dynamic adaptive streaming over HTTP |
-
2022
- 2022-09-29 KR KR1020247011049A patent/KR20240052832A/ko unknown
- 2022-09-29 KR KR1020247011063A patent/KR20240052834A/ko unknown
- 2022-09-29 WO PCT/US2022/077305 patent/WO2023056392A1/en unknown
- 2022-09-29 WO PCT/US2022/077299 patent/WO2023056386A1/en unknown
- 2022-09-29 CN CN202280066804.4A patent/CN118044199A/zh active Pending
- 2022-09-29 CN CN202280066803.XA patent/CN118056407A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN118044199A (zh) | 2024-05-14 |
WO2023056386A1 (en) | 2023-04-06 |
KR20240052832A (ko) | 2024-04-23 |
KR20240052834A (ko) | 2024-04-23 |
WO2023056392A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11888913B2 (en) | External stream representation properties | |
WO2023137321A2 (en) | Method, apparatus, and medium for video processing | |
WO2023049915A1 (en) | Method, device, and medium for video processing | |
WO2023049912A1 (en) | Method, apparatus, and medium for video processing | |
CN118056407A (zh) | 用于视频处理的方法、装置和介质 | |
WO2023081824A1 (en) | Method, apparatus, and medium for media processing | |
WO2023104064A1 (en) | Method, apparatus, and medium for media data transmission | |
WO2023051757A1 (en) | Methods, apparatuses, and medium for video streaming | |
WO2023137281A2 (en) | Method, apparatus, and medium for video processing | |
WO2023159143A2 (en) | Method, apparatus, and medium for video processing | |
WO2023137284A2 (en) | Method, apparatus, and medium for video processing | |
WO2023158998A2 (en) | Method, apparatus, and medium for video processing | |
WO2023200879A1 (en) | Support of subsegments based streaming operations in edrap based video streaming | |
WO2023056455A1 (en) | Methods, apparatus, and medium for video prcessing | |
WO2024006291A1 (en) | Edrap in dash based on ari track | |
CN118044197A (zh) | 用于视频处理的方法、装置和介质 | |
WO2023092019A1 (en) | Method, apparatus, and medium for video processing | |
WO2023137477A2 (en) | Method, apparatus, and medium for video processing | |
CN118077200A (zh) | 用于视频处理的方法、装置和介质 | |
CN117157988A (zh) | 最小化直播流中的初始化延迟 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |