CN116762343A - 用于注释dash中vvc子画面的方法 - Google Patents

用于注释dash中vvc子画面的方法 Download PDF

Info

Publication number
CN116762343A
CN116762343A CN202280010653.0A CN202280010653A CN116762343A CN 116762343 A CN116762343 A CN 116762343A CN 202280010653 A CN202280010653 A CN 202280010653A CN 116762343 A CN116762343 A CN 116762343A
Authority
CN
China
Prior art keywords
stream
video
sprites
dash
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280010653.0A
Other languages
English (en)
Inventor
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN116762343A publication Critical patent/CN116762343A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Farming Of Fish And Shellfish (AREA)

Abstract

包括一种包括计算机代码的方法和装置,该计算机代码被配置成使一个或更多个处理器实现:获取包括一个或更多个子画面的基于HTTP的动态自适应流(DASH)视频比特流;确定一个或更多个子画面是否包括VVC兼容子画面;响应于DASH视频比特流包括VVC兼容子画面,基于一个或更多个标志注释一个或更多个子画面;以及基于经注释的一个或更多个子画面控制DASH视频流。

Description

用于注释DASH中VVC子画面的方法
相关申请的交叉引用
本申请要求于2022年1月12日提交的美国临时申请第63/298,924号和于2022年12月2日提交的美国申请第18/073,984号的优先权,该美国临时申请和美国申请在此通过引用将其全部内容明确地并入本申请中。
背景技术
1.技术领域
本公开内容涉及基于HTTP的动态自适应流(dynamic adaptive streamingoverHTTP,DASH)信号传送。
2.相关技术描述
MPEG DASH提供了用于通过IP网络流式传输多媒体内容的标准。ISO/IEC 23009-1DASH标准允许多速率内容的流式传输。DASH清单、MPD可以描述各种媒体内容。虽然DASH标准提供了描述各种内容及其关系的方法,但它没有提供注释要用于画中画应用的VVC子画面的可互操作的解决方案。
发明内容
为了解决一个或更多个不同的技术问题,本公开内容提供了减少网络开销和服务器计算开销的技术解决方案,并且包括方法和设备,该设备包括被配置成存储计算机程序代码的存储器和被配置成访问计算机程序代码并如计算机程序代码所指示的进行操作的一个或更多个处理器。该计算机程序代码包括:获取代码,该获取代码被配置成使至少一个处理器获取包括一个或更多个子画面的基于HTTP的动态自适应流(DASH)视频比特流;确定代码,该确定代码被配置成使至少一个处理器确定一个或更多个子画面是否包括通用视频编码(Versatile Video Coding,VVC)兼容子画面;注释代码,该注释代码被配置成使至少一个处理器响应于DASH视频比特流包括VVC兼容子画面,基于一个或更多个标志注释一个或更多个子画面;以及控制代码,该控制代码被配置成使至少一个处理器基于经注释的一个或更多个子画面控制DASH视频流。
根据示例性实施方式,视频数据在基于HTTP的动态自适应流(DASH)中,并且客户端是DASH客户端。
根据示例性实施方式,确定是否注释第一子画面和第二子画面中的一个或更多个包括确定是否以DASH媒体画面描述(media picture description,MPD)注释第一子画面和第二子画面中的一个或更多个。
根据示例性实施方式,第一流和第二流中的另一个包括画中画(picture-in-picture,PIP)流。
根据示例性实施方式,控制客户端替换第一流和第二流中的一个的至少一部分包括:用PIP流替换由第一子画面和第二子画面中的多个子画面表示的区域。
根据示例性实施方式,第一流和第二流中的一个表示主视频,并且第一流和第二流中的另一个表示作为主视频的补充视频的单独编码的流。
根据示例性实施方式,控制客户端替换第一流和第二流中的一个的至少一部分包括:确定用户是否请求观看补充视频。
根据示例性实施方式,主视频和补充视频各自包括通用视频编码(VVC)子画面。
根据示例性实施方式,控制客户端替换第一流和第二流中的一个的至少一部分包括:合并通用视频编码(VVC)子画面的属性,使得解码器被提供有从第一流和第二流两者合并的单个合并流。
附图说明
所公开的主题的其他特征、性质和各种优点将根据以下详细描述和附图更加明显,在附图中:
图1是根据实施方式的简化示意图示。
图2是根据实施方式的简化示意图示。
图3是根据实施方式的关于解码器的简化框图。
图4是根据实施方式的关于编码器的简化框图。
图5是根据实施方式的简化框图。
图6是根据实施方式的简化图。
图7是根据实施方式的简化图。
图8是根据实施方式的简化流程图。
图9是根据实施方式的示意图示。
具体实施方式
可以单独使用或以任何顺序组合使用下面讨论的所提出的特征。此外,可以通过处理电路系统(例如,一个或更多个处理器或者一个或更多个集成电路)来实现实施方式。在一个示例中,一个或更多个处理器执行存储在非暂态计算机可读介质中的程序。
图1示出了根据本公开内容的实施方式的通信系统100的简化框图。通信系统100可以包括经由网络105互连的至少两个终端102和103。为了数据的单向传输,第一终端103可以在本地位置处对视频数据进行编码,以经由网络105传输至另一终端102。第二终端102可以从网络105接收另一终端的编码视频数据,对编码数据进行解码,并且显示恢复的视频数据。单向数据传输可能在媒体服务应用等中是常见的。
图1示出了第二对终端101和104,第二对终端101和104被设置成支持例如在视频会议期间可能发生的经编码的视频的双向传输。对于数据的双向传输,每个终端101和104可以对在本地位置处捕获的视频数据进行编码,以经由网络105传输至另一终端。每个终端101和104还可以接收由另一终端传输的编码视频数据,可以对编码数据进行解码,并且可以在本地显示装置上显示恢复的视频数据。
在图1中,终端101、102、103和104可以被示出为服务器、个人计算机和智能电话,但本公开内容的原理不限于此。本公开内容的实施方式应用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议装备。网络105表示在终端101、102、103和104之间传送编码视频数据的任何数目的网络,包括例如有线通信网络和/或无线通信网络。通信网络105可以在线路交换通道和/或分组交换通道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的,除非在下文中有所说明,否则网络105的架构和拓扑对于本公开内容的操作而言可以是无关紧要的。
图2示出了视频编码器和视频解码器在流式传输环境中的放置方式,作为针对所公开的主题的应用的示例。所公开的主题可以同等地适用于其它支持视频的应用,包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。
流式传输系统可以包括捕获子系统203,捕获子系统203可以包括创建例如未压缩的视频样本流213的视频源201,例如数字摄像装置。样本流213可以被强调为在与已编码视频比特流进行比较时高的数据量,并且可以由耦接至摄像装置201的编码器202进行处理。编码器202可以包括硬件、软件或其组合,以实现或实施如下面更详细地描述的所公开的主题的各个方面。可以被强调为在与样本流进行比较时较低的数据量的已编码视频比特流204可以存储在流式传输服务器205上以供将来使用。一个或更多个流式传输客户端212和207可以访问流式传输服务器205以检索已编码视频比特流204的副本208和206。客户端212可以包括视频解码器211,视频解码器211对已编码视频比特流208的传入副本进行解码,并且创建可以在显示器209或其他呈现设备(未描绘)上呈现的传出视频样本流210。在一些流式传输系统中,可以根据某些视频编码/压缩标准来对视频比特流204、206和208进行编码。这些标准的示例在上面已经提到并且在本文中进一步描述。
图3可以是根据本发明的实施方式的视频解码器300的功能框图。
接收器302可以接收要由解码器300解码的一个或更多个编解码器视频序列;在同一实施方式或另一实施方式中,一次接收一个已编码视频序列,其中,每个已编码视频序列的解码独立于其他已编码视频序列。可以从信道301接收已编码视频序列,信道301可以是到存储已编码视频数据的存储设备的硬件/软件链路。接收器302可以接收已编码视频数据以及其他数据,例如,已编码音频数据和/或辅助数据流,这些数据可以被转发至其相应的使用实体(未描绘)。接收器302可以将已编码视频序列与其它数据分开。为了防止网络抖动,可以将缓冲存储器303耦接在接收器302与熵解码器/解析器304(此后被称为“解析器”)之间。在接收器302正在从具有足够带宽和可控性的存储/转发设备或者从等时同步网络(isosychronous network)接收数据时,可以不需要缓冲器303或者缓冲器303可以是小的。为了在尽力(best effort)型分组网络诸如因特网上使用,可能需要缓冲器303,缓冲器303可以相对较大并且可以有利地具有自适应大小。
视频解码器300可以包括解析器304,以根据已熵编码的视频序列重建符号313。这些符号的类别包括:用于管理解码器300的操作的信息;以及潜在地用于控制呈现设备诸如显示器312的信息,所述呈现设备不是解码器的组成部分而是可以耦接至解码器。用于呈现装置的控制信息可以是补充增强信息(SEI(Supplementary Enhancement Information)消息)或视频可用性信息参数集片段(未描绘)的形式。解析器304可以对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可以根据视频编码技术或标准进行,并且可以遵循本领域技术人员公知的原理,包括:可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等。解析器304可以基于与群组对应的至少一个参数来从已编码视频序列中针对视频解码器中的像素的子群组中的至少一个子群组提取子群组参数集。子群组可以包括图片群组(Group of Pictures,GOP)、图片、图块、切片、宏块、编码单元(CodingUnit,CU)、块、变换单元(Transform Unit,TU)、预测单元(PredictionUnit,PU)等。熵解码器/解析器还可以从已编码视频序列中提取信息,例如变换系数、量化器参数值、运动矢量等。
解析器304可以对从缓冲器303接收到的视频序列进行熵解码/解析操作,以创建符号313。解析器304可以接收已编码数据,并且选择性地对特定符号313进行解码。此外,解析器304可以确定是否将特定符号313提供给运动补偿预测单元306、缩放器/逆变换单元305、帧内预测单元307或环路滤波器311。
根据已编码视频图片或其一部分的类型(例如:帧间图片和帧内图片、帧间块和帧内块)以及其他因素,符号313的重建可以涉及多个不同的单元。涉及哪些单元以及涉及方式可以通过由解析器304从已编码视频序列解析的子群组控制信息来控制。出于简洁起见,未描述解析器304与下面的多个单元之间的这样的子群组控制信息的流。
除了已经提及的功能块之外,解码器300可以在概念上细分成如下面描述的多个功能单元。在商业限制下的实际实现操作中,这些单元中的许多单元彼此紧密地相互作用并且可以至少部分地彼此集成。然而,出于描述所公开的主题的目的,在概念上细分为以下功能单元是适当的。
第一单元是缩放器/逆变换单元305。缩放器/逆变换单元305从解析器304接收作为符号313的量化变换系数以及控制信息,包括使用哪种变换、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元305可以输出包括样本值的块,所述样本值可以输入至聚合器310中。
在一些情况下,缩放器/逆变换305的输出样本可以属于帧内编码块;也就是说:这个块不使用来自先前重建的图片的预测性信息,但是可以使用来自当前图片的先前重建部分的预测性信息。这样的预测性信息可以由帧内图片预测单元307提供。在一些情况下,帧内图片预测单元307使用从当前(部分重建的)图片309提取的周围已经重建的信息来生成与重建下的块相同大小和形状的块。在一些情况下,聚合器310基于每个样本将帧内预测单元307已经生成的预测信息添加至由缩放器/逆变换单元305提供的输出样本信息。
在其他情况下,缩放器/逆变换单元305的输出样本可以属于已帧间编码并且可能经运动补偿的块。在这种情况下,运动补偿预测单元306可以访问参考图片缓冲器308以提取用于预测的样本。在根据属于块的符号313对提取的样本进行运动补偿之后,这些样本可以由聚合器310添加至缩放器/逆变换单元的输出(在这种情况下被称为残差样本或残差信号),以生成输出样本信息。运动补偿单元从其提取预测样本的参考图片存储器内的地址可以由运动矢量控制,所述运动矢量以符号313的形式供运动补偿单元使用,所述符号313可以具有例如X分量、Y分量和参考图片分量。运动补偿还可以包括在使用子样本精确运动矢量时从参考图片存储器提取的样本值的内插、运动矢量预测机制等等。
聚合器310的输出样本可以在环路滤波器单元311中经受各种环路滤波技术。视频压缩技术可以包括环路内滤波技术,所述环路内滤波技术由被包括在已编码视频比特流中并且作为来自解析器304的符号313可用于环路滤波器单元311的参数来控制,但是视频压缩技术还可以响应于在对已编码图片或已编码视频序列的先前(按解码顺序)部分进行解码期间获取的元信息,以及响应于先前重建且经环路滤波的样本值。
环路滤波器单元311的输出可以是样本流,所述样本流可以输出至呈现装置312以及存储在参考图片存储器557中,以用于将来的帧间图片预测。
一旦完全重建,某些已编码图片就可以用作参考图片以用于将来预测。一旦已编码图片被完全重建并且该已编码图片已经被识别为参考图片(通过例如解析器304),则当前参考图片309就可以变为参考图片缓冲器308的一部分,并且可以在开始重建后续已编码图片之前重新分配新的当前图片存储器。
视频解码器300可以根据可以记录在例如ITU-T Rec.H.265的标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法的意义上,已编码视频序列可以符合由正在使用的视频压缩技术或标准指定的语法,如在视频压缩技术文档或标准中且明确地在其中的简档文档中指定的语法。对于合规性,还要求已编码视频序列的复杂度在由视频压缩技术或标准的层级限定的范围内。在一些情况下,层级限制最大图片大小、最大帧速率、最大重构样本速率(以例如每秒兆个样本为单位进行度量)、最大参考图片大小等。在一些情况下,由层级设置的限制可以通过假设参考解码器(Hypothetical Reference Decoder,HRD)规范以及在已编码视频序列中用信号传送的HRD缓冲器管理的元数据来进一步限定。
在实施方式中,接收器302可以接收附加(冗余)数据以及已编码视频。附加数据可以被包括为(一个或多个)已编码视频序列的一部分。附加数据可以由视频解码器300使用以对数据进行适当解码和/或更准确地重建原始视频数据。附加数据可以呈例如时间、空间或信噪比(signal noise ratio,SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。
图4可以是根据本公开内容的实施方式的视频编码器400的功能框图。
编码器400可以从视频源401(其并非编码器的一部分)接收视频样本,所述视频源401可以捕获要由编码器400编码的视频图像。
视频源401可以提供要由编码器(303)编码的呈数字视频样本流形式的源视频序列,该数字视频样本流可以具有任何合适的位深度(例如:8位、10位、12位......)、任何色彩空间(例如BT.601Y CrCB、RGB......)和任何合适的采样结构(例如Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中,视频源401可以是存储先前已准备的视频的存储设备。在视频会议系统中,视频源401可以是捕获本地图像信息作为视频序列的摄像装置。可以将视频数据提供为在按次序观看时被赋予运动的多个单独的图片。图片自身可以被组织为空间像素阵列,其中,取决于所使用的采样结构、色彩空间等,每个像素可以包括一个或更多个样本。本领域技术人员可以容易地理解像素与样本之间的关系。以下描述侧重于样本。
根据实施方式,编码器400可以实时地或者按照应用所要求的任何其他时间约束将源视频序列的图片编码并压缩成已编码视频序列410。执行适当的编码速度是控制器402的一个功能。控制器控制如下所述的其他功能单元并且在功能上耦接至这些单元。出于简洁起见,未描绘耦接。由控制器设置的参数可以包括:速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…)、图片大小、图片群组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器402的其他功能,这是因为这些功能可能属于针对某个系统设计优化的视频编码器400。
一些视频编码器以本领域技术人员所容易了解的“编码环路”进行操作。作为过于简化的描述,编码环路可以包括:编码器402的编码部分(此后被称为“源编码器”)(负责基于要被编码的输入图片和参考图片创建符号)以及嵌入在编码器400中的(本地)解码器406,(本地)解码器406重建符号以创建(远程)解码器也将创建的样本数据(因为在所公开的主题中考虑的视频压缩技术中,符号与已编码视频比特流之间的任何压缩是无损的)。将该重建的样本流输入至参考图片存储器405。由于对符号流的解码导致独立于解码器位置(本地或远程)的位精确结果,因此参考图片缓冲器内容在本地编码器与远程编码器之间也是位精确的。换言之,编码器的预测部分“看到”的参考图片样本与解码器在解码期间使用预测时将“看到”的样本值完全相同。该参考图片同步性的基本原理(以及如果例如由于信道错误而不能保持同步性,则导致漂移)是本领域技术人员公知的。
“本地”解码器406的操作可以与已经在上面结合图3详细描述的“远程”解码器300的操作相同。然而,还简要参照图4,当符号可用并且熵编码器408和解析器304可以无损地将符号编码/解码为已编码的视频序列时,在本地解码器406中可以不完全实现包括信道301、接收器302、缓冲器303和解析器304的解码器300的熵解码部分。
此时可以观察到,除了存在于解码器中的解析/熵解码之外的任何解码器技术也必定以基本上相同的功能形式存在于对应的编码器中。由于编码器技术与全面地描述的解码器技术互逆,因此可以简化对编码器技术的描述。更详细的描述仅在某些区域中需要并且在下面被提供。
作为其操作的一部分,源编码器403可以执行运动补偿预测编码,该运动补偿预测编码参考来自视频序列中被指定为“参考帧”的一个或更多个先前已编码的帧对输入帧进行预测性编码。以这样的方式,编码引擎407对输入帧的像素块与参考帧的像素块之间的差异进行编码,所述参考帧可以被选作所述输入帧的预测参考。
本地视频解码器406可以基于由源编码器403创建的符号对可以指定为参考帧的帧的已编码视频数据进行解码。编码引擎407的操作可以有利地是有损处理。当已编码视频数据可以在视频解码器(图4中未示出)处被解码时,重建的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器406复制可以由视频解码器对参考帧执行的解码处理,并且可以使重建的参考帧存储在参考图片缓存405中。以这样的方式,编码器400可以在本地存储重建的参考帧的副本,该副本与将由远端视频解码器获取的重建参考帧具有共同内容(不存在传输误差)。
预测器404可以针对编码引擎407执行预测搜索。也就是说,对于要编码的新图片,预测器404可以在参考图片存储器405中搜索可以用作用于新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据,例如,参考图片运动矢量、块形状等。预测器404可以基于样本块逐像素块操作以找到适当的预测参考。在一些情况下,如由预测器404获取的搜索结果所确定的,输入图片可以具有从参考图片存储器405中存储的多个参考图片提取的预测参考。
控制器402可以管理视频编码器403的编码操作,包括例如设置用于对视频数据进行编码的参数和子群组参数。
所有以上提及的功能单元的输出可以在熵编码器408中经受熵编码。熵编码器通过根据本领域技术人员已知的技术(例如霍夫曼编码、可变长度编码、算术编码等)对符号进行无损压缩来将由各种功能单元生成的符号转换成已编码视频序列。
传输器409可以缓冲由熵编码器408创建的(一个或多个)编码视频序列,从而为经由通信信道411进行传输做准备,通信信道可以是到将存储已编码视频数据的存储装置的硬件/软件链路。传输器409可以将来自视频编码器403的已编码视频数据与要传输的其他数据合并,所述其他数据例如是已编码音频数据和/或辅助数据流(未示出源)。
控制器402可以管理编码器400的操作。在编码期间,控制器405可以向每个已编码图片分配某个已编码图片类型,这可能影响可以应用于相应的图片的编码技术。例如,通常可以向图片分配以下帧类型之一:
帧内图片(I图片)可以是不将序列中的任何其它帧用作预测源就可以被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片,包括例如独立解码器刷新图片。本领域技术人员了解I图片的这些变型及其相应的应用和特征。
预测性图片(P图片)可以是可以使用帧内预测或帧间预测进行编码和解码的图片,所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。
双向预测性图片(B图片)可以是可以使用帧内预测或帧间预测进行编码和解码的图片,所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地,多预测性图片可以使用多于两个参考图片和相关联的元数据来进行单个块的重构。
源图片通常可以在空间上细分成多个样本块(例如,分别为4×4、8×8、4×8或16×16样本的块),并且基于逐块进行编码。这些块可参考其它(已编码)块进行预测性编码,根据应用于块的相应图片的编码分配来确定所述其它块。举例来说,I图片的块可进行非预测性编码,或所述块可参考同一图片的已经编码的块来进行预测性编码(空间预测或帧内预测)。P图片的像素块可以参考一个先前编码的参考图片经由空间预测或经由时间预测进行非预测性编码。B图片的块可参考一个或两个先前编码的参考图片经由空间预测或经由时域预测进行预测性编码。
视频编码器400可以根据预定视频编码技术或标准例如ITU-T Rec H.265.执行编码操作。在视频编码器400的操作中,视频编码器400可以执行各种压缩操作,包括利用输入视频序列中的时间冗余和空间冗余的预测性编码操作。因此,已编码视频数据可以符合由正在使用的视频编码技术或标准指定的语法。
在实施方式中,传输器409可以传输附加数据以及已编码视频。源编码器403可以包括这样的数据作为已编码视频序列的一部分。附加数据可以包括时间/空间/SNR增强层,其他形式的冗余数据,诸如冗余图片和切片、补充增强信息(Supplementary EnhancementInformation,SEI)消息、视觉可用性信息(Video Usability Information,VUI)参数集片段等。
图5示出了例如用于处理DASH事件和通用媒体应用格式(Common MediaApplication Format,CMAF)事件的客户端样本架构的样本DASH客户端处理模型500,其中媒体段的客户端请求可以基于清单中描述的地址,该清单还描述了元数据轨道,客户端可以从其访问元数据轨道的段,解析元数据轨道的段,并且将元数据轨道的段发送至应用。此外,根据示例性实施方式,关于如下所述的媒体段的地址,DASH清单可以提供针对索引段的寻址。每个索引段可以提供关于一个段的持续时间和大小的信息,并且表示索引可以提供针对给定表示的所有段的索引信息。
图6示出画中画用例的示例600,使得主画面可以占据整个屏幕,例如窗口显示或增强现实视图等,而叠加画面、画中画占据屏幕的小区域,覆盖主画面的相应区域。画中画(picture-in-picture,pip)的坐标由x、y、高度和宽度指示,其中这些参数相应地定义了pip相对于主画面坐标的位置和大小。
查看图7中的示例700和图8中的流程图800,将理解,根据示例性实施方式,在流式传输的情况下,主视频和pip视频可以在步骤801处作为两个单独的流来传送,例如来自不同的服务器或至少不同的源,例如在视频会议等中。并且这些流可以作为在关于步骤802处的确定的确定否之后在步骤804处由单独的解码器解码的另外独立的流来传送,或者直接从步骤801传送,然后组合在一起用于呈现。但是,根据示例性实施方式,当所使用的视频编解码器支持合并流时,可以在步骤802处诸如通过包括在视频流中的一个或更多个视频流中的标志和/或作为其元数据确定,在步骤801处具有相应的子画面,在步骤803处可以将pip视频流与主视频流组合,可以用pip视频替换表示主视频的覆盖区域的流,然后在步骤804处将单个流发送至解码器以用于解码、然后呈现。从而减少了解码器的技术负担,因为可以传送单个合并的流以用于解码,而不是要对初始独立流进行单独解码然后合并。
根据示例性实施方式,例如利用示例700和示例800,可以通过使用VVC子画面的提取属性和合并属性两者将VVC子画面用于画中画服务。对于这种服务,主视频使用几个子画面进行编码,子画面中的一个子画面与补充视频大小相同,位于补充视频旨在被合成到主视频中的确切位置,并且独立编码以实现提取。如果用户例如在步骤802处选择观看包括补充视频的服务版本,则从主视频比特流中提取对应于主视频的画中画区域的子画面,并且补充视频比特流与主视频比特流合并,如示例700和示例800中所示,但用编码替代上述解码,这将被理解为关于编码的这样的示例性实施方式的目的。
并且根据示例性实施方式,例如在步骤802和步骤803处,对DASH中VVC的一个或更多个子画面属性的上述注释,可以使用MPD内容组成元素来描述VVC流的各种子画面的属性。例如,这样的元素的使用可以从下表1中理解:
表1-根据示例性实施方式的用于VVC子画面注释的内容组成元素的语义
并且根据示例性实施方式,可以将任何VVC子画面、内容组成元素添加到适配集或表示中,注释该子画面。并且根据示例性实施方式,DASH客户端可以向比特流控制器提供注释,以用画中画视频流替换期望的子画面流,然后将被控制的VVC比特流馈送到VVC解码器。
此外,本文的实施方式扩展到其他编解码器,使得本文的实施方式可以用于由这样的子画面组成的其他视频流,并且如上所述的相同方法可以用于由可以独立解码的多个子流组成的任何音频或媒体流。也就是说,可以使用上述方法中的任何一个或更多个来注释每个子流,从而至少减少编码负担。
上述技术可以使用计算机可读指令被实现为计算机软件,并且被物理地存储在一个或更多个计算机可读介质中,或者可以通过特别配置的一个或更多个硬件处理器来实现上述技术。例如,图9示出了适于实现所公开的主题的某些实施方式的计算机系统900。
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码,所述指令可以由计算机中央处理单元(central processing unit,CPU)、图形处理单元(Graphics ProcessingUnit,GPU)等直接执行或通过解译、微代码执行等执行。
指令可以在各种类型的计算机或其部件上执行,包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。
图9中示出的用于计算机系统900的部件本质上是示例性的,并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能范围提出任何限制。部件的配置也不应当被解释为具有与计算机系统900的示例性实施方式中示出的部件中的任何一个部件或部件的组合有关的任何依赖性或要求。
计算机系统900可以包括某些人机接口输入装置。这样的人机接口输入装置可以响应于由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、拍打)、视觉输入(例如:姿势)、嗅觉输入(未描绘)实现的输入。人机接口装置还可以用于捕获不一定与人的意识输入直接有关的某些媒体,诸如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静态图像摄像装置获取的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下中的一个或更多个(仅描绘了每个中的一个):键盘901、鼠标902、触控板903、触摸屏910、控制杆905、麦克风906、扫描仪908和摄像装置907。
计算机系统900还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道刺激一个或更多个人类用户的感官。这样的人机接口输出设备可以包括:触觉输出设备(例如,由触摸屏910或控制杆905进行的触觉反馈,但是还可以存在不用作输入设备的触觉反馈设备);音频输出设备(例如:扬声器909、耳机(未描绘));视觉输出设备(例如,包括CRT屏、LCD屏、等离子体屏、OLED屏的屏910,每个屏具有或没有触摸屏输入功能,每个屏具有或没有触觉反馈能力——其中的一些可能能够通过诸如立体输出的手段输出二维视觉输出或超过三维的输出;虚拟现实眼镜(未描绘);全息图显示器和烟箱(未描绘));以及打印机(未描绘)。
计算机系统900还可以包括人可访问存储设备及其相关联的介质,例如,包括带有CD/DVD 911的CD/DVD ROM/RW 920或类似介质的光学介质、拇指驱动器922、可移动硬盘驱动器或固态驱动器923、传统磁性介质诸如磁带和软盘(未描绘)、基于专用ROM/ASIC/PLD的设备,例如安全加密狗(未描绘)等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。
计算机系统900还可以包括到一个或更多个通信网络998的接口999。网络998可以例如是无线的、有线的、光学的。网络998还可以是本地的、广域的、城域的、车辆和工业的、实时的、延迟容忍的等。网络998的示例包括:局域网(例如以太网、无线LAN);包括GSM、3G、4G、5G、LTE等的蜂窝网络;包括有线电视、卫星电视和地面广播电视的电视有线连接或无线广域数字网络;包括CANBus的车辆和工业网络等。某些网络998通常需要外部网络接口适配器,该外部网络接口适配器附接至某些通用数据端口或外围总线(950和951)(诸如,例如计算机系统900的USB端口);其他网络通常通过附接至如下所述的系统总线(例如,到PC计算机系统的以太网接口或者到智能电话计算机系统的蜂窝网络接口)而集成至计算机系统900的核中。使用这些网络998中的任何网络,计算机系统900可以与其他实体进行通信。这样的通信可以是单向仅接收的(例如,广播TV)、单向仅发送的(例如CANbus到某些CANbus设备)、或双向的,例如使用局域或广域数字网络到其他计算机系统。某些协议和协议栈可以用在如上所述的这些网络和网络接口中的每一个上。
上述的人机接口设备、人可访问的存储设备以及网络接口可以附接至计算机系统900的核940。
核940可以包括一个或更多个中央处理单元(CPU)941、图形处理单元(GPU)942、图形适配器917、现场可编程门区域(Field Programmable Gate Areas,FPGA)943形式的专用可编程处理单元、某些任务的硬件加速器944等。这些设备连同只读存储器(ROM)945、随机存取存储器946、内部大容量存储装置诸如内部非用户可访问硬盘驱动器、SSD等947可以通过系统总线948连接。在一些计算机系统中,系统总线948可以以一个或更多个物理插头的形式访问,以实现通过附加CPU、GPU等进行扩展。外围设备可以直接地或通过外围总线951附接至核的系统总线948。外围总线的架构包括PCI、USB等。
CPU 941、GPU 942、FPGA 943和加速器944可以执行特定指令,这些指令的组合可以构成上述计算机代码。该计算机代码可以存储在ROM 945或RAM 946中。瞬态数据也可以存储在RAM 946中,而永久数据可以存储在例如内部大容量存储装置947中。对存储器设备中的任何的快速存储和检索可以通过使用高速缓冲存储器来实现,所述高速缓冲存储器可以与一个或更多个CPU 941、GPU 942、大容量存储装置947、ROM 945、RAM 946等紧密相关联。
计算机可读介质在其上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开内容的目的而专门设计和构造的介质和计算机代码,或者它们可以具有计算机软件领域的技术人员公知且可用的类型。
作为示例而通过非限制的方式,对应于计算机系统900的架构,并且特别是核940可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与如以上所介绍的用户可访问的大容量存储装置以及核940的具有非暂态性质的某些存储装置例如核内部大容量存储装置947或ROM 945相关联的介质。实现本公开内容的各种实施方式的软件可以存储在这样的设备中并且由核940执行。根据特定需要,计算机可读介质可以包括一个或更多个存储器设备或者芯片。软件可以使核940、特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文中描述的特定处理或特定处理的特定部分,包括定义存储在RAM 946中的数据结构,以及根据软件定义的处理修改这样的数据结构。另外地或作为替选,计算机系统可以由于逻辑硬连线或以其他方式实施在电路(例如:加速器944)中而提供功能,该电路可以代替软件或者与软件一起操作以执行本文描述的特定处理或特定处理的特定部分。在适当的情况下,提及软件可以包含逻辑,并且反之,提及逻辑可以包含软件。在适当的情况下,提及计算机可读介质可以包含存储用于执行的软件的电路(例如集成电路(IC))、实施用于执行的逻辑的电路或两者。本公开内容包含硬件和软件的任何合适的组合。
尽管本公开内容已经描述了若干示例性实施方式,但是存在落入本公开内容的范围内的改变、置换和各种替换等效物。因此将认识到,本领域技术人员能够设想虽然本文中没有明确示出或描述但是实施了本公开内容的原理并且因此在其精神和范围内的许多系统和方法。

Claims (20)

1.一种视频编码方法,所述方法包括:
获取基于HTTP的动态自适应流(DASH)视频比特流,所述DASH视频比特流包括一个或更多个子画面;
确定所述一个或更多个子画面是否包括通用视频编码(VVC)兼容子画面;
如果所述DASH视频比特流包括所述VVC兼容子画面,基于一个或更多个标志注释所述一个或更多个子画面;以及
基于经注释的一个或更多个子画面控制所述DASH视频流。
2.根据权利要求1所述的方法,其中,
所述一个或更多个子画面是子画面的第一流和第二流,
其中,所述方法包括:控制客户端基于经注释的一个或更多个子画面来将所述第一流和所述第二流中的一个的至少一部分替换为所述第一流和所述第二流中的另一个,
其中,所述视频数据包括基于HTTP的动态自适应流(DASH)视频数据,以及
其中,所述客户端是DASH客户端。
3.根据权利要求2所述的方法,其中,
所述方法还包括:确定是否注释第一子画面和第二子画面中的一个或更多个包括:确定是否以DASH媒体画面描述(MPD)来注释所述第一子画面和所述第二子画面中的一个或更多个。
4.根据权利要求2所述的方法,其中,
所述第一流和所述第二流中的另一个包括画中画(PIP)流。
5.根据权利要求4所述的方法,其中,
控制所述客户端替换所述第一流和所述第二流中的一个的至少一部分包括:用所述PIP流替换由所述第一子画面和所述第二子画面中的多个子画面表示的区域。
6.根据权利要求5所述的方法,其中,
所述第一流和所述第二流中的一个表示主视频,并且所述第一流和所述第二流中的另一个表示作为所述主视频的补充视频的单独编码的流。
7.根据权利要求6所述的方法,其中,
控制所述客户端替换所述第一流和所述第二流中的一个的至少一部分包括:确定用户是否请求观看所述补充视频。
8.根据权利要求7所述的方法,其中,
所述主视频和所述补充视频各自包括通用视频编码(VVC)子画面。
9.根据权利要求2所述的方法,其中,
控制所述客户端替换所述第一流和所述第二流中的一个的至少一部分包括:合并VVC子画面的属性,使得解码器被提供有从所述第一流和所述第二流两者合并的单个合并流。
10.根据权利要求2所述的方法,其中,
所述视频数据的获取包括与所述第二流分离地获取所述第一流。
11.一种视频传输装置,所述装置包括:
至少一个存储器,所述至少一个存储器被配置成存储计算机程序代码;
至少一个处理器,所述至少一个处理器被配置成访问所述计算机程序代码,并且如所述计算机程序代码所指示的进行操作,所述计算机程序代码包括:
获取代码,所述获取代码被配置成使所述至少一个处理器获取基于HTTP的动态自适应流(DASH)视频比特流,所述DASH视频比特流包括一个或更多个子画面;
确定代码,所述确定代码被配置成使所述至少一个处理器确定所述一个或更多个子画面是否包括通用视频编码(VVC)兼容子画面;
注释代码,所述注释代码被配置成使所述至少一个处理器如果所述DASH视频比特流包括所述VVC兼容子画面,基于一个或更多个标志注释所述一个或更多个子画面;以及
控制代码,所述控制代码被配置成使所述至少一个处理器基于经注释的一个或更多个子画面控制所述DASH视频流。
12.根据权利要求11所述的装置,其中,
所述一个或更多个子画面是子画面的第一流和第二流,
其中,所述计算机代码还包括控制代码,所述控制代码被配置成使所述至少一个处理器控制客户端基于经注释的一个或更多个子画面来将所述第一流和所述第二流中的一个的至少一部分替换为所述第一流和所述第二流中的另一个,
其中,所述视频数据包括基于HTTP的动态自适应流(DASH)视频数据,以及
其中,所述客户端是DASH客户端。
13.根据权利要求12所述的装置,其中,
所述确定代码还被配置成使所述至少一个处理器确定是否以DASH媒体画面描述(MPD)来注释所述第一子画面和所述第二子画面中的一个或更多个。
14.根据权利要求12所述的装置,其中,
所述第一流和所述第二流中的另一个包括画中画(PIP)流。
15.根据权利要求14所述的装置,其中,
所述控制代码还被配置成使所述至少一个处理器用所述PIP流替换由所述第一子画面和所述第二子画面中的多个子画面表示的区域。
16.根据权利要求15所述的装置,其中,
所述第一流和所述第二流中的一个表示主视频,并且所述第一流和所述第二流中的另一个表示作为所述主视频的补充视频的单独编码的流。
17.根据权利要求16所述的装置,其中,
所述控制代码还被配置成使所述至少一个处理器确定用户是否请求观看所述补充视频。
18.根据权利要求17所述的装置,其中,
所述主视频和所述补充视频各自包括通用视频编码(VVC)子画面。
19.根据权利要求12所述的装置,其中,
所述控制代码还被配置成使所述至少一个处理器合并VVC子画面的属性,使得解码器被提供有从所述第一流和所述第二流两者合并的单个合并流。
20.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储有程序,所述程序使计算机执行下述处理,所述处理包括:
获取包括一个或更多个子画面的基于HTTP的动态自适应流(DASH)视频比特流;
确定所述一个或更多个子画面是否包括通用视频编码(VVC)兼容子画面;
响应于所述DASH视频比特流包括所述VVC兼容子画面,基于一个或更多个标志注释所述一个或更多个子画面;以及
基于经注释的一个或更多个子画面控制所述DASH视频流。
CN202280010653.0A 2022-01-12 2022-12-13 用于注释dash中vvc子画面的方法 Pending CN116762343A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202263298924P 2022-01-12 2022-01-12
US63/298,924 2022-01-12
US18/073,984 US20230222823A1 (en) 2022-01-12 2022-12-02 Method for annotating vvc subpictures in dash
US18/073,984 2022-12-02
PCT/US2022/052635 WO2023136898A1 (en) 2022-01-12 2022-12-13 A method for annotating vvc subpictures in dash

Publications (1)

Publication Number Publication Date
CN116762343A true CN116762343A (zh) 2023-09-15

Family

ID=87069878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280010653.0A Pending CN116762343A (zh) 2022-01-12 2022-12-13 用于注释dash中vvc子画面的方法

Country Status (7)

Country Link
US (1) US20230222823A1 (zh)
JP (1) JP2024516010A (zh)
KR (1) KR20230170040A (zh)
CN (1) CN116762343A (zh)
AU (1) AU2022433105A1 (zh)
CA (1) CA3217870A1 (zh)
WO (1) WO2023136898A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2972863A4 (en) * 2013-03-13 2016-10-26 Intel Corp IMPROVED PROCESSES FOR THREE-DIMENSIONAL IMAGE PROCESSING
EP3939278A4 (en) * 2019-03-11 2023-03-22 Tencent America LLC TILE AND SUB-DIVISION
US11388437B2 (en) * 2019-06-28 2022-07-12 Tencent America LLC View-position and angle dependent processing of point cloud data
GB2590435B (en) * 2019-12-17 2023-12-20 Canon Kk Method, device, and computer program for improving encapsulation of media content

Also Published As

Publication number Publication date
US20230222823A1 (en) 2023-07-13
JP2024516010A (ja) 2024-04-11
AU2022433105A1 (en) 2023-11-09
CA3217870A1 (en) 2023-07-20
WO2023136898A1 (en) 2023-07-20
KR20230170040A (ko) 2023-12-18

Similar Documents

Publication Publication Date Title
JP7164728B2 (ja) 参照画像リサンプリングのためのシグナリング
CN111937390B (zh) 一种视频解码方法、装置、设备和存储介质
CN113545091B (zh) 对视频序列执行最大变换大小控制的解码方法和装置
CN112292859B (zh) 一种用于解码至少一个视频流的方法和装置
JP7234373B2 (ja) タイル及びサブ画像の分割
CN113711605B (zh) 视频编解码的方法、装置、系统以及计算机可读介质
CN113348666B (zh) 用于对编码视频流进行解码的方法和系统
JP2021517408A5 (zh)
CN114556942B (zh) 视频解码系统、方法及计算机可读介质
CN112236997B (zh) 对视频序列进行解码、编码的方法、装置及存储介质
CN113508582B (zh) 视频编码、解码的方法、装置及可读介质
CN114616801B (zh) 视频编码的方法、装置、设备以及存储介质
CN113491128B (zh) 已解码图片存储器管理的方法和相关装置
CN112995680A (zh) 重建已编码增强层图片的方法和设备
CN116762343A (zh) 用于注释dash中vvc子画面的方法
CN110636296B (zh) 视频解码方法、装置、计算机设备以及存储介质
CN113875242B (zh) 对已编码视频码流进行解码的方法、设备及存储介质
CN117242500A (zh) 用于使用边缘处理创建与ar设备和非ar设备共享的虚拟对话空间的装置
CN114667738A (zh) Mpd有效期到期处理模型
CN116710852A (zh) 用于光场或全息媒体的自适应流
CN118118667A (zh) 视频编码、解码的方法和计算机设备
CN114073084A (zh) 在视频码流中有效发信号通知图片大小和分区信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40095036

Country of ref document: HK