CN115176477A - 用于视频编码和解码的高级句法 - Google Patents

用于视频编码和解码的高级句法 Download PDF

Info

Publication number
CN115176477A
CN115176477A CN202080097072.6A CN202080097072A CN115176477A CN 115176477 A CN115176477 A CN 115176477A CN 202080097072 A CN202080097072 A CN 202080097072A CN 115176477 A CN115176477 A CN 115176477A
Authority
CN
China
Prior art keywords
slice
picture
slices
intra
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080097072.6A
Other languages
English (en)
Inventor
G·拉罗彻
内尔·奥德拉奥果
P·乌诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN115176477A publication Critical patent/CN115176477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了从位流解码视频数据的方法,位流包括对应于多个条带的视频数据,其中视频位流包括图片头部,所述方法包括:确定用于至少一个条带的编码模式;从所述图片头部确定要用于所述编码模式的句法元素的集合;以及使用所确定的所述句法元素对所述至少一个条带进行解码。还公开了相应的编码方法、装置和计算机程序。

Description

用于视频编码和解码的高级句法
技术领域
本发明涉及视频编码和解码,并且具体地涉及用于视频编码和解码的高级句法。
背景技术
近来,联合视频专家组(JVET)(由MPEG和ITU-T第16研究组VCEG组成的合作团队)开始研究一种称为多功能视频编码(VVC)的新视频编码标准。VVC的目标是在现有HEVC标准上提供压缩性能的显著改进(即,通常是以前的两倍)并在2020年完成。主要目标应用和服务包括但不限于360度和高动态范围(HDR)视频。总之,JVET使用独立测试实验室进行的正式主观测试来评价了来自32个组织的反馈。一些建议表明,当与使用HEVC相比时,压缩效率通常提高40%或更多。在超高清(UHD)视频测试材料上显示了特定的效果。因此,针对最终标准,我们可以预期压缩效率的提高将远远超过作为目标的50%。
JVET探索模型(JEM)使用所有HEVC工具且已引入数个新工具。这些改变需要改变位流的结构,特别是可能对位流的总位速率产生影响的高级句法。
高级句法的一个重要改变是将“图片头部”引入到位流中。图片头部是用于指定要在对特定图片(或帧)中的各个条带进行解码时使用的句法元素的头部。因此,图片头部被放置在位流中与条带相关的数据之前,条带各自具有其自己的“条带头部”。下面参考图6更详细地描述该结构。
第16次会议(2019年10月1-11日,日内瓦,瑞士)的标题为“AHG 17:PictureHeader”的文件JVET-P0239提出了将强制图片头部引入到VVC中,并且这被采用为通用视频编码(草案7),上传为文件JVET_P2001。然而,虽然这种结构在使用所有VVC工具时提供了灵活性,但是在位流中用信号通知的句法元素的量增加,这影响传输的位速率(特别是对于低位速率实例)。
因此,期望对上述问题中的至少一个的解决方案。
广泛地,发明人已经认识到,近来采用的高级句法中内置的灵活性仅很少使用,因此不必要地增加了位速率。特别地,大多数图片仅包括使用一个条带编码模式(例如,帧间或帧内)的条带,而高级句法允许各个图片中的不同类型的条带。本发明涉及采用以下事实:大多数图像仅使用一种编码类型的条带,并且因此可以降低位速率。
还考虑了在单个图片内重新引入多个编码类型的灵活性的可选特征。添加特定句法元素和/或句法元素的附加约束以与近来采用的高级句法相比减小位速率。这些“添加的”特征可能增加位速率,但是由于它们很少使用,所以与现有技术相比,给定视频序列的平均位速率将降低。
本发明提出了图片头部信号通知的修改,以避免当整个图像仅包含一个条带类型(I,P,B)时不需要的一些图片头部参数的额外信号通知。具体地,与用于帧间和帧内的增量QP信号通知相关的参数被合并成单个参数。用于分区参数的覆写标志被改变为两个覆写标志:一个用于帧间条带,一个用于帧内条带。此外,针对帧间条带中的运动信息参数添加覆写标志。与当前设计相比,这些修改提供几乎相同的灵活性,但增加了编码效率。
发明内容
在本发明的一个方面中,解码器仅必须解码来自图片头部的一个句法元素集合,该句法元素集合由图片的条带编码模式(例如,帧间或帧内)定义。替代地,图片头部中的句法元素对于编码模式是不可知的,且包括经合并句法元素集合。以这种方式,位速率降低,因为解码器可以跳过不必要的句法元素。
根据本发明的一个方面,提供一种从位流解码视频数据的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及其中,视频位流包括图片头部,所述方法包括:确定所述图片中的所述一个或多于一个条带是否使用单个编码模式;从所述图片头部确定要用于所述单个编码模式的句法元素的集合;以及使用所确定的所述句法元素对所述一个或多于一个条带进行解码。
可选地,确定用于所述一个或多于一个条带的编码模式取决于所述图片头部中的至少一个句法元素。
可选地,单个编码模式是帧间和帧内之一。
可选地,单个编码模式是帧间。
可选地,帧间编码模式是帧间B和帧间P之一。
可选地,确定要用于所述单个编码模式的句法元素的集合包括启用和/或禁用图片头部中的至少一个句法元素。
可选地,确定要用于所述单个编码模式的句法元素的集合包括启用和/或禁用条带头部中的至少一个句法元素。
可选地,基于AU定界符的值来确定编码类型。
可选地,确定编码模式包括对一个或多于一个覆写标志进行解码。
可选地,所述一个或多于一个覆写标志包括指示是否使用帧间模式的第一标志和指示是否使用帧内模式的第二标志。
在本发明的一方面,提供一种从位流解码视频数据的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及其中,视频位流包括图片头部,所述方法包括:确定用于所述图片中的所述一个或多于一个条带的编码模式;从所述图片头部确定要用于所述编码模式的句法元素的集合;以及使用所确定的所述句法元素对所述一个或多于一个条带进行解码。
在本发明的一方面,提供一种将视频数据编码到位流中的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及其中,视频位流包括图片头部,所述方法包括:定义用于所述图片中的所述至少一个条带的单个编码模式;将要用于所述单个编码模式的句法元素的集合编码到所述图片头部中;以及使用所确定的所述句法元素对所述一个或多于一个条带进行编码。
在本发明的一方面,提供一种将视频数据编码到位流中的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及其中,视频位流包括图片头部,所述方法包括:确定用于所述图片中的所述一个或多于一个条带的编码模式;将要用于所述编码模式的句法元素的集合确定到所述图片头部中;以及使用所确定的所述句法元素对所述一个或多于一个条带进行编码。
可选地,所述编码模式是帧间,并且对所述图片头部进行编码包括对所述图片头部中的帧间句法元素进行编码。
可选地,所述编码模式是帧内,并且对所述图片头部进行编码包括对所述图片头部中的帧内句法元素进行编码。
在本发明的另一方面,提供一种解码器,其适于通过执行根据上述解码方法方面的方法来对位流进行解码。
在本发明的另一方面,提供一种编码器,其适于通过执行上述编码方法方面的方法来对位流进行编码。
根据本发明的一个方面,提供了一种从位流解码视频数据的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:确定针对至少一个条带的编码模式;从所述图片头部确定要用于所述编码模式的句法元素集合;以及使用所确定的句法元素对所述至少一个条带进行解码。
这允许降低位速率,从而实现整体更有效的解码。
可选地,确定针对至少一个条带的编码模式取决于所述图片头部中的句法元素。
可选地,编码模式是帧间和帧内之一。
为了灵活性,编码模式是帧间、帧内和帧间与帧内的组合之一。
为了附加的灵活性,帧间编码模式为帧间B和帧间P之一。
可选地,确定特定于所述编码模式的句法元素集合包括启用和/或禁用图片头部中的至少一个句法元素。
可选地,确定特定于所述编码模式的句法元素集合包括启用和/或禁用条带头部中的至少一个句法元素。
可选地,所述方法还包括基于所确定的所述编码类型来推断AU定界符的值。可选地,如果流被确定为仅包含一个层,则进行所述推断AU定界符的所述值。
根据本发明的另一方面,提供了一种从位流解码视频数据的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:确定图片中的所有条带是否使用相同的编码模式;如果所述确定为真,则使用来自所述图片头部的所述句法元素对所述图片进行解码。
根据本发明的另一方面,提供了一种从位流解码视频数据的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:使用来自所述图片头部的所述句法元素对图片进行解码;其中,所有句法元素对应于相同的条带编码模式。
这些方面降低了与头部相关的速率,特别是对于仅包含帧间条带的图片(其是许多视频序列中的大多数图片)。
可选地,如果所述确定不为真,则从所述图片头部中的相应的帧间句法元素推断所述图片中的帧内条带的帧内编码参数。
可选地,所述帧内句法元素被限制为相应的帧间值的值。
可选地,所述方法还包括基于先前句法元素的值来预测所述条带的句法元素。
可选地,确定针对至少一个条带的编码模式取决于与图片头部不同的头部中的句法元素。
在一个示例中,与图片头部不同的所述头部是序列头部。
在另一示例中,与图片头部不同的所述头部是AUD NAL单元。
在一个示例中,所确定的所述编码模式是帧间的。在另一示例中,所确定的所述编码模式是帧内的。
可选地,确定编码模式包括解码一个或多于一个覆写标志。
可选地,所述一个或多于一个覆写标志在比图片头部更高级别的头部中。
根据本发明的另一方面,提供了一种从位流解码视频数据的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:解码一个或多于一个覆写标志;以及根据所述一个或多于一个覆写标志对来自所述图片头部的编码特定句法元素进行解码;其中所述一个或多于一个覆写标志在比所述图片头部更高级别的头部中。
该方面提供了速率降低的优点,在能够覆写默认情况方面具有附加的灵活性。
可选地,所述更高级别的头部是SPS或PPS。
可选地,所述方法还包括从在编码相关句法元素之前的所述图片头部解码两个覆写标志,所述第一覆写标志指示帧间元素被覆写,并且所述第二覆写标志指示帧内元素被覆写。
可选地,要用于所确定的所述编码模式的所述句法元素对于编码模式是不可知的。
根据本发明的另一方面,提供了一种从位流解码视频数据的方法,所述位流包括对应于多个条带的视频数据;其中,所述视频位流包括图片头部;其中,所述图片头部仅包括对编码模式不可知的句法元素;以及使用所述句法元素对所述图片中的各个条带进行解码。
该方面通过减少图片头部中的冗余句法元素的数量来提供速率降低。
可选地,所述方法还包括从与所述图片头部不同的头部确定特定于所确定的所述编码模式的句法元素。
可选地,与所述图片头部不同的所述头部是条带头部。
为了灵活性,可以在所述条带头部中提供帧间和帧内句法元素。
可选地,所述方法还包括:对覆写标志进行解码,所述覆写标志确定是否对来自所述条带头部的编码特定句法元素进行解码。
可选地,所述条带头部中的所述句法元素具有被限制为图片头部中的等效句法元素的值。
可选地,所述方法还包括基于所述条带头部中的先前句法元素的值来预测所述条带头部中的一个或多于一个句法元素。
根据本发明的另一方面,提供了一种将视频数据编码到位流中的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:定义针对至少一个条带的编码模式;从所述图片头部对要用于所述编码模式的句法元素集合进行编码;以及使用所确定的所述句法元素对所述至少一个条带进行编码。
根据本发明的另一方面,提供了一种将视频数据编码到位流中的方法,所说位流包括对应于多个条带的视频数据,其中一个或多于一个条带包括图片;其中,所述视频位流包括图片头部;所述方法包括:定义针对所述图片的编码模式;将句法元素编码到所述图片头部中;其中,所述句法元素的值取决于所定义的所述编码模式。
根据本发明的另一方面,提供了一种将视频数据编码到位流中的方法,所述位流包括对应于多个条带的视频数据,其中一个或多于一个条带包括图片;其中,所述视频位流包括图片头部;所述方法包括:定义针对所述图片内的所有条带的编码模式;根据所定义的所述编码模式用句法元素对所述图片头部进行编码。
根据本发明的另一方面,提供了一种将视频数据编码到位流中的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:使用来自所述图片头部的所述句法元素对图片进行编码;其中,所有句法元素对应于相同的条带编码模式。
可选地,所述编码模式是帧间,并且对所述图片头进行编码包括对图片头部中的帧间句法元素进行编码。
可选地,所述编码模式是帧内,并且对所述图片头部进行编码包括对图片头部中的帧内句法元素进行编码。
可选地,所述方法还包括:如果所述定义的编码模式是帧内的,则将帧间句法元素编码到图片头部中,并将帧内句法元素编码到条带头部中。
根据本发明的另一方面,提供了一种将视频数据编码到位流中的方法,所述位流包括对应于多个条带的视频数据,其中所述视频位流包括图片头部;所述方法包括:编码一个或多于一个覆写标志;以及根据所述一个或多于一个覆写标志将编码特定句法元素编码到所述图片头部中;其中所述一个或多于一个覆写标志在比所述图片头部更高级别的头部中。
如上所述,这些编码方法能够实现更高效的解码。在一些实例中,编码不太复杂,因为较少的句法元素被编码到相应的头部中和/或在位流中存在较少的冗余。
本发明的又一方面涉及适于分别进行前述解码方法和编码方法的解码器和编码器。
本发明的又一些方面涉及一种程序,当由计算机或处理器执行时,该程序使计算机或处理器执行本发明的前述方法方面中的任一个的方法。该程序可以单独提供,或者可以由载体介质或在载体介质中承载。载体介质可以是非暂时性的,例如存储介质,特别是计算机可读存储介质。载体介质也可以是瞬时的,例如信号或其他传输介质。该信号可以经由包括因特网的任何合适的网络来传输。
本发明的其他特征由其他独立和从属权利要求表征。
本发明的一个方面中的任何特征可以以任何适当的组合应用于本发明的其他方面。特别地,方法方面可以应用于设备方面,反之亦然。
此外,以硬件实现的特征可以以软件实现,反之亦然。本文对软件和硬件特征的任何引用均应据此解释。
如本文所述的任何设备特征也可以被提供为方法特征,反之亦然。如本文中所使用的,部件加功能特征就其相应结构(诸如适当编程的处理器和相关联的存储器等)方面可以被替代性地表达。
还应当理解,可以独立地实现、提供和/或使用在本发明的任何方面中描述和定义的各种特征的特定组合。
附图说明
现在将通过示例的方式参考附图,在附图中:
图1是用于说明HEVC和VVC中使用的编码结构的图;
图2是示意性地示出可以实现本发明的一个或多于一个实施例的数据通信系统的框图;
图3是示出可以实现本发明的一个或多于一个实施例的处理装置的组件的框图;
图4是示出根据本发明实施例的编码方法的步骤的流程图;
图5是示出根据本发明实施例的解码方法的步骤的流程图;
图6示出示例性编码系统VVC中的位流的结构;
图7是示出根据本发明实施例的包括编码器或解码器和通信网络的系统的图;
图8是用于实现本发明的一个或多于一个实施例的计算装置的示意性框图;
图9是示出网络照相机系统的图;以及
图10是示出智能电话的图。
具体实施方式
图1涉及在高效率视频编码(HEVC)视频标准中使用的编码结构。视频序列1由一系列数字图像i组成。各个这样的数字图像由一个或多于一个矩阵表示。矩阵系数表示像素。
序列的图像2可以被分割成条带3。在一些情况下,一条带可以构成图像整体。这些条带被分割成非重叠编码树单元(CTU)。编码树单元(CTU)是高效率视频编码(HEVC)视频标准的基本处理单元,并且概念性地在结构上与若干先前视频标准中使用的宏块单元相对应。CTU有时也被称为最大编码单元(LCU)。CTU具有亮度和色度分量部分,各个分量部分被称为编码树块(CTB)。这些不同的颜色分量未在图1中示出。
CTU通常大小为64像素×64像素。可以使用四叉树分解进而将各CTU迭代地分割成较小的可变大小编码单元(CU)5。
编码单元是基本编码元素,并且由被称为预测单元(PU)和变换单元(TU)的两种子单元构成。PU或TU的最大大小等于CU大小。预测单元与CU的用于像素值的预测的分区相对应。将CU分区成PU的各种不同分区是可能的,如606所示,包括分成4个正方形PU的分区、以及分成2个矩形PU的两个不同分区。变换单元是使用DCT进行空间变换的基本单元。CU可以基于四叉树表示607分区成TU。
各条带嵌入一个网络抽象层(NAL)单元中。另外,视频序列的编码参数存储在称为参数集的专用NAL单元中。在HEVC和H.264/AVC中,采用两种参数集NAL单元:第一,序列参数集(SPS)NAL单元,其收集在整个视频序列期间不变的所有参数。通常,它处理编码配置文件、视频帧的大小和其他参数。第二,图片参数集(PPS)NAL单元,其包括可以从序列的一个图像(或帧)改变为其他图像(或帧)的参数。HEVC还包括视频参数集(VPS)NAL单元,其包含描述位流的总体结构的参数。VPS是HEVC中定义的新类型的参数集,并且应用于位流的所有层。层可以包含多个时间子层,并且所有版本1的位流限定于单个层。HEVC具有用于可缩放性和多视图的某些分层扩展,并且这些扩展将允许具有向后兼容的版本1的基础层的多个层。
图2例示可以实现本发明的一个或多于一个实施例的数据通信系统。数据通信系统包括传输装置(在这种情况下是服务器201),其可操作以经由数据通信网络200将数据流的数据包传输至接收装置(在这种情况下是客户端终端202)。数据通信网络200可以是广域网(WAN)或局域网(LAN)。这种网络可以是例如无线网络(Wifi/802.11a或b或g)、以太网网络、互联网网络或由若干不同网络组成的混合网络。在本发明的特定实施例中,数据通信系统可以是数字电视广播系统,其中服务器201将相同的数据内容发送到多个客户端。
由服务器201提供的数据流204可以由表示视频和音频数据的多媒体数据组成。在本发明的一些实施例中,音频和视频数据流可以分别由服务器201使用麦克风和照相机来捕获。在一些实施例中,数据流可以存储在服务器201上或由服务器201从其他数据提供商接收,或在服务器201处生成。服务器201设置有用于对视频和音频流进行编码的编码器,特别是用以提供用于传输的压缩位流,该压缩位流是作为编码器的输入所呈现的数据的更紧凑表示。
为了获得更好的传输数据的质量与传输数据的量的比率,可以例如根据HEVC格式或H.264/AVC格式来压缩视频数据。
客户端202接收所传输的位流,并且解码重建的位流,以在显示装置上再现视频图像和利用扬声器再现音频数据。
尽管在图2的示例中考虑了流式传输场景,但将认识到,在本发明的一些实施例中,可以使用例如介质存储装置(诸如光盘等)来进行编码器与解码器之间的数据通信。
在本发明的一个或多于一个实施例中,视频图像与表示要应用到图像的重建像素的补偿偏移的数据一同传输,以在最终图像中提供经滤波的像素。
图3示意性地例示被配置为实现本发明的至少一个实施例的处理装置300。处理装置300可以是诸如微计算机、工作站或轻型便携式装置等的装置。装置300包括通信总线313,其连接到:
-表示为CPU的中央处理单元311,诸如微处理器等;
-表示为ROM的只读存储器306,其用于存储实现本发明的计算机程序;
-用于存储本发明实施例的方法的可执行代码的表示为RAM的随机访问存储器312,以及适于记录变量和参数的寄存器,该变量和参数是根据本发明实施例实现对数字图像序列进行编码的方法和/或对位流进行解码的方法所需的;以及
-连接至通信网络303的通信接口302,通过该通信接口传输或接收要处理的数字数据。
可选地,设备300还可以包括以下组件:
-诸如硬盘等的数据存储部件304,其用于存储实现本发明的一个或多于一个实施例的方法的计算机程序以及在实现本发明的一个或多于一个实施例期间所使用或产生的数据;
-用于盘306的盘驱动器305,该盘驱动器适于从盘306读取数据或将数据写入所述盘;
-屏幕309,其用于借助于键盘310或任何其他指示装置来显示数据和/或用作与用户交互的图形界面。
设备300可以连接到诸如数字照相机320或麦克风308等的各种外围设备,其各自连接到输入/输出卡(未示出)以向设备300提供多媒体数据。
通信总线提供设备300中所包括的或连接到设备300的各种元素之间的通信和互操作性。总线的表示不是限制性的,并且特别地,中央处理单元可操作地将指令直接或者借助于设备300的其他元素通信到设备300的任何元素。
盘306可以由诸如可重写或不可重写的致密盘(CD-ROM)、ZIP盘或存储卡等的任何信息介质代替,并且一般而言,由微计算机或微处理器可以进行读取的信息存储部件代替,该盘306集成到或不集成到设备中、可能可移动并且适于存储其执行使得能够实现根据本发明的对数字图像序列进行编码的方法和/或对位流进行解码的方法的一个或多于一个程序。
可执行代码可以存储在只读存储器306中、硬盘304上或可移动数字介质(诸如,例如如前述的盘306等)上。根据一变型,程序的可执行代码可以经由接口302借助于通信网络303来接收,以在执行之前存储在设备300的存储部件之一(诸如硬盘304等)中。
中央处理单元311适于控制和指导执行根据本发明的一个或多于一个程序的指令或软件代码的部分、存储在上述存储部件之一中的指令的执行。在通电时,存储在非易失性存储器中(例如,在硬盘304上或在只读存储器306中)的一个或多于一个程序被传递到随机访问存储器312中(其然后包含一个或多于一个程序的可执行代码)以及用于存储实现本发明所必需的变量和参数的寄存器。
在该实施例中,设备是使用软件来实现本发明的可编程设备。然而,可替代地,本发明可以以硬件(例如,以专用集成电路或ASIC的形式)来实现。
图4例示根据本发明的至少一个实施例的编码器的框图。编码器由所连接的模块表示,各模块适于例如以由装置300的CPU 311执行的编程指令的形式来实现根据本发明的一个或多于一个实施例的、用于实现对图像序列中的图像进行编码的至少一个实施例的方法的至少一个相应步骤。
编码器400接收数字图像i0至in的原始序列401作为输入。各数字图像由样本(称为像素)集表示。
编码器400在实现编码处理之后输出位流410。位流410包括多个编码单元或条带,各条带包括用于对条带编码所用的编码参数的编码值进行传输的条带头部、以及包括编码视频数据的条带主体。
模块402将输入数字图像i0至in 401分割成像素块。块与图像部分相对应并且可以具有可变大小(例如,4×4、8×8、16×16、32×32、64×64、128×128像素、并且还可以考虑若干矩形块大小)。针对各输入块选择编码模式。提供了两个编码模式族:基于空间预测编码(帧内预测)的编码模式和基于时间预测的编码模式(帧间编码、合并、跳过)。测试了可能的编码模式。
模块403实现帧内预测处理,其中,通过根据要编码的给定块的相邻像素计算出的预测子来预测所述要编码的块。如果选择了帧内编码,则对所选择的帧内预测子以及给定块与其预测子之间的差的指示进行编码以提供残差。
时间预测由运动估计模块404和运动补偿模块405实现。首先,选择来自参考图像集416的参考图像,并且由运动估计模块404选择参考图像的一部分(也被称为参考区域或图像部分),该部分是与要编码的给定块最接近的区域。然后运动补偿模块405使用所选择的区域来预测要编码的块。由运动补偿模块405计算所选择的参考区域与给定块(也称为残差块)之间的差。所选择的参考区域由运动矢量指示。
由此,在这两个情况下(空间和时间预测),通过从原始块减去预测来计算残差。
在由模块403实现的帧内预测中,对预测方向进行编码。在时间预测中,对至少一个运动矢量进行编码。在由模块404、405、416、418、417实现的帧间预测中,至少一个运动矢量或用于识别这种运动矢量的数据被编码用于时间预测。
如果选择帧间预测,则对与运动矢量和残差块有关的信息进行编码。为了进一步降低位速率,假设运动是同质的,通过相对于运动矢量预测子的差对运动矢量进行编码。由运动矢量预测和编码模块417从运动矢量场418获得运动信息预测子的集合中的运动矢量预测子。
编码器400还包括选择模块406,该选择模块用于通过应用编码成本标准(诸如,率-失真标准等)来选择编码模式。为了进一步减少冗余,由变换模块407将变换(诸如DCT等)应用于残差块,然后,所获得的变换数据由量化模块408量化并且由熵编码模块409进行熵编码。最终,正被编码的当前块的编码后的残差块被插入位流410中。
编码器400还进行编码图像的解码,以产生用于后续图像的运动估计的参考图像。这使得接收位流的编码器和解码器能够具有相同的参考帧。逆量化模块411进行量化数据的逆量化,之后是逆变换模块412的逆变换。逆帧内预测模块413使用预测信息来确定对于给定块使用哪个预测子,并且逆运动补偿模块414实际上将由模块412获得的残差添加到从参考图像集416获得的参考区域。
然后,由模块415应用后滤波以对所重建的像素帧进行滤波。在本发明的实施例中,使用SAO环路滤波器,其中补偿偏移被添加到所重建图像的所重建像素的像素值。
图5示出根据本发明实施例的解码器60的框图,解码器60可以用于从编码器接收数据。解码器由所连接的模块表示,各模块适于例如以要由装置300的CPU 311执行的编程指令的形式实现由解码器60实现的方法的相应步骤。
解码器60接收包括编码单元的位流61,各编码单元由包含与经编码的参数有关的信息的头部和包含经编码的视频数据的主体组成。下文参考图6更详细地描述VVC中的位流的结构。如关于图4所说明的,针对给定块,在预定数量的位上,对经编码的视频数据进行熵编码,并且对运动矢量预测子的索引进行编码。所接收的经编码的视频数据由模块62进行熵解码。然后残差数据由模块63去量化,之后由模块64应用逆变换以获得像素值。
用于指示编码模式的模式数据也被熵解码,并且基于该模式,对图像数据的编码块进行帧内类型解码或帧间类型解码。
在帧内模式的情况下,帧内逆预测模块65基于在位流中指定的帧内预测模式来确定帧内预测子。
如果模式是帧间,则从位流提取运动预测信息以找到由编码器使用的参考区域。运动预测信息由参考帧索引和运动矢量残差组成。运动矢量预测子被添加到运动矢量残差以由运动矢量解码模块70获得运动矢量。
运动矢量解码模块70对通过运动预测编码的各当前块应用运动矢量解码。一旦已获得针对当前块的运动矢量预测子的索引,可以对与当前块相关联的运动矢量的实际值进行解码,并且该实际值用以通过模块66应用逆运动补偿。从参考图像68提取由经解码的运动矢量指示的参考图像部分以应用逆运动补偿66。利用经解码的运动矢量更新运动矢量场数据71,以用于后续解码运动矢量的逆预测。
最终,获得经解码的块。后滤波由后滤波模块67应用。解码器60最终提供经解码的视频信号69。
图6示出了如JVET_P2001-VE中所述的示例性编码系统VVC中的位流的组织。
根据VVC编码系统的位流61由句法元素和经编码数据的有序序列组成。句法元素和经编码数据被放置到网络抽象层(NAL)单元601-608中。存在不同的NAL单元类型。网络抽象层提供将位流封装到不同协议(如RTP/IP(代表实时协议/因特网协议)、ISO基本媒体文件格式等)中的能力。网络抽象层还提供用于抗包丢失的框架。
NAL单元被分割成视频编码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元包含实际的经编码视频数据。非VCL NAL单元包含附加信息。该附加信息可以是解码经编码视频数据所需的参数或者可增强经解码视频数据的可用性的补充数据。NAL单元606对应于条带且构成位流的VCL NAL单元。
不同的NAL单元601-605对应于不同的参数集,这些NAL单元是非VCL NAL单元。解码器参数集(DPS)NAL单元301包含对于给定解码处理恒定的参数。视频参数集(VPS)NAL单元602包含针对整个视频且因此整个位流定义的参数。DPS NAL单元可以定义比VPS中的参数更静态的参数。换句话说,DPS的参数比VPS的参数更不频繁地改变。
序列参数集(SPS)NAL单元603包含针对视频序列定义的参数。特别地,SPS NAL单元可定义视频序列的子图片布局及相关联参数。与各个子图片相关联的参数指定应用于子图片的编码约束。特别地,包括指示子图片之间的时间预测被限制为来自相同子图片的数据的标志。另一标志可以跨子图片边界启用或禁用环路滤波器。
图片参数集(PPS)NAL单元604,PPS包含针对图片或图片组定义的参数。自适应参数集(APS)NAL单元605包含用于环路滤波器的参数,所述环路滤波器通常是自适应环路滤波器(ALF)或整形器模型(或具有色度缩放的亮度映射(LMCS)模型)或在条带级别使用的缩放矩阵。
如在VVC的当前版本中提出的PPS的句法包括指定以亮度样本为单位的图片的大小以及各个图片以区块和条带的分区的句法元素。
PPS包含使得可以确定帧中的条带位置的句法元素。由于子图片在帧中形成矩形区域,因此可以根据参数集NAL单元确定属于子图片的条带集合、区块部分或区块。作为APS的PPS具有ID机制以限制发送的相同PPS的量。
PPS和图片头部之间的主要区别在于它的传输,与针对各个图像系统地发送的PH相比,PPS通常是针对图像组而发送的。因此,与PH相比,PPS包含对于若干图片可以是恒定的参数。
位流还可以包含补充增强信息(SEI)NAL单元(图6中未表示)。这些参数集在位流中的出现周期是可变的。针对整个位流定义的VPS可以在位流中仅出现一次。相反,针对条带定义的APS可以针对各个图片中的各个条带出现一次。实际上,不同条带可依赖于同一APS,且因此通常存在比各个图片中的条带更少的APS。特别地,APS被定义在图片头部中。然而,可以在条带头部中细化ALF APS。
访问单元定界符(Access Unit Delimiter(AUD))NAL单元607分离两个访问单元。访问单元是NAL单元的集合,其可以包括具有相同解码时间戳的一个或多于一个经编码图片。该任选NAL单元仅包含当前VVC规范中的一个句法元素:pic_type,该句法元素指示slice_type值用于AU中的经编码图片的所有条带。如果pic_type被设置为等于0,则AU仅包含帧内(Intra)条带。如果等于1,则其包含P和I条带。如果等于2,则其包含B、P或帧内(Intra)条带,如下表1所示。
表1 pic_type的解释
pic_type AU中可能存在的slice_type值
0 I
1 P,I
2 B,P,I
图片头部
PH NAL单元608是图片头部NAL单元,其对一个经编码图片的条带的集合的共同的参数进行分组。图片可以指一个或多于一个APS以指示由图片的条带使用的AFL参数、整形器模型和缩放矩阵。
VCL NAL单元606各自包含条带。条带可以对应于整个图片或子图片、单个区块或多个区块或区块的片段。例如,图6的条带包含若干区块620。条带由条带头部610和原始字节序列有效载荷RBSP 611组成,RBSP 611包含编码为经编码块640的经编码像素数据。
在各个图片的开始处发送图片头部。可以解码的相关句法元素涉及:
·是否使用该图片、参考帧
·输出帧
·子图片的使用(如果需要)
·参考图片列表(如果需要)
·颜色平面(如果需要)
·分区更新(如果启用覆写标志)
·增量QP参数(如果需要)
·运动信息参数(如果需要)
·ALF参数(如果需要)
·SAO参数(如果需要)
·量化参数(如果需要)
·LMCS参数(如果需要)
·缩放列表参数(如果需要)
·图片头部扩展(如果需要)
所有这些参数的完整描述可以在JVET_P2001-VE中找到。
图片头部的该结构在提供特定图像中可能需要的所有工具方面提供了灵活性。因此,该结构实质上定义了解码图片的“最坏情况”,这通常是硬件解码器的关键考虑因素。然而,在该结构中存在显著的冗余,这导致位速率的增加。
本发明所解决的问题涉及该图片头部中与特定编码模式相关的参数集合。对于某些参数集合,针对帧间条带和帧内条带这两者发送句法元素集合。当图片中的所有条带具有相同类型时,这增加了速率。
表2示出了使用JVET_P2001-VE中提供的定义的当前图片头部解码句法中的这些参数。在该表中,“...”表示与该描述无关的句法元素。
表2部分图片头部
Figure BDA0003805141190000181
Figure BDA0003805141190000191
Figure BDA0003805141190000201
在某些情况下,上述头部中的三个特定参数集合可能是冗余的。下面依次考虑这三个集合。
第一参数集合与分区有关。以下仅对帧间条带有用:
·pic_log2_diff_min_qt_min_cb_inter_slice
·pic_max_mtt_hierarchy_depth_inter_slice
·pic_log2_diff_max_bt_min_qt_inter_slice
·pic_log2_diff_max_tt_min_qt_inter_slice
并且以下仅针对帧内条带:
·pic_log2_diff_min_qt_min_cb_intra_slice_luma
·pic_max_mtt_hierarchy_depth_intra_slice_luma
·pic_log2_diff_max_bt_min_qt_intra_slice_luma
·pic_log2_diff_max_tt_min_qt_intra_slice_luma
·pic_log2_diff_min_qt_min_cb_intra_slice_chroma
·pic_max_mtt_hierarchy_depth_intra_slice_chroma
·pic_log2_diff_max_bt_min_qt_intra_slice_chroma
·pic_log2_diff_max_tt_min_qt_intra_slice_chroma
这些参数等效于分别针对帧内和色度、针对帧间图片描述的那些参数。
如表2中所定义,仅在标志qtbtt_dual_tree_intra_flag(SPS级别)被设置等于1的情况下,才启用色度参数。
如表2中所描绘,仅在启用partition_constraints_override_enabled_flag且在图片头部中将partition_constraints_override_flag设置为等于1的情况下,才更新这些分区参数(帧间、帧内和色度)。
在SPS中发送标志partition_constraints_override_enabled_flag。
第二参数集合涉及增量QP参数。仅对于帧间条带需要以下两个参数:
·pic_cu_qp_delta_subdiv_inter_slice
·pic_cu_chroma_qp_offset_subdiv_inter_slice
以及以下两个用于帧内条带:
·pic_cu_qp_delta_subdiv_intra_slice
·pic_cu_chroma_qp_offset_subdiv_intra_slice
仅在PPS的cu_qp_delta_enabled_flag被设置为等于1的情况下,才发送pic_cu_qp_delta_subdiv_inter_slice和pic_cu_qp_delta_subdiv_intra_slice。
以相同方式,仅在PPS中启用pps_cu_chroma_qp_offset_list_enabled_flag的情况下,才对pic_cu_chroma_qp_offset_subdiv_intra_slice和pic_cu_chroma_qp_offset_subdiv_intra_slice进行解码。
第三参数集合涉及运动参数,并且它们仅在帧间条带中使用:
·pic_temporal_mvp_enabled_flag
·mvd_l1_zero_flag
·pic_six_minus_max_num_merge_cand
·pic_five_minus_max_num_subblock_merge_cand
·pic_fpel_mmvd_enabled_flag
·pic_disable_bdof_flag
·pic_disable_dmvr_flag
·pic_disable_prof_flag
·pic_max_num_merge_cand_minus_max_num_triangle_cand
可以基于在SPS或PPS头部处用信号通知的“启用标志”或“覆写标志”来解码(或不解码)这些参数中的各个。然而,总是发送这些参数中的各个,这有助于增加位速率。
当经编码图片仅使用一种类型的条带(帧间或帧内)时,这种速率的增加特别明显,因为定义了几个参数但从未使用。
改进该问题的第一种方式是在图片头部中用信号通知编码类型,并且仅解码与该编码类型相关的句法元素。大多数图片具有单个编码类型(例如,帧间或帧内),因此这代表了降低作为不必要的句法元素的位速率的有效方式。
图片头部中指示的图片类型
在一般概念的一个示例中,图片类型句法元素“picture_type_pic_header”在图片头部的开始处发送。
该图片类型可以定义如下:
·当图片类型设置为等于I(或0)时,图片的所有条带具有相同条带类型,帧内。
·当图片类型设置为等于P(或1)时,图片的所有条带具有相同条带类型,帧间P(单向预测)。
·当图片类型设置为等于B(或2)时,图片的所有条带具有相同条带类型,帧间B(双向预测)。
因此,接收指定picture_type_pic_header的图片头部的解码器最初确定与图片类型相对应的编码模式,并且仅解码与该编码模式相关的句法元素(或忽略仅与不同编码模式相关的句法元素)。
在一个示例中,picture_type_pic_header用于通过对是否解码图片头部的某些部分施加条件来启用和禁用不需要的一些句法元素。
下面的表3示出了指示实现该条件解码的一种方式的、对图片头部的示例修改;值得注意的变化已加下划线。应当注意,该表表示部分头部,并且为了清楚和简明的原因而被重新排序。可能以不同顺序的较大头部在实践中可能更合适。
表3-具有条件解码的图片头部
Figure BDA0003805141190000231
Figure BDA0003805141190000241
Figure BDA0003805141190000251
“条件”涉及编码类型,并且允许某些句法元素的条件解码,其中跳过不需要解码的元素。这改进了解码性能。
条件的一个示例如下:
条件1:picture_type_pic_header==P或picture_type_pic_header==B
条件2:picture_type_pic_header==I
条件3:picture_type_pic_header==B
当条件1为假时,所有条带都是帧内的,不解码以下句法元素:
·pic_max_mtt_hierarchy_depth_inter_slice
·pic_log2_diff_max_bt_min_qt_inter_slice
·pic_log2_diff_max_tt_min_qt_inter_slice
·pic_cu_qp_delta_subdiv_inter_slice
·pic_cu_chroma_qp_offset_subdiv_inter_slice
·pic_temporal_mvp_enabled_flag
·mvd_l1_zero_flag
·pic_six_minus_max_num_merge_cand
·pic_five_minus_max_num_subblock_merge_cand
·pic_fpel_mmvd_enabled_flag
·pic_disable_bdof_flag
·pic_disable_dmvr_flag
·pic_disable_prof_flag
·pic_max_num_merge_cand_minus_max_num_triangle_cand
当条件2为假时,所有条带都是帧间的,不解码以下句法元素:
·pic_log2_diff_min_qt_min_cb_intra_slice_luma
·pic_max_mtt_hierarchy_depth_intra_slice_luma
·pic_log2_diff_max_bt_min_qt_intra_slice_luma
·pic_log2_diff_max_tt_min_qt_intra_slice_luma
·pic_log2_diff_min_qt_min_cb_intra_slice_chroma
·pic_max_mtt_hierarchy_depth_intra_slice_chroma
·pic_log2_diff_max_bt_min_qt_intra_slice_chroma
·pic_log2_diff_max_tt_min_qt_intra_slice_chroma
·pic_cu_qp_delta_subdiv_intra_slice
·pic_cu_chroma_qp_offset_subdiv_intra_slice
当条件3为假时,所有条带不是B图片,不解码以下句法元素:
·mvd_l1_zero_flag
·pic_disable_bdof_flag
·pic_disable_dmvr_flag
·pic_max_num_merge_cand_minus_max_num_triangle_cand
因而,仅从图片头部解码I、P或B图片的特定句法元素,因此降低了各个图片的速率。
启用/禁用条带头部中的句法元素
在一个示例中,picture_type_pic_header用于启用或禁用一些不需要的句法元素。这在表4中的修改的图片头部中示出。
在该表中,从不发送slice_type。并且其值已被句法元素picture_type_pic_header替换。基于该标志,num_ref_idx_active_override_flag在图片仅包含帧间条带的情况下可以被发送,并且对于帧内从不被发送。以相同方式,不针对包含帧内条带的图片解码表num_ref_idx_active_minus1[i]。
参数num_ref_idx_active_override_flag和num_ref_idx_active_minus1[i]这两者都与参考帧的量相关。如果需要解码表示参考帧数量的参数num_ref_idx_active_minus1[i],则用信号通知num_ref_idx_active_override_flag。
类似地,当图片包含帧内条带时,cabac_init_flag不被解码。该参数涉及初始化CABAC上下文。
当图片包含帧内条带时,collocated_from_l0_flag、collocated_ref_idx不被解码。这些参数涉及用于时间运动预测子的并置参考帧的选择。
最终,当图片包含帧内条带时,pred_weight_table()不被解码。
该实施例的优点在于,与当前设计相比,节省了与该条带类型的传输相关的速率。
表4-具有pic_type_pic_header的修改的条带头部
Figure BDA0003805141190000271
Figure BDA0003805141190000281
Figure BDA0003805141190000291
在一个特别有利的示例中,可以组合上述特征。在这种情况下,picture_type_pic_header用于启用和禁用图片头部中不需要的一些句法元素,并且slice_type未在条带头部中指定并被picture_type_pic_head替换以解码或不解码条带头部中的一些句法元素。
图片头部中的条带类型约束
该特征表示对上述示例的修改,其中代替picture_type_pic_header,在图片头部的开始处发送句法元素“pic_slice_type_constraint”。该句法元素指示对图片内的各个条带中所使用的编码模式的约束。这与picture_type_pic_header不同,因为它不一定要求所有条带相同,并且允许更宽范围的值。
pic_slice_type_constraint的示例值和相应定义如下:
·等于0指示图片的所有条带都是帧内
·等于1指示图片的所有条带都是帧间
·等于2指示图片的条带可具有不同类型
可以添加两个另外的定义:
·等于3指示图片的所有条带都是帧间B
·等于4指示图片的所有条带都是帧间P
在一个替代示例中,pic_slice_type_constraint定义如下定义:
·等于0指示图片的所有条带都是帧间B
·等于1指示图片的所有条带都是帧间P
·等于2指示图片的所有条带都是帧内
·等于3指示图片的条带可具有不同类型
·等于4指示图片的所有条带都是帧间
在该示例中,根据视频序列的最可能设置到最不可能设置来对不同的图片类型约束进行排序,以减少用信号通知pic_slice_type_constraint所需的位的一般数量。实际上,pic_slice_type_constraint可以用一元码或一元max或哥伦布(Golomb)码来编码。因此,优选的是根据pic_slice_type_constraint值的概率对pic_slice_type_constraint值进行排序。
可以并入上述列表中的pic_slice_type_constraint的其他特性包括:
-图片是瞬时解码器刷新(IDR)图片
-图片是清洁随机访问(CRA)图片
-图片是逐渐解码刷新(GDR)图片
-图片是非帧内随机访问点(非IRAP)、非GDR图片,并且仅包含I条带
-图片是非IRAP、非GDR图片,并且可以仅包含P条带和I条带
-图片是非IRAP、非GDR图片,并且包含B条带、P条带和/或I条带中的任一个
这种值可用于IRAP和GDR图片更相关的流式传输应用。实际上,这些图片提供了帧内随机访问点,其可以用于例如改变序列的第一图片或同步用于实时应用的流等。
实际上,流式传输应用更可能需要至少一个帧内条带,以在网络包丢失的情况下“刷新”流。在简单的实现中,这可以在图片宽级别处进行,以避免图片具有混合编码类型。
该示例提供了与先前实施例类似的相同速率降低,但是通过直接经由图片头部允许相同图片中不同编码的条带来允许解码器处的更大灵活性。
对于上文关于pic_type_pic_header的示例,pic_slice_type_constraint用于启用和禁用一些不需要的句法元素。这对应于将表3的条件1、2和3设置如下:
条件1:pic_slice_type_constraint!=0
条件2:pic_slice_type_constraint==0或pic_slice_type_constraint==2
条件3:pic_slice_type_constraint==3或pic_slice_type_constraint==2
提供附加改进的附加特征、条带头部的条带类型可以用比当前设计更少的位来推断和/或解码。
如表5所描绘的,仅当pic_slice_type_constraint被设置为等于2时,才解码slice_type。在这种情况下,slice_type可以具有3个值I、P和B之一。当pic_slice_type_constraint被设置为等于1时,部分解码slice_type。实际上,由于pic_slice_type_constrain,确保条带是帧间(P或B),因此仅需要解码一个位以知道slice_type是P还是B。
当pic_slice_type_constraint被设置为等于0时,确定为slice_type等于I。当pic_slice_type_constraint被设置为等于0时,确定为slice_type等于B。否则,其被设置为等于P。
与上表3中所示的示例相比,slice_type未被移除,但是其解码被适配。
该特征的优点在于,当帧的所有条带都是帧内或所有条带都是帧间时,可以降低slice_type的速率。
表5-具有pic_slice_type_constraint的修改的条带头部
Figure BDA0003805141190000311
Figure BDA0003805141190000321
在一个另外的修改中,pic_slice_type_constraint用于启用和禁用图片头部中不需要的一些句法元素,并且基于pic_slice_type_constraint值完全或部分地推断条带头部的slice_type。
可以根据pic_slice_type_constraint的值来设置AU定界符NAL单元的图片类型“pic_type”。因此,当pic_type被设置为等于I时,该层的所有pic_slice_type_constraint被设置为等于0。当pic_type被设置为等于2(P,I)时,该层的所有pic_slice_type_constraint可以等于0或3。否则,该层的所有pic_slice_type_constraint可以取任何值(例如,上面讨论的5个值之一)。
对AU NAL的修改
当使用上文所描述的特征时,AU定界符NAL单元的句法元素“pic_type”在流仅包含一个层时不需要被解码,或其解码取决于在VPS或SPS中发送的标志而为可选的。实际上,在这种情况下,发送该句法元素是冗余的,因为图片头部中存在类似的信息。
该特征有助于速率降低。
可选地,AU定界符NAL单元在流仅包含一个层时不解码且基于图片头部中的信息推断。实际上,在这种情况下,不需要包含在AU定界符中的信息,因为其对于图片头部的句法元素是冗余的。该特征进一步有助于速率降低。
用于设置解码的句法元素集合的AU NAL pic_type
在一个简化变型中,AU NAL单元的pic_type用于确定在图片头部中解码的句法元素集合。在该变型中,在图片头部中不设置图片类型或图片类型约束。但表3中所描绘的条件“条件1、条件2、条件3”是基于AU NAL单元的pic_type(当用信号通知时)而确定。因此,图片头部的解码以图片中的条带的条带编码模式(pic_type)为条件,并且条带编码模式在比图片头部更高的级别处被确定。
在该示例中,“条件”涉及pic_type的编码类型,并且允许对如先前实施例所定义的某些句法元素进行条件解码,其中元素不需要跳过解码。这改进了解码性能。
条件的一个示例如下:
条件1:pic_type==1或pic_type==2
条件2:pic_type==0
条件3:pic_type==2
当没有用信号通知AU NAL单元的pic_type时,推断AU NAL单元的pic_type等于2。
合并的句法元素
可以合并在帧间模式和帧内模式这两者中使用的类似句法元素,以减少图片头部中的元素的冗余和/或减少在解码之前需要验证的条件的数量。在一个示例中,图片头部仅包含对要使用的编码模式不可知的句法元素。也就是说,可以在帧间或帧内使用相同的句法元素。这是可能的,因为大多数图片仅包含需要一种类型的编码模式(帧间或帧内)的条带,并且因此不需要两个句法元素集合。
因此,合并帧内和帧间句法元素避免了这些句法元素的冗余编码,特别是当图片中的所有条带具有相同类型(I、P或B)时。当图片中存在帧间和帧内条带这两者时,灵活性较小,但是可以通过调整编码选择来补偿对帧内条带的影响。
仅因“编码类型”标签而不同的句法元素特别适合于合并。
当遵循与上文所论述相同的设计时,可以合并以下句法元素,如下表6中所示:
表6-合并的句法元素
Figure BDA0003805141190000331
Figure BDA0003805141190000341
表7给出了该图片头部句法表的这种简化的示例。
表7具有合并的句法元素的图片头部
Figure BDA0003805141190000342
Figure BDA0003805141190000351
句法元素的共同值
在一个替代方案中,每对参数仍然存在,并且共同值在图片头部中被解码,并且当条带是帧内(如在条带头部处定义的)时,帧内条带的值被设置为等于共同值,并且当条带是帧间时,帧间条带的值被设置为等于共同值。
在一个附加示例中,在上部级别(PPS、SPS)处存在至少一个标志,其指示帧内条带和/或帧间条带是否使用共同值或者保留在上部值(SPS、PPS)处给出的值。这允许增加灵活性。
在一个附加示例中,可以根据条带头部中的变量在条带级别处更新帧内值。
例如,针对帧内的条带头部中的参数是:
·slice_log2_diff_min_qt_min_cb_intra_slice_luma
·slice_max_mtt_hierarchy_depth_intra_slice_luma
·slice_log2_diff_max_bt_min_qt_intra_slice_luma
·slice_log2_diff_max_tt_min_qt_intra_slice_luma
·slice_log2_diff_min_qt_min_cb_intra_slice_chroma
·slice_max_mtt_hierarchy_depth_intra_slice_chroma
·slice_log2_diff_max_bt_min_qt_intra_slice_chroma
·slice_log2_diff_max_tt_min_qt_intra_slice_chroma
·slice_cu_qp_delta_subdiv_intra_slice
·slice_cu_chroma_qp_offset_subdiv_intra_slice
与初始示例相比的优点是灵活性的增加。实际上,利用该附加特征,可以获得与当前设计相同的灵活性。并且通过针对各个条带调整这些参数来获得更大的灵活性。
PPS/SPS处的覆写标志
为了提供附加的灵活性,可以在条带头部中发送帧内和帧间值这两者。可以取决于在PPS和/或SPS或图片头部中发送的一个或多于一个覆写标志而在条带头部中用信号通知(或不用信号通知)这些参数,以减少条带头部内的这些句法元素所需的附加速率。
例如,如果在图片头部中发送参数pic_log2_diff_min_qt_min_cb_slice,则对覆写标志log2_diff_min_qt_min_cb_slice_inter_override_flag进行解码以确定是否在帧间条带中更新了slice_log2_diff_min_qt_min_cb_inter_slice_luma值。当不解码pic_log2_diff_min_qt_min_cb_slice时,该参数将不会在帧间条带中更新,并且log2_diff_min_qt_min_cb_slice_inter_override_flag被设置为等于0。
以类似的方式,可以针对帧内条带发送覆写标志log2_diff_min_qt_min_cb_slice_intra_override_flag。
可选地,当在条带头部中发送参数时,参数的值受到图片头部上的其等效句法元素的值的约束。更确切地,这些值被限制以避免复杂性的增加。
例如,条带头部中的slice_log2_diff_min_qt_min_cb_intra_slice_luma被限制为在图片头部中发送的pic_log2_diff_min_qt_min_cb_slice的值。更确切地,slice_log2_diff_min_qt_min_cb_intra_slice_luma不能低于pic_log2_diff_min_qt_min_cb_slice。这种限制的效果是条带不能使用比图片头部中定义的大小更小的块大小。
该示例的优点是解码器可以针对各个图片设置其复杂性参数。然后,不需要针对各个新条带增加该复杂性。
为了进一步减少所需的位数,当条带句法元素受到图片头部值中的其等效句法元素约束时,其值可以通过最后编码的值来预测。
应当理解,上述句法元素的“合并”可以与其他特征组合以减少不同句法元素的总数。作为示例,在这样的组合中,图片头部将包含始终被解码的对编码模式不可知的句法元素(即,“合并的句法元素”)、编码类型的指示(例如,pic_type_pic_header或pic_slice_type_constraint)、然后是基于编码类型有条件地解码的句法元素。
仅重复帧间参数
在另一示例中,从图片头部移除仅与帧内条带相关的所有参数。表8示出了该示例。与当前设计相比,图片头部中不存在以下句法元素:
·pic_log2_diff_min_qt_min_cb_intra_slice_luma
·pic_max_mtt_hierarchy_depth_intra_slice_luma
·pic_log2_diff_max_bt_min_qt_intra_slice_luma
·pic_log2_diff_max_tt_min_qt_intra_slice_luma
·pic_log2_diff_min_qt_min_cb_intra_slice_chroma
·pic_max_mtt_hierarchy_depth_intra_slice_chroma
·pic_log2_diff_max_bt_min_qt_intra_slice_chroma
·pic_log2_diff_max_tt_min_qt_intra_slice_chroma
·pic_cu_qp_delta_subdiv_intra_slice
·pic_cu_chroma_qp_offset_subdiv_intra_slice
在该示例中,在PPS和/或SPS中设置这些省略的句法元素的值。该示例的优点是降低了与图片头部相关的速率。实际上,在视频序列中,存在比帧内条带更多的帧间条带,因为时间相关性显著高于空间相关性。因此,在图片头部中,最少使用的句法参数是仅与帧内条带相关的句法参数。这对于仅包含帧间条带的图片的影响最大,因为对于相同的图像区域和质量,帧间条带的速率显著低于帧内条带的速率。
表8移除了帧内句法的图片头部
Figure BDA0003805141190000381
Figure BDA0003805141190000391
可替代地,当序列仅包含帧内图片(如在序列头部或SPS中用信号通知的)时,在图片头部中发送上述帧内参数。该实施例的优点在于,可以针对全帧内序列来调整帧内参数,其中该调整的影响应该更重要。
类似地,当序列仅包含帧内图片时,不发送帧间句法元素集合。优点是不存在与不使用的内部参数相关的附加速率。
在一个附加实施例中,当条带类型为帧内时,在条带头部中发送帧内句法元素集合。与主实施例相比,该实施例的优点是更大的灵活性,因为可以调整帧内。此外,对于帧内条带的调整,对速率的影响较低,因为在视频中发送较少的帧内条带。
实质上,当确定为图片仅具有以这些模式之一编码的条带时,修改图片头部以移除帧内/帧间元素。以这种方式,图片头部仅包含与用于整个图片的编码模式相关的句法元素。对于大多数图片,这将是帧间编码(因为帧间图片比帧内图片更常见),因此为了简单起见,可以在所有实例中实现该选项。如果图片具有不同编码模式的条带,则可以从不同头部(诸如条带头部)决定该条带/图片整体的句法元素。
例如,用于帧内的条带头部中的参数是:
·slice_log2_diff_min_qt_min_cb_intra_slice_luma
·slice_max_mtt_hierarchy_depth_intra_slice_luma
·slice_log2_diff_max_bt_min_qt_intra_slice_luma
·slice_log2_diff_max_tt_min_qt_intra_slice_luma
·slice_log2_diff_min_qt_min_cb_intra_slice_chroma
·slice_max_mtt_hierarchy_depth_intra_slice_chroma
·slice_log2_diff_max_bt_min_qt_intra_slice_chroma
·slice_log2_diff_max_tt_min_qt_intra_slice_chroma
·slice_cu_qp_delta_subdiv_intra_slice
·slice_cu_chroma_qp_offset_subdiv_intra_slice
为了降低复杂性,当在帧内条带中发送参数时,参数的值可能受到其等效帧间句法元素的值的约束。更确切地,这些值被限制以避免复杂性的增加。
例如,条带头部中的slice_log2_diff_min_qt_min_cb_intra_slice_luma被限制为在图片头部中发送的pic_log2_diff_min_qt_min_cb_inter_slice的值。更确切地,当前条带中的最小QT大小(其给出最小块大小)值不能低于PH中定义的最小QT大小值。因此,slice_log2_diff_min_qt_min_cb_intra_slice_luma不能低于pic_log2_diff_min_qt_min_cb_inter_slice。
该特征的优点是解码器可以针对各个图片设置其复杂性参数;然后,不需要针对各个新条带增加该复杂性,因为在图片头部中设置了“最坏情况”复杂性。
如果可以在条带头部中发送帧间参数,则也可以应用该约束。
为进一步减少经编码位的数量,当条带句法元素受图片头部中的其等效句法元素帧间值约束时,可以通过其等效句法元素帧间值预测其值。例如,可以对值进行解码,并且slice_log2_diff_min_qt_min_cb_intra_slice_luma等于该值+pic_log2_diff_min_qt_min_cb_inter_slice。
为了提供附加的灵活性,当条带类型是帧内并且如果覆写标志用信号通知其使用与否时,在条带头部中发送帧内句法元素集合。在SPS或PPS级别处用信号通知覆写标志。并且可以在条带头部中发送附加的覆写标志,作为针对这些参数的在图片头部中的当前覆写标志。
帧内/帧间的覆写标志
可以根据特定于帧内和帧间的一个或多于一个覆写标志来解码(或不解码)仅针对帧内或帧间条带定义的图片头部句法元素。这允许更大的灵活性,同时避免解码不必要的句法元素。表9示出了该特征。
在该表中,针对帧内和帧间单独地对与分区相关的句法元素进行分组。partition_constraints_override_enabled_flag由在SPS中解码的两个句法元素partition_constraints_override_enabled_flag_inter和partition_constraints_override_enabled_flag_intra替换。
基于partition_constraints_override_enabled_flag_intra,对新的标志句法元素partition_constraints_override_flag_intra进行解码,并且如果将其设置为等于1,则对帧内的以下分区句法元素进行解码,或者可以根据其他约束对其进行解码:
·pic_log2_diff_min_qt_min_cb_intra_slice_luma
·pic_max_mtt_hierarchy_depth_intra_slice_luma
·pic_log2_diff_max_bt_min_qt_intra_slice_luma
·pic_log2_diff_max_tt_min_qt_intra_slice_luma
·pic_log2_diff_min_qt_min_cb_intra_slice_chroma
·pic_max_mtt_hierarchy_depth_intra_slice_chroma
·pic_log2_diff_max_bt_min_qt_intra_slice_chroma
·pic_log2_diff_max_tt_min_qt_intra_slice_chroma
当覆写标志被设置为等于0时,在SPS中设置的默认值用于设置这些值。
以相同的方式,如果在SPS中将相关覆写标志设置为等于1,则对partition_constraints_override_flag_inter进行解码。如果该图片头部句法元素为真,则使用用于帧间的分区句法元素。
·pic_log2_diff_min_qt_min_cb_inter_slice
·pic_max_mtt_hierarchy_depth_inter_slice
·pic_log2_diff_max_bt_min_qt_inter_slice
·pic_log2_diff_max_tt_min_qt_inter_slice
当覆写标志被设置为等于0时,在SPS中设置的默认值用于设置这些值。
以相同的方式,对于与增量QP相关的句法元素,cu_qp_delta_enabled_flag被拆分成2个标志,一个用于帧内,以及一个用于帧间:cu_qp_delta_enabled_flag_intra,cu_qp_delta_enabled_flag_inter。这些标志在PPS或SPS中发送,并且它们仅在no_qp_delta_constraint_flag等于0时发送。
pps_cu_chroma_qp_offset_list_enabled_flag被拆分成2个标志,一个用于帧内,以及一个用于帧间:pps_cu_chroma_qp_offset_list_enabled_flag_intra,pps_cu_chroma_qp_offset_list_enabled_flag_inter。这些标志在PPS中发送并替换pps_cu_chroma_qp_offset_list_enabled_flag。
对于与运动参数相关的图片头部句法元素,在SPS中发送motion_parameters_override_enabled_flag。如果其被启用,则解码motion_parameters_override_flag标志。如果其等于真,则可以解码与这些参数相关的所有句法元素。当其等于假时,这些参数取其相应PPS或SPS值的值。对于标志,该值可以仅是SPS或PPS值,例如:
pic_temporal_mvp_enabled_flag=sps_temporal_mvp_enabled_flag
mvd_l1_zero_flag=!pps_mvd_l1_zero_idc
pic_fpel_mmvd_enabled_flag=sps_fpel_mmvd_enabled_flag
pic_disable_bdof_flag=sps_bdof_pic_present_flag
pic_disable_dmvr_flag=sps_dmvr_pic_present_flag
pic_disable_prof_flag=sps_prof_pic_present_flag
在一个示例中,可以在SPS或PPS头部处将至少默认值发送到这些默认值中的所定义的一个。
对于非标志值:可以使用在SPS或PPS中设置的最大值,例如:
pic_six_minus_max_num_merge_cand和pic_max_num_merge_cand_minus_max_num_triangle_cand可以分别取决于pps_six_minus_max_num_merge_cand_plus1和pps_max_num_merge_cand_minus_max_num_triangle_cand_plu。
对于在SPS级别处没有定义pic_five_minus_max_num_subblock_merge_cand,但是默认值可以通过5-(sps_sbtmvp_enabled_flag&&pic_temporal_mvp_enabled_flag)来设置。
在实施例中,发送SPS和/或PPS值以固定该默认值。
在一个附加实施例中,可以在SPS或PPS头部中发送特定参数以设置该值。
使用覆写标志的优点与上面讨论的相同,但是提供了更大的灵活性(以发送和解码标志为代价),因为如果指定的覆写标志已经被设置为等于真,则可以发送帧内参数。
表9具有覆写标志的图片头部
Figure BDA0003805141190000431
Figure BDA0003805141190000441
Figure BDA0003805141190000451
应当注意,可以修改这些新的覆写标志的位置,例如,可以将帧间标志移动到帧内标志上方。这可以是有益的,因为更多图片使用帧间编码,因此该标志可能更相关。
类似地,可以保留并检查先前标志partition_constraints_override_flag以查看是否还应检查帧间或帧内标志。
在一个实施例中,在这些不同的句法元素之前发送两个覆写标志。一个指定帧间元素被覆写或不被覆写,以及一个指定帧内元素被覆写。这些覆写标志可以在上层中以相同的方式定义。
与先前的示例相比,需要更少的附加覆写标志。
覆写标志和合并的句法元素
特别令人感兴趣的组合是使用覆写标志(例如,表9)和合并的句法元素(例如,表6)的组合。另外,如上所述(例如,表8),可以从图片头部中移除一些参数。
例如,可以合并的句法元素被合并。在这种情况下,CU增量QP参数以及与帧内和帧间亮度相关的分区标志是特别令人感兴趣的。否则,可以如上所述移除色度分区参数,并且可以根据一个或多于一个覆写标志来设置(或不设置)运动参数。表10示出这种组合的示例:
表10具有特征组合的图片头部
Figure BDA0003805141190000461
Figure BDA0003805141190000471
Figure BDA0003805141190000481
应当理解,上述特征可以彼此组合提供。如上面讨论的特定组合那样,这样做可以提供适合于特定实施方式的特定优点;例如,增加的灵活性,或指定“最坏情况”示例。在其他示例中,复杂性要求可以具有比(例如)速率降低更高的优先级,并且因此可以单独实现特征。
本发明的实现
图7示出了根据本发明实施例的系统191、195,其包括编码器150或解码器100中的至少一个以及通信网络199。根据实施例,系统195用于处理并向用户提供内容(例如,用于显示/输出或流式传输视频/音频内容的视频和音频内容),用户例如通过包括解码器100的用户终端或可与解码器100通信的用户终端的用户界面访问解码器100。这样的用户终端可以是计算机、移动电话、平板电脑或能够向用户提供/显示(提供的/流式传输的)内容的任何其他类型的装置。系统195经由通信网络199获得/接收位流101(以连续流或信号的形式(例如,在显示/输出较早的视频/音频时))。根据实施例,系统191用于处理内容并存储经处理的内容,例如经处理以供在稍后的时间显示/输出/流式传输的视频和音频内容。系统191获得/接收包括原始图像序列151的内容,该内容由编码器150接收和处理(包括利用根据本发明的去块滤波器进行滤波),并且编码器150生成将经由通信网络191传送到解码器100的位流101。然后,位流101以多种方式传送到解码器100,例如,可以由编码器150预先生成并作为数据存储在通信网络199中的存储设备中(例如,在服务器或云存储装置上),直到用户从存储设备请求内容(即,位流数据)为止,此时数据从存储设备传送/流式传输到解码器100。系统191还可以包括内容提供设备,以用于向用户提供/流式传输(例如,通过传送要在用户终端上显示的用户界面的数据)存储在存储设备中的内容的内容信息(例如,内容的标题和用于识别、选择和请求内容的其他元/存储位置数据),并且用于接收和处理用户对内容的请求,使得所请求的内容可以从存储设备传送/流式传输到用户终端。可替代地,编码器150生成位流101,并且在用户请求内容时将其直接传送/流式传输到解码器100。然后,解码器100接收位流101(或信号),并利用根据本发明的去块滤波器进行滤波,以获得/生成视频信号109和/或音频信号,然后用户终端使用视频信号109和/或音频信号来向用户提供所请求的内容。
根据本发明的方法/处理的任何步骤或本文描述的功能可以用硬件、软件、固件或其任何组合来实现。如果以软件实施,则步骤/功能可以作为一个或多于一个指令或代码或程序或计算机可读介质而存储在一个或多于一个基于硬件的处理单元上或者经由一个或多于一个基于硬件的处理单元发送,并且由一个或多于一个基于硬件的处理单元执行,所述处理单元诸如为可编程计算机器,其可以是PC(“个人计算机”)、DSP(“数字信号处理器”)、电路、电路系统、处理器和存储器、通用微处理器或中央处理单元、微控制器、ASIC(“专用集成电路”)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路系统。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实现本文中所描述的技术的任何其他结构中的任一个。
本发明的实施例还可以通过各种装置或设备来实现,包括无线手机、集成电路(IC)或JC集合(例如,芯片集)。本文中描述各种组件、模块或单元以说明被配置为进行这些实施例的装置/设备的功能方面,但未必需要由不同硬件单元实现。而是,各种模块/单元可组合于编解码器硬件单元中或由互操作硬件单元的集合提供,所述硬件单元包括结合合适软件/固件的一个或多于一个处理器。
本发明的实施例可以通过读出并执行记录在存储介质上的计算机可执行指令(例如,一个或多于一个程序)以进行上述实施例中的一个或多于一个的模块/单元/功能以及/或者包括用于进行上述实施例中的一个或多于一个的功能的一个或多于一个处理单元或电路的系统或设备的计算机来实现,并且可以通过由系统或设备的计算机进行的方法来实现,例如,从存储介质读出并执行计算机可执行指令以进行上述实施例中的一个或多于一个的功能和/或控制一个或多于一个处理单元或电路以进行上述实施例中的一个或多于一个的功能。计算机可以包括单独的计算机或单独的处理单元的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如经由网络或有形存储介质从诸如通信介质等的计算机可读介质提供给计算机。通信介质可以是信号/位流/载波。有形存储介质是“非暂时性计算机可读存储介质”,其可以包括(例如)硬盘、随机访问存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储装置、光盘(例如致密盘(CD)、数字多功能光盘(DVD)或蓝光光盘(BD)TM)、快闪存储器装置、存储卡等中的一个或多于一个。至少一些步骤/功能也可以由机器或专用组件(诸如FPGA(“现场可编程门阵列”)或ASIC(“专用集成电路”))在硬件中实现。
图8是用于实现本发明的一个或多于一个实施例的计算装置1300的示意性框图。计算装置1300可以是诸如微计算机、工作站或轻型便携式装置等的装置。计算装置1300包括连接到以下各项的通信总线:-中央处理单元(CPU)1301,诸如微处理器等;-用于存储本发明的实施例的方法的可执行代码的随机访问存储器(RAM)1302以及适于记录实现根据本发明的实施例的用于对图像的至少一部分进行编码或解码的方法所需的变量和参数的寄存器,其存储容量例如可以通过连接到扩展端口的可选RAM进行扩展;-用于存储用于实现本发明的实施例的计算机程序的只读存储器(ROM)1303;-网络接口(NET)1304,其通常连接至通信网络,要处理的数字数据通过该通信网络被传输或接收,网络接口(NET)1304可以是单个网络接口,或者由一组不同的网络接口(例如,有线和无线接口,或不同种类的有线或无线接口)组成,在运行在CPU 1301中的软件应用的控制下,数据包被写入网络接口用于传输或者从网络接口读取以进行接收;-用户接口(UI)1305,其可以用于从用户接收输入或向用户显示信息;-硬盘(HD)1306,其可以被设置为大容量存储装置;-输入/输出模块(IO)1307,其可以用于从/向外部装置(诸如视频源或显示器等)接收/发送数据。可执行代码可以存储在ROM 1303中、HD 1306上或诸如盘等的可移动数字介质上。根据变型,程序的可执行代码可以经由NET 1304借助于通信网络来接收,以在被执行之前存储在通信装置1300的存储部件(诸如HD 1306等)之一中。CPU 1301适于控制和指导根据本发明的实施例的一个或多于一个程序的软件代码的指令或部分的执行,该指令被存储在前述存储部件之一中。例如,在通电之后,CPU 1301能够执行来自从程序ROM 1303或HD 1306加载了指令之后的主RAM存储器1302的、与软件应用有关的那些指令。这种软件应用在由CPU 1301执行时使得进行根据本发明的方法的步骤。
还应理解,根据本发明的其他实施例,在诸如计算机、移动电话(蜂窝电话)、平板或能够向用户提供/显示内容的任何其他类型的装置(例如,显示设备)等的用户终端中提供根据上述实施例的解码器。根据又一实施例,在图像捕获设备中提供根据上述实施例的编码器,该图像捕获设备还包括用于捕获和提供内容以供编码器进行编码的照相机、摄像机或网络照相机(例如,闭路电视或视频监视照相机)。以下参见图9和10提供两个这样的示例。
网络照相机
图9是例示包括网络照相机2102和客户端设备2104的网络照相机系统2100的图。
网络照相机2102包括摄像单元2106、编码单元2108、通信单元2110和控制单元2112。
网络照相机2102和客户端设备2104经由网络200相互连接以能够彼此通信。
摄像单元2106包括镜头和图像传感器(例如,电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)),并捕获对象的图像并基于该图像生成图像数据。该图像可以是静止图像或视频图像。
编码单元2108通过使用以上描述的所述编码方法来对图像数据进行编码。
网络照相机2102的通信单元2110将由编码单元2108编码的经编码的图像数据传输至客户端设备2104。
此外,通信单元2110接收来自客户端设备2104的命令。命令包括用于设置用于编码单元2108的编码的参数的命令。
控制单元2112根据通信单元2110接收到的命令来控制网络照相机2102中的其他单元。
客户端设备2104包括通信单元2114、解码单元2116和控制单元2118。
客户端设备2104的通信单元2114向网络照相机2102传输命令。
此外,客户端设备2104的通信单元2114从网络照相机2102接收经编码的图像数据。
解码单元2116通过使用以上描述的所述解码方法来对经编码的图像数据进行解码。
客户端设备2104的控制单元2118根据由通信单元2114接收的用户操作或命令来控制客户端设备2104中的其他单元。
客户端设备2104的控制单元2118控制显示设备2120以显示由解码单元2116解码的图像。
客户端设备2104的控制单元2118还控制显示设备2120以显示用于指定网络照相机2102的参数(包括用于编码单元2108的编码的参数)的值的GUI(图形用户界面)。
客户端设备2104的控制单元2119还根据对显示设备2120所显示的GUI的用户操作输入来控制客户端设备2104中的其他单元。
客户端设备2104的控制单元2118根据对显示设备2120所显示的GUI的用户操作输入来控制客户端设备2104的通信单元2114,以将用于指定网络照相机2102的参数的值的命令传输至网络照相机2102。
智能电话
图10是例示智能电话2200的图。
智能电话2200包括通信单元2202、解码单元2204、控制单元2206、显示单元2208、图像记录装置2210和传感器2212。
通信单元2202经由网络200接收经编码的图像数据。
解码单元2204对通信单元2202接收到的经编码的图像数据进行解码。
解码单元2204通过使用以上描述的所述解码方法来对经编码的图像数据进行解码。
控制单元2206根据通信单元2202接收到的用户操作或命令控制智能电话2200中的其他单元。
例如,控制单元2206控制显示单元2208以显示由解码单元2204解码的图像。
虽然已经参考实施例描述了本发明,但是应当理解,本发明不限于所公开的实施例。本领域技术人员将理解,在不脱离所附权利要求限定的本发明的范围的情况下,可以进行各种改变和修改。本说明书(包括任何所附权利要求、摘要和附图)中公开的所有特征、和/或所公开的任何方法或处理的所有步骤,可以以任何组合进行组合,除了这样的特征和/或步骤中的至少一些相互排斥的组合之外。除非另外明确说明,否则本说明书(包括任何所附权利要求、摘要和附图)中所公开的各个特征可以由用于相同、等同或相似目的的替代特征代替。因此,除非另有明确说明,否则所公开的各个特征仅为通用系列等效或类似特征的一个示例。
还应理解,上述比较、确定、评估、选择、执行、进行或考虑的任何结果(例如,在编码或滤波处理期间作出的选择)可以在位流中的数据(例如,指示结果的标志或数据)中指示或可从位流中的数据确定/推断,使得所指示或确定/推断的结果可以用于处理而不是实际上例如在解码处理期间进行比较、确定、评估、选择、执行、进行或考虑。
在权利要求中,词语“包括”不排除其他元素或步骤,并且不定冠词“a”或“an”不排除多个。仅仅在相互不同的从属权利要求中记载不同特征的事实并不指示这些特征的组合不能被有利地使用。
权利要求中出现的附图标记仅作为说明,并且不应对权利要求的范围产生限定作用。

Claims (18)

1.一种从位流解码视频数据的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及
其中,视频位流包括图片头部,
所述方法包括:
确定所述图片中的所述一个或多于一个条带是否使用单个编码模式;
从所述图片头部确定要用于所述单个编码模式的句法元素的集合;以及
使用所确定的所述句法元素对所述一个或多于一个条带进行解码。
2.根据权利要求1所述的方法,其中,确定用于所述一个或多于一个条带的编码模式取决于所述图片头部中的至少一个句法元素。
3.根据权利要求1或2所述的方法,其中,所述单个编码模式是帧间和帧内之一。
4.根据权利要求1或2所述的方法,其中,所述单个编码模式是帧间。
5.根据权利要求3或4所述的方法,其中,帧间编码模式是帧间B和帧间P之一。
6.根据前述权利要求中任一项所述的方法,其中,确定要用于所述单个编码模式的句法元素的集合包括启用和/或禁用图片头部中的至少一个句法元素。
7.根据前述权利要求中任一项所述的方法,其中,确定要用于所述单个编码模式的句法元素的集合包括启用和/或禁用条带头部中的至少一个句法元素。
8.根据前述权利要求中任一项所述的方法,还包括基于AU定界符的值来确定编码类型。
9.根据前述权利要求中任一项所述的方法,其中,确定编码模式包括对一个或多于一个覆写标志进行解码。
10.根据权利要求9所述的方法,其中,所述一个或多于一个覆写标志包括指示是否使用帧间模式的第一标志和指示是否使用帧内模式的第二标志。
11.一种从位流解码视频数据的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及
其中,视频位流包括图片头部,
所述方法包括:
确定用于所述图片中的所述一个或多于一个条带的编码模式;
从所述图片头部确定要用于所述编码模式的句法元素的集合;以及
使用所确定的所述句法元素对所述一个或多于一个条带进行解码。
12.一种将视频数据编码到位流中的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及
其中,视频位流包括图片头部,
所述方法包括:
定义用于所述图片中的所述至少一个条带的单个编码模式;
将要用于所述单个编码模式的句法元素的集合编码到所述图片头部中;以及
使用所确定的所述句法元素对所述一个或多于一个条带进行编码。
13.一种将视频数据编码到位流中的方法,所述位流包括与一个或多于一个条带相对应的视频数据,其中,图片包括一个或多于一个条带,以及
其中,视频位流包括图片头部,
所述方法包括:
确定用于所述图片中的所述一个或多于一个条带的编码模式;
将要用于所述编码模式的句法元素的集合确定到所述图片头部中;以及
使用所确定的所述句法元素对所述一个或多于一个条带进行编码。
14.根据权利要求12或13所述的方法,其中,所述编码模式是帧间,并且对所述图片头部进行编码包括对所述图片头部中的帧间句法元素进行编码。
15.根据权利要求12或13所述的方法,其中,所述编码模式是帧内,并且对所述图片头部进行编码包括对所述图片头部中的帧内句法元素进行编码。
16.一种解码器,其适于通过执行根据权利要求1至11中任一项所述的方法来对位流进行解码。
17.一种编码器,其适于通过执行根据权利要求12至15中任一项所述的方法来对位流进行编码。
18.一种程序,其在由计算机或处理器执行时使所述计算机或所述处理器执行根据权利要求1至15中任一项所述的方法。
CN202080097072.6A 2019-12-20 2020-12-18 用于视频编码和解码的高级句法 Pending CN115176477A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1919033.9 2019-12-20
GB1919033.9A GB2590634A (en) 2019-12-20 2019-12-20 High Level syntax for video coding and decoding
PCT/EP2020/087248 WO2021123326A1 (en) 2019-12-20 2020-12-18 High level syntax for video coding and decoding

Publications (1)

Publication Number Publication Date
CN115176477A true CN115176477A (zh) 2022-10-11

Family

ID=69322969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080097072.6A Pending CN115176477A (zh) 2019-12-20 2020-12-18 用于视频编码和解码的高级句法

Country Status (8)

Country Link
US (1) US20230065112A1 (zh)
EP (1) EP4078974A1 (zh)
JP (2) JP7457791B2 (zh)
KR (1) KR20220114602A (zh)
CN (1) CN115176477A (zh)
GB (1) GB2590634A (zh)
TW (2) TW202348028A (zh)
WO (1) WO2021123326A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4018659A4 (en) 2019-09-19 2022-11-30 Beijing Bytedance Network Technology Co., Ltd. SCALE WINDOW IN VIDEO CODING
KR20220061108A (ko) 2019-09-19 2022-05-12 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩에서 레퍼런스 샘플 위치 유도
KR20220062085A (ko) * 2019-09-20 2022-05-13 알리바바 그룹 홀딩 리미티드 비디오 처리에서 양자화 파라미터 시그널링
EP4026336A4 (en) 2019-10-05 2022-12-07 Beijing Bytedance Network Technology Co., Ltd. LEVEL-BASED SIGNALING OF VIDEO CODING TOOLS
KR102637881B1 (ko) 2019-10-12 2024-02-19 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 정제 비디오 코딩 툴의 사용 및 시그널링
MX2022004200A (es) 2019-10-13 2022-05-02 Beijing Bytedance Network Tech Co Ltd Interaccion entre remuestreo de imagen de referencia y herramientas de codificacion de video.
CN114762350A (zh) * 2019-11-05 2022-07-15 Lg 电子株式会社 基于切片类型的图像/视频编译方法和设备
KR20220113379A (ko) * 2019-12-27 2022-08-12 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 픽처 헤더의 슬라이스 유형의 시그널링
US11212523B2 (en) * 2020-01-12 2021-12-28 Mediatek Inc. Video processing methods and apparatuses of merge number signaling in video coding systems
KR20220160576A (ko) * 2020-03-30 2022-12-06 바이트댄스 아이엔씨 비디오 코딩에서의 슬라이스 타입
EP4128793A4 (en) * 2020-04-10 2023-08-02 Beijing Dajia Internet Information Technology Co., Ltd. METHODS AND APPARATUS FOR HIGH LEVEL SYNTAX IN VIDEO CODING

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015080002A (ja) 2012-01-19 2015-04-23 三菱電機株式会社 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法
WO2014002375A1 (ja) 2012-06-26 2014-01-03 三菱電機株式会社 動画像符号化・復号装置及び方法
US11902584B2 (en) 2019-12-19 2024-02-13 Tencent America LLC Signaling of picture header parameters

Also Published As

Publication number Publication date
KR20220114602A (ko) 2022-08-17
JP7457791B2 (ja) 2024-03-28
US20230065112A1 (en) 2023-03-02
EP4078974A1 (en) 2022-10-26
GB201919033D0 (en) 2020-02-05
TW202139701A (zh) 2021-10-16
JP2024069479A (ja) 2024-05-21
TW202348028A (zh) 2023-12-01
JP2023504964A (ja) 2023-02-08
TWI812906B (zh) 2023-08-21
GB2590634A (en) 2021-07-07
WO2021123326A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
JP7457791B2 (ja) ビデオの符号化及び復号のための高レベルシンタックス
JP7403633B2 (ja) ビデオの符号化及び復号のための高レベルシンタックス
US20230115242A1 (en) High level syntax for video coding and decoding
TWI811651B (zh) 用於視頻編碼及解碼的高階語法
US20230108509A1 (en) High level syntax for video coding and decoding
TWI828970B (zh) 視訊編碼與解碼之高階語法
US20230179802A1 (en) High level syntax for video coding and decoding
TWI842980B (zh) 用於視訊編碼及解碼的高階語法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40083230

Country of ref document: HK