CN111683245A - 基于纹理相似度的cu划分决策 - Google Patents

基于纹理相似度的cu划分决策 Download PDF

Info

Publication number
CN111683245A
CN111683245A CN202010580106.9A CN202010580106A CN111683245A CN 111683245 A CN111683245 A CN 111683245A CN 202010580106 A CN202010580106 A CN 202010580106A CN 111683245 A CN111683245 A CN 111683245A
Authority
CN
China
Prior art keywords
current
texture similarity
vertical
partitioning
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010580106.9A
Other languages
English (en)
Other versions
CN111683245B (zh
Inventor
张萌萌
刘志
岳�文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010580106.9A priority Critical patent/CN111683245B/zh
Publication of CN111683245A publication Critical patent/CN111683245A/zh
Application granted granted Critical
Publication of CN111683245B publication Critical patent/CN111683245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于在对视频进行帧内编码时划分编码单元(CU)的方法。该方法特别适用于ERP视频的两极区域。基于率失真代价(RD‑cost)对当前LCU进行CU划分,其中,如果所述当前CU的大小为32x32或16x32或32x16,则:计算所述当前CU的水平纹理相似度和垂直纹理相似度;确定所述水平纹理相似度是否小于所述垂直纹理相似度;在所述水平纹理相似度小于所述垂直纹理相似度时,计算所述水平纹理相似度与所述垂直纹理相似度的差的绝对值;当所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与所述当前的大小32x32或16x32或32x16相关联的对应阈值时,确定禁用对所述当前CU的垂直划分。

Description

基于纹理相似度的CU划分决策
技术领域
本发明涉及图像与视频处理领域,更具体而言,涉及在多功能视频编码(VVC)中用于在对视频进行帧内编码时划分编码单元(CU)的方法、装置和计算机程序产品。
背景技术
2010年4月,两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding),一同开发高效视频编码HEVC(Highefficiency video coding)标准,其也称为H.265。HEVC标准的第一版已经在2013年的一月份完成。并于2013年4月、2014年10月和2015年4月相继发布的3个版本,这些版本能够很容易地从网络上获得,并且本申请将上述HEVC标准的三个版本并入本说明书中作为本发明的背景技术。
HEVC提出了全新的语法单元:编码单元(CU)是进行预测、变换、量化和熵编码的基本单元,预测单元(PU)是进行帧内帧间预测的基本单元,变换单元(TU)是进行变换和量化的基本单元。另外,每个CU定义了共享相同预测模式(帧内或帧间)的区域。
如图1所示,在HEVC中,可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中,HEVC都采用编码树单元(CTU)的编码结构,CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU(最大编码单元)编码后的CTU结构。在HEVC中,LCU可以只包含一个编码单元(CU),也可以使用CTU四叉树结构划分出为不同大小的CU。
HEVC中有四种大小CU,大小分别为:64x64、32x32、16x16和8x8。CU块越小,其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU),当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测,CU被分成两个PartMode(2Nx2N和NxN),这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N×2N,尺寸为8×8的CU属于N×N。
在HEVC中,PU进行帧内帧间预测的基本单元,PU的划分是以CU为基础的,具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地,PU尺寸基于PartMode:对于2N×2N的PartMode PU尺寸与CU相同,对于N×N的PartMode CU可以被划分为四个4×4子PU。对于2N*2N的CU模式,帧内预测PU的可选模式包括2N*2N和N*N,帧间预测PU的可选模式有8种,包括4种对称模式(2N*2N,N*2N,2N*N,N*N)和4种非对称模式(2N*nU,2N*nD,nL*2N,nR*2N),其中,2N*nU和2N*nD分别以上下1:3、3:1的比例划分,nL*2N和nR*2N分别以左右1:3、3:1的比例划分。
在HEVC中,仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择,为每一个帧内模式计算其RDO:
J=D+λR
其中,J为拉格朗日代价(亦即RD-cost),D表示当前帧内模式的失真,R表示编码当前预测模式下所有信息所需的比特数,λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。
处理一帧视频图像需要首先将其划分成多个LCU(64x64),然后依次编码每个LCU。每个LCU依次递归划分,其通过计算当前深度的RD-cost判定是否继续划分。一个LCU最小可划分至8x8大小的单元,如图2所示。编码器通过比较深度的RD-cost值判定是否继续划分,如果当前深度内的4个子CU的编码代价总和大于当前CU,则不继续划分;反之则继续划分,直至划分结束。
本领域技术人员容易理解,由于CTU是对LCU进行CU划分的树状编码结构,CTU中的CU划分方式是以LCU开始的,因此在本领域中这两个名词经常可交换地使用。
在帧内预测中,每个PU使用总共35种预测模式。使用粗略模式决策(RMD),我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后,通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时,完成当前CU的帧内预测。通过当前CU的RD-cost与当前CU及其4个子CU的四个子CU的总RD-cost之间的比较来选择具有较小RD-cost的次优CU内部预测完成。当完成所有CU分区时,完成当前CTU帧内预测。对于HEVC,当对LCU进行编码时,应当执行85个CU(一个64×64CU,四个32×32CU,十六个16×16CU和六十四个8×8CU)的帧内预测。当CU被编码时,应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。
多功能视频编码(Versatile Video Coding)VVC(H.266)由JVET组织于2018年4月10美国圣地亚哥会议上提出的,在H.265/HEVC基础上改进的新一代视频编码技术,其主要目标是改进现有HEVC,提供更高的压缩性能,同时会针对新兴应用(360°全景视频和HDR)进行优化。
VCC的相关文件和测试平台可以从https://jvet.hhi.fraunhofer.de/获得,并且H.266的提案可以从http://phenix.it-sudparis.eu/jvet/获得。
VVC依然沿用H.264就开始采用的混合编码框架,其VTM8编码器的一般性方框图如图1所示。帧间和帧内预测编码:消除时间域和空间域的相关性。变换编码:对残差进行变换编码以消除空间相关性。熵编码:消除统计上的冗余度。VVC将在混合编码框架内,着力研究新的编码工具或技术,提高视频压缩效率。
虽然VVC和HEVC中都采用树结构来进行CTU划分,但是在VVC采用了与HEVC不同的树结构CTU划分方式。如上所述地,在HEVC中,使用四叉树结构将CTU划分为CU(即编码树)。关于帧内编码和帧间编码的决策是在叶节点CU处做出的。然后,根据PU划分类型,每个叶CU可以进一步划分为1、2或4个预测单元PU。在每个PU内,使用相同的预测过程,并将相关信息以PU为基础发送到解码器段。在基于PU的预测过程获得了残差块后,可以根据类似于CU的编码树的另一类似四叉树结构将叶CU划分为TU。在VVC中,则采用了具有嵌套的多类型树的四叉树分割结构,其中嵌套的多类型树使用二叉树和三叉树。即,在VVC中删除了CU、PU和TU的不同形式。一个CTU首先通过四叉树进行划分,然后再通过多类型树进行进一步划分。如图3所示,VVC规定了4种多类型树划分模式:水平二叉树划分、垂直二叉树划分、水平三叉树划分、垂直三叉树划分。多类型树的叶节点被称为编码单元(CU),并且除非CU对于最大变换长度而言过大,否则该CU分割就会用于预测和变换处理而不进行进一步分割。这就意味着在大多数情况下,CU、PU和TU在该具有嵌套的多类型树的四叉树分割结构是具有相同的块大小的。其中的例外是所支持的最大变换长度小于CU的颜色分量的宽度或高度。实际上,VVC中并不再存在PU和TU的概念。
通常,为了确定最佳的CU分割,需要遍历所有可能的划分模式,通过最小的率失真代价(RD-cost)来确定CU的最佳划分模式。根据VVC的CU划分规则,首先对CTU进行四叉树划分,然后采用多类型树结构进一步划分四叉树叶节点。在多类型树结构中有四种划分类型:垂直二叉树划分、水平二叉树划分、垂直三叉树划分和水平三叉树划分。四叉树和多类型树的大小使用编码参数来限制。例如,MaxQTSize、MinMTSize分别限制了四叉树和多类型树的最大根节点大小。MinQTSize、MinMTSize限制了四叉树和多类型树的最小根节点大小。
图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例,其中,粗体框表示四叉树分割,剩余的边表示多类型树分割。
帧内预测一直是视频编码中的主要研究内容,它能够利用图像的空间相关性去除空间信息冗余以实现视频数据的压缩。在VVC(H.266)中提出了许多新的帧内预测技术,其中包括67种帧内预测模式、分量间线性模型预测、位置决策帧内预测联合、多参考行帧内预测、矩阵加权帧内预测、帧内子划分(ISP)编码模式。
在VVC的帧内预测中,规定了67种帧内预测模式,如图5所示。为了保持最可能模式(MPM)列表生成过程的低复杂度,通过考虑两个可用的相邻帧内预测模式,来统一使用6个MPM。
虚拟现实(virtual reality,VR)视频是用专业摄像机捕捉整个场景的图像信息,视频由软件拼接,由专用设备播放。它还为观看者提供了各种操作图像的功能,可以放大、缩小和向各个方向移动来观看场景,从而模拟和再现场景的真实环境。在虚拟现实系统中,多个摄像机捕获360度场景并将所有场景拼接成球形视频,从而创建360度视频。当我们对360度视频进行编码时,我们必须将球形视频投影到平面视频中以适应广泛使用的编码标准,例如H.264/AVC和H.265/高效视频编码(HEVC)。多种投影格式,如等矩形投影(ERP),调整的等面积(AEP),立方体贴图(CMP),等角立方图(EAC),截断方形金字塔(TSP),紧凑八面体(COHP),紧凑二十面体(CISP)已被提议。在这些格式中,等矩形投影(ERP)是最常用的360度全景视频投影方式,它将球面经线和纬线映射为恒定间距的垂直线和水平线,通过这种方式将点映射到二维平面。
通常,ERP视频在垂直方向上的赤道部分、中纬度部分和两极部分(有时更简单地将其分为中间区域和两极区域)分别会具有不同的特性,导致当对这些部分应用统一的编码方式时通常会造成非最优编码。这些区域的划分可以如图6所示。例如,在两极区域中,ERP投影格式导致的拉伸和失真特别严重,导致冗余度增加和编码效率降低。
因此,当对360度ERP投影格式视频进行编码时,对其两极区域的编码方式进行特别地设计,能够明显减少冗余度并提高编码效率。这种方式在4K、6K、8K的高分辨率的360度视频的情况下尤其明显,因为这些高分辨率视频中的两极区域的拉伸尤其明显。
发明内容
本发明提出了用于在对视频进行帧内编码时划分编码单元(CU)的的方法、装置、编解码器以及处理器可读存储介质。
根据本发明的一个方面,一种用于在对视频进行帧内编码时划分编码单元(CU)的方法:
确定当前帧的最大编码单元(LCU);
基于率失真代价(RD-cost)对当前LCU进行CU划分,包括:
至少部分地基于所述当前CU的大小,来确定是否计算当前CU的水平纹理相似度和垂直纹理相似度;
至少部分地基于所述当前CU的大小、所述当前CU的所述水平纹理相似度和所述垂直纹理相似度的比较,来确定是否禁用对所述当前CU的垂直划分,其中,禁用对所述当前CU的垂直划分在基于所述RD-cost对所述当前CU进行进一步划分时不考虑对所述当前CU的垂直划分。
根据本发明的进一步的方面,至少部分地基于所述当前CU的大小、所述当前CU的所述水平纹理相似度和所述垂直纹理相似度的比较,来确定是否禁用对所述当前CU的垂直划分包括:
至少部分地基于所述当前CU的大小、所述水平纹理相似度是否小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值是否大于与所述当前CU的大小相关联的阈值,来确定是否禁用对所述当前CU的垂直划分。
根据本发明的进一步的方面,至少部分地基于所述当前CU的大小、所述水平纹理相似度是否小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值是否大于与所述当前CU的大小相关联的阈值,来确定是否禁用对所述当前CU的垂直划分包括:
至少部分地基于所述当前CU的大小为32x32、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与32x32的所述当前CU的大小相关联的第一阈值,来确定禁用对所述当前CU的垂直划分;或者
至少部分地基于所述当前CU的大小为16x32、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与16x32的所述当前CU的大小相关联的第二阈值,来确定禁用对所述当前CU的垂直划分;或者
至少部分地基于所述当前CU的大小为32x16、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与32x16的所述当前CU的大小相关联的第三阈值,来确定禁用对所述当前CU的垂直划分。
根据本发明的进一步的方面,对所述当前CU的垂直划分是对所述当前CU的二叉树或三叉树垂直分割。
根据本发明的进一步的方面,基于所述当前CU的大小为32x32或16x32或32x16,来计算当前CU的水平纹理相似度和垂直纹理相似度。
根据本发明的一个方面,一种用于在对视频进行帧内编码时划分编码单元(CU)的方法:
确定当前帧的最大编码单元(LCU);
基于率失真代价(RD-cost)对当前LCU进行CU划分,其中,如果所述当前CU的大小为32x32或16x32或32x16,则:
计算所述当前CU的水平纹理相似度和垂直纹理相似度;
确定所述水平纹理相似度是否小于所述垂直纹理相似度;
在所述水平纹理相似度小于所述垂直纹理相似度时,计算所述水平纹理相似度与所述垂直纹理相似度的差的绝对值;
当所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与所述当前的大小32x32或16x32或32x16相关联的对应阈值时,确定禁用对所述当前CU的垂直划分。
根据本发明的进一步的方面,所述视频是ERP视频,并且当所述当前LCU处于两极区域时才进行所述禁用。
根据本发明的另一方面,提出了一种视频编解码器,其用于在对视频进行帧内编码时划分编码单元(CU),所述视频编解码器针对输入的原始视频流进行如上所述的编码操作,或针对输入的编码视频流如上所述的解码操作。
根据本发明的另一方面,提出了一种能够执行视频编解码的计算设备,其包括:
处理器;以及
耦合到所述处理器的非易失性存储器,所述非易失性存储器存储有指令或程序代码,当所述指令或程序代码被所述处理器执行时,能够实现针对输入的原始视频流进行如上所述的编码操作,或针对输入的编码视频流进行如上所述的解码操作。
根据本发明的另一方面,上述计算设备可以是片上系统(SOC)
根据本发明的另一方面,提出了一种用于如上所述的方法的计算机程序产品。
附图说明
图1示出了HEVC/VVC的通用编码器的一般性方框图的实施例。
图2示出了HEVC中的编码树(CTU)的示意图。
图3示出了用于VVC的多类型树划分模式。
图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例。
图5示出了VVC的帧内预测模式的一个具体实施例。
图6是360度ERP视频中的垂直区域划分的一个具体实施例。
图7是根据本发明的一个实施例的用于在对视频进行帧内编码时划分编码单元(CU)的方法的流程图。
图8是根据本发明的一个实施例的用于在对视频进行帧内编码时划分编码单元(CU)的方法的流程图。
图9示出了用于实现本发明的一个实施例的编码方法的设备的示意图。
具体实施方式
现在参考附图来描述各种方案。在以下描述中,为了进行解释,阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而,显然,在没有这些具体细节的情况下也能够实现这些方案。
如在本申请中所使用的,术语“组件”、“模块”、“系统”等等旨在指代与计算机相关的实体,例如但不限于,硬件、固件、硬件和软件的组合、软件,或者是执行中的软件。例如,组件可以是但不限于:在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言,运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内,并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外,这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信,例如根据具有一个或多个数据分组的信号,例如,来自于借助于信号与本地系统、分布式系统中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他系统交互的一个组件的数据。
本发明提出了用于在VVC(H.266)中的方法、装置、编解码器以及处理器可读存储介质。更具体而言,本发明提出了一种新颖的在多功能视频编码(VVC)中用于在对视频进行帧内编码时划分编码单元(CU)的方法。
应该理解,本发明主要针对虚拟现实360度ERP视频做出,但本领域技术人员容易理解,本发明的各个方面显然可以适合于任何其他编码方法和标准。
应该理解,本发明虽然特别适合于虚拟现实360度ERP视频中对两极区域进行帧内编码,但本领域技术人员容易理解,本发明的各个方面显然可以适合于其他类型的视频、帧间编码、以及帧中的其他区域的CU划分。本发明并不局限于具体实施方式中描述的视频的类型、协议、帧内/帧间编码类型、帧中的区域,而是应该给予与权利要求的文字描述相一致的最大保护范围。
如上所述的,等矩形投影(ERP)是最常用的360度全景视频投影方式,它将球面经线和纬线映射为恒定间距的垂直线和水平线,通过这种方式将点映射到二维平面。通常,ERP视频在垂直方向上的赤道部分、中纬度部分和两极部分(有时更简单地将其分为中间区域和两极区域)分别会具有不同的特性,导致当对这些部分应用统一的编码方式时通常会造成非最优编码。这些区域的划分可以如图6所示。例如,在两极区域中,ERP投影格式导致的拉伸和失真特别严重,导致冗余度增加和编码效率降低。
因此,本发明充分考虑了虚拟现实360度ERP视频中两极区域的特点,提出对其两极区域的编码方式进行特别地设计,能够明显减少冗余度并提高编码效率。这种方式在4K、6K、8K的高分辨率的360度视频的情况下尤其明显,因为这些高分辨率视频中的两极区域的拉伸尤其明显。
更具体而言,在VVC中,当进行CU划分时,会考虑四叉树划分、二叉树水平和垂直划分以及三叉树水平和垂直划分,每个CU会在以上5种划分方式或者不划分之间选择RD cost最小的一种模式。为了找到最佳的划分模式,在RDO期间会遍历每一种方式,这一过程非常耗时,为了降低编码复杂度,本文尝试结合ERP视频以及VVC划分方式的特点,对CU的划分模式进行早期的预测,从而跳过不必要的RD cost计算。
图7是根据本发明的一个实施例的用于在对视频进行帧内编码时划分编码单元(CU)的方法的流程图。
该方法可以从框701处开始。在一个实施例中,可以首先对当前帧进行条带划分。在另一个实施例中,可以不对当前帧进行条带划分。将当前帧划分为多个CTU。如本领域公知的,HEVC和VVC的编码都是以CTU为基础的。例如,可以基于率失真优化(RDO)将CTU划分为CU。在现有技术中,通常采用图2或图4所示的划分方法进行划分。本发明则是在CU划分期间对CU的划分模式进行早期的预测,从而跳过不必要的RD cost计算。
在框703中,该方法可以包括确定当前的LCU。如本领域公知的,CU划分是从LCU(或称CTU)开始的,并产生通常称为CTU的递归式语法结构。
在框705中,该方法可以包括基于率失真代价(RD-cost)对当前LCU进行递归式划分,直到达到最小CU划分深度或最小CU为止。本发明是在该递归式CU划分期间,针对特定的CU大小进行早期的预测,从而跳过针对特定大小的CU的某些划分方式的不必要的RD cost计算。
在方框707中,该方法可以包括在进行LCU的CU划分时,至少部分地基于当前CU的大小,确定是否计算当前CU的水平纹理相似度和垂直纹理相似度。
在一个实施例中,基于所述当前CU的大小为32x32或16x32或32x16,来计算当前CU的水平纹理相似度和垂直纹理相似度。换言之,可以仅针对当前CU的大小为32x32或16x32或32x16的情况来进行计算当前CU的水平纹理相似度和垂直纹理相似度,从而进行上述禁用判断;针对其他CU的大小不进行上述对当前CU的水平纹理相似度和垂直纹理相似度的计算。但是,本发明并不局限于此。
在一个具体实施例中,通过如下公式来计算当前CU的水平纹理相似度(rh)和垂直纹理相似度(rv):
Figure BDA0002552869770000101
Figure BDA0002552869770000102
其中,w和h是当前CU的宽度和高度,Z(i,j)是当前CU中的坐标(i,j)处的像素值。
在另一个优选实施例中,考虑到360度视频的序列的分辨率都非常高,提出了采用如下简化方法来计算当前CU的水平纹理相似度(Rh)和垂直纹理相似度(Rv):
Figure BDA0002552869770000111
Figure BDA0002552869770000112
其中,w和h是当前CU的宽度和高度,Ec(i)和Er(j)分别为当前CU第j行像素均值、当前CU的第i列像素均值。
采用上述优选实施例能够在保证一定的水平纹理相似度和垂直纹理相似度的准确性的情况下,仅可能地降低计算量。很容易理解,该方式尤其适合于并行计算。
本领域技术人员还可以设想使用除了上述优选实施例之外的其他方式来计算当前CU的水平纹理相似度和垂直纹理相似度。
在方框709中,该方法可以包括至少部分地基于当前CU的大小、当前CU的水平纹理相似度和垂直纹理相似度的比较,来确定是否禁用对当前CU的垂直划分,其中,禁用对所述当前CU的垂直划分在基于所述RD-cost对所述当前CU进行进一步划分时不考虑对所述当前CU的垂直划分。在应用VVC的具体实施例中,禁用对所述当前CU的垂直划分表示在对当前CU进行划分决策是不针对二叉树垂直划分和三叉树垂直划分来计算RD-cost,从而不考虑这两种划分方式。
在一个具体实施例中,至少部分地基于当前CU的大小、水平纹理相似度是否小于垂直纹理相似度、以及水平纹理相似度与垂直纹理相似度的差的绝对值是否大于与当前CU的大小相关联的阈值,来确定是否禁用对所述当前CU的垂直划分。
在一个具体实施例中,至少部分地基于当前CU的大小为32x32、水平纹理相似度小于垂直纹理相似度、以及水平纹理相似度与垂直纹理相似度的差的绝对值大于第一阈值,来确定禁用对所述当前CU的垂直划分。
在一个具体实施例中,至少部分地基于当前CU的大小为16x32、水平纹理相似度小于垂直纹理相似度、以及水平纹理相似度与垂直纹理相似度的差的绝对值大于与第二阈值,来确定禁用对所述当前CU的垂直划分。
在一个具体实施例中,至少部分地基于当前CU的大小为32x16、水平纹理相似度小于垂直纹理相似度、以及水平纹理相似度与垂直纹理相似度的差的绝对值大于第三阈值,来确定禁用对所述当前CU的垂直划分。
其中,第一、第二、第三阈值是分别与CU的大小32x32或16x32或32x16相关联的阈值。
如上所述地,本发明针对特定的CU大小来进行针对垂直划分的提前终止决策。对于除了特定的CU大小之外的CU大小情况下的CU划分,则不在本发明考虑的范围之内。例如,本领域技术人员可以将任何CU划分方式应用于除了特定的CU大小之外的CU大小情况下的CU划分。
如上所述地,本发明针对特定的CU大小来进行针对垂直划分的提前决策。除了针对垂直划分的提前终止决策之外,针对其他划分类型的提前终止决策则不在本发明考虑的范围之内。例如,本领域技术人员可以在应用本发明的同时,针对其他划分类型采用其他各种提前终止决策。
图8是根据本发明的一个实施例的用于在对视频进行帧内编码时划分编码单元(CU)的方法的流程图。
在方法从框801处开始,在一个实施例中,可以首先对当前帧进行条带划分。在另一个实施例中,可以不对当前帧进行条带划分。将当前帧划分为多个CTU。如本领域公知的,HEVC和VVC的编码都是以CTU为基础的。例如,可以基于率失真优化(RDO)将CTU划分为CU。在现有技术中,通常采用图2或图4所示的划分方法进行划分。本发明则是在CU划分期间对CU的划分模式进行早期的预测,从而跳过不必要的RD cost计算。
在框803中,该方法可以包括确定当前的LCU。如本领域公知的,CU划分是从LCU(或称CTU)开始的,并产生通常称为CTU的递归式语法结构。
在框805中,该方法可以包括基于率失真代价(RD-cost)对当前LCU进行递归式划分,直到达到最小CU划分深度或最小CU为止。本发明是在该递归式CU划分期间,针对特定的CU大小进行早期的预测,从而跳过针对特定大小的CU的某些划分方式的不必要的RD cost计算。
在判断框807中,该方法可以包括确定当前CU的大小为32x32或16x32或32x16。如果不是上述大小(判断框807:否),则可以针对所有CU划分方式进行遍历和RD-cost计算(例如在框809中)。如上所述地,本发明针对特定的CU大小(例如,32x32或16x32或32x16)来进行针对垂直划分的提前终止决策。对于除了特定的CU大小之外的CU大小情况下的CU划分,则不在本发明考虑的范围之内。例如,本领域技术人员可以将任何CU划分方式应用于除了特定的CU大小之外的CU大小情况下的CU划分。因此框809中的任何操作(判断框807:否)都不在本发明考虑的范围之内。
在当前CU的大小为32x32或16x32或32x16时,该方法可以包括:在框811中,计算当前CU的水平纹理相似度和垂直纹理相似度。
在一个实施例中,可以采用以上针对图7所述的计算水平纹理相似度(rh)和垂直纹理相似度(rv)的方式来计算当前CU的水平纹理相似度和垂直纹理相似度。
在一个优选实施例中,可以采用上针对图7所述的计算水平纹理相似度(Rh)和垂直纹理相似度(Rv)的方式来计算当前CU的水平纹理相似度和垂直纹理相似度。采用上述优选实施例能够在保证一定的水平纹理相似度和垂直纹理相似度的准确性的情况下,仅可能地降低计算量。很容易理解,该方式尤其适合于并行计算。
本领域技术人员还可以设想使用除了上述优选实施例之外的其他方式来计算当前CU的水平纹理相似度和垂直纹理相似度。
在判断框813中,本方法包括:确定当前CU的水平纹理相似度是否小于其垂直纹理相似度。在一个实施例中,本发明可以使用如上所述地计算得到的水平纹理相似度(rh)和垂直纹理相似度(rv)或者水平纹理相似度(Rh)和垂直纹理相似度(Rv)来进行该确定。
当确定当前CU的水平纹理相似度不小于其垂直纹理相似度(判断框813:否),则该方法可以进行到框809,如上所述地。
当确定当前CU的水平纹理相似度小于其垂直纹理相似度(判断框813:是),则该方法可以包括:在框817中,计算当前CU的水平纹理相似度与垂直纹理相似度的差的绝对值。
在判断框819中,该方法可以包括:确定所计算的当前CU的水平纹理相似度与垂直纹理相似度的差的绝对值是否大于与所述当前CU的大小32x32或16x32或32x16相关联的对应阈值。在一个优选实施例中,针对不同的当前CU的大小32x32或16x32或32x16,可以使用不同的阈值,即第一、第二和第三阈值。在另一个实施例中,与当前CU的大小32x32或16x32或32x16相关联的对应的第一、第二和第三阈值中的两个或更多个可以是相同的。
在一个实施例中,第一、第二和第三阈值可以是预先定义的。在另一个实施例中,第一、第二和第三阈值可以是自适应的。在一个优选实施例中,可以针对一组多个帧(例如一个GOP内的所有帧),针对第一个帧中的前几个CTU进行分析以导出最佳的第一、第二和第三阈值。在另一个优选实施例中,可以针对每个已经编码的CTU自适应地调整所使用的第一、第二和第三阈值。
当所计算的当前CU的水平纹理相似度与垂直纹理相似度的差的绝对值大于与所述当前CU的大小32x32或16x32或32x16相关联的对应阈值时(判断框819:是),该方法可以包括:禁用对所述当前CU的垂直划分。禁用对当前CU的垂直划分在基于RD-cost对当前CU进行进一步划分时不考虑对当前CU的垂直划分。
在一个具体实施例中,对当前CU的垂直划分是对当前CU的二叉树或三叉树垂直分割。
当判断框819为否时,该方法可以进行到框809,如上所述地。
在一个优选实施例中,视频是ERP视频,并且当当前LCU处于两极区域时才进行所述禁用。
图9中示出了一种可用于视频编解码的设备,该设备包括:处理器和存储器,在所述存储器中包括用于实现本发明的各种方法的处理器可执行代码。
在一个具体实施例中,该设备可以是作为片上系统(SOC)的计算设备。
根据另一方面,本公开内容还可以涉及用于实现上述编码方法的编码器。该编码器可以是专用硬件。根据另一方面,本公开内容还可以涉及对应的对编码后的视频流进行解码的解码器。
根据另一方面,本公开内容还可以涉及用于上述编码方法或解码方法的视频编解码器。根据另一方面,本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
当用硬件实现时,视频编码器可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合,来实现或执行。通用处理器可以是微处理器,但是可替换地,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外,至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。
当用ASIC、FPGA等硬件电路来实现视频编码器时,其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个系统上的各种约束条件来以各种方式设计和实现这些电路,来实现本发明所公开的各种功能。
尽管前述公开文件论述了示例性方案和/或实施例,但应注意,在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下,可以在此做出许多变化和修改。而且,尽管以单数形式描述或要求的所述方案和/或实施例的要素,但也可以设想复数的情况,除非明确表示了限于单数。另外,任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用,除非表明了有所不同。

Claims (10)

1.一种用于在对视频进行帧内编码时划分编码单元(CU)的方法:
确定当前帧的最大编码单元(LCU);
基于率失真代价(RD-cost)对当前LCU进行CU划分,包括:
至少部分地基于所述当前CU的大小,来确定是否计算当前CU的水平纹理相似度和垂直纹理相似度;
至少部分地基于所述当前CU的大小、所述当前CU的所述水平纹理相似度和所述垂直纹理相似度的比较,来确定是否禁用对所述当前CU的垂直划分,其中,禁用对所述当前CU的垂直划分在基于所述RD-cost对所述当前CU进行进一步划分时不考虑对所述当前CU的垂直划分。
2.如权利要求1所述的方法,其中,至少部分地基于所述当前CU的大小、所述当前CU的所述水平纹理相似度和所述垂直纹理相似度的比较,来确定是否禁用对所述当前CU的垂直划分包括:
至少部分地基于所述当前CU的大小、所述水平纹理相似度是否小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值是否大于与所述当前CU的大小相关联的阈值,来确定是否禁用对所述当前CU的垂直划分。
3.如权利要求2所述的方法,其中,至少部分地基于所述当前CU的大小、所述水平纹理相似度是否小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值是否大于与所述当前CU的大小相关联的阈值,来确定是否禁用对所述当前CU的垂直划分包括:
至少部分地基于所述当前CU的大小为32x32、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与32x32的所述当前CU的大小相关联的第一阈值,来确定禁用对所述当前CU的垂直划分;或者
至少部分地基于所述当前CU的大小为16x32、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与16x32的所述当前CU的大小相关联的第二阈值,来确定禁用对所述当前CU的垂直划分;或者
至少部分地基于所述当前CU的大小为32x16、所述水平纹理相似度小于所述垂直纹理相似度、以及所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与32x16的所述当前CU的大小相关联的第三阈值,来确定禁用对所述当前CU的垂直划分。
4.如权利要求1所述的方法,其中,对所述当前CU的垂直划分是对所述当前CU的二叉树或三叉树垂直分割。
5.如权利要求1所述的方法,其中,基于所述当前CU的大小为32x32或16x32或32x16,来计算当前CU的水平纹理相似度和垂直纹理相似度。
6.一种用于在对视频进行帧内编码时划分编码单元(CU)的方法:
确定当前帧的最大编码单元(LCU);
基于率失真代价(RD-cost)对当前LCU进行CU划分,其中,如果所述当前CU的大小为32x32或16x32或32x16,则:
计算所述当前CU的水平纹理相似度和垂直纹理相似度;
确定所述水平纹理相似度是否小于所述垂直纹理相似度;
在所述水平纹理相似度小于所述垂直纹理相似度时,计算所述水平纹理相似度与所述垂直纹理相似度的差的绝对值;
当所述水平纹理相似度与所述垂直纹理相似度的差的绝对值大于与所述当前CU的大小32x32或16x32或32x16相关联的对应阈值时,确定禁用对所述当前CU的垂直划分。
7.如权利要求1-6中任一项所述的方法,其中,所述视频是ERP视频,并且当所述当前LCU处于两极区域时才进行所述禁用。
8.一种视频编解码器,其能够在对视频进行帧内编码时划分编码单元(CU),所述视频编解码器针对输入的视频流进行根据权利要求1-6中任一项所述的编码操作。
9.一种能够执行视频编解码的计算设备,其包括:
处理器;以及
耦合到所述处理器的非易失性存储器,所述非易失性存储器存储有指令或程序代码,当所述指令或程序代码被所述处理器执行时,能够实现根据权利要求1-6中任一项所述的在对视频进行帧内编码时划分编码单元(CU)的方法。
10.如权利要求9所述的计算设备,其中,该计算设备是片上系统(SOC)。
CN202010580106.9A 2020-06-23 2020-06-23 基于纹理相似度的cu划分决策 Active CN111683245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010580106.9A CN111683245B (zh) 2020-06-23 2020-06-23 基于纹理相似度的cu划分决策

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010580106.9A CN111683245B (zh) 2020-06-23 2020-06-23 基于纹理相似度的cu划分决策

Publications (2)

Publication Number Publication Date
CN111683245A true CN111683245A (zh) 2020-09-18
CN111683245B CN111683245B (zh) 2022-07-22

Family

ID=72437099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010580106.9A Active CN111683245B (zh) 2020-06-23 2020-06-23 基于纹理相似度的cu划分决策

Country Status (1)

Country Link
CN (1) CN111683245B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115042A (zh) * 2021-03-26 2021-07-13 中山大学 一种基于isp优化的帧内决策方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200820A1 (en) * 2014-06-26 2015-12-30 Huawei Technologies Co., Ltd. Method and device for providing depth based block partitioning in high efficiency video coding
CN107343198A (zh) * 2017-05-08 2017-11-10 上海大学 一种avs2帧间预测模式快速判决方法
CN109068142A (zh) * 2018-09-06 2018-12-21 北方工业大学 基于纹理特征的360度视频帧内预测快速决策
WO2019141012A1 (en) * 2018-01-18 2019-07-25 Mediatek Inc. Video processing methods and apparatuses for processing video data coded in large size coding units
CN110650338A (zh) * 2019-09-20 2020-01-03 中山大学 一种多功能视频编码帧内划分方法、系统及存储介质
CN110691254A (zh) * 2019-09-20 2020-01-14 中山大学 一种多功能视频编码的快速判决方法、系统及存储介质
CN110855973A (zh) * 2019-11-15 2020-02-28 北方工业大学 基于区域方向性离差和的视频帧内快速算法
CN110868593A (zh) * 2019-11-18 2020-03-06 北方工业大学 基于区域决策树的视频cu快速划分

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200820A1 (en) * 2014-06-26 2015-12-30 Huawei Technologies Co., Ltd. Method and device for providing depth based block partitioning in high efficiency video coding
CN107343198A (zh) * 2017-05-08 2017-11-10 上海大学 一种avs2帧间预测模式快速判决方法
WO2019141012A1 (en) * 2018-01-18 2019-07-25 Mediatek Inc. Video processing methods and apparatuses for processing video data coded in large size coding units
CN109068142A (zh) * 2018-09-06 2018-12-21 北方工业大学 基于纹理特征的360度视频帧内预测快速决策
CN110650338A (zh) * 2019-09-20 2020-01-03 中山大学 一种多功能视频编码帧内划分方法、系统及存储介质
CN110691254A (zh) * 2019-09-20 2020-01-14 中山大学 一种多功能视频编码的快速判决方法、系统及存储介质
CN110855973A (zh) * 2019-11-15 2020-02-28 北方工业大学 基于区域方向性离差和的视频帧内快速算法
CN110868593A (zh) * 2019-11-18 2020-03-06 北方工业大学 基于区域决策树的视频cu快速划分

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115042A (zh) * 2021-03-26 2021-07-13 中山大学 一种基于isp优化的帧内决策方法、装置、设备及介质
CN113115042B (zh) * 2021-03-26 2022-06-24 中山大学 一种基于isp优化的帧内决策方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111683245B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
KR102487618B1 (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN111149359B (zh) 用于对图像进行编码/解码的方法和装置以及存储有比特流的记录介质
KR20230113257A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한기록 매체
KR20190063452A (ko) 루프내 필터링을 이용한 영상 부호화/복호화 방법 및 장치
KR20190043482A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20180061046A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20190013666A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20180065953A (ko) 비디오 신호 처리 방법 및 장치
KR20200002697A (ko) 처리율 향상을 위한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20180040088A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20200033194A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN112335250A (zh) 用于对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
KR102617953B1 (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20180061027A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN112740686A (zh) 用于帧内预测模式编码/解码的方法和设备以及用于存储比特流的记录介质
KR20200032657A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN113940077A (zh) 用于视频编码/解码的虚拟边界信令方法和设备
CN113454993A (zh) 用于对视频进行编码/解码的方法和装置以及存储比特流的记录介质
KR20200056951A (ko) 지역 기반 화면간/화면내 예측 기술을 이용한 부호화/복호화 방법 및 장치
CN110868593B (zh) 基于区域决策树的视频cu快速划分
CN111885382B (zh) 帧内色度预测模式快速选择
CN111683245B (zh) 基于纹理相似度的cu划分决策
CN113875235A (zh) 图像编码/解码方法和装置及存储比特流的记录介质
CN113438479B (zh) 基于ctu信息熵的码率控制
CN110855973B (zh) 基于区域方向性离差和的视频帧内快速算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant