CN116647676A - 基于屏幕内容区域特性的cu划分快速选择 - Google Patents

基于屏幕内容区域特性的cu划分快速选择 Download PDF

Info

Publication number
CN116647676A
CN116647676A CN202310646534.0A CN202310646534A CN116647676A CN 116647676 A CN116647676 A CN 116647676A CN 202310646534 A CN202310646534 A CN 202310646534A CN 116647676 A CN116647676 A CN 116647676A
Authority
CN
China
Prior art keywords
horizontal
vertical
current
sub
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310646534.0A
Other languages
English (en)
Inventor
张萌萌
白慧慧
刘志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Beijing Jiaotong University
Original Assignee
Beijing Union University
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University, Beijing Jiaotong University filed Critical Beijing Union University
Priority to CN202310646534.0A priority Critical patent/CN116647676A/zh
Publication of CN116647676A publication Critical patent/CN116647676A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于对屏幕内容视频中的CTU进行CU划分的方法,包括:确定当前CU是否属于第一类区域或第二类区域,其中:所述第一类区域在水平方向和垂直方向上的活动度低,并且所述第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值;响应于确定当前CU属于所述第一类区域,提前中止CU划分;以及响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一。

Description

基于屏幕内容区域特性的CU划分快速选择
技术领域
本发明涉及图像与视频处理领域,更具体而言,涉及基于屏幕内容区域特性的CU划分快速选择的方法、装置和计算机程序产品。
背景技术
数字视频功能可以结合到各种设备中,包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型电脑或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏机、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。
数字视频设备实施视频编码(coding)技术,诸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4,第10部分,高级视频编码(AVC)、高效视频编码(HEVC)标准、ITU-TH.265/高效视频编码(HEVC)、多功能视频编码(Versatile Video Coding)VVC(H.266)、以及此类标准的扩展定义的标准中描述的那些技术。通过实施这样的视频编码技术,视频设备可以更有效地发送、接收、编码、解码和/或存储数字视频信息。
2010年4月,两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding),一同开发高效视频编码标准。
在2013年,JCT-VC完成了对HEVC(High efficiency video coding)标准(也称为H.265)开发,并且随后陆续发布了多个版本。
HEVC提出了全新的语法单元:编码单元(CU)是进行预测、变换、量化和熵编码的基本单元,预测单元(PU)是进行帧内帧间预测的基本单元,变换单元(TU)是进行变换和量化的基本单元。另外,每个CU定义了共享相同预测模式(帧内或帧间)的区域。
如图1所示,在HEVC中,可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中,HEVC都采用编码树单元(CTU)的编码结构,CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB(编码树块,Coding Tree Block)、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU(最大编码单元)编码后的CTU结构。在HEVC中,LCU可以只包含一个编码单元(CU),也可以使用CTU四叉树结构划分出为不同大小的CU。
HEVC中有四种大小CU,大小分别为:64x64、32x32、16x16和8x8。CU块越小,其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU),当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测,CU被分成两个PartMode(2Nx2N和NxN),这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N×2N,尺寸为8×8的CU属于N×N。
在HEVC中,PU进行帧内帧间预测的基本单元,PU的划分是以CU为基础的,具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地,PU尺寸基于PartMode:对于2N×2N的PartMode PU尺寸与CU相同,对于N×N的PartMode CU可以被划分为四个4×4子PU。对于2N*2N的CU模式,帧内预测PU的可选模式包括2N*2N和N*N,帧间预测PU的可选模式有8种,包括4种对称模式(2N*2N,N*2N,2N*N,N*N)和4种非对称模式(2N*nU,2N*nD,nL*2N,nR*2N),其中,2N*nU和2N*nD分别以上下1:3、3:1的比例划分,nL*2N和nR*2N分别以左右1:3、3:1的比例划分。
在HEVC中,仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择,为每一个帧内模式计算其RDO:
J=D+λR (1)
其中,J为拉格朗日代价(亦即RD-cost),D表示当前帧内模式的失真,R表示编码当前预测模式下所有信息所需的比特数,λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。
处理一帧视频图像需要首先将其划分成多个LCU(64x64),然后依次编码每个LCU。每个LCU依次递归划分,其通过计算当前深度的RD-cost判定是否继续划分。一个LCU最小可划分至8x8大小的单元,如图2所示。编码器通过比较深度的RD-cost值判定是否继续划分,如果当前深度内的4个子CU的编码代价总和大于当前CU,则不继续划分;反之则继续划分,直至划分结束。
本领域技术人员容易理解,由于CTU是对LCU进行CU划分的树状编码结构,CTU中的CU划分方式是以LCU开始的,因此在本领域中这两个名词经常可交换地使用。
在帧内预测中,每个PU使用总共35种预测模式。使用粗略模式决策(RMD),我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后,通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时,完成当前CU的帧内预测。通过当前CU的RD-cost与当前CU及其4个子CU的四个子CU的总RD-cost之间的比较来选择具有较小RD-cost的次优CU内部预测完成。当完成所有CU分区时,完成当前CTU帧内预测。对于HEVC,当对LCU进行编码时,应当执行85个CU(一个64×64CU,四个32×32CU,十六个16×16CU和六十四个8×8CU)的帧内预测。当CU被编码时,应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。
为了开发超越HEVC的新技术,2015年成立的一个新的组织,联合视频探索组(Joint Video Exploration Term),并在2018年更名为联合视频专家组(Joint VideoExperts Term,JVET)。在HEVC的基础上,多功能视频编码(Versatile Video Coding)VVC(H.266)的研究由JVET组织于2018年4月10美国圣地亚哥会议上提出,在H.265/HEVC基础上改进的新一代视频编码技术,其主要目标是改进现有HEVC,提供更高的压缩性能,同时会针对新兴应用(360°全景视频和高动态范围(HDR)视频)进行优化。VVC的第一版在2020年8月完成,在ITU-T网站上以H.266标准正式发布。
有关HEVC和VVC的相关文件和测试平台可以从https://jvet.hhi.fraunhofer.de/获得,并且VVC的相关提案可以从http://phenix.it-sudparis.eu/jvet/获得。
VVC依然沿用H.264就开始采用的混合编码框架,其VTM编码器的一般性方框图如图1所示。帧间和帧内预测编码:消除时间域和空间域的相关性。变换编码:对残差进行变换编码以消除空间相关性。熵编码:消除统计上的冗余度。VVC将在混合编码框架内,着力研究新的编码工具或技术,提高视频压缩效率。
虽然VVC和HEVC中都采用树结构来进行CTU划分,但是在VVC采用了与HEVC不同的树结构CTU划分方式。并且,与HEVC相比,VVC中的CTU的(亮度块)最大大小达到了128x128(尽管亮度变换块的最大大小为64x64)。
与HEVC类似,VVC将图片划分为子图片(subpicture)、切片(slice)、和图块(tile)。一个图片被划分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的CTU序列。切片由整数个完整图块或在图片的图块内的整数个连续的完整CTU行。支持两种切片模式,即光栅扫描切片模式和矩形切片模式。在光栅扫描切片模式中,切片包含图片的图块光栅扫描中的完整图块的序列。在矩形切片模式中,切片包含共同形成图片的矩形区域的多个完整图块,或者一个图块的、共同形成图片中的矩形区域的多个连续完整CTU行。矩形切片内的图块在对应于该图块的矩形区域内以图块光栅扫描顺序进行扫描。子图片包含一个或多个切片,这些切片共同覆盖图片的矩形区域。
如上所述地,在HEVC中,使用四叉树结构将CTU划分为CU(即编码树)。关于帧内编码和帧间编码的决策是在叶节点CU处做出的。换言之,一个叶节点CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。然后,根据PU划分类型,每个叶CU可以进一步划分为1、2或4个预测单元PU。在每个PU内,使用相同的预测过程,并将相关信息以PU为基础发送到解码器段。在基于PU的预测过程获得了残差块后,可以根据类似于CU的编码树的另一类似四叉树结构将叶CU划分为TU。
而在VVC中,则采用了具有嵌套的多类型树的四叉树分割结构(QTMT)来划分CTU,其中嵌套的多类型树使用二叉树和三叉树。作为一个示例,这种嵌套的多类型树的一个实例是四叉树-二叉树(QTBT)结构。QTBT结构包括两个级别:根据四叉树划分而划分的第一级,以及根据二叉树划分而划分的第二级。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于编码单元(CU),CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。在VVC中删除了CU、PU和TU的不同形式。
在VVC中,一个CTU首先通过四叉树进行划分,然后再通过多类型树进行进一步划分。如图3所示,VVC规定了4种多类型树划分模式:水平二叉树划分(SPLIT_BT_HOR)、垂直二叉树划分(SPLIT_BT_VER)、水平三叉树划分(SPLIT_TT_VER)、垂直三叉树划分(SPLIT_TT_HOR)。多类型树的叶节点被称为编码单元(CU),并且除非CU对于最大变换长度而言过大,否则该CU分割就会用于预测和变换处理而不进行进一步分割。这就意味着在大多数情况下,CU、PU和TU在该具有嵌套的多类型树的四叉树分割结构是具有相同的块大小的。其中的例外是所支持的最大变换长度小于CU的颜色分量的宽度或高度。图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例,其中,粗体框表示四叉树分割,剩余的边表示多类型树分割。VVC的这种具有嵌套的多类型树的四叉树分割结构提供了包括CU的内容自适应编码树结构。
CU的大小可以与CTU一样大,也可以以亮度样本为单位小到4x4。对于4:2:0色度格式的情况,最大色度编码块大小为64x64,最小大小色度大小由16个色度样本组成。在VVC中,支持的最大亮度变换大小为64x 64,支持的最高色度变换大小为32x32。当编码块的宽度或高度大于最大变换宽度或高度时,编码块在水平和/或垂直方向上自动分割,以满足该方向上的变换大小限制。
以下参数由具有嵌套多类型树编码树方案的四叉树的序列参数集(SPS)语法元素定义和指定:
–CTU大小:四元树的根节点大小
–MinQTSize:允许的最小四叉树叶节点大小
–MaxBtSize:允许的最大二叉树根节点大小
–MaxTtSize:允许的最大三叉树根节点大小
–MaxMttDepth:从四叉树叶划分多类型树时允许的最大层次深度
–MinBtSize:允许的最小二叉树叶节点大小
–MinTtSize:允许的最小三叉树叶节点大小
在具有嵌套多类型树编码树结构的四叉树的一个示例中,CTU大小被设置为128x128亮度样本,具有两个对应的64x64块4:2:0色度样本,MinQTSize被设置为16x16,MaxBtSize被设置成128x128并且MaxTtSize被设置成64x64,MinBtSize和MinTtSize(对于宽度和高度)被设置为4x4,并且MaxMttDepth被设置成4。将四叉树划分首先应用于CTU以生成四叉树叶节点。四叉树叶节点的大小可以从16x16(即MinQTSize)到128x128(即CTU大小)。如果叶四叉树节点为128x128,则不会被二叉树进一步划分,因为其大小超过了MaxBtSize和MaxTtSize(即64x64)。否则,叶四叉树节点可以通过多类型树进一步划分。因此,四叉树叶节点也是多类型树的根节点,并且它具有多类型树深度(mttDepth)为0。当多类型树深度达到MaxMttDepth(即4)时,不考虑进一步划分。当多类型树节点的宽度等于MinBtSize且小于或等于2*MinTtSize时,不考虑进一步的水平划分。类似地,当多类型树节点的高度等于MinBtSize且小于或等于2*MinTtSize时,不考虑进一步的垂直划分。
在VVC中,编码树方案支持亮度分量和色度分量具有单独的块树结构的能力。对于P和B切片,一个CTU中的亮度和色度CTB必须共享相同的编码树结构。然而,对于I切片,亮度和色度可以具有单独的块树结构。当应用单独的块树模式时,亮度CTB通过一个编码树结构被划分为CU,色度CTB通过另一编码树结构而被划分为色度CU。这意味着I切片中的CU可以由亮度分量的编码块或两个色度分量的编码块组成,并且P或B切片中的CU总是由所有三个颜色分量的编码块组成,除非视频是单色的。
在进行了CTU划分后,对表示预测和/或残差信息以及其他信息的CU的视频数据进行编码。预测信息指示将如何预测CU以便形成CU的预测块。残差信息通常表示编码之前的CU的样本与预测块的样本之间的逐样本差。
为了预测CU,通常可通过帧间预测或帧内预测来形成CU的预测块。帧间预测通常是指根据先前译码的图片的数据来预测CU,而帧内预测通常是指根据同一图片的先前译码的数据来预测CU。为了执行帧间预测,可使用一个或多个运动向量来生成预测块。通常可以例如按照CU与参考块之间的差来执行运动搜索,以识别与CU紧密匹配的参考块。可使用绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)或其他此类差值计算来计算差值度量,以确定参考块是否与当前CU紧密匹配。在一些示例中,可使用单向预测或双向预测来预测当前CU。
VVC还提供了仿射运动补偿模式,可以将其视为帧间预测模式。在仿射运动补偿模式中,可以确定表示非平移运动(诸如,放大或缩小、旋转、透视运动或其他不规则运动类型)的两个或更多个运动向量。
为了执行帧内预测,可以选择用于生成预测块的帧内预测模式。VVC提供了67种帧内预测模式,包括各种方向模式,以及平面模式和DC模式。通常,选择帧内预测模式,该帧内预测模式描述到当前块(例如,CU的块)的相邻样本,其中从所述相邻样本预测当前块的样本。假设以光栅扫描顺序(从左到右、从上到下的译码顺序或从右到左、从上到下的译码顺序)对CTU和CU进行译码,则这些样本通常可以在与当前块相同的图片中当前块的上方、上方及左侧或左侧。
对表示当前块的预测模式的数据进行编码。例如,对于帧间预测模式,视频编码器200可以对表示使用各种可用帧间预测模式中的哪一种帧间预测模式的数据以及用于对应模式的运动信息进行编码。对于单向或双向帧间预测,例如,可以使用高级运动向量预测(AMVP)或合并模式来对运动向量进行编码。可以使用类似模式来编码用于仿射运动补偿模式的运动向量。
在诸如块的帧内预测或帧间预测之类的预测之后,可以计算块的残差数据。残差数据(诸如残差块)表示该块与使用相应预测模式形成的该块的预测块之间的逐样本差。可将一个或多个变换应用于残差块,以产生在变换域而非样本域中的经变换的数据。例如,可将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外,视频编码器200可在一次变换之后应用二次变换,例如,与模式相关的不可分离的二次变换(MDNSST)、与信号相关的变换、Karhunen-Loeve变换(KLT)等。在应用一个或多个变换之后产生变换系数。
如上所述,在用以产生变换系数的任何变换之后,可以根据量化系数(QP),执行对变换系数的量化。量化通常是指对变换系数进行量化以可能减少用于表示系数的数据量,从而提供进一步压缩的过程。通过执行量化过程,可以减小与一些或所有系数相关联的位深度。例如,可以在量化期间将n-位值舍入为m-位值,其中n大于m。在一些示例中,为了执行量化,可以执行对待量化的值的按位右移。量化系数(QP)通常是采用语法元素的行驶包含在头信息中的。
在量化之后,可以扫描变换系数,从而从包括经量化的变换系数的二维矩阵产生一维向量。可以将扫描设计为将较高能量(并且因此较低频率)的系数放置在向量的前面,并将较低能量(并且因此较高频率)的变换系数放置在向量的后面。在一些示例中,可以利用预定义的扫描顺序来扫描经量化的变换系数以产生串行化的向量,然后对向量的经量化的变换系数进行熵编码。在其他示例中,可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,可以例如根据上下文自适应二进制算术译码(CABAC)对一维向量进行熵编码还可对用于语法元素的值进行熵编码,语法元素描述与经编码视频数据相关联的元数据,以供视频解码器300在解码视频数据时使用。
在编码过程中,可以例如在图片报头、块报头、切片报头中,生成语法数据,诸如基于块的语法数据、基于图片的语法数据和基于序列的语法数据,或其他语法数据,诸如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS)。视频解码器可类似地解码此类语法数据以确定如何解码对应的视频数据。这些信息都可以被称为“头信息”。
以此方式,可以生成包括经编码视频数据(例如,描述从图片到块(例如,CU)的划分的语法元素以及块的预测和/或残差信息)的位流。
屏幕内容编码是VVC的一个重要部分。由计算机产生的屏幕内容视频(ScreenContent Video,SCV)具有区别于由摄像头拍摄的自然场景视频的特殊分布特性,如图所示为不同分辨率的典型屏幕内容序列示例,与自然内容相比,它基本没有噪音、不连续的色调、细腻的线条、尖锐的边缘、相对大面积的均匀平整区域、明显的方向变化和频繁重复的纹理。例如图5示出了用于VVC的屏幕内容编码的几种测试序列的截图。根据实验数据表明,屏幕内容与自然内容的明显区别是:自然内容的像素值数量多于屏幕内容的像素值数量,自然内容像素值之间的像素差小于屏幕内容像素值之间的像素差,自然内容像素值分布比屏幕内容像素值分布更连续。
在视频编码中,CU划分一直占用了大部分的编码时间,无论是自然内容视频还是屏幕内容视频。例如,在使用VVC时,通过对自然内容视频多叉树划分的复杂度进行统计分析表明,禁用多叉树划分可以节省92%的编码时间。当VTM编码器关闭BT(即不使用水平二叉树划分和垂直二叉树划分)时编码时间平均减少71.75%。关闭TT(即不使用水平三叉树划分和垂直三叉树划分)时编码时间平均减少48.33%,关闭HT(即不使用水平二叉树划分和水平三叉树划分)时编码时间平均减少75.42%,关闭VT(即不使用垂直二叉树划分和垂直三叉树划分)时编码时间平均减少75.92%。关闭MT(即只有四叉树划分可用时),编码时间有平均90.42%的节省上限。通过分析,不论是自然内容视频还是屏幕内容视频,多叉树划分模式都占用了大量编码时间。因此,在视频编解码的技术发展中始终关注的一个技术问题是,如何在保证BD-rate不降低或仅有少量降低的情况下减少CU划分时间。
CU的最佳划分模式的选择与视频的各类区域特性有极大关联,另外,与自然内容视频相比,屏幕内容视频特性显著。基于以上分析,本公开内容提出一种针对屏幕内容不同区域特性的多叉树划分快速决策算法,提前决策最可能的多叉树划分方式,缩小划分模式遍历范围。
发明内容
本发明提出了用于在多功能视频编码(VVC)中的方法、装置、编解码器以及处理器可读存储介质。更具体而言,本发明用于在VVC中对视频帧进行编码单元(CU)划分的方法,其涉及基于屏幕内容区域特性的CU划分快速选择。
VVC中QTMT划分结构的计算复杂性非常高,但在许多情况下,CU划分与当前编码块的内容属性密切相关。而屏幕内容视频与自然内容视频相比有其独特的属性,因此可以根据屏幕内容视频特性预判当前块划分方式,从而有效降低编码复杂度。
通过实验可知,屏幕内容中的边框区域、文字区域在进行多叉树划分时经常连续选择某个方向的划分,即一行或者一列的某段中的最优划分模式连续为水平划分或者垂直划分。这是因为屏幕内容中边框、文字区域的纹理方向往往是固定的、有规律的、沿直线变化的。相反地,自然内容中的边界大多沿曲线变化,比如人物的轮廓等,从而通常不具有屏幕内容的上述特性。
除此之外,屏幕内容视频相比于自然内容视频而言存在更多的空白区域,其最大的特点在于空白区域中的每个像素点的亮度值为相同的某个值,这部分区域通常四叉树划分后不会选择二叉树划分和三叉树划分。
因此,本公开内容针对屏幕内容视频含有大片空白区域及方向变化明显的特点,对屏幕内容视频中占比相对较高的空白区域、文字区域、边框区域和其他区域分别进行指标设定,分别来进行提前中止判断、和/或某个方向上的划分的提前中止判断。
例如,根据本公开内容,针对空白区域,可以直接提前中止CU划分。
例如,针对文字区域或边框区域,由于这些纹理方向往往是固定的、有规律的、沿直线变化的,因此根据本公开内容,可以以简单的方式来确定某个区域(CU)的不同方向(例如,水平方向和垂直方向)上的像素变化是否符合上述规律,并进而识别文字区域或边框区域,并将所确定的像素变化方向(例如,水平方向或垂直方向)确定为CU的划分方向,而不判断其他方向(例如,垂直方向或水平方向)上的划分情况,即提前中止其他方向上的划分。
另外,本公开内容还针对除了被判断为空白区域、文字区域、边框区域的区域(例如当前CU)之外的其他区域,提出了一种新颖的提前中止判断算法,该算法利用了当前CU的与各个划分模式相关联的各个子块的平均绝对误差,来跳过各个划分模式中的相应划分模式,从而实现某个划分模式的提前中止。
本公开内容提出的各种提前中止方案,能够中止针对当前CU的划分,中止当前CU的某个方向(水平或垂直)上的划分,和/或中止当前CU的特定划分模式的划分,从而减少了用于当前CU划分的递归遍历过程的时间。
根据一个方面,一种用于对屏幕内容视频中的CTU进行CU划分的方法,包括:
确定当前CU是否属于第一类区域或第二类区域,其中:
所述第一类区域在水平方向和垂直方向上的活动度低,并且
所述第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值;
响应于确定当前CU属于所述第一类区域,提前中止CU划分;以及
响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一。
在一个方面中,确定当前CU是否属于第一类区域或第二类区域进一步包括:
确定当前CU的水平像素活动度和垂直像素活动度;
确定当前CU的水平像素活动度和垂直像素活动度是否等于或低于第二阈值;
响应于确定当前CU的水平像素活动度和垂直像素活动度二者皆等于或低于第二阈值,确定当前CU属于第一类区域。
在一个方面中,所述第二阈值为0。
在一个方面中,确定当前CU是否属于第一类区域或第二类区域进一步包括:
将当前CU在垂直方向上划分为多个水平子块,并在水平方向上划分为多个垂直子块;
计算每个水平子块和每个垂直子块的亮度平均值;
根据水平子块亮度平均值来计算相邻水平子块的水平子块亮度差,并根据所述水平子块亮度差来计算水平子块亮度差变化幅值;
根据垂直子块亮度平均值来计算相邻垂直子块的垂直子块亮度差,并根据所述水平子块亮度差来计算垂直子块亮度差变化幅值;以及
当所述水平子块亮度差变化幅值小于所述垂直子块亮度差变化幅值且小于所述第一阈值时,确定当前CU属于第二类区域,并将垂直方向确定为所述第一方向;或者
当所述垂直子块亮度差变化幅值小于所述水平子块亮度差变化幅值且小于所述第一阈值时,确定当前CU属于第二类区域,并将水平方向确定为所述第一方向。
在一个方面中,响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一,进一步包括:
当所述第一方向是水平方向时,中止水平方向划分,或者
当所述第一方向是垂直方向时,中止垂直方向划分。
在一个方面中,所述方法进一步包括:
响应于确定当前CU不属于所述第一类区域或所述第二类区域,基于当前CU的与划分模式相关联的子块的平均绝对误差,来从多个划分模式中确定最佳划分模式。
在一个方面中,所述多个划分模式包括:水平二叉树、垂直二叉树、水平三叉树和垂直三叉树。
根据另一个方面中,一种用于对屏幕内容视频中的CTU进行CU划分的方法,包括:
计算当前CU的水平像素活动度(ACTh)和垂直像素活动度(ACTv),判断ACTh和ACTv是否都等于0;
如果ACTh和ACTv两者都等于0,跳过水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式的递归遍历过程;
计算当前CU水平方向的等距子块亮度差变化幅值(HORA(n))和垂直方向的等距子块亮度差变化幅值(VERA(n));
如果HORA(n)<VERA(n)并且HORA(n)<TH1,跳过水平二叉树划分和水平三叉树划分划分模式的递归遍历过程;
如果VERA(n)<HORA(n)并且VERA(n)<TH1,跳过垂直二叉树划分和垂直三叉树划分的递归遍历过程;
分别计算水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式下平均绝对误差(MAEHB、MAEVB、MAEHT、MAEVT);
如果MAEHB最小,则跳过水平二叉树划分模式的递归遍历过程;
如果MAEVB最小,则跳过垂直二叉树划分模式的递归遍历过程;
如果MAEHT最小,则跳过水平三叉树划分模式的递归遍历过程;
如果MAEVT最小,则跳过垂直三叉树划分模式的递归遍历过程
根据另一方面,一种硬件视频编码器,所述编码器被配置为通过如下操作来对屏幕内容视频中的CTU进行CU划分:
确定当前CU是否属于第一类区域或第二类区域,其中:
所述第一类区域在水平方向和垂直方向上的活动度低,并且
所述第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值;
响应于确定当前CU属于所述第一类区域,提前中止CU划分;以及
响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一。
根据另一方面,一种计算机程序产品,包括非暂时性存储介质,所述非暂时性存储介质中存储有用于执行上述方法的代码。
根据另一方面,提出了一种对使用所述的方法或所述的编码器进行编码的视频流进行解码的解码器。
根据另一方面,提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
根据另一方面,提出了一种可用于视频编解码的设备,该设备包括:
一个或多个处理器;
存储器,其中存储有计算机代码,所述计算机代码当由所述处理器执行时,实现所述的方法。
附图说明
图1示出了HEVC/VVC的通用编码器的一般性方框图的实施例。
图2示出了HEVC中的编码树(CTU)的示意图。
图3示出了用于VVC的多类型树划分模式。
图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例。
图5示出了用于VVC的屏幕内容编码的几种测试序列的截图。
图6示出了根据本发明的实施例的等距子块划分示例。
图7示出了根据本发明的实施例的不同划分模式中的子块标识的示例图。
图8示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。
图9示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。
图10示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。
图11示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一种可用于视频编解码的设备。
具体实施方式
现在参考附图来描述各种方案。在以下描述中,为了进行解释,阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而,显然,在没有这些具体细节的情况下也能够实现这些方案。
如在本申请中所使用的,术语“组件”、“模块”、“系统”等等旨在指代与计算机相关的实体,例如但不限于,硬件、固件、硬件和软件的组合、软件,或者是执行中的软件。例如,组件可以是但不限于:在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言,运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内,并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外,这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信,例如根据具有一个或多个数据分组的信号,例如,来自于借助于信号与本地系统、分布式系统中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他系统交互的一个组件的数据。
在本文中,根据上下文,“CTU划分”和“CU划分”可以互换地使用,“编码块”、“CU”、“区域”可以互换地使用,“图片(picture)”和“帧(frame)”可以互换地使用。
虽然在本文中主要在VVC的上下文中在对屏幕内容视频进行编码时进行CU划分提出了新颖的算法。但是,本领域技术人员容易理解,本发明同样适用于能够对屏幕内容视频进行特殊处理的其他视频编解码协议。
另外,本领域技术人员很容易理解,本发明是主要基于亮度分量的CU划分,但是同样适用于色度分量的单独CU划分。
VVC中QTMT划分结构的计算复杂性非常高,但在许多情况下,CU划分与当前编码块的内容属性密切相关。而屏幕内容视频与自然内容视频相比有其独特的属性,因此可以根据屏幕内容视频特性预判当前块划分方式,从而有效降低编码复杂度。
在一个示例中,在CU划分中,能够进行各种形式的提前中止。本公开内容提出的各种提前中止方案,能够根据屏幕内容的特性,例如空白区域、文字区域、边框区域和其他区域分别进行指标设定,来中止针对当前CU的划分,中止当前CU的某个方向(水平或垂直)上的划分,和/或中止当前CU的特定划分模式的划分,从而减少了用于当前CU划分的递归遍历过程的时间。
根据实验结果表明,该算法可以在保证图像质量的同时节省编码时间。
在一个示例中,通过实验可知,屏幕内容中的边框区域、文字区域在进行多叉树划分时经常连续选择某个方向的划分,即一行或者一列的某段中的最优划分模式连续为水平划分或者垂直划分。这是因为屏幕内容中边框、文字区域的纹理方向往往是固定的、有规律的、沿直线变化的。相反地,自然内容中的边界大多沿曲线变化,比如人物的轮廓等,从而通常不具有屏幕内容的上述特性。
在一个示例中,除此之外,屏幕内容视频相比于自然内容视频而言存在更多的空白区域,其最大的特点在于空白区域中的每个像素点的亮度值为相同的某个值,这部分区域通常四叉树划分后不会选择二叉树划分和三叉树划分。
因此,在一个示例中,本公开内容针对屏幕内容视频含有大片空白区域及方向变化明显的特点,对屏幕内容视频中占比相对较高的空白区域、文字区域、边框区域和其他区域分别进行指标设定,分别来进行提前中止判断、和/或某个方向上的划分的提前中止判断,从而减少了用于当前CU划分的递归遍历过程的时间。
在一个示例中,根据本公开内容,针对空白区域,可以直接提前中止CU划分。根据本公开内容,提出了一种用于快速地、可靠地判断这种空白区域的优选方法。
针对文字区域或边框区域,由于这些纹理方向往往是固定的、有规律的、沿直线变化的,因此根据本公开内容,在一个示例中,可以以简单的方式来确定某个区域(CU)的不同方向(例如,水平方向和垂直方向)上的像素变化是否符合上述规律,并进而识别文字区域或边框区域,并将所确定的像素变化方向(例如,水平方向或垂直方向)确定为CU的划分方向,而不判断其他方向(例如,垂直方向或水平方向)上的划分情况,即提前中止其他方向上的划分。由此,本公开内容能够基于像素变化方向快速地识别文字区域或边框区域,并基于该识别来执行针对某些方向的提前划分中止,,从而减少了用于当前CU划分的递归遍历过程的时间。
在一个示例中,本公开内容还针对除了被判断为空白区域、文字区域、边框区域的区域(例如当前CU)之外的其他区域,提出了一种新颖的提前中止判断算法,该算法利用了当前CU的与各个划分模式相关联的各个子块的平均绝对误差,来跳过各个划分模式中的相应划分模式,从而实现某个划分模式的提前中止,部分地减少用于当前CU划分的递归遍历过程的时间。
根据一个实施例,对于CU划分,采用了VVC规定的4种多类型树划分(MTT)模式:水平二叉树划分(以下简称为HB)、垂直二叉树划分(以下简称为VB)、水平三叉树划分(以下简称为HT)、垂直三叉树划分(以下简称为VT)。本领域技术人员容易理解,还可以采用数量更多或更少的各种类型的划分方式。
在一个示例中,根据本公开内容,提出了一种用于快速地、可靠地判断空白区域的优选方法。
具体而言,屏幕内容视频中存在许多平滑的空白区域,这部分区域的特点是像素值在水平和垂直方向数值相等或者近似相等(差异很小)。相比于自然内容视频,屏幕内容视频中的平滑区域更趋近于理想化纯色空白块。针对这部分区域,可以在不考虑CU背景噪声的情况下,使用一个计算量相对较小的指标进行率失真代价大小的预判。本公开内容通过计算每个CU内的水平像素活动度(ACTh)和垂直像素活动度(ACTv),来反映块内的像素波动。在一个实施例中,如果水平像素活动度(ACTh)和垂直像素活动度(ACTv)皆小于等于特定的小阈值(例如0、1、2等等),则可以识别空白区域(例如,将当前CU识别为空白区域)。在另一实施例中,如果ACTv=0&&ACTh=0,表示当前块中每个像素点的像素值为相同的值,则可以识别空白区域(例如,将当前CU识别为空白区域)。这种空白区域更倾向于选择四叉树划分,最佳划分模式往往不会选择多叉树划分,将提前终止四种MTT划分模式,来减少划分遍历模式。在另一实施例中,例如在包含PPT演示的屏幕内容视频中,这种空白区域的大小可能更大,因此,可以在四叉树划分或CTU根节点时进行该判断以识别空白区域,当识别出空白区域(CTU或CU)时,可以提前中止当前CU的划分。
其中ACTv表示垂直活动度,ACTh表示水平活动度,P(i,j)表示当前块的像素值。w、h表示当前CU(即待划分区域)的宽度和高度。
但是,根据发明人的实验,表明在进行多叉树划分判断时并且以0值为阈值时,对空白区域的识别效果最佳。
在一个示例中,根据本公开内容,提出了一种用于快速地、可靠地判断具有上述特征的文字及边框区域的优选方法。具体而言,文字及边框区域中的像素纹理方向往往是固定的、有规律的、沿直线变化的,因此根据本公开内容,在一个示例中,可以以简单的方式来确定某个区域(CU)的不同方向(例如,水平方向和垂直方向)上的像素变化是否符合上述规律,并进而识别文字区域或边框区域。
如果当前CU并非空白区域时(ACTh和ACTv)未能皆小于等于特定的小阈值),则本文定义了一个名为等距子块亮度差变化幅值的指标,提前终止亮度差的变化幅度较小的划分方向,从而减少划分模式的遍历。具体计算步骤如下:
步骤1:将当前块沿水平和垂直方向分别均匀分成四个等距离的子块,如图6所示。图6示出了根据本发明的实施例的等距子块划分示例。本领域技术人员容易理解,其他子块数量也是可行的。根据一个实施例,可以根据当前CU的大小来确定要划分的子块数量。
步骤2:计算每个子块的亮度平均值Hmean(n)、Vmean(n)(例如,n为1、2、3、4)。
步骤3:根据公式(3)、(4)分别将水平子块、垂直子块的亮度平均值按顺序两两作差(n的取值为1、2、3),得到等距子块亮度差。
HORdif(n)=|Hmean(n+1)-Hmean(n)| (3)
VERdif(n)=|Vmean(n+1)-Vmean(n)| (4)
步骤4:将步骤3得到的水平、垂直子块的等距子块亮度差由公式(5)、(6)两两作差得到等距子块亮度差变化幅值,其反映当前块沿某方向的亮度值变化幅度,HORA(n)代表水平方向的等距子块亮度差变化幅值,VERA(n)代表垂直方向的等距子块亮度差变化幅值,如果HORA(n)<TH1&&HORA(n)<VERA(n)(n的取值为1、2、3,TH1表示可配置阈值,通常值较小),说明当前块沿水平方向变化缓慢且均匀,亮度沿水平方向无突变,当前块更倾向于选择垂直划分,则终止水平方向划分(HB和HT)。如果VERA(n)<TH1&&VERA(n)<HORA(n),说明当前块沿垂直方向变化缓慢且均匀,亮度沿垂直方向无突变,当前块更倾向于选择水平划分,则终止垂直方向划分(BV和VT)。
HORA(n)=|HORdif(n+1)-HORdif(n)| (5)
VERA(n)=|VERdif(n+1)-VERdif(n)| (6)
根据一个优选实施例,经过多次实验统计分析,TH1取值25时效果表现最好,不同QP、不同分辨率下使用等距子块亮度差变化幅值预知的最优划分方向准确率高于90%,指标表现最好。
在一个示例中,本公开内容还针对除了被判断为空白区域、文字区域、边框区域的区域(例如当前CU)之外的其他区域,提出了一种新颖的提前中止判断算法。具体而言,对于屏幕内容视频中既不是空白区域、文字区域或边框区域,也没有明显方向特征的其他区域,本公开内容引入计算量相对较小的平均绝对误差(MAE),减少率失真代价的计算次数。通过比较图7中四种MTT划分方式下的子块平均绝对误差的大小,预先判断选择某种多叉树划分方式时当前块的纹理特征,自定义跳过子块之间MAE最小的划分模式,根据最优划分模式的选择原理,所跳过的这种划分方式被选择为最佳划分模式的概率最小。图7示出了根据本发明的实施例的不同划分模式(MTT划分模式)中的子块标识的示例图。
其中Ave为子块亮度平均值,height为子块的高度,width为子块的宽度,P(i,j)是像素点(i,j)处的亮度值,MAEk为子块平均绝对误差。如图7,其中k代表HB1、HB2、VB1、VB2、HT1、HT2、HT3、VT1、VT2、VT3。公式9和10中,μHB、μVB、μHT、μVT分别为四种划分模式下每个子块的平均绝对误差的平均值;MAEHB、MAEVB、MAEHT、MAEVT分别为四种多叉树划分模式下当前块的平均绝对误差。
在MAEHB、MAEVB、MAEHT、MAEVT中,如果MAEHB最小,说明当前块采用水平二叉树划分时的两个子块纹理相似,所提算法提前终止HB划分RD代价的计算过程。同理,若MAEVB最小,提前终止VB划分RD代价的计算过程。若MAEHT最小,提前终止HT划分RD代价的计算过程。若MAEVT最小,提前终止VT划分RD代价的计算过程。
在一个实施例中,为了近一步优化视频质量损失,经多次实验统计,加一个附加条件,即判断为最小的MAE与其他MAE的差值都需要小于10,此时时间节省与质量损失达到平衡。
图8示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。
在801处,确定当前CU是否属于第一类区域或第二类区域。根据一个实施例,第一类区域在水平方向和垂直方向上的活动度低,并且第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值。根据一个实施例,第一类区域可以是空白区域,第二类区域可以是文字区域或边框区域,其中,文字区域及边框区域中的像素纹理方向往往是固定的、有规律的、沿直线变化的。
在一个实施例中,确定当前CU是否属于第一类区域或第二类区域进一步包括:
确定当前CU的水平像素活动度(ACTh)和垂直像素活动度(ACTv),例如采用公式1和2;
确定当前CU的水平像素活动度(ACTh)和垂直像素活动度(ACTv)是否等于或低于第二阈值;
响应于确定当前CU的水平像素活动度和垂直像素活动度二者皆等于或低于第二阈值,确定当前CU属于第一类区域。
在一个实施例中,第二阈值为0。
在一个实施例中,当未能确定当前CU属于第一类区域时,确定当前CU是否属于第一类区域或第二类区域进一步包括:
将当前CU在垂直方向上划分为多个水平子块,并在水平方向上划分为多个垂直子块,如图6所示,例如在水平方向和垂直方向上划分为4个子块;
计算每个水平子块和每个垂直子块的亮度平均值,例如Hmean(n)、Vmean(n)(例如,n为1、2、3、4);
根据水平子块亮度平均值来计算相邻水平子块的水平子块亮度差,并根据所述水平子块亮度差来计算水平子块亮度差变化幅值,例如采用公式3和4;
根据垂直子块亮度平均值来计算相邻垂直子块的垂直子块亮度差,并根据所述水平子块亮度差来计算垂直子块亮度差变化幅值,例如采用公式5和6;以及
当所述水平子块亮度差变化幅值小于所述垂直子块亮度差变化幅值且小于第一阈值时,确定当前CU属于第二类区域,并将垂直方向确定为所述第一方向;或者
当所述垂直子块亮度差变化幅值小于所述水平子块亮度差变化幅值且小于第一阈值时,确定当前CU属于第二类区域,并将水平方向确定为所述第一方向。
在一个实施例中,第一阈值为25。
在803处,响应于确定当前CU属于第一类区域,提前中止CU划分。
在805处,响应于确定当前CU属于第二类区域,并基于当前CU的亮度值变化的方向,来提前中止水平方向划分或垂直方向划分之一。
在一个实施例中,当第一方向是水平方向时,当所述垂直子块亮度差变化幅值小于所述水平子块亮度差变化幅值且小于第一阈值时,中止水平方向划分。可替换地,当第一方向是垂直方向时,亦即当所述水平子块亮度差变化幅值小于所述垂直子块亮度差变化幅值且小于第一阈值时,中止垂直方向划分,如上所述。
在807处,可选地,响应于确定当前CU不属于所述第一类区域或所述第二类区域,基于当前CU的与划分模式相关联的子块的平均绝对误差,来从多个划分模式中确定最佳划分模式,例如使用公式7-10。
在一个实施例中,所述多个划分模式包括:水平二叉树、垂直二叉树、水平三叉树和垂直三叉树。
图9示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。
在901处,计算当前CU的水平像素活动度(ACTh)和垂直像素活动度(ACTv),判断ACTh和ACTv是否都等于0,例如采用公式1和2。
在903处,如果ACTh和ACTv两者都等于0,跳过水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式的递归遍历过程。
在905处,计算当前CU水平方向的等距子块亮度差变化幅值(HORA(n))和垂直方向的等距子块亮度差变化幅值(VERA(n)),例如采用公式3-6。在一个实施例中,水平方向的等距子块数量与垂直方向的等距子块数量相同,例如为4。在一个实施例中,n的取值是从1到水平方向的等距子块数量或水平方向的等距子块数量减1,例如当水平方向的等距子块数量与垂直方向的等距子块数量为4时,n的取值为1、2、3。
在907处,如果HORA(n)<VERA(n)并且HORA(n)<TH1,跳过水平二叉树划分和水平三叉树划分划分模式的递归遍历过程。此处,需要针对所有的n都满足该条件,因为要确保覆盖整个当前CU的分布,而不会局限于某两个相邻子块。
在909处,如果VERA(n)<HORA(n)并且VERA(n)<TH1,跳过垂直二叉树划分和垂直三叉树划分的递归遍历过程。此处,需要针对所有的n都满足该条件,因为要确保覆盖整个当前CU的分布,而不会局限于某两个相邻子块。
在一个实施例中,阈值TH1为25。
在911处,分别计算水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式下平均绝对误差(MAEHB、MAEVB、MAEHT、MAEVT),例如使用公式7-10。
在913处,如果MAEHB最小,则跳过水平二叉树划分模式的递归遍历过程。
在915处,如果MAEVB最小,则跳过垂直二叉树划分模式的递归遍历过程。
在917处,如果MAEHT最小,则跳过水平三叉树划分模式的递归遍历过程。
在919处,如果MAEVT最小,则跳过垂直三叉树划分模式的递归遍历过程。
在一个实施例中,在最小MAE与其他MAE的差值都小于一个阈值(例如,10)的情况下,进行上述跳过操作,从而使得时间节省与质量损失达到平衡。
图10示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一个示例方法。图10的流程图是图9的流程图的一个更详细的实施例。
如图10所示:
(1)计算当前块的水平像素活动度(ACTh)和垂直像素活动度(ACTv),判断ACTh和ACTv是否都等于0,如果两者都等于0,跳过HB、VB、HT、VT划分模式的递归划分过程,如果二者之中有一个不等于0,或者两者都不为0,进入步骤(2)。
(2)计算当前块水平方向的等距子块亮度差变化幅值HORA(n)和垂直方向的等距子块亮度差变化幅值VERA(n),判断两者之间的大小关系以及两者与阈值TH1的大小关系,进而提前判断划分方向。如果HORA(n)<VERA(n)并且HORA(n)<TH1,跳过水平二叉树划分和水平三叉树划分的递归遍历过程。如果不满足以上条件,则进一步判断是否满足VERA(n)<HORA(n)并且VERA(n)<TH1,如果满足VERA(n)<HORA(n)并且VERA(n)<TH1,跳过垂直二叉树划分和垂直三叉树划分的递归遍历过程。如果以上两个条件都不满足,进入步骤(3)。
(3)分别计算当前块中HB、VB、HT、VT划分模式下平均绝对误差MAEHB、MAEVB、MAEHT、MAEVT,若MAEHB最小,跳过水平二叉树划分模式的遍历。若MAEVB最小,跳过垂直二叉树划分模式的遍历。若MAEHT最小,跳过水平三叉树划分模式的遍历。若MAEVT最小,跳过垂直三叉树划分模式的遍历。
图11示出了根据本发明的实施例的用于对屏幕内容视频流进行CU划分的一种可用于视频编解码的设备。该设备包括:处理器和存储器,在所述存储器中包括用于实现本发明的各种方法的处理器可执行代码。
根据另一方面,本公开内容还可以涉及用于实现上述编码方法的编码器。该编码器可以是专用硬件。
根据另一方面,本公开内容还可以涉及对应的对编码后的视频流进行解码的解码器。
根据另一方面,本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
当用硬件实现时,视频编码器可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合,来实现或执行。通用处理器可以是微处理器,但是可替换地,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外,至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。
当用ASIC、FPGA等硬件电路来实现视频编码器时,其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个系统上的各种约束条件来以各种方式设计和实现这些电路,来实现本发明所公开的各种功能。
尽管前述公开文件论述了示例性方案和/或实施例,但应注意,在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下,可以在此做出许多变化和修改。而且,尽管以单数形式描述或要求的所述方案和/或实施例的要素,但也可以设想复数的情况,除非明确表示了限于单数。另外,任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用,除非表明了有所不同。

Claims (10)

1.一种用于对屏幕内容视频中的CTU进行CU划分的方法,包括:
确定当前CU是否属于第一类区域或第二类区域,其中:
所述第一类区域在水平方向和垂直方向上的活动度低,并且
所述第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值;
响应于确定当前CU属于所述第一类区域,提前中止CU划分;以及
响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一。
2.如权利要求1所述的方法,其中,确定当前CU是否属于第一类区域或第二类区域进一步包括:
确定当前CU的水平像素活动度和垂直像素活动度;
确定当前CU的水平像素活动度和垂直像素活动度是否等于或低于第二阈值;
响应于确定当前CU的水平像素活动度和垂直像素活动度二者皆等于或低于第二阈值,确定当前CU属于第一类区域。
3.如权利要求2所述的方法,其中,所述第二阈值为0。
4.如权利要求1-3中任一项所述的方法,其中,确定当前CU是否属于第一类区域或第二类区域进一步包括:
将当前CU在垂直方向上划分为多个水平子块,并在水平方向上划分为多个垂直子块;
计算每个水平子块和每个垂直子块的亮度平均值;
根据水平子块亮度平均值来计算相邻水平子块的水平子块亮度差,并根据所述水平子块亮度差来计算水平子块亮度差变化幅值;
根据垂直子块亮度平均值来计算相邻垂直子块的垂直子块亮度差,并根据所述水平子块亮度差来计算垂直子块亮度差变化幅值;以及
当所述水平子块亮度差变化幅值小于所述垂直子块亮度差变化幅值且小于所述第一阈值时,确定当前CU属于第二类区域,并将垂直方向确定为所述第一方向;或者
当所述垂直子块亮度差变化幅值小于所述水平子块亮度差变化幅值且小于所述第一阈值时,确定当前CU属于第二类区域,并将水平方向确定为所述第一方向。
5.如权利要求1-4中任一项所述的方法,其中,响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一,进一步包括:
当所述第一方向是水平方向时,中止水平方向划分,或者
当所述第一方向是垂直方向时,中止垂直方向划分。
6.如权利要求1-5中任一项所述的方法,其中,所述方法进一步包括:
响应于确定当前CU不属于所述第一类区域或所述第二类区域,基于当前CU的与划分模式相关联的子块的平均绝对误差,来跳过多个划分模式中的相应划分模式。
7.如权利要求1-7中任一项所述的方法,其中,所述多个划分模式包括:水平二叉树、垂直二叉树、水平三叉树和垂直三叉树。
8.一种用于对屏幕内容视频中的CTU进行CU划分的方法,包括:
计算当前CU的水平像素活动度(ACTh)和垂直像素活动度(ACTv),判断ACTh和ACTv是否都等于0;
如果ACTh和ACTv两者都等于0,跳过水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式的递归遍历过程;
计算当前CU水平方向的等距子块亮度差变化幅值(HORA(n))和垂直方向的等距子块亮度差变化幅值(VERA(n));
如果HORA(n)<VERA(n)并且HORA(n)<TH1,跳过水平二叉树划分和水平三叉树划分划分模式的递归遍历过程;
如果VERA(n)<HORA(n)并且VERA(n)<TH1,跳过垂直二叉树划分和垂直三叉树划分的递归遍历过程;
分别计算水平二叉树、垂直二叉树、水平三叉树和垂直三叉树划分模式下平均绝对误差(MAEHB、MAEVB、MAEHT、MAEVT);
如果MAEHB最小,则跳过水平二叉树划分模式的递归遍历过程;
如果MAEVB最小,则跳过垂直二叉树划分模式的递归遍历过程;
如果MAEHT最小,则跳过水平三叉树划分模式的递归遍历过程;
如果MAEVT最小,则跳过垂直三叉树划分模式的递归遍历过程。
9.一种硬件视频编码器,所述编码器被配置为通过如下操作来对屏幕内容视频中的CTU进行CU划分:
确定当前CU是否属于第一类区域或第二类区域,其中:
所述第一类区域在水平方向和垂直方向上的活动度低,并且
所述第二类区域中的亮度值沿第一方向的变化小于沿第二方向的变化且小于第一阈值;
响应于确定当前CU属于所述第一类区域,提前中止CU划分;以及
响应于确定当前CU属于所述第二类区域,并基于当前CU的亮度值变化的所述方向,来提前中止水平方向划分或垂直方向划分之一。
10.一种计算机程序产品,包括非暂时性存储介质,所述非暂时性存储介质中存储有用于执行根据权利要求1-8中任一项所述的方法的代码。
CN202310646534.0A 2023-06-02 2023-06-02 基于屏幕内容区域特性的cu划分快速选择 Pending CN116647676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310646534.0A CN116647676A (zh) 2023-06-02 2023-06-02 基于屏幕内容区域特性的cu划分快速选择

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310646534.0A CN116647676A (zh) 2023-06-02 2023-06-02 基于屏幕内容区域特性的cu划分快速选择

Publications (1)

Publication Number Publication Date
CN116647676A true CN116647676A (zh) 2023-08-25

Family

ID=87639684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310646534.0A Pending CN116647676A (zh) 2023-06-02 2023-06-02 基于屏幕内容区域特性的cu划分快速选择

Country Status (1)

Country Link
CN (1) CN116647676A (zh)

Similar Documents

Publication Publication Date Title
KR102398644B1 (ko) 인트라 예측 정보 부호화 방법 및 장치
JP6114362B2 (ja) マージモードにおける映像復号化方法
KR20210096029A (ko) 영상 복호화 장치
AU2014210684B2 (en) Image-encoding method and a device therefor, and image-decoding method and a device therefor
KR20180061046A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20200002697A (ko) 처리율 향상을 위한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US11659174B2 (en) Image encoding method/device, image decoding method/device and recording medium having bitstream stored therein
CN113273213A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
US11991378B2 (en) Method and device for video coding using various transform techniques
KR20200026758A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
IL281625B2 (en) A method for encoding/decoding image signals and a device therefor
US20220368901A1 (en) Image encoding method/device, image decoding method/device and recording medium having bitstream stored therein
CN113261286A (zh) 用于推导帧内预测模式的方法和设备
KR20200144509A (ko) 화면 간 예측 정보 부호화/복호화 방법 및 장치
CN113940077A (zh) 用于视频编码/解码的虚拟边界信令方法和设备
KR102329705B1 (ko) 영상 부호화 장치
KR20210035062A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN113875235A (zh) 图像编码/解码方法和装置及存储比特流的记录介质
CN113841399A (zh) 图像编码/解码方法和设备
CN113875237A (zh) 用于在帧内预测中用信号传送预测模式相关信号的方法和装置
CN113545052A (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
US20210289202A1 (en) Intra prediction method and apparatus for performing adaptive filtering on reference pixel
KR20200145758A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
CN116647676A (zh) 基于屏幕内容区域特性的cu划分快速选择
KR20200033760A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination