CN116684627A - 基于非对称卷积的vvc帧内跨分量色度预测 - Google Patents

基于非对称卷积的vvc帧内跨分量色度预测 Download PDF

Info

Publication number
CN116684627A
CN116684627A CN202310646543.XA CN202310646543A CN116684627A CN 116684627 A CN116684627 A CN 116684627A CN 202310646543 A CN202310646543 A CN 202310646543A CN 116684627 A CN116684627 A CN 116684627A
Authority
CN
China
Prior art keywords
component
features
convolution
prediction
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310646543.XA
Other languages
English (en)
Inventor
张萌萌
孙迪
景竑元
秦广军
刘志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN202310646543.XA priority Critical patent/CN116684627A/zh
Publication of CN116684627A publication Critical patent/CN116684627A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于基于非对称卷积的帧内跨分量色度预测的方法,包括:利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征;利用非对称卷积,提取已重建的亮度分量(Y)的特征;使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合;以及使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值。

Description

基于非对称卷积的VVC帧内跨分量色度预测
技术领域
本发明涉及图像与视频处理领域,更具体而言,涉及用于基于非对称卷积的VVC帧内跨分量色度预测的方法、装置和计算机程序产品。
背景技术
数字视频功能可以结合到各种设备中,包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型电脑或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏机、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。
数字视频设备实施视频编码(coding)技术,诸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4,第10部分,高级视频编码(AVC)、高效视频编码(HEVC)标准、ITU-TH.265/高效视频编码(HEVC)、多功能视频编码(Versatile Video Coding)VVC(H.266)、以及此类标准的扩展定义的标准中描述的那些技术。通过实施这样的视频编码技术,视频设备可以更有效地发送、接收、编码、解码和/或存储数字视频信息。
2010年4月,两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding),一同开发高效视频编码标准。
在2013年,JCT-VC完成了对HEVC(High efficiency video coding)标准(也称为H.265)开发,并且随后陆续发布了多个版本。
HEVC提出了全新的语法单元:编码单元(CU)是进行预测、变换、量化和熵编码的基本单元,预测单元(PU)是进行帧内帧间预测的基本单元,变换单元(TU)是进行变换和量化的基本单元。另外,每个CU定义了共享相同预测模式(帧内或帧间)的区域。
如图1所示,在HEVC中,可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中,HEVC都采用编码树单元(CTU)的编码结构,CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB(编码树块,Coding Tree Block)、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU(最大编码单元)编码后的CTU结构。在HEVC中,LCU可以只包含一个编码单元(CU),也可以使用CTU四叉树结构划分出为不同大小的CU。
HEVC中有四种大小CU,大小分别为:64x64、32x32、16x16和8x8。CU块越小,其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU),当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测,CU被分成两个PartMode(2Nx2N和NxN),这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N×2N,尺寸为8×8的CU属于N×N。
在HEVC中,PU进行帧内帧间预测的基本单元,PU的划分是以CU为基础的,具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地,PU尺寸基于PartMode:对于2N×2N的PartMode PU尺寸与CU相同,对于N×N的PartMode CU可以被划分为四个4×4子PU。对于2N*2N的CU模式,帧内预测PU的可选模式包括2N*2N和N*N,帧间预测PU的可选模式有8种,包括4种对称模式(2N*2N,N*2N,2N*N,N*N)和4种非对称模式(2N*nU,2N*nD,nL*2N,nR*2N),其中,2N*nU和2N*nD分别以上下1:3、3:1的比例划分,nL*2N和nR*2N分别以左右1:3、3:1的比例划分。
在HEVC中,仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择,为每一个帧内模式计算其RDO:
J=D+λR (1)
其中,J为拉格朗日代价(亦即RD-cost),D表示当前帧内模式的失真,R表示编码当前预测模式下所有信息所需的比特数,λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。
处理一帧视频图像需要首先将其划分成多个LCU(64x64),然后依次编码每个LCU。每个LCU依次递归划分,其通过计算当前深度的RD-cost判定是否继续划分。一个LCU最小可划分至8x8大小的单元,如图2所示。编码器通过比较深度的RD-cost值判定是否继续划分,如果当前深度内的4个子CU的编码代价总和大于当前CU,则不继续划分;反之则继续划分,直至划分结束。
本领域技术人员容易理解,由于CTU是对LCU进行CU划分的树状编码结构,CTU中的CU划分方式是以LCU开始的,因此在本领域中这两个名词经常可交换地使用。
在帧内预测中,每个PU使用总共35种预测模式。使用粗略模式决策(RMD),我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后,通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时,完成当前CU的帧内预测。通过当前CU的RD-cost与当前CU及其4个子CU的四个子CU的总RD-cost之间的比较来选择具有较小RD-cost的次优CU内部预测完成。当完成所有CU分区时,完成当前CTU帧内预测。对于HEVC,当对LCU进行编码时,应当执行85个CU(一个64×64CU,四个32×32CU,十六个16×16CU和六十四个8×8CU)的帧内预测。当CU被编码时,应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。
为了开发超越HEVC的新技术,2015年成立的一个新的组织,联合视频探索组(Joint Video Exploration Term),并在2018年更名为联合视频专家组(Joint VideoExperts Term,JVET)。在HEVC的基础上,多功能视频编码(Versatile Video Coding)VVC(H.266)的研究由JVET组织于2018年4月10美国圣地亚哥会议上提出,在H.265/HEVC基础上改进的新一代视频编码技术,其主要目标是改进现有HEVC,提供更高的压缩性能,同时会针对新兴应用(360°全景视频和高动态范围(HDR)视频)进行优化。VVC的第一版在2020年8月完成,在ITU-T网站上以H.266标准正式发布。
有关HEVC和VVC的相关文件和测试平台可以从https://jvet.hhi.fraunhofer.de/获得,并且VVC的相关提案可以从http://phenix.it-sudparis.eu/jvet/获得。
VVC依然沿用H.264就开始采用的混合编码框架,其VTM编码器的一般性方框图如图1所示。帧间和帧内预测编码:消除时间域和空间域的相关性。变换编码:对残差进行变换编码以消除空间相关性。熵编码:消除统计上的冗余度。VVC将在混合编码框架内,着力研究新的编码工具或技术,提高视频压缩效率。
虽然VVC和HEVC中都采用树结构来进行CTU划分,但是在VVC采用了与HEVC不同的树结构CTU划分方式。并且,与HEVC相比,VVC中的CTU的(亮度块)最大大小达到了128x128(尽管亮度变换块的最大大小为64x64)。
与HEVC类似,VVC将图片划分为子图片(subpicture)、切片(slice)、和图块(tile)。一个图片被划分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的CTU序列。切片由整数个完整图块或在图片的图块内的整数个连续的完整CTU行。支持两种切片模式,即光栅扫描切片模式和矩形切片模式。在光栅扫描切片模式中,切片包含图片的图块光栅扫描中的完整图块的序列。在矩形切片模式中,切片包含共同形成图片的矩形区域的多个完整图块,或者一个图块的、共同形成图片中的矩形区域的多个连续完整CTU行。矩形切片内的图块在对应于该图块的矩形区域内以图块光栅扫描顺序进行扫描。子图片包含一个或多个切片,这些切片共同覆盖图片的矩形区域。
如上所述地,在HEVC中,使用四叉树结构将CTU划分为CU(即编码树)。关于帧内编码和帧间编码的决策是在叶节点CU处做出的。换言之,一个叶节点CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。然后,根据PU划分类型,每个叶CU可以进一步划分为1、2或4个预测单元PU。在每个PU内,使用相同的预测过程,并将相关信息以PU为基础发送到解码器段。在基于PU的预测过程获得了残差块后,可以根据类似于CU的编码树的另一类似四叉树结构将叶CU划分为TU。
而在VVC中,则采用了具有嵌套的多类型树的四叉树分割结构(QTMT)来划分CTU,其中嵌套的多类型树使用二叉树和三叉树。作为一个示例,这种嵌套的多类型树的一个实例是四叉树-二叉树(QTBT)结构。QTBT结构包括两个级别:根据四叉树划分而划分的第一级,以及根据二叉树划分而划分的第二级。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于编码单元(CU),CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。在VVC中删除了CU、PU和TU的不同形式。
在VVC中,一个CTU首先通过四叉树进行划分,然后再通过多类型树进行进一步划分。如图3所示,VVC规定了4种多类型树划分模式:水平二叉树划分(SPLIT_BT_HOR)、垂直二叉树划分(SPLIT_BT_VER)、水平三叉树划分(SPLIT_TT_VER)、垂直三叉树划分(SPLIT_TT_HOR)。多类型树的叶节点被称为编码单元(CU),并且除非CU对于最大变换长度而言过大,否则该CU分割就会用于预测和变换处理而不进行进一步分割。这就意味着在大多数情况下,CU、PU和TU在该具有嵌套的多类型树的四叉树分割结构是具有相同的块大小的。其中的例外是所支持的最大变换长度小于CU的颜色分量的宽度或高度。图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例,其中,粗体框表示四叉树分割,剩余的边表示多类型树分割。VVC的这种具有嵌套的多类型树的四叉树分割结构提供了包括CU的内容自适应编码树结构。
CU的大小可以与CTU一样大,也可以以亮度样本为单位小到4x4。对于4:2:0色度格式的情况,最大色度编码块大小为64x64,最小大小色度大小由16个色度样本组成。在VVC中,支持的最大亮度变换大小为64x 64,支持的最高色度变换大小为32x32。当编码块的宽度或高度大于最大变换宽度或高度时,编码块在水平和/或垂直方向上自动分割,以满足该方向上的变换大小限制。
以下参数由具有嵌套多类型树编码树方案的四叉树的序列参数集(SPS)语法元素定义和指定:
–CTU大小:四元树的根节点大小
–MinQTSize:允许的最小四叉树叶节点大小
–MaxBtSize:允许的最大二叉树根节点大小
–MaxTtSize:允许的最大三叉树根节点大小
–MaxMttDepth:从四叉树叶划分多类型树时允许的最大层次深度
–MinBtSize:允许的最小二叉树叶节点大小
–MinTtSize:允许的最小三叉树叶节点大小
在具有嵌套多类型树编码树结构的四叉树的一个示例中,CTU大小被设置为128x128亮度样本,具有两个对应的64x64块4:2:0色度样本,MinQTSize被设置为16x16,MaxBtSize被设置成128x128并且MaxTtSize被设置成64x64,MinBtSize和MinTtSize(对于宽度和高度)被设置为4x4,并且MaxMttDepth被设置成4。将四叉树划分首先应用于CTU以生成四叉树叶节点。四叉树叶节点的大小可以从16x16(即MinQTSize)到128x128(即CTU大小)。如果叶四叉树节点为128x128,则不会被二叉树进一步划分,因为其大小超过了MaxBtSize和MaxTtSize(即64x64)。否则,叶四叉树节点可以通过多类型树进一步划分。因此,四叉树叶节点也是多类型树的根节点,并且它具有多类型树深度(mttDepth)为0。当多类型树深度达到MaxMttDepth(即4)时,不考虑进一步划分。当多类型树节点的宽度等于MinBtSize且小于或等于2*MinTtSize时,不考虑进一步的水平划分。类似地,当多类型树节点的高度等于MinBtSize且小于或等于2*MinTtSize时,不考虑进一步的垂直划分。
在VVC中,编码树方案支持亮度分量和色度分量具有单独的块树结构的能力。对于P和B切片,一个CTU中的亮度和色度CTB必须共享相同的编码树结构。然而,对于I切片,亮度和色度可以具有单独的块树结构。当应用单独的块树模式时,亮度CTB通过一个编码树结构被划分为CU,色度CTB通过另一编码树结构而被划分为色度CU。这意味着I切片中的CU可以由亮度分量的编码块或两个色度分量的编码块组成,并且P或B切片中的CU总是由所有三个颜色分量的编码块组成,除非视频是单色的。
在进行了CTU划分后,对表示预测和/或残差信息以及其他信息的CU的视频数据进行编码。预测信息指示将如何预测CU以便形成CU的预测块。残差信息通常表示编码之前的CU的样本与预测块的样本之间的逐样本差。
为了预测CU,通常可通过帧间预测或帧内预测来形成CU的预测块。帧间预测通常是指根据先前译码的图片的数据来预测CU,而帧内预测通常是指根据同一图片的先前译码的数据来预测CU。为了执行帧间预测,可使用一个或多个运动向量来生成预测块。通常可以例如按照CU与参考块之间的差来执行运动搜索,以识别与CU紧密匹配的参考块。可使用绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)或其他此类差值计算来计算差值度量,以确定参考块是否与当前CU紧密匹配。在一些示例中,可使用单向预测或双向预测来预测当前CU。
在帧间预测中,VVC中仍然使用了HEVC中的跳过(SKIP)模式和合并(Merge)模式。对于每个帧间预测CU,由运动矢量、参考图片索引和参考图片列表使用索引组成运动参数,以及VVC的新编码特征所需的附加信息,被用于帧间预测样本生成。可以以显式或隐式的方式用信号通知运动参数。当用跳过(SKIP)模式对CU进行编码时,该CU与一个PU相关联,并且不具有有效的残差系数,不具有编码的运动矢量差值或参考图片索引。指定合并模式,从而从相邻CU获得当前CU的运动参数(包括空间后续和时间候选),以及VVC中引入的附加调度。合并模式可以应用于任何帧间预测CU,而不仅仅是用于跳过模式。合并模式的替代方案是运动参数的显式传输,其中运动向量、每个参考图片列表的对应参考图片索引和参考图片列表使用标志以及其他所需信息被显式地按每个CU发信号通知。
对于帧间预测,在VVC中,除了HEVC中使用的平移运动预测和运动补偿之外,还提供了仿射运动补偿模式(仿射motion compensated prediction)。在仿射运动补偿模式中,可以确定表示非平移运动(诸如,放大或缩小、旋转、透视运动或其他不规则运动类型)的两个或更多个运动向量。
为了执行帧内预测,可以选择用于生成预测块的帧内预测模式。VVC提供了67种帧内预测模式,包括各种方向模式,以及平面模式和DC模式。通常,选择帧内预测模式,该帧内预测模式描述到当前块(例如,CU的块)的相邻样本,其中从所述相邻样本预测当前块的样本。假设以光栅扫描顺序(从左到右、从上到下的译码顺序或从右到左、从上到下的译码顺序)对CTU和CU进行译码,则这些样本通常可以在与当前块相同的图片中当前块的上方、上方及左侧或左侧。
对于帧内预测,VVC还引入了跨分量线性模型(Cross-Component Linear Model,CCLM)。CCLM是一种新的VVC帧内跨分量色度预测技术。它通过对亮度和色度之间的关系建立一个线性模型,利用已完成编码的亮度实现对色度进行预测,以减少分量之间存在的冗余,提高了编码效率。
对表示当前块的预测模式的数据进行编码。例如,对于帧间预测模式,视频编码器200可以对表示使用各种可用帧间预测模式中的哪一种帧间预测模式的数据以及用于对应模式的运动信息进行编码。对于单向或双向帧间预测,例如,可以使用高级运动向量预测(AMVP)或合并模式来对运动向量进行编码。可以使用类似模式来编码用于仿射运动补偿模式的运动向量。
在诸如块的帧内预测或帧间预测之类的预测之后,可以计算块的残差数据。残差数据(诸如残差块)表示该块与使用相应预测模式形成的该块的预测块之间的逐样本差。可将一个或多个变换应用于残差块,以产生在变换域而非样本域中的经变换的数据。例如,可将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外,视频编码器200可在一次变换之后应用二次变换,例如,与模式相关的不可分离的二次变换(MDNSST)、与信号相关的变换、Karhunen-Loeve变换(KLT)等。在应用一个或多个变换之后产生变换系数。
如上所述,在用以产生变换系数的任何变换之后,可以根据量化系数(QP),执行对变换系数的量化。量化通常是指对变换系数进行量化以可能减少用于表示系数的数据量,从而提供进一步压缩的过程。通过执行量化过程,可以减小与一些或所有系数相关联的位深度。例如,可以在量化期间将n-位值舍入为m-位值,其中n大于m。在一些示例中,为了执行量化,可以执行对待量化的值的按位右移。量化系数(QP)通常是采用语法元素的行驶包含在头信息中的。
在量化之后,可以扫描变换系数,从而从包括经量化的变换系数的二维矩阵产生一维向量。可以将扫描设计为将较高能量(并且因此较低频率)的系数放置在向量的前面,并将较低能量(并且因此较高频率)的变换系数放置在向量的后面。在一些示例中,可以利用预定义的扫描顺序来扫描经量化的变换系数以产生串行化的向量,然后对向量的经量化的变换系数进行熵编码。在其他示例中,可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,可以例如根据上下文自适应二进制算术译码(CABAC)对一维向量进行熵编码还可对用于语法元素的值进行熵编码,语法元素描述与经编码视频数据相关联的元数据,以供视频解码器300在解码视频数据时使用。
在编码过程中,可以例如在图片报头、块报头、切片报头中,生成语法数据,诸如基于块的语法数据、基于图片的语法数据和基于序列的语法数据,或其他语法数据,诸如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS)。视频解码器可类似地解码此类语法数据以确定如何解码对应的视频数据。这些信息都可以被称为“头信息”。
以此方式,可以生成包括经编码视频数据(例如,描述从图片到块(例如,CU)的划分的语法元素以及块的预测和/或残差信息)的位流。
VVC中的跨分量线性模型(Cross-Component Linear Model,CCLM)是一种新的VVC帧内跨分量色度预测技术,其通过对亮度和色度之间的关系建立一个线性模型,利用已完成编码的亮度实现对色度进行预测,以减少分量之间存在的冗余,提高了编码效率。
具体而言,VVC标准当中亮度和色度的划分与编码过程是独立的,其中,Y亮度分量和UV色度分量可以具有不同的划分结构。在一种可能情况中,一个色度块可能有几个同位亮度块与之对应。这是色度独立划分带来的一种编码新特性,为跨分量色度预测技术奠定了基础。CCLM预测技术是VVC帧内跨分量色度预测模块的新技术,也是HEVC标准中跨分量预测(Cross Component Prediction,CCP)技术的一种延伸。CCLM技术突破了CCP技术只用于残差域的限制,使其在其他方面得到了广泛的应用。CCLM技术中的跨分量预测过程是将重建后的亮度像素数据作为输入,利用线性模型输出得到相应的色度像素。
(1)下采样滤波器
在YUV的4:2:0采样格式中,亮度分量和色度分量的尺寸不同。在应用CCLM技术之前,为了使亮度分量的分辨率及位置和色度分量匹配,需要对亮度分量(当前CU亮度分量和邻域参考像素的亮度分量)进行下采样。亮度分量和色度分量的空间采样位置有4种常见类型,色度采样类型示意图如图2-3所示。
VVC标准根据采样位置及滤波位置的不同,采用了三种下采样滤波器,如图5所示,白色像素为色度分量(x,y)对应亮度分量位置,使用滤波模板进行下采样滤波,得到对应位置滤波后的亮度分量。对于色度采样类型2和类型3,使用如图6(a)所示的5抽头下采样滤波器;对于色度采样类型0和类型1,使用如图6(b)所示的6抽头下采样滤波器;当亮度上参考行处于CTU的边界时,采用如图6(c)所示的3抽头下采样滤波器。
(2)下采样滤波器
CCLM技术对色度分量和己经完成重建的同一CU的亮度分量构建线性模型实现预测,使用如公式2-1所示的线性模型:
Predc(i,j)=α*Rec'L(i,j)+β (2-1)
其中Predc(i,j)表示在CU中待预测的色度样本,Rec'L(i,j)表示同一CU的下采样重建亮度样本。α和β分别对应线性模型的斜率和截距,由当前色度编码块相邻的4个参考色度像素和对应的下采样的4个亮度像素计算得到。
VVC标准的帧内色度预测模块包含3种CCLM模式(LM,LM_L和LM_T模式),不同CCLM模式使用的参考像素的选择方法也不同。假设当前块大小为W×H,上相邻像素位置由(0,-1),(1,-1)...(W+H-1,-1)表示,并且左相邻像素位置由(-1,0),(-1,1)...(-1,W+H-1)表示。则需要的4个像素的选择位置如下:
1)对于模式LM,选择的位置是(W/4,-1),(3W/4,-1),(-1,H/4)和(-1,3H/4)。
2)对于模式LM_T,选择的位置是((W+H)/8,-1),(3(W+H)/8,-1),(-1,5(W+H)/8)和(-1,7(W+H)/8)。
3)对于模式LM_L,选择的位置是(-1,(W+H)/8),(-1,3(W+H)/8),(5(W+H)/8,-1)和(-1,7(W+H)/8)。
图7中展示了不同CCLM模式下4×4的编码块参考像素采样位置。
VVC标准采用低复杂度的最大最小方法来推导出线性模型中α和β的参数。在预定义的位置选择四个相邻的色度样本(C1、C2、C3、C4)及其相应的下采样亮度样本(Y1、Y2、Y3、Y4),按照亮度大小排序,较小的两对(Y1,C1)和(Y2,C2)取平均值,较大的两对(Y3,C3)和(Y4,C4)取平均值,形成两个亮度和色度样本对,表示为(Ya,Ca)和(Yb,Cb),然后通过公式2-2导出α和β。
(3)下采样滤波器
在VVC标准中,CCLM技术的三种模式与色度预测候选模式列表中已有的五种模式(DM,PLANAR,DC,HOR和VER模式)会经过一系列代价比较,决策出最优模式,之后编码端会对最优模式进行熵编码,即最优模式所对应的编号进行编码,如表1所示。具体的编码过程如下:
1)若LM,LM_L,LM_T模式中的一种是最优模式,利用上下文模型ctx0将首位编码为1;若其他五种模式中的一种是最优模式,利用上下文模型ctx0将首位编码为0。
2)当最优模式的首位编码为1时,继续判断最优模式是LM,LM_L,LM_T三种模式当中的哪一种。若最优模式是LM模式,则使用上下文模型ctx1将最优模式的第二位编码为0,编码结束;若最优模式不是LM模式,则使用上下文模型ctx1将最优模式的第二位编码为1;最后编码第三位时以旁路编码的方式进行,将LM_L模式编码为0,LM_T模式编码为1。
当最优模式的首位编码为0时,继续判断最优模式是五种模式当中的哪一种。若最优模式是DM模式,则用上下文模型ctx2将第二位编码为0,编码结束;若最优模式不是DM模式,则用上下文模型ctx2将第二位编码为1;接着使用旁路编码的方式编码其他四种模式,将PLANAR模式编码为00,DC模式编码为11,HOR模式编码为10,VER模式编码为01,编码结束。
1色度模式的熵编码
一方面,现有的CCLM预测技术还存在一些缺陷,如对于复杂编码块的预测效果不佳,降低了去相关能力。
另一方面,近年来,深度学习在视频压缩领域的研究越来越受到重视。与传统的视频压缩算法相比,基于深度学习的算法能够充分利用网络的非线性特性以及大量的视频数据,有望显著提高压缩性能,为视频压缩系统提供了一种新的、切实可行的途径。目前,已经有研究者为编码器的各模块设计了初步的深度学习算法,取得了一定的成效,但缺乏系统性的深度学习优化方案,优化效果有待提高。
发明内容
本公开内容提出了用于在多功能视频编码(VVC)中。更具体而言,本公开内容用于基于非对称卷积的VVC帧内跨分量色度预测的方法、装置、编解码器以及处理器可读存储介质。
根据一个方面,一种用于基于非对称卷积的帧内跨分量色度预测的方法,包括:
利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征;
利用非对称卷积,提取已重建的亮度分量(Y)的特征;
使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合;以及
使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值。
根据进一步的方面,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
连续地先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,以便提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征。
根据进一步的方面,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行卷积层,来提取已重建的亮度分量(Y)的特征。
根据进一步的方面,其中,使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合进一步包括:
将所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征使用1×1核进行卷积,以得到第一特征矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,以得到第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵相乘,以得到预注意映射;
对所述预注意映射中的每个元素进行归一化指数运算,以得到注意力矩阵;
将所述注意力矩阵与所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进行相乘,以得到第三矩阵;
将所述第三矩阵使用1×1核进行卷积,以得到第四矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,并与所述第四矩阵相乘,以得到第五矩阵;以及
将所述第五矩阵与第三矩阵进行连接。
根据进一步的方面,其中,使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值进一步包括:
对使用经过注意力机制融合后的特征进行3x3卷积核1x1卷积。
根据进一步的方面,其中,所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征是特征图,并且所述已重建的亮度分量(Y)的特征是特征图。
根据进一步的方面,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用修正的线性单元(ReLU)对三个平行卷积层的卷积结果进行激活。
根据进一步的方面,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
不利用归一化层进行归一化。
根据进一步的方面,其中,n=3。
根据另一方面,提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
根据另一方面,提出了一种可用于视频编解码的设备,该设备包括:一个或多个处理器;存储器,其中存储有计算机代码,所述计算机代码当由所述处理器执行时,实现所述的方法。
附图说明
图1示出了HEVC/VVC的通用编码器的一般性方框图的实施例。
图2示出了HEVC中的编码树(CTU)的示意图。
图3示出了用于VVC的多类型树划分模式。
图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例。
图5示出了用于VVC的4:2:0格式色度采样类型示意图。
图6示出了用于VVC的亮度下采样滤波器的示意图。
图7示出了VVC中的CCLM几种模式的采样位置的示意图。
图8示出了根据一个实施例的,双参考行的跨分量预测网络结构的示意图。
图9示出了根据一个实施例的,下采样分支网络结构的示意图,其中间部分对应于图8的结构。
图10示出了根据一个实施例的,位置信息融合网络结构的示意图,其中间部分对应于图8的结构。
图11示出了根据一个实施例的,4×4块的位置图的示意图。
图12示出了根据一个实施例的,网络模型的整体框架的示意图。
图13示出了根据一个实施例的,ACANN网络结构的示意图。
图14示出了根据一个实施例的,ICAB结构的示意图。
图15示出了根据一个实施例的,FRB结构的示意图。
图16示出了根据本发明的实施例的用于实现本公开内容的方法的一种可用于视频编解码的设备。
具体实施方式
现在参考附图来描述各种方案。在以下描述中,为了进行解释,阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而,显然,在没有这些具体细节的情况下也能够实现这些方案。
如在本申请中所使用的,术语“组件”、“模块”、“系统”等等旨在指代与计算机相关的实体,例如但不限于,硬件、固件、硬件和软件的组合、软件,或者是执行中的软件。例如,组件可以是但不限于:在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言,运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内,并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外,这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信,例如根据具有一个或多个数据分组的信号,例如,来自于借助于信号与本地系统、分布式系统中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他系统交互的一个组件的数据。
在本文中,根据上下文,“CTU划分”和“CU划分”可以互换地使用,“编码块”、“CU”、“区域”可以互换地使用,“图片(picture)”和“帧(frame)”可以互换地使用。
虽然在本文中主要在VVC的上下文中提出了用于基于非对称卷积的VVC帧内跨分量色度预测的新颖的算法。但是,本领域技术人员容易理解,本发明同样适用于采用了帧内跨分量色度预测或类似技术的其他视频编解码协议。
基于深度学习的跨分量预测
基于注意力的学习是在深度学习理论中的一项重要技术,旨在提高训练后的网络在复杂预测任务中的性能。注意力模型的核心思想是,通过为不同的区域分配不同的权重,实现对重要区域的重点关注,以达到更有效的学习。特别是,自注意力机制可以用于评估特定的输入变量对输出的影响,使得预测的计算集中于同一序列中最相关的元素。将这一概念扩展到色度跨分量预测,可以解决基于卷积神经网络和全连接网络的跨分量预测技术的局限性,后者通常会丢弃邻近的参考样本和预测样本之间的空间关系。
(1)双参考行的跨分量预测网络
双参考行的跨分量预测网络采用了基于三个网络分支加注意力模块的方案,以双参考行的方式产生色度预测样本。前两个分支同时从可用的重建样本中提取特征,包括已经重建的亮度块以及邻近的亮度和色度参考样本。第一个分支(称为跨分量边界分支)的目的是,在当前块的左侧和上方提取跨分量信息。第二个分支(称为亮度卷积分支)应用卷积操作在重建的亮度块上提取空间模式。这两个分支的特征通过注意力模块进行融合,并输入到第三个网络分支,以产生最终的U和V预测。图8展示了该网络结构。
在色度跨分量预测过程中,使用的参考样本包括重建的亮度块X∈IRN×N,和当前块左上角的参考样本阵列Bc∈IRb,b=4N+1(其中c=Y,U或V)。B是由左边边界上的样本(从最底部的样本开始)、拐角像素,以及顶部样本(从最左边的样本开始)构造出来的。如果某些参考样本不可用,则使用预定义的值填充这些样本。此外,S∈IR3×b是通过将三个参考阵列BY、BU和BV连接起来得到的跨分量特征。
1)跨分量边界分支
通过应用两个连续的Di通道1×1卷积层,从S∈IR3×b中提取跨分量特征,得到输出特征图。通过应用1×1卷积,保留边界输入维数,得到每个边界位置的跨分量信息的D通道向量。每次卷积操作后应用偏置和修正的线性单元(Rectified Linear Unit,ReLU)激活。
2)亮度卷积分支
在提取跨分量特征的同时,将重建的亮度块X输入不同的卷积网络层,生成代表亮度块中空间模式的特征图。亮度卷积分支由j个连续的Cj通道3×3卷积层定义,步长为1,从N2输入样本中获得输出的特征图。与前一个分支类似,在第二次卷积操作后应用偏置和ReLU激活。
3)注意力模块
来自前两个网络分支的特征图(S和X,从1和2开始)分别使用1×1核进行卷积,将它们投影到两个相应的简化特征空间中。具体地说,S与滤波器WF∈IRh×D卷积得到h通道特征矩阵G。同样,X与滤波器WG∈IRh×C卷积得到h通道特征矩阵F。两个矩阵相乘得到预注意映射M=GTF。最后,对M的每个元素mi,j进行归一化指数(softmax)运算得到注意力矩阵生成每个边界位置的概率,以能够预测块中的样本位置。A中的每个值αj,i均以2-3的形式确定:
其中j=0,...,N2-1表示预测块中的样本位置,i=0,...,b-1表示参考样本位置,T为控制生成概率平滑度的softmax温度参数,其中0≤T≤1。
之后,在特定位置预测给定输出样本过程中,通过计算S和A的点积,得到每个参考样本的贡献的加权和。为了进一步细化,加权和将乘以亮度分支的输出。为此,必须对亮度分支的输出进行变换,通过使用矩阵W∈IRD×C进行1×1卷积来改变其维数,以获得变换表示。
4)预测头分支
将注意力模块的输出进一步输入到第三个网络分支,以计算预测的色度样本。在这个分支中,使用最后一个卷积网络将通过注意力模块结合的前两个分支的融合特征映射到输出的U和V预测分量中。预测头分支分别应用Di通道3×3卷积滤波器和2通道1×1卷积滤波器生成输出预测值。
(2)单参考行的跨分量预测网络
当双行参考样本不可用时,使用单参考行的跨分量预测网络来进行预测。单参考行的跨分量预测网络包括两种形式,均采用单行参考像素进行优化,共同用于跨分量色度预测。单参考行的预测网络从两方面弥补了双参考行预测网络的不足:一方面,单参考行的设计有利于减少计算量;另一方面,当双参考行不可用时(如当前块的右上方或左下角),使用双边界参考样本会造成性能损失,此时只能采用单参考行的网络。
单参考行跨分量预测网络的两种形式如图9(添加下采样分支)和图10(位置信息融合)所示,它通过在输入端中添加下采样分支或位置信息,以获得更准确的预测值,从而提高了网络性能。在不改变主体结构的情况下,这两种方法都增强了跨分量边界分支和亮度卷积分支。
1)下采样分支
与CCLM技术中的下采样滤波器不同,这里的下采样滤波器是通过学习获得的,以选择最适合的下采样亮度特征进行色度预测。
网络主要考虑了4:2:0的YUV格式。假设亮度块的大小为2N×2N,在宽度和高度上都是色度块大小的两倍。为了将亮度特征和色度特征连接用于色度预测,需要将亮度输入下采样到与色度输入相同的大小。跨分量边界分支的亮度下采样滤波器选择大小为2的平均池。亮度卷积分支的亮度下采样滤波器采用3×3卷积,步长为2,在下采样时扩展了特征图的通道。
2)位置信息融合
在预测过程中,不同空间位置像素的预测精度将受到与参考样本行的相应距离的影响,但是,对于每个编码块的卷积计算都是相同的,并且在双参考行的跨分量预测网络中不考虑空间差异。为了使网络在不同的重要性上预测当前块不同位置的像素,并有效地指导预测过程,使用当前块和边界的位置信息来构建一个特征图,称为位置图。位置图与输入大小相同,含有每个像素的归一化横坐标和纵坐标信息。如图11所示,展示了4×4块的位置图。图11(a)和图11(b)是当前块的位置图,图11(c)和图11(d)是边界的位置图。
如上所述地,传统模型的表达能力有限,应用深度学习的方法可以提高色度预测的准确性。本公开内容分析了现有神经网络存在的优点与不足,针对这些不足提出了改进,优点加以利用,构建了性能优越的改进的神经网络模型,并将改进后的神经网络模型嵌入到VVC编解码框架中,最后通过丰富的实验验证了该神经网络模型的有效性。
如上所述地,CCLM技术存在以下两个缺点:
1)对于复杂内容的编码块,线性模型的适用性不强,无法准确的描述各分量之间的相关关系。
2)由于这种方式是人工设计的,比较固定,而且由于视频的场景比较多,因此这种方式并不能给出对各种视频进行比较精确的色度预测。
基于神经网络的帧内跨分量色度预测技术可以很好地解决CCLM技术存在的问题。主要体现在两点:
1)神经网络模型的合理设计,可以在跨分量色度预测中引入非线性关系,对于复杂内容的编码块,神经网络模型可以更好地学习各个分量之间存在的关系。
2)神经网络模型的数据集可以从场景丰富的视频数据中提取,这使得训练后的神经网络模型在预测不同内容的色度块时,拥有较强的泛化能力。
本文通过分析现有的基于注意力机制的跨分量预测技术,分析得到在设计用于帧内跨分量色度预测的神经网络模型需要考虑的关键问题:网络模型的框架、网络模型对于不同尺寸色度块的处理。
网络模型的框架是指网络模型由哪几个模块构成以及各个模块的作用。本文所使用的预测网络包括四个分支模块,分别是跨分量边界分支、亮度卷积分支、注意力融合模块和预测头分支,如图12。每一部分的作用如下:
1)跨分量边界分支的作用是提取邻近亮度分量与色度分量的特征,以充分利用已重建邻近块的信息(图12的左上角);
2)亮度卷积分支的作用是提取己重建亮度分量的特征,充分学习分量间的相关性(图12的左下角);
3)注意力融合模块的作用是将跨分量边界分支和亮度卷积分支提取的特征利用注意力机制的方式进行融合(图12的“注意力模块”);
4)经过注意力机制融合后的特征通过预测头分支获得UV分量预测值(图12的右侧两个模块)。
基于注意力机制的网络框架的设计充分考虑了跨分量预测所需信息,分别是己重建邻近块与当前己重建亮度块。
由于VVC的划分结构,导致编码块的尺寸多样。在VVC中,如何为不同尺寸的编码块设计对应的网络模型用于色度预测,是一个值得考虑的问题。根据VVC跨分量预测的划分过程可知,编码过程中会有25种类型的色度编码块。假定为25种不同类型的块分别设计相应的网络模型,那么算法需要设计25个网络模型,无论是在训练时间上,还是在编码复杂性上,算法都是不合理的。因此,在不失一般性的前提下,本研究只考虑了4×4、8×8和16×16的正方形色度编码块,将三种大小的方块统一用一个模型预测,大量节省内存资源。
在本文中,在设计用于跨分量预测的神经网络模型时,需要考虑网络模型的框架、模型对于不同尺寸色度块的处理。在充分考虑上述两个关键因素后,提出了如图13所示的基于非对称卷积的注意力网络(Asymmetric Convolutional-based Attention NeuralNetwork,ACANN)模型。
该网络模型的作用是对4×4、8×8和16×16的块进行跨分量色度预测,由当前CU的重建亮度分量与邻近己重建的亮度与色度分量构成了网络模型的输入,当前编码块的色度分量是网络模型的输出。首先,该网络模型的框架采用如图12所示的四个主要模块,分别是跨分量边界分支模块、亮度卷积分支模块、预测头分支模块以及注意力模块。对于每个模块,分别提出了相应的改进模块用于增强网络模型的性能。
1)跨分量边界分支模块采用非对称卷积解决从相邻的重建亮度和色度样本中提取的特征的空间相关性不足的问题;
2)亮度卷积分支模块设计改进的非对称卷积块(IACB),利用非对称卷积增强用于提取当前块的重建亮度样本特征的平方卷积核中心骨架部分,进一步增强空间相关性;
3)注意力模块设计特征复用块(FRB)最大程度地利用不同层级的功能,增强网络性能;
4)为了尽量减小网络模型的存储空间,不再为所有尺寸编码块的色度预测分别设计网络模型,
而是仅设计一个网络模型,用于大小为4×4、8×8和16×16的色度编码块的预测。
下面详细介绍了网络模型ACANN中每个改进模块的作用和具体结构。
在色度跨分量预测过程中,使用的参考样本包括重建的亮度块X∈IRN×N,和当前块左上角的参考样本阵列Bc∈IRb,b=4N+1(其中c=Y,U或V)。B是由左边边界上的样本(从最底部的样本开始)、拐角像素,以及顶部样本(从最左边的样本开始)构造出来的。如果某些参考样本不可用,则使用预定义的值填充这些样本。此外,S∈IR3×b是通过将三个参考阵列BY、BU和BV连接起来得到的跨分量特征。
1)结合非对称卷积的边界分支优化
1×1的卷积核只会考虑当前像素,通常用来调节特征图的通道数。对不同通道上的像素点进行线性组合,从而实现特征图的升维或降维功能。双行参考神经网络的边界分支采用从1×1的卷积核从相邻的重建亮度和色度样本中提取特征,1×1的卷积核并没有考虑周围的像素值,然而视频的相邻像素之间存在着空间相关性,采用1×1的卷积核就会导致边界分支提取的特征空间相关性不足。
非对称卷积通常用来替代平方卷积,将平方卷积替换成垂直方向和水平方向的两次非对称卷积,保证效果的同时减少运算量。如提取特征是用n×n平方卷积,和先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,两者的结果是等价的,但是n×n卷积需要n×n次乘法,替换成两次非对称卷积之后,只需要2×n次乘法,n越大,那么运算量减少的越多。
不仅如此,非对称卷积还有一个增大感受野的作用。相对于1×1的卷积核,采用水平方向的非对称卷积可以增加水平方向的感受野,采用垂直方向的非对称卷积可以增加垂直方向的感受野。针对边界分支输入特点采用垂直方向的非对称卷积,增大感受野,将周围的相邻像素考虑进去,增强边界分支提取特征的空间性,以解决边界分支采用1×1卷积核提取特征时空间相关性不足的问题。
为了平衡计算量、参数量与网络性能之间的关系,在跨分量边界分支应用两个连续的Di通道3×1卷积层,从S∈IR3×b中提取跨分量特征,得到输出特征图。通过应用3×1卷积,保留边界输入维数,得到每个边界位置的跨分量信息的D通道向量。Si可以用神经网络的形式表示为:
其中,和bi分别是i层的权值和偏置,D0=3,F是ReLU激活函数。
2)结合IACB的亮度分支优化
重建亮度块像素的邻域有4邻域和8邻域之分,3×3的卷积核通常是对像素的8邻域进行计算,训练过程中无权重差别对待,然而对于4邻域像素和中心像素的相关性,相比于不属于4邻域像素但是属于8邻域像素和中心像素的相关性是有所区别的,前者的相关性应大于后者。因此采用3×3的卷积核对重建亮度块进行特征提取,就会造成特征的空间相关性不强的问题。
非对称卷积块由卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行层组成,水平非对称和垂直非对称卷积核与方形卷积核相加得到非对称卷积块的输出。本章根据研究问题,借鉴非对称卷积块的结构,提出了新的模块IACB,结构如图14,主要将非对称卷积引入,增强方形卷积核的中心骨架部分,进而增强特征的空间相关性,同时去掉了非对称卷积模块当中的归一化层,减少计算量。
3)结合FRB的注意力模块优化
所谓的特征复用,就是将各个层次中已经存在的某些特征进行串联,从而得到更多的新特征。考虑到特征复用技术的优点以及双参考行跨分量预测网络的特点,本文中采用一个特征复用块(FRB),将注意力机制后的特征与细化后的特征连接起来,最大程度地利用不同层级的功能以减少过拟合。FRB的结构如图15所示。
图13示出了根据一个实施例的,ACANN网络结构的示意图。如图13所示,用于基于非对称卷积的帧内跨分量色度预测的方法,可以包括:跨分量边界分支模块、亮度卷积分支模块、注意力模块、以及预测头分支模块。其中,跨分量边界分支的作用是提取邻近亮度分量与色度分量的特征,以充分利用已重建邻近块的信息;亮度卷积分支的作用是提取己重建亮度分量的特征,充分学习分量间的相关性;注意力融合模块的作用是将跨分量边界分支和亮度卷积分支提取的特征利用注意力机制的方式进行融合;经过注意力机制融合后的特征通过预测头分支获得UV分量预测值。
根据一个优选实施例,在跨分量边界分支模块(图13左上方)中,可以利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征。根据一个具体实施例,所述的特征S2是特征图。
如图13所示,在跨分量边界分支模块中,连续地先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,以便提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征S2
如上所述地,为了平衡计算量、参数量与网络性能之间的关系,在跨分量边界分支应用两个连续的Di通道3×1卷积层,从S∈IR3×b中提取跨分量特征,得到Si∈IRDi×b输出特征图。通过应用3×1卷积,保留边界输入维数,得到每个边界位置的跨分量信息的D通道向量。
根据一个优选实施例,在跨分量边界分支模块中,不利用归一化层进行归一化。
根据一个优选实施例,在亮度卷积分支模块(图13左下方)中,可以利用非对称卷积,提取已重建的亮度分量(Y)的特征X2。根据一个具体实施例,所述的特征X2是特征图。
根据一个优选实施例,在亮度卷积分支模块中的非对称卷积可以采用两个连续的ICAB结构,例如,如图14所示。在每个ICAB结构中,可以利用卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行卷积层,来提取已重建的亮度分量(Y)的特征,例如图14所示。在一个优选实施例中,n可以为3,但显然本文并不局限于此。
根据一个优选实施例,在每个ICAB结构中,可以利用修正的线性单元(ReLU)对三个平行卷积层的卷积结果进行激活,例如图14所示。
根据一个优选实施例,在注意力模块中,可以使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合,例如,如图13所示。
根据一个优选实施例,在注意力模块中,如图13所示并结合图15中的FRB,可以进行如下操作:
将所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征(S2)使用1×1核进行卷积,以得到第一特征矩阵(F);
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,以得到第二特征矩阵(G);
将所述第一特征矩阵与所述第二特征矩阵相乘,以得到预注意映射(M=GTF);
对所述预注意映射中的每个元素进行归一化指数运算,以得到注意力矩阵
将所述注意力矩阵与(A)所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征(S2)进行相乘,以得到第三矩阵(O);
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,并与所述第四矩阵相乘,以得到第五矩阵(见图15左侧的1x1卷积);以及
将所述第五矩阵与第三矩阵进行连接(见图15右侧的“连接”)。
根据另一方面,本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
当用硬件实现时,视频编码器可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合,来实现或执行。通用处理器可以是微处理器,但是可替换地,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外,至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。
当用ASIC、FPGA等硬件电路来实现视频编码器时,其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个系统上的各种约束条件来以各种方式设计和实现这些电路,来实现本发明所公开的各种功能。
本文中的各个实施例以以下编号的条目列出:
条目1、一种用于基于非对称卷积的帧内跨分量色度预测的方法,包括:
利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征;
利用非对称卷积,提取已重建的亮度分量(Y)的特征;
使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合;以及
使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值。
条目2、如条目1所述的方法,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
连续地先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,以便提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征。
条目3、如条目1-2中任一项所述的方法,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行卷积层,来提取已重建的亮度分量(Y)的特征。
条目4、如条目1-3中任一项所述的方法,其中,使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合进一步包括:
将所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征使用1×1核进行卷积,以得到第一特征矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,以得到第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵相乘,以得到预注意映射;
对所述预注意映射中的每个元素进行归一化指数运算,以得到注意力矩阵;
将所述注意力矩阵与所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进行相乘,以得到第三矩阵;
将所述第三矩阵使用1×1核进行卷积,以得到第四矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,并与所述第四矩阵相乘,以得到第五矩阵;以及
将所述第五矩阵与第三矩阵进行连接。
条目5、如条目1-4中任一项所述的方法,其中,使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值进一步包括:
对使用经过注意力机制融合后的特征进行3x3卷积核1x1卷积。
条目6、如条目1-5中任一项所述的方法,其中,所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征是特征图,并且所述已重建的亮度分量(Y)的特征是特征图。
条目7、如条目1-6中任一项所述的方法,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用修正的线性单元(ReLU)对三个平行卷积层的卷积结果进行激活。
条目8、如条目1-7中任一项所述的方法,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
不利用归一化层进行归一化。
条目9、如条目1-8中任一项所述的方法,其中,n=3。
条目10、一种计算机程序产品,包括非暂时性存储介质,所述非暂时性存储介质中存储有用于执行根据条目1-9中任一项所述的方法的代码。
尽管前述公开文件论述了示例性方案和/或实施例,但应注意,在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下,可以在此做出许多变化和修改。而且,尽管以单数形式描述或要求的所述方案和/或实施例的要素,但也可以设想复数的情况,除非明确表示了限于单数。另外,任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用,除非表明了有所不同。

Claims (10)

1.一种用于基于非对称卷积的帧内跨分量色度预测的方法,包括:
利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征;
利用非对称卷积,提取已重建的亮度分量(Y)的特征;
使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合;以及
使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值。
2.如权利要求1所述的方法,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
连续地先进行n×1的垂直非对称卷积再进行1×n的水平非对称卷积,以便提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征。
3.如权利要求1-2中任一项所述的方法,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用卷积核为方形(n×n)、水平(1×n)和垂直(n×1)的三个平行卷积层,来提取已重建的亮度分量(Y)的特征。
4.如权利要求1-3中任一项所述的方法,其中,使用注意力机制,将所述相邻块的亮度分量和色度分量的特征和所述已重建的亮度分量的特征进行融合进一步包括:
将所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征使用1×1核进行卷积,以得到第一特征矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,以得到第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵相乘,以得到预注意映射;
对所述预注意映射中的每个元素进行归一化指数运算,以得到注意力矩阵;
将所述注意力矩阵与所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进行相乘,以得到第三矩阵;
将所述第三矩阵使用1×1核进行卷积,以得到第四矩阵;
将所述已重建的亮度分量(Y)的特征使用1×1核进行卷积,并与所述第四矩阵相乘,以得到第五矩阵;以及
将所述第五矩阵与第三矩阵进行连接。
5.如权利要求1-4中任一项所述的方法,其中,使用经过注意力机制融合后的特征通过预测头分支获得色度分量(U、V)预测值进一步包括:
对使用经过注意力机制融合后的特征进行3x3卷积核1x1卷积。
6.如权利要求1-5中任一项所述的方法,其中,所述当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征是特征图,并且所述已重建的亮度分量(Y)的特征是特征图。
7.如权利要求1-6中任一项所述的方法,其中,利用非对称卷积,提取已重建的亮度分量的特征进一步包括:
利用修正的线性单元(ReLU)对三个平行卷积层的卷积结果进行激活。
8.如权利要求1-7中任一项所述的方法,其中,利用非对称卷积,提取当前块的左侧和上方的亮度分量(Y)和色度分量(U、V)的特征进一步包括:
不利用归一化层进行归一化。
9.如权利要求1-8中任一项所述的方法,其中,n=3。
10.一种计算机程序产品,包括非暂时性存储介质,所述非暂时性存储介质中存储有用于执行根据权利要求1-8中任一项所述的方法的代码。
CN202310646543.XA 2023-06-02 2023-06-02 基于非对称卷积的vvc帧内跨分量色度预测 Pending CN116684627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310646543.XA CN116684627A (zh) 2023-06-02 2023-06-02 基于非对称卷积的vvc帧内跨分量色度预测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310646543.XA CN116684627A (zh) 2023-06-02 2023-06-02 基于非对称卷积的vvc帧内跨分量色度预测

Publications (1)

Publication Number Publication Date
CN116684627A true CN116684627A (zh) 2023-09-01

Family

ID=87790281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310646543.XA Pending CN116684627A (zh) 2023-06-02 2023-06-02 基于非对称卷积的vvc帧内跨分量色度预测

Country Status (1)

Country Link
CN (1) CN116684627A (zh)

Similar Documents

Publication Publication Date Title
RU2766152C1 (ru) Способ и устройство для кодирования/декодирования сигнала изображения
JP2022078048A (ja) 画像復号方法及び画像符号化方法
US11889077B2 (en) Method for encoding/decoding image signal and device therefor
CN116866563A (zh) 图像编码/解码方法、存储介质以及图像数据的传输方法
CN113273213A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
CN112369021A (zh) 用于吞吐量增强的图像编码/解码方法和设备以及存储比特流的记录介质
CN113507603B (zh) 图像信号编码/解码方法及其设备
CN112771862A (zh) 通过使用边界处理对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
JP7375224B2 (ja) 符号化・復号方法、装置及びそのデバイス
CN113261286A (zh) 用于推导帧内预测模式的方法和设备
CN111448798A (zh) 基于块形状的视频编码和解码的方法和装置
CN113196758A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
CN113875235A (zh) 图像编码/解码方法和装置及存储比特流的记录介质
CN113841399A (zh) 图像编码/解码方法和设备
CN113875237A (zh) 用于在帧内预测中用信号传送预测模式相关信号的方法和装置
CN116684627A (zh) 基于非对称卷积的vvc帧内跨分量色度预测
CN114503566A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
CN113891091A (zh) 用于预测残差信号的方法和装置
CN112740669A (zh) 用于图像编码/解码的方法和设备、以及存储比特流的记录介质
RU2806878C2 (ru) Способ и устройство кодирования/декодирования изображения и носитель записи, хранящий битовый поток
RU2811985C2 (ru) Способ и устройство для кодирования/декодирования сигналов изображений
RU2811980C2 (ru) Способ и устройство для кодирования/декодирования сигналов изображений
RU2812857C2 (ru) Способ и устройство для кодирования/декодирования сигналов изображений
CN116634137A (zh) 基于特征交叉的屏幕内容视频帧内模式快速决策
RU2809619C1 (ru) Способ, оборудование и устройство для кодирования и декодирования

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination