CN116634137A

CN116634137A - 基于特征交叉的屏幕内容视频帧内模式快速决策

Info

Publication number: CN116634137A
Application number: CN202310653490.4A
Authority: CN
Inventors: 张萌萌; 景竑元; 唐少虎; 刘志
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-22

Abstract

本发明公开了一种基于特征交叉的屏幕内容视频帧内模式快速决策，其包括：针对当前CU，确定当前CU的信息熵、平均灰度水平差值、背景色百分比、高梯度像素数作为与当前CU相对应的数值型特征；针对当前CU，确定当前CU的相邻CU属性、当前CU的深度属性作为与当前CU相对应的类别型特征；将与当前CU相对应的数值型特征和类别型特征输入到自适应因子分解网络(AFN)中以便由AFN网络判断当前CU是屏幕内容CU还是自然内容CU，其中，所述AFN中的对数变换层之上进一步包括注意力网络层和尺度变换层。本发明通过引入特征交叉思想，利用特征间的交叉作用来构造出新的具有更强判别力的特征，提升算法对编码单元的分类能力，在减少帧内模式决策时间的同时保持较低的编码损失。

Description

基于特征交叉的屏幕内容视频帧内模式快速决策

技术领域

本发明涉及图像与视频处理领域，更具体而言，涉及在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法、装置和计算机程序产品。

背景技术

数字视频功能可以结合到各种设备中，包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型电脑或台式计算机、平板电脑、电子书阅读器、数码相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏机、蜂窝或卫星无线电电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。

数字视频设备实施视频编码(coding)技术，诸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4，第10部分，高级视频编码(AVC)、高效视频编码(HEVC)标准、ITU-TH.265/高效视频编码(HEVC)、多功能视频编码(Versatile Video Coding)VVC(H.266)、以及此类标准的扩展定义的标准中描述的那些技术。通过实施这样的视频编码技术，视频设备可以更有效地发送、接收、编码、解码和/或存储数字视频信息。

2010年4月，两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding)，一同开发高效视频编码标准。

在2013年，JCT-VC完成了对HEVC(High efficiency video coding)标准(也称为H.265)开发，并且随后陆续发布了多个版本。

HEVC提出了全新的语法单元：编码单元(CU)是进行预测、变换、量化和熵编码的基本单元，预测单元(PU)是进行帧内帧间预测的基本单元，变换单元(TU)是进行变换和量化的基本单元。另外，每个CU定义了共享相同预测模式(帧内或帧间)的区域。

如图1所示，在HEVC中，可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中，HEVC都采用编码树单元(CTU)的编码结构，CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB(编码树块，Coding Tree Block)、2个色度CTB和相应的语法元素组成。图2显示了在一个LCU(最大编码单元)编码后的CTU结构。在HEVC中，LCU可以只包含一个编码单元(CU)，也可以使用CTU四叉树结构划分出为不同大小的CU。

HEVC中有四种大小CU，大小分别为：64x64、32x32、16x16和8x8。CU块越小，其在CTU树中位置越深。当CU为64x64、32x32和16x16时称为2Nx2N模式(表示可以划分为更小的CU)，当CU为8x8时称为NxN模式(表示不可以进行进一步划分)。对于帧内预测，CU被分成两个PartMode(2Nx2N和NxN)，这取决于它是否可以被分成更小的CU。尺寸为64x64、32x32和16x16的CU属于2N×2N，尺寸为8×8的CU属于N×N。

在HEVC中，PU进行帧内帧间预测的基本单元，PU的划分是以CU为基础的，具有五种规则大小64x64、32x32、16x16、8x8和4x4。更具体地，PU尺寸基于PartMode：对于2N×2N的PartMode PU尺寸与CU相同，对于N×N的PartMode CU可以被划分为四个4×4子PU。对于2N*2N的CU模式，帧内预测PU的可选模式包括2N*2N和N*N，帧间预测PU的可选模式有8种，包括4种对称模式(2N*2N，N*2N，2N*N，N*N)和4种非对称模式(2N*nU，2N*nD，nL*2N，nR*2N)，其中，2N*nU和2N*nD分别以上下1:3、3:1的比例划分，nL*2N和nR*2N分别以左右1:3、3:1的比例划分。

在HEVC中，仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO)进行模式选择，为每一个帧内模式计算其RDO：

J＝D+λR (1)

其中，J为拉格朗日代价(亦即RD-cost)，D表示当前帧内模式的失真，R表示编码当前预测模式下所有信息所需的比特数，λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。

处理一帧视频图像需要首先将其划分成多个LCU(64x64)，然后依次编码每个LCU。每个LCU依次递归划分，其通过计算当前深度的RD-cost判定是否继续划分。一个LCU最小可划分至8x8大小的单元，如图2所示。编码器通过比较深度的RD-cost值判定是否继续划分，如果当前深度内的4个子CU的编码代价总和大于当前CU，则不继续划分；反之则继续划分，直至划分结束。

本领域技术人员容易理解，由于CTU是对LCU进行CU划分的树状编码结构，CTU中的CU划分方式是以LCU开始的，因此在本领域中这两个名词经常可交换地使用。

在帧内预测中，每个PU使用总共35种预测模式。使用粗略模式决策(RMD)，我们可以获得64x64、32x32和16x16块的三种候选模式以及8x8和4x4块的八种候选模式。通过合并来自相邻块的最可能模式(MPM)来获得每个PU大小的最佳候选列表。然后，通过RDO来选择当前PU的最佳帧内预测模式。当完成当前CU中包括的所有PU的帧内预测时，完成当前CU的帧内预测。通过当前CU的RD-cost与当前CU及其4个子CU的四个子CU的总RD-cost之间的比较来选择具有较小RD-cost的次优CU内部预测完成。当完成所有CU分区时，完成当前CTU帧内预测。对于HEVC，当对LCU进行编码时，应当执行85个CU(一个64×64CU，四个32×32CU，十六个16×16CU和六十四个8×8CU)的帧内预测。当CU被编码时，应当执行一个PU或四个子PU的帧内预测。大量CU和PU导致帧内预测的高复杂性。

为了开发超越HEVC的新技术，2015年成立的一个新的组织，联合视频探索组(Joint Video Exploration Term)，并在2018年更名为联合视频专家组(JointVideoExperts Term,JVET)。在HEVC的基础上，多功能视频编码(Versatile Video Coding)VVC(H.266)的研究由JVET组织于2018年4月10美国圣地亚哥会议上提出，在H.265/HEVC基础上改进的新一代视频编码技术，其主要目标是改进现有HEVC，提供更高的压缩性能，同时会针对新兴应用(360°全景视频和高动态范围(HDR)视频)进行优化。VVC的第一版在2020年8月完成，在ITU-T网站上以H.266标准正式发布。

有关HEVC和VVC的相关文件和测试平台可以从https://jvet.hhi.fraunhofer.de/获得，并且VVC的相关提案可以从http://phenix.it-sudparis.eu/jvet/获得。

VVC依然沿用H.264就开始采用的混合编码框架，其VTM编码器的一般性方框图如图1所示。帧间和帧内预测编码：消除时间域和空间域的相关性。变换编码：对残差进行变换编码以消除空间相关性。熵编码：消除统计上的冗余度。VVC将在混合编码框架内，着力研究新的编码工具或技术，提高视频压缩效率。

虽然VVC和HEVC中都采用树结构来进行CTU划分，但是在VVC采用了与HEVC不同的树结构CTU划分方式。并且，与HEVC相比，VVC中的CTU的(亮度块)最大大小达到了128x128(尽管亮度变换块的最大大小为64x64)。

与HEVC类似，VVC将图片划分为子图片(subpicture)、切片(slice)、和图块(tile)。一个图片被划分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的CTU序列。切片由整数个完整图块或在图片的图块内的整数个连续的完整CTU行。支持两种切片模式，即光栅扫描切片模式和矩形切片模式。在光栅扫描切片模式中，切片包含图片的图块光栅扫描中的完整图块的序列。在矩形切片模式中，切片包含共同形成图片的矩形区域的多个完整图块，或者一个图块的、共同形成图片中的矩形区域的多个连续完整CTU行。矩形切片内的图块在对应于该图块的矩形区域内以图块光栅扫描顺序进行扫描。子图片包含一个或多个切片，这些切片共同覆盖图片的矩形区域。

如上所述地，在HEVC中，使用四叉树结构将CTU划分为CU(即编码树)。关于帧内编码和帧间编码的决策是在叶节点CU处做出的。换言之，一个叶节点CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。然后，根据PU划分类型，每个叶CU可以进一步划分为1、2或4个预测单元PU。在每个PU内，使用相同的预测过程，并将相关信息以PU为基础发送到解码器段。在基于PU的预测过程获得了残差块后，可以根据类似于CU的编码树的另一类似四叉树结构将叶CU划分为TU。

而在VVC中，则采用了具有嵌套的多类型树的四叉树分割结构(QTMT)来划分CTU，其中嵌套的多类型树使用二叉树和三叉树。作为一个示例，这种嵌套的多类型树的一个实例是四叉树-二叉树(QTBT)结构。QTBT结构包括两个级别：根据四叉树划分而划分的第一级，以及根据二叉树划分而划分的第二级。QTBT结构的根节点对应于CTU。二叉树的叶节点对应于编码单元(CU)，CU定义了共享相同预测模式(例如帧内预测或帧间预测)的一个区域。在VVC中删除了CU、PU和TU的不同形式。

在VVC中，一个CTU首先通过四叉树进行划分，然后再通过多类型树进行进一步划分。如图3所示，VVC规定了4种多类型树划分模式：水平二叉树划分(SPLIT_BT_HOR)、垂直二叉树划分(SPLIT_BT_VER)、水平三叉树划分(SPLIT_TT_VER)、垂直三叉树划分(SPLIT_TT_HOR)。多类型树的叶节点被称为编码单元(CU)，并且除非CU对于最大变换长度而言过大，否则该CU分割就会用于预测和变换处理而不进行进一步分割。这就意味着在大多数情况下，CU、PU和TU在该具有嵌套的多类型树的四叉树分割结构是具有相同的块大小的。其中的例外是所支持的最大变换长度小于CU的颜色分量的宽度或高度。图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例，其中，粗体框表示四叉树分割，剩余的边表示多类型树分割。VVC的这种具有嵌套的多类型树的四叉树分割结构提供了包括CU的内容自适应编码树结构。

CU的大小可以与CTU一样大，也可以以亮度样本为单位小到4x4。对于4:2:0色度格式的情况，最大色度编码块大小为64x64，最小大小色度大小由16个色度样本组成。在VVC中，支持的最大亮度变换大小为64x 64，支持的最高色度变换大小为32x32。当编码块的宽度或高度大于最大变换宽度或高度时，编码块在水平和/或垂直方向上自动分割，以满足该方向上的变换大小限制。

以下参数由具有嵌套多类型树编码树方案的四叉树的序列参数集(SPS)语法元素定义和指定：

–CTU大小：四元树的根节点大小

–MinQTSize：允许的最小四叉树叶节点大小

–MaxBtSize：允许的最大二叉树根节点大小

–MaxTtSize：允许的最大三叉树根节点大小

–MaxMttDepth：从四叉树叶划分多类型树时允许的最大层次深度

–MinBtSize：允许的最小二叉树叶节点大小

–MinTtSize：允许的最小三叉树叶节点大小

在具有嵌套多类型树编码树结构的四叉树的一个示例中，CTU大小被设置为128x128亮度样本，具有两个对应的64x64块4:2:0色度样本，MinQTSize被设置为16x16，MaxBtSize被设置成128x128并且MaxTtSize被设置成64x64，MinBtSize和MinTtSize(对于宽度和高度)被设置为4x4，并且MaxMttDepth被设置成4。将四叉树划分首先应用于CTU以生成四叉树叶节点。四叉树叶节点的大小可以从16x16(即MinQTSize)到128x128(即CTU大小)。如果叶四叉树节点为128x128，则不会被二叉树进一步划分，因为其大小超过了MaxBtSize和MaxTtSize(即64x64)。否则，叶四叉树节点可以通过多类型树进一步划分。因此，四叉树叶节点也是多类型树的根节点，并且它具有多类型树深度(mttDepth)为0。当多类型树深度达到MaxMttDepth(即4)时，不考虑进一步划分。当多类型树节点的宽度等于MinBtSize且小于或等于2*MinTtSize时，不考虑进一步的水平划分。类似地，当多类型树节点的高度等于MinBtSize且小于或等于2*MinTtSize时，不考虑进一步的垂直划分。

在VVC中，编码树方案支持亮度分量和色度分量具有单独的块树结构的能力。对于P和B切片，一个CTU中的亮度和色度CTB必须共享相同的编码树结构。然而，对于I切片，亮度和色度可以具有单独的块树结构。当应用单独的块树模式时，亮度CTB通过一个编码树结构被划分为CU，色度CTB通过另一编码树结构而被划分为色度CU。这意味着I切片中的CU可以由亮度分量的编码块或两个色度分量的编码块组成，并且P或B切片中的CU总是由所有三个颜色分量的编码块组成，除非视频是单色的。

在进行了CTU划分后，对表示预测和/或残差信息以及其他信息的CU的视频数据进行编码。预测信息指示将如何预测CU以便形成CU的预测块。残差信息通常表示编码之前的CU的样本与预测块的样本之间的逐样本差。

为了预测CU，通常可通过帧间预测或帧内预测来形成CU的预测块。帧间预测通常是指根据先前译码的图片的数据来预测CU，而帧内预测通常是指根据同一图片的先前译码的数据来预测CU。为了执行帧间预测，可使用一个或多个运动向量来生成预测块。通常可以例如按照CU与参考块之间的差来执行运动搜索，以识别与CU紧密匹配的参考块。可使用绝对差之和(SAD)、平方差之和(SSD)、平均绝对差(MAD)、均方差(MSD)或其他此类差值计算来计算差值度量，以确定参考块是否与当前CU紧密匹配。在一些示例中，可使用单向预测或双向预测来预测当前CU。

VVC还提供了仿射运动补偿模式，可以将其视为帧间预测模式。在仿射运动补偿模式中，可以确定表示非平移运动(诸如，放大或缩小、旋转、透视运动或其他不规则运动类型)的两个或更多个运动向量。

为了执行帧内预测，可以选择用于生成预测块的帧内预测模式。VVC提供了67种帧内预测模式(如图5所示)，包括各种方向模式，以及平面(planar)模式0和DC(直流)模式1。通常，选择帧内预测模式，该帧内预测模式描述到当前块(例如，CU的块)的相邻样本，其中从所述相邻样本预测当前块的样本。假设以光栅扫描顺序(从左到右、从上到下的译码顺序或从右到左、从上到下的译码顺序)对CTU和CU进行译码，则这些样本通常可以在与当前块相同的图片中当前块的上方、上方及左侧或左侧。

对表示当前块的预测模式的数据进行编码。例如，对于帧间预测模式，视频编码器200可以对表示使用各种可用帧间预测模式中的哪一种帧间预测模式的数据以及用于对应模式的运动信息进行编码。对于单向或双向帧间预测，例如，可以使用高级运动向量预测(AMVP)或合并模式来对运动向量进行编码。可以使用类似模式来编码用于仿射运动补偿模式的运动向量。

在诸如块的帧内预测或帧间预测之类的预测之后，可以计算块的残差数据。残差数据(诸如残差块)表示该块与使用相应预测模式形成的该块的预测块之间的逐样本差。可将一个或多个变换应用于残差块，以产生在变换域而非样本域中的经变换的数据。例如，可将离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换应用于残差视频数据。另外，视频编码器200可在一次变换之后应用二次变换，例如，与模式相关的不可分离的二次变换(MDNSST)、与信号相关的变换、Karhunen-Loeve变换(KLT)等。在应用一个或多个变换之后产生变换系数。

如上所述，在用以产生变换系数的任何变换之后，可以根据量化系数(QP)，执行对变换系数的量化。量化通常是指对变换系数进行量化以可能减少用于表示系数的数据量，从而提供进一步压缩的过程。通过执行量化过程，可以减小与一些或所有系数相关联的位深度。例如，可以在量化期间将n-位值舍入为m-位值，其中n大于m。在一些示例中，为了执行量化，可以执行对待量化的值的按位右移。量化系数(QP)通常是采用语法元素的行驶包含在头信息中的。

在量化之后，可以扫描变换系数，从而从包括经量化的变换系数的二维矩阵产生一维向量。可以将扫描设计为将较高能量(并且因此较低频率)的系数放置在向量的前面，并将较低能量(并且因此较高频率)的变换系数放置在向量的后面。在一些示例中，可以利用预定义的扫描顺序来扫描经量化的变换系数以产生串行化的向量，然后对向量的经量化的变换系数进行熵编码。在其他示例中，可以执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后，可以例如根据上下文自适应二进制算术译码(CABAC)对一维向量进行熵编码还可对用于语法元素的值进行熵编码，语法元素描述与经编码视频数据相关联的元数据，以供视频解码器300在解码视频数据时使用。

在编码过程中，可以例如在图片报头、块报头、切片报头中，生成语法数据，诸如基于块的语法数据、基于图片的语法数据和基于序列的语法数据，或其他语法数据，诸如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS)。视频解码器可类似地解码此类语法数据以确定如何解码对应的视频数据。这些信息都可以被称为“头信息”。

以此方式，可以生成包括经编码视频数据(例如，描述从图片到块(例如，CU)的划分的语法元素以及块的预测和/或残差信息)的位流。

屏幕内容编码(SCC)是VVC的一个重要部分。由计算机产生的屏幕内容视频(Screen Content Video，SCV)具有区别于由摄像头拍摄的自然场景视频的特殊分布特性。在VVC中提供了多种屏幕编码工具，包括：帧内块复制(Intrablockcopy，IBC)、块差分脉冲编码调制(Block differential pulse codedmodulation，BDPCM)、用于变换跳过模式的残差编码(Residual coding for transform skip mode)、调色板模式(palette mode，PLT)和自适应颜色变换(adaptive colortransform，ACT)。

在VVC标准下的屏幕内容视频帧内预测中，每一个64x64大小的CU及其子CU进行完整的帧内预测需要遍历传统帧内预测(Intra)模式(以下简称Intra模式)、IBC_AMVP模式、IBC_Merge模式、PLT模式等候选模式，从中选择代价值最小的预测模式作为当前CU的最佳预测模式。遍历这些编码模式需要耗费大量的编码时间。若能提前判断当前CU的最佳编码模式，从而跳过遍历那些不必要的模式，则有利于加快屏幕内容视频的帧内编码速度。

为了加快屏幕内容视频的帧内模式快速决策过程，需要实现IBC_AMVP和Intra模式的提前判决。IBC_AMVP模式是针对屏幕内容视频优化的工具，而Intra模式是针对自然内容视频优化的工具，因此，这里的关键是将编码单元按照屏幕内容CU和自然内容CU进行分类。在基于特征的屏幕内容与自然内容分类算法中，分类特征的设计成为影响算法性能的关键。然而，有时很难设计出具有良好分辨能力的特征。

发明内容

本发明提出了用于在多功能视频编码(VVC)中的方法、装置、编解码器以及处理器可读存储介质。更具体而言，本发明涉及用于在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策。

根据本发明的一个方面，为了加快屏幕内容视频的帧内模式快速决策过程，需要实现IBC_AMVP和Intra模式的提前判决。IBC_AMVP模式是针对屏幕内容视频优化的工具，而Intra模式是针对自然内容视频优化的工具，因此，这里的关键是将编码单元按照屏幕内容CU和自然内容CU进行分类。在基于特征的屏幕内容与自然内容分类算法中，分类特征的设计成为影响算法性能的关键。然而，有时很难设计出具有良好分辨能力的特征。本章通过引入特征交叉思想，利用特征间的交叉作用来构造出新的具有更强判别力的特征，提升算法对编码单元的分类能力，在减少帧内模式决策时间的同时保持较低的编码损失。

研究表明，通过特征交叉操作可以获得有判别力的新特征。特征交叉通常通过特征向量间的内积，或阿达玛积，或笛卡尔积来实现。然而，在进行特征交叉时存在两个关键问题。首先，特征交叉会产生大量的新特征，这些新特征中既包含判别力强的特征，也包含判别能力不佳的特征。因此从新特征中选择判别力强的特征是十分关键的。其次，为了实现帧内模式的快速决策，应该选择具有低计算复杂度的特征交叉模型。

自适应因子分解网络(Adaptive Factorization Network，AFN)是特征交叉领域的网络模型，具有无需指定交叉阶数、自动筛选有判别力的交叉特征、轻量级等特点，满足本文所论述的上述基本要求。因此，本文中选择AFN网络作为特征交叉的基本模型，设计屏幕内容视频帧内模式决策快速算法。为了进一步提高网络对屏幕内容CU和自然内容CU的判别能力，本文中将对AFN网络进行改进。

根据一个方面，一种在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法，包括：

针对当前CU，确定当前CU的信息熵、平均灰度水平差值、背景色百分比、高梯度像素数作为与当前CU相对应的数值型特征；

针对当前CU，确定当前CU的相邻CU属性、当前CU的深度属性作为与当前CU相对应的类别型特征；

将与当前CU相对应的数值型特征和类别型特征输入到自适应因子分解网络(AFN)中以便由AFN网络判断当前CU是屏幕内容CU还是自然内容CU，其中，所述AFN中的对数变换层之上进一步包括注意力网络层和尺度变换层。

在进一步的方面中，其中，所述注意力网络层用于对所述对数变换层输出的交叉特征进行评价。

在进一步的方面中，其中，所述注意力网络由多层感知机构成。

在进一步的方面中，其中，在对所述AFN进行训练过程中，所述注意力网络层根据所述对数变换层中的指数变换的输出对网络性能影响程度的不同，从而对不同的指数变换输出分配不同的权重值。

在进一步的方面中，其中，所述尺度变换层用于对所述注意力网络层的输出进行尺度变换，以减少隐藏层的参数数量。

在进一步的方面中，其中，所述与当前CU相对应的数值型特征与所述尺度变换层的输出一起作为隐藏层的输入。

在进一步的方面中，所述方法还包括：

响应于确定当前CU是屏幕内容CU，不对当前CU进行除了Planar和DC模式之外的角度预测模式判断；或者

响应于确定当前CU是自然内容CU，不对当前CU进行帧内块复制(IBC)模式和调色板(PLT)模式的模式判断。

在进一步的方面中，其中，在所述AFN中，将最佳预测模式为Intra的CU的特征向量的标签定为0，将最佳预测模式为IBC_AMVP的CU的特征向量的标签定为1。

在另一方面，一种自适应因子分解网络(AFN)，包括：

用于接收输入的嵌入层；

在所述嵌入层之上的包括对数变换、对数神经元的指数变换的对数变换层；

接收所述对数变换层的输出并对其进行加权的注意力网络；

用于对所述注意力网络的输出进行尺度变换的尺度变换层；

在所述尺度变换层之上的隐藏层；以及

用于对所述输入进行线性变换的线性变换层。

在又另一方面，一种硬件视频编码器，所述编码器被配置为通过如下操作来在屏幕内容编码(SCC)中针对CU选择预测模式：

根据另一方面，一种计算机程序产品，包括非暂时性存储介质，所述非暂时性存储介质中存储有用于执行上述方法的代码。

根据另一方面，提出了一种对使用所述的方法或所述的编码器进行编码的视频流进行解码的解码器。

根据另一方面，提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面，该计算机程序产品具有非暂时性存储介质，其上存储有计算机代码/指令，当其被处理器执行时，可以实现本文所述的各种操作。

根据另一方面，提出了一种可用于视频编解码的设备，该设备包括：

一个或多个处理器；

存储器，其中存储有计算机代码，所述计算机代码当由所述处理器执行时，实现所述的方法。

附图说明

图1示出了HEVC/VVC的通用编码器的一般性方框图的实施例。

图2示出了HEVC中的编码树(CTU)的示意图。

图3示出了用于VVC的多类型树划分模式。

图4示出了VVC的具有嵌套的多类型树的四叉树分割结构的CTU到CU的分割的一个具体实施例。

图5示出了用于VVC中的帧内预测模式的角度预测模式。

图6示出了根据本公开内容的一个具体实施例的经过改进的AFN网络结构。

图7示出了根据本公开内容的一个具体实施例的AFN改进的网络结构。

图8示出了根据本公开内容的一个具体实施例的注意力网络工作示意图。

图9示出了根据本公开内容的一个具体实施例的尺度变换层原理示意图。

图10示出了根据本发明的实施例的用于在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的一种可用于视频编解码的设备。

具体实施方式

现在参考附图来描述各种方案。在以下描述中，为了进行解释，阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而，显然，在没有这些具体细节的情况下也能够实现这些方案。

如在本申请中所使用的，术语“组件”、“模块”、“系统”等等旨在指代与计算机相关的实体，例如但不限于，硬件、固件、硬件和软件的组合、软件，或者是执行中的软件。例如，组件可以是但不限于：在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言，运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内，并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外，这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信，例如根据具有一个或多个数据分组的信号，例如，来自于借助于信号与本地系统、分布式系统中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他系统交互的一个组件的数据。

在本文中，根据上下文，“CTU划分”和“CU划分”可以互换地使用，“编码块”、“CU”、“区域”可以互换地使用，“图片(picture)”和“帧(frame)”可以互换地使用。

在本文中，术语“自然内容”是相对于术语“屏幕内容”而言的，即不具有“屏幕内容”的特征，从而无法从专用于“屏幕内容”的各种算法(例如，IBC或PLT等等)获益的视频内容，而并非表示包含自然风景的内容。

在本文中，容易理解，术语“自然内容”表示在被分类为屏幕内容视频的视频片段中可能出现的不具有“屏幕内容”的特征的视频帧，例如在屏幕中出现的复杂照片等等。

虽然在本文中主要在VVC的上下文中对屏幕内容编码提出了新颖的预测模式选择算法。但是，本领域技术人员容易理解，本发明同样适用于能够对屏幕内容视频进行特殊处理的其他视频编解码协议。

另外，本领域技术人员很容易理解，本发明是主要基于亮度分量的，但是同样适用于色度分量。

自适应因子分解网络(AdaptiveFactorizationNetwork，AFN)是特征交叉领域的网络模型，具有无需指定交叉阶数、自动筛选有判别力的交叉特征、轻量级等特点，满足本文所论述的上述基本要求。因此，本文中选择AFN网络作为特征交叉的基本模型，设计屏幕内容视频帧内模式决策快速算法。为了进一步提高网络对屏幕内容CU和自然内容CU的判别能力，本文中将对AFN网络进行改进。AFN的一个具体示例可以参见“ChengW,ShenY,HuangL.Adaptive factorizationnetwork:Learning adaptive-order featureinteractions[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2020,34(04):3609-3616.”

(1)AFN网络的工作原理

AFN网络模型是一种深度推荐网络模型，主要用于CTR(Click-Through-Rate)预测任务。AFN原网络主要由嵌入层、对数变换层和隐藏层组成，其中对数变换层是AFN的核心部分。对数变换层将待交叉的特征向量转换到对数空间，利用对数神经元将特征交叉中每个特征的幂运算转换为带系数的乘法运算，而且每一个对数神经元可以自动的学习到有用的交叉特征。

如图6所示，网络的输入特征向量X由X_V和X_L特征组成，分别为数值型特征和类别型特征。将输入特征向量X中的类别型特征X_L送入嵌入层，得到相对应特征的向量表示，如公式(3-1)所示。其中m为类别特征的个数，e_i为对应类别特征的向量表示，尺寸为4×1，由e₁,e₂,...,e_j,...,e_m为对数变换层的整体输入e。在得到类别特征的向量表示集e之后，对向量进行对数变换并送入对数神经网络中进行计算，再将得到的结果进行指数变换，得到最终的交叉特征y_j，如公式(3-2)所示。其中y_j为第j个对数神经元的输出，其尺寸为4×1，j的取值范围为0到9，w_ij为第i行j列神经元的系数，函数ln(·)、exp(·)和w_ij次幂是在相关向量的元素上进行的运算，而⊙代表着相关向量元素级别上的乘积运算。

e＝{e₁,…,e_j,…,e_m}＝embed(X_L) (3-1)

Z₀＝[y₁ ^T,…,y_j ^T,…,y_n ^T] (3-3)

将对数变换层输出的交叉特征y_j，在经过扁平化操作后，即得到了隐藏层的输入Z₀，如公式(3-3)所示。其中n为前一层对数神将元的个数，本文中n为10，Z₀的尺寸为1×40，[·]为连接操作，主要是将展平后的y_j进行连接，共同组成隐藏层的输入。而AFN原网络的整体表达式如公式(3-4)所示。

AFN(X)＝linear(X)+mlp(ltl(embed(X_L))),X＝[X_V,X_L] (3-4)

从公式(3-4)可以看出，网络的输入X由X_V和X_L共同组成，其中的embed(·)则对应着图6中的嵌入层，ltl(·)对应着图6中的对数变换层，mlp(·)对应着图6中的隐藏层，而linear(X)对应着图6中的线性变换。

(2)AFN模型的改进设计

在原AFN网络中，利用对数变换层自动学习到的有判别力的交叉特征。然而将学习到的交叉特征在经过扁平化操作后，直接作为隐藏层的输入，对隐藏层来说，相当于同等的看待所学习到的交叉特征，没有考虑到不同的交叉特征对网络性能的影响程度是不同的。同时，也使得隐藏层具有较多的参数量。本文认为，应对网络自动学习到的新特征的重要程度进行评价，并对其尺寸进行压缩变换。本文改进的网络结构，如图7所示。

1)注意力机制

为了能够评价出不同的交叉特征对网络性能的影响程度，本文在对数变换层之上，加入了注意力网络层，如图7所示，从而对对数变换层输出的交叉特征进行评价。随着网络训练的不断进行，注意力网络会根据指数变换的输出y_j对网络性能影响程度的不同，从而对不同的y_j分配不同的权重值a_j，以此评价出具有更强判别力的交叉特征，提升网络的整体性能，进而更加准确区分出屏幕内容CU和自然内容CU。注意力网络的工作示意图如图8所示，其中注意力网络由多层感知机构成。

由于注意力网络层的加入，隐藏层的输入与原网络相比有所不同，因此公式(3-3)需要进行改写，改写后如公式(3-5)所示，其中权重值a_j的计算公式如公式(3-6)所示。在公式(3-6)中，h、w和b均为注意力网络层的相关参数，其尺寸分别为10×1、4×10和10×1，并采用ReLU(·)作为该网络层的激活函数，同时使用softmax(·)函数对注意力网络层的输出进行标准化。

Z₀＝[a₁y₁ ^T,…,a_jy_j ^T,…,a_ny_n ^T] (3-5)

a_j＝softmax(ReLU(w(ltl(e))^T+b)h) (3-6)

2)尺度变换

此外，在原AFN网络中，隐藏层的输入Z₀是由对数变换层的输出y_j经过扁平化操作后所构成的，而y_j的尺寸为4×1，在经过扁平化后，使得Z₀尺寸为1×40，这使得隐藏层的参数数量较多，增加网络的训练时间和网络过拟合的风险，同时也增加了网络的训练难度。因此，本文在注意力网络层之上加入了尺度变换层，对注意力网络输出的a_jy_j进行尺寸压缩，从而减少隐藏层的参数数量和网络的训练时间，降低网络过拟合的风险和网络的训练难度。尺度变换层的原理如图9所示，其中，中间部分虚线所包围的矩阵为注意力网络层的输出，P为1×4的矩阵，且矩阵中的数值全为1。利用矩阵P与注意力网络层的输出相乘，从而对注意力网络的输出进行尺寸变换，变换后a_jy_j的尺寸由4×1变为了1×1，Z₀的尺寸也由1×40变为了1×10，因此，公式(3-5)需要进行更新，更新后的公式如公式(3-7)所示。

Z₀＝[Pa₁y₁ ^T,…,Pa_jy_j ^T,…,Pa_ny_n ^T] (3-7)

3)数值特征复用

除了以上改进之外，本文还对数值型特征X_V进行了复用，如图7左侧的虚线所示。在原AFN网络中，数值型特征X_V只在图7中的线性变换中和类别型特征X_L一起作为输入使用，没有充分的利用该类特征。本文通过将数值型特征X_V与尺度变换层的输出进行连接，共同作为隐藏层的输入，以达到对数值型特征X_V复用的目的，最终形成一种类似于残差风格的网络结构，有利于网络的训练，进而提升网络表达能力。由于对数值型特征X_V进行了复用，因此公式(3-7)需要更新，更新后的公式如公式(3-8)所示。本文将AFN网络进行结构性改进后的网络称为AFN_Attention网络，其整体表达式如公式(3-9)所示。

Z₀＝[X_V,a₁Py₁ ^T,a₂Py₂ ^T,...,a_nPy_n ^T] (3-8)

AFN_Attention(X)＝linear(X)+mlp(Z₀),X＝[X_V,X_L] (3-9)

(3)特征设计

如图6所示，网络的输入特征可分为数值特征和类别特征两类，而且只对类别型特征进行特征交叉的操作。本文根据屏幕内容视频的特点，将AFN_Attention的输入特征进行如下设计：

(1)数值型特征

1)信息熵(H(X))

与自然内容CU相比，在相同大小下，屏幕内容CU亮度值的多样性要小于自然内容CU亮度值的多样性，因此引用生态学中的香农-威纳指数(ShannonWienerindex)来作为区分两类CU的特征。其计算公式(3-11)如下:

其中P_I为CU中每种亮度值出现的可能性，计算方法如下：p_I＝n_i÷N；N为CU中亮度值的个数，n_i为亮度值为i的亮度值的个数。然后对H(x)做归一化H(X)÷12。

2)平均灰度水平差值(MGLD)

屏幕内容图像通常色调离散，而颜色饱和度高，图像块像素灰度差值较大而灰度级数较少，通常会含有较高的平均灰度差值^[19],这与自然内容图像有这明显的不同，因此本文选择平均灰度水平亮度差做为网络的输入特征，其计算公式如(3-12)所示。

在公式(3-12)中，max_val、min_val代表当前CU中的最大亮度值和最小亮度值，gray_level_num代表着当前CU的灰度级数。

3)背景色的百分比(PBC)

背景色是指在一个CU内，具有同一灰度级别的像素的个数最多的灰度级。在屏幕内容图像中，由于没有摄像机噪声的影响，通常会拥有一个较大背景区域。而自然内容图像由于摄像机噪声影响使其背景区域较小。因此，本文选择背景颜色占比来表述CU的不同，其计算公式如公式(3-13)所示。

piel_number_most代表当前CU内的背景色的个数，width和height分别代表当前CU的宽度和高度。

4)高梯度像素数(HGN)

|P_i,j-P_i,j±1|＞TH₁ or|P_i,j-P_i±1,j|＞TH₁ (3-15)

公式(3-14)中，high_gradient_number代表着当前CU中的高梯度像素个数。这是由于屏幕内容视频中通常具有锐利的边缘，因此选用CU中的高梯度像素个数作为CU的分类特征。高梯度像素的确定如公式(3-15)所示，将当前像素的亮度值P_i,j与其上下左右像素亮度值作差，若差的绝对值大于TH₁，则认为当前像素为高梯度像素，其中TH₁的值设置为128。

(2)类别型特征

本文在对类别型特征进行使用时，原则上对于所有不同CU，它们所具有的类别型特征都可以进行特征交叉而不用考虑特征判别能力的强弱，因为网络会自动计算出它们之间需要进行特征交叉的特征集，并将特征集中的待交叉特征进行特征交叉，进而产生具有更强判别力的新特征。本文所选择类别型特征如表3-1和表3-2所示。

表3-1相邻CU类别属性表

在表格3-1中，Left_above_CU、Left_CU、Above_CU分别带代表左上方相邻CU、左方相邻CU以及上方相邻CU，所谓相邻CU属性即相邻CU是否存在以及相邻CU的最佳预测模式是否为Intra。本文用N表示相邻CU不存在，用Y表示相邻CU的最佳预测模式为Intra，用X表示Y的反例。

表3-2当前CU深度类别属性表

在表格3-2中，currBtDepth、currDepth、currMtDepth分别代表当前CU的二叉树深度，当前CU的深度以及当前CU的多叉树深度。对于currBtDepth有0到6共7个深度分别用a到g共7字母表示，由于能够进行帧内预测的CU宽高均小于等于64，因此当前CU的深度范围为1到7，分别用a到g的字母表示。同样的当前CU的多叉树有0到5个深度，依次用a到e的五个字母表示。

本文将最佳预测模式为Intra的CU的特征向量的标签定为0，将最佳预测模式为IBC_AMVP的CU的特征向量的标签定为1，至此一条完整的特征向量定义完毕。

因此，根据本公开内容的一个实施例，提供了一种在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法，用于针对当前CU来判断其是否是屏幕内容CU，如果当前CU是屏幕内容CU，则可以直接使用VCC中针对SCC提出的帧内块复制(IBC)模式和调色板(PLT)模式来进行模式判断而不使用常规的Intra模式(例如图5所示的角度模式)。

在一个具体实施例中，该方法可以包括：

针对当前CU，可以确定当前CU的信息熵、平均灰度水平差值、背景色百分比、高梯度像素数作为与当前CU相对应的数值型特征(X_V)；

针对当前CU，确定当前CU的相邻CU属性、当前CU的深度属性作为与当前CU相对应的类别型特征(X_L)；以及

在一个具体实施例中，AFN网络的一个实施例可以如图6所示，其包括：

用于接收输入的嵌入层，其中，所述输入可以包括数值型特征(X_V)和类别型特征(X_L)；

接收所述对数变换层的输出并对其进行加权的注意力网络；

用于对所述注意力网络的输出进行尺度变换的尺度变换层；

在所述尺度变换层之上的隐藏层；以及

用于对所述输入进行线性变换的线性变换层。

在一个具体实施例中，所述注意力网络层用于对所述对数变换层输出的交叉特征进行评价。如图7所示，所述注意力网络由多层感知机构成，并且根据所述对数变换层中的指数变换的输出对网络性能影响程度的不同，从而对不同的指数变换输出分配不同的权重值。更具体而言，如图8所示，注意力网络对对数变换层输出的交叉特征进行评价。随着网络训练的不断进行，注意力网络会根据指数变换的输出y_j对网络性能影响程度的不同，从而对不同的y_j分配不同的权重值a_j，以此评价出具有更强判别力的交叉特征，提升网络的整体性能，进而更加准确区分出屏幕内容CU和自然内容CU。

在一个具体实施例中，所述尺度变换层用于对所述注意力网络层的输出进行尺度变换，以减少隐藏层的参数数量。本文在注意力网络层之上加入了尺度变换层，对注意力网络输出的a_jy_j进行尺寸压缩，从而减少隐藏层的参数数量和网络的训练时间，降低网络过拟合的风险和网络的训练难度。图9示出了尺度变换层的一个具体实施例。

在一个具体实施例中，所述与当前CU相对应的数值型特征与所述尺度变换层的输出一起作为隐藏层的输入。例如，如图6所示，数值型特征(X_V)除了输入至嵌入层之外，还与尺度变换层的输出一起经过展平连接输入至隐藏层，以达到对数值型特征X_V复用的目的，最终形成一种类似于残差风格的网络结构，有利于网络的训练，进而提升网络表达能力。

在一个具体实施例中，响应于确定当前CU是屏幕内容CU，不对当前CU进行除了Planar和DC模式之外的角度预测模式判断，换言之，针对屏幕内容CU仅进行Planar模式、DC模式、帧内块复制(IBC)模式和调色板(PLT)的预测模式判断。

在一个具体实施例中，响应于确定当前CU是自然内容CU，不对当前CU进行帧内块复制(IBC)模式和调色板(PLT)模式的模式判断，从而可以消除了针对自然内容CU进行仅有利于屏幕内容编码的IBC和PLT模式判断。

在一个具体实施例中，在所述AFN中，将最佳预测模式为Intra的CU的特征向量的标签定为0，将最佳预测模式为IBC_AMVP的CU的特征向量的标签定为1。换言之，当将当前CU相对应的数值型特征和类别型特征输入至AFN中时，可以基于该特征标签来判断当前CU是屏幕内容CU还是自然内容CU。

图10示出了根据本发明的实施例的用于在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的一种可用于视频编解码的设备。该设备包括：处理器和存储器，在所述存储器中包括用于实现本发明的各种方法的处理器可执行代码。

根据另一方面，本公开内容还可以涉及用于实现上述编码方法的编码器。该编码器可以是专用硬件。

根据另一方面，本公开内容还可以涉及对应的对编码后的视频流进行解码的解码器。

根据另一方面，本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据进一步的方面，该计算机程序产品具有非暂时性存储介质，其上存储有计算机代码/指令，当其被处理器执行时，可以实现本文所述的各种操作。

当用硬件实现时，视频编码器可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合，来实现或执行。通用处理器可以是微处理器，但是可替换地，该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外，至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。

当用ASIC、FPGA等硬件电路来实现视频编码器时，其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个系统上的各种约束条件来以各种方式设计和实现这些电路，来实现本发明所公开的各种功能。

尽管前述公开文件论述了示例性方案和/或实施例，但应注意，在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下，可以在此做出许多变化和修改。而且，尽管以单数形式描述或要求的所述方案和/或实施例的要素，但也可以设想复数的情况，除非明确表示了限于单数。另外，任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用，除非表明了有所不同。

Claims

1.一种在屏幕内容编码(SCC)中基于特征交叉的屏幕内容视频帧内模式快速决策的方法，包括：

2.如权利要求1所述的方法，其中，所述注意力网络层用于对所述对数变换层输出的交叉特征进行评价。

3.如权利要求1-2中任一项所述的方法，其中，所述注意力网络由多层感知机构成。

4.如权利要求1-3中任一项所述的方法，其中，在对所述AFN进行训练过程中，所述注意力网络层根据所述对数变换层中的指数变换的输出对网络性能影响程度的不同，从而对不同的指数变换输出分配不同的权重值。

5.如权利要求1-4中任一项所述的方法，其中，所述尺度变换层用于对所述注意力网络层的输出进行尺度变换，以减少隐藏层的参数数量。

6.如权利要求1-5中任一项所述的方法，其中，所述与当前CU相对应的数值型特征与所述尺度变换层的输出一起作为隐藏层的输入。

7.如权利要求1-6中任一项所述的方法，还包括：

响应于确定当前CU是屏幕内容CU，不对当前CU进行除了Planar和DC模式之外的其他角度预测模式判断；或者

8.一种自适应因子分解网络(AFN)，包括：

用于接收输入的嵌入层；

接收所述对数变换层的输出并对其进行加权的注意力网络；

用于对所述注意力网络的输出进行尺度变换的尺度变换层；

在所述尺度变换层之上的隐藏层；以及

用于对所述输入进行线性变换的线性变换层。

9.一种硬件视频编码器，所述编码器被配置为通过如下操作来在屏幕内容编码(SCC)中针对CU选择预测模式：

10.一种计算机程序产品，包括非暂时性存储介质，所述非暂时性存储介质中存储有用于执行根据权利要求1-8中任一项所述的方法的代码。