CN117376572A

CN117376572A - Cu划分方法、电子设备和计算机可读存储介质

Info

Publication number: CN117376572A
Application number: CN202210770312.5A
Authority: CN
Inventors: 曹洲; 徐科; 孔德辉; 杨维; 任聪
Original assignee: Sanechips Technology Co Ltd
Current assignee: Sanechips Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-09
Also published as: WO2024001886A1

Abstract

本发明提供一种CU划分方法、电子设备和计算机可读存储介质。所述CU划分方法包括：对原始图像进行划分，得到多个编码树单元CTU；以图像块为粒度，将每个所述CTU分成包括多个图像块的图像块一维数组；对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度；根据所述各个图像块对应的CU划分深度，对所述CTU进行CU划分。

Description

CU划分方法、电子设备和计算机可读存储介质

技术领域

本发明涉及通信领域，尤其涉及一种CU划分方法、电子设备和计算机可读存储介质。

背景技术

随着人们物质与精神生活水平的不断提高，人们对高清甚至超高清视频的要求也越来越迫切。如何在保证视频质量的同时，又减少带宽的消耗这一核心问题逐渐成研究的焦点。与上一代高级视频编码标准H264/高级视频编码(AVC，Advanced Video Coding)相比，H265/高效率视频编码(HEVC，High Efficiency Video Coding)通过引入编码单元(CU，Coding Unit)四叉树划分结构，多角度帧内预测等技术，使压缩率获得了大幅提升。

发明内容

本发明提供一种CU划分方法方法、电子设备和计算机可读存储介质。

第一方面，本发明提供了一种编码单元CU划分方法，包括：

对原始图像进行划分，得到多个编码树单元CTU；

以图像块为粒度，将每个所述CTU分成包括多个图像块的图像块一维数组；

对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度；

根据所述各个图像块对应的CU划分深度，对所述CTU进行CU划分。

在一些实施例中，根据所述CTU的深度数值将所述CTU划分为多个层，所述根据所述各个图像块对应的CU划分深度，对所述CTU进行CU划分包括：

根据所述各个图像块对应的CU划分深度，对所述CTU按照深度顺序逐层进行CU划分。

进一步地，所述根据所述各个图像块对应的CU划分深度，对所述CTU按照深度顺序逐层进行CU划分包括：

从当前深度i为0的层开始，遍历统计所述CTU中所有图像块对应的CU划分深度大于i的图像块的数量Ni；其中，i表示当前深度，i和Ni为自然数；

若Ni大于当前深度i预设的CU划分阈值αi，则对所述CTU中的当前CU进行划分，并继续进行下一深度的CU划分；其中，αi大于0；

否则，结束对所述CTU的CU划分。

在一些实施例中，所述对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度包括：

为所述图像块一维数组进行扩维，得到扩维后的输入数组；

对所述输入数组进行视觉注意力机制计算，得到第一计算结果；

对所述第一计算结果进行全连接层的计算，得到第二计算结果；

对所述第二计算结果进行软最大值softmax层的计算，得到所述图像块一维数组中各个图像块对应的CU划分深度。

在一些实施例中，所述为所述图像块一维数组进行扩维包括：

将所述图像块一维数组进行线性投影，并添加位置编码信息，得到扩维后的输入数组。

在一些实施例中，所述对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度，还包括：

通过反向传播的方式进行至少一轮视觉注意力机制训练，得到各个图像块的深度预测值；

通过损失函数确认损失最小的各个图像块的深度预测值作为所述图像块一维数组中各个图像块对应的CU划分深度。

优选地，所述图像块是4*4像素块。

优选地，所述CTU是64*64像素块。

第二方面，本发明提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据第一方面中任意一项所述的CU划分方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现根据第一方面中任意一项所述的CU划分方法。

本发明提出的基于ViT的视频编解码CU划分方法，通过合理的视觉注意力机制计算，既避免了传统方法中遍历所有CU的划分方式带来的编码复杂度，而且与传统卷积神经网络(CNN，Convolutional Neural Networks)相比，进一步降低了神经网络的计算复杂度，提高了编码速度，通过注意力机制的学习，可以很好的保证视频的编码质量，同时提高了H265/HEVC协议的高实时性与可靠性。

附图说明

图1是本发明实施例提供的一种CU划分方法的流程图。

图2是传统编码方法整体流程图。

图3是本发明实施例提供的一种ViT网络结构示意图。

图4是本发明实施例提供的CU划分大小与深度对应表关系图。

图5是本发明实施例提供的CTU(64×64)划分深度图示意图。

图6是本发明实施例提供的一种电子设备的示意图。

图7是本发明实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

随着HEVC中引入新编码技术的同时，编码时间复杂度与H264/AVC相比提升了数倍。基于CU四叉树的划分过程需要遍历当前编码树单元(CTU，Coding Tree Unit)(64×64像素)中所有可能的CU划分结果，然后基于每种CU划分方式分别计算率失真代价(RDC，RateDistortion Cost)，最后从中选出RDC最小的CU划分方式进行编码。这一过程虽然能降低码率，但是占据了编码时间的80％，编码复杂度也被迫获得了数倍增长，因此如何提高HEVC标准中更有效的找出最优CU划分方式，对于加速H265/HEVC编码执行效率至关重要。

至视觉转换机制(ViT，Vision Transformer)提出以来，基于图像块(patch)的注意力机制相比与传统卷积神经网络而言，因其在所需训练数据、计算复杂度和实际性能等方面的优势，在图像视频应用领域获得广泛关注。

发明人针对编码码率与编码复杂度之间的矛盾，基于ViT注意力机制，提出一种基于ViT的视频编解码CU划分方法。

第一方面，本发明实施例提供一种编码单元CU划分方法，如图1所示，所述方法包括如下步骤：

在步骤S100中，对原始图像进行划分，得到多个编码树单元CTU；

在步骤S200中，以图像块为粒度，将每个所述CTU分成包括多个图像块的图像块一维数组；

在步骤S300中，对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度；

在步骤S400中，根据所述各个图像块对应的CU划分深度，对所述CTU进行CU划分。

本发明提供的是一种基于视觉注意力机制的视频编解码CU块划分方法。首先将原始图像划分成多个CTU。在将当前CTU像素块(如64×64像素)按照CU最小划分单元分割成多个图像块(patch)，即每个patch块的大小均为CU最小划分单元。

以patch作为基础块，使用patch块中含有的像素值对其分别编码。将一个CTU中所有的patch排列成以patch为单元的一维数组。例如64×64像素的CTU，可以划分成256个4×4像素的patch，将原先矩阵排列的这256个patch拉伸成线性排列的patch一维数组。需要说明的是，一维是针对patch而言，而不是说像素维度。对于像素而言，维度为256×16，其中256表示patch块数量，16表示每个patch块中含有的像素值个数。

再之后将以上编码信息线性变换投影，添加位置编码信息后，并输入到VisionTransformer中。经Vision Transformer注意力机制的一系列计算后，得到每个patch对应的CU划分深度。根据每个patch对应的CU划分深度，对当前CTU进行CU划分。对原始图像中每个CTU均按照此方法进行CU划分，即实现对整个原始图像的CU划分。

如图2所示，是H265/HEVC协议编码整体流程图，图中虚线框内是本发明ViT网络替换传统算法部分。由图中可以看出本发明使用ViT网络替换了传统循环遍历寻找最优CU划分的计算方式。

与传统H265/HEVC相比，基于ViT(Vision Transformer)的视频编解码CU划分方法，通过合理的训练与学习，既避免了传统方法中遍历所有CU的划分方式带来的编码复杂度，而且与传统CNN相比，进一步降低了神经网络的计算复杂度，提高了编码速度，通过注意力机制的学习，可以很好的保证视频的编码质量，同时提高了H265/HEVC协议的高实时性与可靠性。

否则，结束对所述CTU的CU划分。

本发明实施例的CU划分方法，根据每个patch对应的CU划分深度，在每个深度对当前CTU进行遍历统计和CU划分。取代了传统方法中循环遍历每种CU划分方式，因此避免了因遍历所有CU划分方式而是带来的计算复杂度，提高了编码速度。

在本发明实施例中，针对每一深度预设CU划分阈值，作为衡量当前深度下是否需要进行CU划分的判断条件。

例如：CTU的照深度从0到3，由上向下分成4个层次，64×64—>32×32—>16×16—>8×8，为各层预设的CU划分阈值αi。根据上述视觉注意力机制计算得到的每个patch对应的CU划分深度，在每个层次中，统计CU划分深度超过当前层次的patch块的数量，作为当前深度的patch深度预测值数量。若当前层次的patch深度预测值数量大于当前层预设的CU划分阈值，则认为当前CU可分，对当前CU进行四分。划分完一个层次后，对下一层继续统计下一深度的patch深度预测值数量，与下一深度对应的CU划分阈值进行比较，执行CU划分步骤。依此类推，对由上向下按照深度顺序逐层递归地进行遍历统计，对CTU进行CU划分，直至在某一深度中patch深度预测值数量大于CU划分阈值，结束对CTU的CU划分。

需要说明的是，预设的CU划分阈值，不限于与patch深度预测值的数量作比较，也可以增加更多的比较规则，或针对其他指标进行比较。例如，patch深度预测值数量占当前层总patch数量的比例，或者比较patch深度与当前遍历的CU的实际深度。

为所述图像块一维数组进行扩维，得到扩维后的输入数组；

图3为本发明基于ViT的视频编解码CU划分结构图，左侧表示CTU(64×64)按照4×4大小划分成图像块(CTU split to patches)的示意图，右侧表示首先将划分的图像块平展成一维输入，经过线性投影(Linear Projection of Flattened Patches)，添加位置编码信息后输入到Vision Tranformer中，在经过每个patch之间的视觉注意力机制计算后，每个patch块对应的输出会成为后续全连接层(Fully Connected Layer)的输入，之后经过softmax层(Softmax Layer)输入后，得到每个patch块对应的CU划分深度，映射到图像块的深度标签(Patches Depth Label)中。

本发明实施例中，可以将图像块一维数组中各个图像块对应的CU划分深度作为与各个图像块对应的标签，通过视觉注意力机制计算得到每个图像块对应的CU划分深度后，可以继续通过反向传播对Vision Transformer、全连接层、softmax层进行训练，得到各个图像块的深度预测值，与真实标签做比较，通过softmax层损失函数来评价各个图像块的深度预测值，若损失已经达到最小，则认为已达到最优。

优选地，所述图像块是按照CU最小划分单元划分出的4*4像素块。

优选地，所述CTU是64*64像素块。

图4是CU划分大小与CU划分深度对应表，其中CU划分尺寸可以为64×64、32×32、16×16、8×8、4×4其中任意一种大小，对应的CU划分深度依次为0、1、2、3、4。

图5是CTU(64×64)中的一种CU划分方式的示意图，其中相应的CU块与划分深度已在相应位置标出。

在进行视觉注意力机制训练和学习的过程中，也可以基于ViT对每个patch进行预测CU划分深度后，统计patch块CU深度预测值，重新对CTU由上往下进行统计划分的结果示意图。

可以用于本发明实施例的深度学习基本操作包括但不限于：ViT(VisionTransformer)，逆卷积(Deconvolution)，线性整流函数(ReLU)，S生长曲线(Sigmoid)，全连接(Full-Connection)，重构(Reshape)等。

需要说明的是，除了使用ViT网络结构之外，也可以用残差网络(ResNet，ResidualNetwork)，CNN，特征压缩与激发的残差网络(SE-Resnet)等网络结构来代替ViT实现CU的划分。

本发明实施例所提供的CU划分方法可以应用在所有需要视频编码的地方，如视频处理单元(VPU，Video Processing Unit)、视频编解码芯片内置算法、智能座舱、视频压缩、视频传输等方面。

下面结合一个实施例对本发明第一个方面所述的CU划分方法的具体应用进行介绍。

实施例1

图3描述了本发明的整体流程，输入为H265/HEVC中的CTU(64×64)视频编码树单元，输出为CTU中基于patches(4×4)块划分后，每个patch块对应的划分深度。最后根据统计CTU中patches块对应深度，即可完成CU划分。

其中，本发明实施例主要包括数据集与标签准备、Vision Transformer训练、Vision Transformer推理、CU统计划分等步骤，以下将详细介绍各步骤实施细节：

步骤1.数据集与标签准备

原始数据可从Vimeo90K,REDS4，VID4等公开数据集中获取视频序列图像获取，首先将原始图像按照64×64大小进行切块获取CTU，之后对每个CTU块中CU划分方式采用穷举遍历并依次计算RDC(率失真代价)，选择率失真代价最小的CU划分方式。最后将CTU块按照4×4大小分成patches，每个patch块分别赋予其所属CU块的深度(深度标签)。

步骤2.Vision Transformer训练

将以上获取到的每个CTU中的patch块数据与对应标签各自拉伸成一维数据，每个CTU块的patch块数据拉伸后可以表示成input＝[patch_0,patch_1,patch_2,...,patch_255]，其中patch_0、patch_1、patch_2、patch_255为patch块编码数据，input维度为256×16；patch块对应标签拉伸后可以表示为label＝[label_0,label_1,label_2,...,label_255],其中label_0、label_1、label_2、label_255分别表示为patch_0、patch_1、patch_2、patch_255块所属CU的划分深度。之后input经过线性投影与添加位置编码信息后input维度为256×768，输入到Vision Transformer中进行注意力机制计算，得到ViT结果输出ViT_output＝[ViT_0,ViT_1,ViT_2,...,ViT_255]中间结果输出，之后ViT_output作为后续全连接层、softmax层输出，得到每个patch块对应的深度depth＝[dep_0,dep_1,dep2,...,dep_255]，最后与label真实标签做比较，通过反向传播对Vision Transformer、全连接层、softmax层训练。softmax层损失函数为多分类交叉熵的损失：

其中，C＝5表示深度分类数量，在本发明中深度标签可以取值0、1、2、3、4，p(xi)表示各个深度可能结果的概率。

步骤3.Vision Transformer推理

在Vision Transformer、全连接层、softmax层训练结束，在推理阶段如VisionTransformer训练步骤中所述，以当前CTU块分成的patches块拉伸成的一维数据作为输入，经Vision Transformer、全连接层、softmax层后得到每个patch块对应的深度。

步骤4.CU统计划分

设置划分阈值α0、α1、α2、α3，对CTU由上向下(64×64—>32×32—>16×16—>8×8)递归遍历统计划分。

1)首先统计顶层(64×64)CTU块(深度0，大小64×64)内部大于深度0的patch深度预测值数量，若patch深度预测值数量所占比例>α0，则对当前CTU块四分，否则结束CU划分。

2)对所有32×32块(CTU)(深度1，大小32×32)内部大于深度1的patch深度预测值数量，若patch深度预测值数量所占比例>α1，则对当前CU块四分，否则结束当前CU划分。

3)对所有16×16块(CTU)(深度2，大小16×16)内部大于深度2的patch深度预测值数量，若patch深度预测值数量所占比例>α2，则对当前CU块四分，否则结束当前CU划分。

4)对所有8×8块(CTU)(深度3，大小8×8)内部大于深度3的patch深度预测值数量，若patch深度预测值数量所占比例>α3，则对当前CU块四分，否则结束当前CU划分。

最终得到CTU中CU的最终划分方式，用于后续视频编解码流程中。

第二方面，本发明实施例提供一种电子设备，如图6所示，其包括：

一个或多个处理器501；

存储器502，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述第一方面任意一项的CU划分方法；

一个或多个I/O接口503，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器501为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器502为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)503连接在处理器501与存储器502间，能实现处理器501与存储器502的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器501、存储器502和I/O接口503通过总线504相互连接，进而与计算设备的其它组件连接。

第三方面，本发明实施例提供一种计算机可读存储介质，如图7所示，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任意一项的CU划分方法。

如上文所述，H265/HEVC虽然与上一代视频编解码标准H264/AVC协议相比，极大提高了压缩率，但编码复杂度也被迫获得了数倍增长，其中H265/HEVC中遍历所有CU划分并计算率失真代价RDC，从中选择最优CU划分的计算方式更是H265/HEVC编码所消耗时间的主要来源。本文提出一种基于ViT的视频编解码CU划分方式，以CTU划分的最小基础块为输入，输出每个对应最小基础块的划分深度，通过图像块注意力机制的计算，提升了视频编码效率，使得实时高质量视频编码成为可能。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种编码单元CU划分方法，包括：

对原始图像进行划分，得到多个编码树单元CTU；

2.根据权利要求1所述的CU划分方法，其中，根据所述CTU的深度数值将所述CTU划分为多个层，所述根据所述各个图像块对应的CU划分深度，对所述CTU进行CU划分包括：

3.根据权利要求2所述的CU划分方法，其中，所述根据所述各个图像块对应的CU划分深度，对所述CTU按照深度顺序逐层进行CU划分包括：

否则，结束对所述CTU的CU划分。

4.根据权利要求1所述的CU划分方法，其中，所述对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度包括：

为所述图像块一维数组进行扩维，得到扩维后的输入数组；

5.根据权利要求4所述的CU划分方法，其中，所述为所述图像块一维数组进行扩维包括：

6.根据权利要求4所述的CU划分方法，其中，所述对所述图像块一维数组中的图像块进行视觉注意力机制计算，得到所述图像块一维数组中各个图像块对应的CU划分深度，还包括：

7.根据权利要求1至6中任意一项所述的CU划分方法，其中，所述图像块是按照CU最小划分单元划分出的4*4像素块。

8.根据权利要求1至6中任意一项所述的CU划分方法，其中，所述CTU是64*64像素块。

9.一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的CU划分方法；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任意一项所述的CU划分方法。