CN115499650A

CN115499650A - 图像块的划分方法、装置、系统、编解码方法、电子设备

Info

Publication number: CN115499650A
Application number: CN202211144251.8A
Authority: CN
Inventors: 李昆霖; 张昊; 王豪; 陈高星; 缪泽翔; 苏昊天; 石隽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-20

Abstract

本申请实施例提供了一种图像块的划分方法、装置、系统、编解码方法、电子设备，图像块的划分方法，包括：通过运动特征提取获得待划分图像帧对应的运动特征，运动特征用于表征相邻两个图像帧之间的物体运动信息；采用预先训练的预测模型，根据运动特征对待划分图像帧的若干个图像块进行帧间划分深度预测，得到帧间划分深度预测结果；根据各个图像块对应的帧间划分深度预测结果，确定若干个图像块划分出的帧间编码单元，以根据帧间编码单元进行帧间编码。本实施例提供的方案实现了预测过程与编码过程的单向解耦合，能够并行执行预测过程和编码过程，且节省了编码过程中划分编码单元的耗时，提高了视频编码的效率以及性能。

Description

图像块的划分方法、装置、系统、编解码方法、电子设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种图像块的划分方法、装置、系统、编解码方法、电子设备。

背景技术

随着人们对高清/超高清视频、各种360全景视频、超高画质视频需求的不断提高，视频编码标准也在不断发展。

一般进行视频编码时，会将视频的图像帧划分为多个标准大小的图像块，再将图像块划分为多个编码单元(Coding Unit，CU)，基于CU进行后续编码处理。

但是，目前将图像块划分为编码单元时，需要遍历图像块来确定出多种划分出编码单元的方式，并比较各种方式的编码代价来使用代价较小的作为使用的划分方式。这种方式导致将图像块划分为编码单元的复杂度较高，极大地影响了整体编码速度。

发明内容

有鉴于此，本申请实施例提供一种图像块的划分方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种图像块的划分方法，包括：通过运动特征提取获得待划分图像帧对应的运动特征，所述运动特征用于表征相邻两个图像帧之间的物体运动信息；采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，以根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，根据所述帧间编码单元进行帧间编码。

根据本申请实施例的第二方面，提供了一种图像块的划分装置，包括：运动特征提取模型，用于通过运动特征提取获得待划分图像帧对应的运动特征，所述运动特征用于表征相邻两个图像帧之间的物体运动信息；预测模型，用于根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，以根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以使得所述编码器根据所述帧间编码单元进行帧间编码。

根据本申请实施例的第三方面，提供了一种编码方法，其中，包括：获取待划分图像帧对应的帧间划分深度预测结果，其中，所述帧间划分深度预测结果采用预先训练的预测模型，根据所述待划分图像帧对应的运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测得到；根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。

根据本申请实施例的第四方面，提供了一种图像块的划分系统，包括GPU和CPU，所述GPU用于通过运动特征提取获得待划分图像帧对应的运动特征；以及，采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；所述CPU用于根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。

根据本申请实施例的第五方面，提供了一种解码方法，包括：获取待解码的码流，并从所述码流中解析获得图像块划分出的帧间编码单元，所述帧间编码单元通过如上所述的方法确定；对所述图像块的所述帧间编码单元进行解码。

根据本申请实施例的第六方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法对应的操作。

根据本申请实施例提供的图像块的划分方案，通过运动特征提取，可以获得待划分图像帧对应的用于表征其与参考图像帧之间的物体运动信息的运动特征；之后采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；并根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。与通过编码器对图像块进行划分相比，本实施例提供的方案中进行运动特征提取与通过预先训练的预测模型进行预测的过程可以依赖于待编码的视频执行，而不依赖于编码过程执行，但是编码过程可以依赖于确定出的帧间划分深度预测结果执行，因此，本实施例提供的方案实现了预测过程与编码过程的单向解耦合，能够并行执行预测过程和编码过程，且节省了编码过程中划分编码单元的耗时，提高了视频编码的效率以及性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的编码系统的结构框图；

图2A为根据本申请实施例的一种图像块的划分方法的流程示意图；

图2B为图2A所示实施例中的一种图像块的划分示意图；

图2C为图2A所示实施例中的一种场景示例的示意图；

图3A为根据本申请实施例的另一种图像块的划分方法的步骤流程图；

图3B为图3A所示实施例中的一种光流图提取模型的结构示意图；

图3C为图3A所示实施例中的一种卷积模块的示意图；

图4为根据本申请实施例的一种图像块的划分装置的结构框图；

图5为根据本申请实施例的一种图像块的划分系统的结构框图；

图6为根据本申请实施例的一种解码方法的流程示意图；

图7为根据本申请实施例的一种使用场景示意图；

图8为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

视频编解码系统

图1示出本申请一个实施例的编码系统的结构框图，如图1所示，编码系统包括编码侧和解码侧。编码侧可对采集的图像源进行编码，并通过网络传输到解码侧，解码侧可以为编码的视频进行解码并显示。

编码侧和解码侧可以为相同或不同的电子设备。电子设备具体可以例如电脑、服务器、移动终端等。网络可以为蜂窝网络、局域网或互联网等，本实施例对此不进行限定。

采集图像源的采集设备可包括或可以是任何类别的用于捕获现实世界图像等的图像捕获设备，和/或任何类别的图像或评论(对于屏幕内容编码，屏幕上的一些文字也认为是待编码的图像或影像的一部分)生成设备，例如用于生成计算机动画图像的计算机图形处理器或任何类别的用于获取和/或提供现实世界图像、计算机动画图像(例如，屏幕内容、虚拟现实(virtual reality，VR)图像和/或其任何组合(例如增强现实(augmentedreality，AR)图像)的设备。

编码器可以对图像源编码并得到编码后的图像数据，并通过通信接口发送至解码侧设备。解码侧设备包括解码器(例如视频解码器)，另外还可包括通信接口或通信单元、后处理单元和显示设备等。解码器用于接收编码图像数据并提供解码图像数据，并可以通过显示设备进行显示。

视频编解码方法

新一代的国际视频编码标准VVC(Versatile Video Coding)是基于图像块进行的。使用VVC作为标准进行视频编码时，一般会将图像帧划分为多个图像块，图像块具体可以例如编码树单元(Coding Tree Unit，CTU)。之后可以将图像块进行四叉树划分，得到第一层叶子节点，并可以进一步将第一层叶子节点进行划分，得到多层叶子节点，每一层叶子节点可以对应一层深度。经过多次划分可以得到最底层的叶子节点，即编码单元(CodingUnit，CU)。

划分出CU后，可以针对CU进行帧内预测或者帧间预测等处理得到残差，并基于残差进行编码。

然而，一般情况下进行划分时，需要采用上述方式划分图像块，得到多种按照不同划分深度划分出编码单元的方式，并比较各种方式的编码代价来使用代价较小的作为使用的划分方式。这种方式导致将图像块划分为编码单元的复杂度较高，极大地影响了整体编码速度。

为此，本实施例中，提供了一种图像块的划分方案，主要用于进行帧间的深度划分，以解决或缓解上述问题。

参见图2A，示出了一种图像块的划分方法的流程示意图，如图所示，其包括：

S201、通过运动特征提取获得待划分图像帧对应的运动特征。

所述运动特征用于表征相邻两个图像帧之间的物体运动信息。

本实施例中，由于在采集视频的过程中，采集装置与被采集的画面之间存在相对位移，且画面中的物体也可能发生位移，则采集的视频的相邻两个图像帧之间的物体的位置会发生变化，即相邻两个图像帧之间存在物体运动信息。

通过运动特征提取，可以得到对应于待划分图像帧的运动特征。示例地，所述运动特征可以包括以下至少之一：光流图、按照所述图像块划分的运动向量、所述待划分图像帧中的物体的运动追踪信息。

光流(optical flow)图中包括图像对应的光流，光流表达了相邻两个图像帧的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。本实施例中的光流图具体可以为光流场图，它是指图像中所有像素点构成的一种二维(2D)瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。所以光流场图中不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。光流场图可以使得步骤S202中的帧间划分深度预测结果更加准确。

按照所述图像块划分的运动向量具体可以包括：相邻两个图像帧之间的最相似的图像块之间的向量。示例地，相邻两个图像帧中，前一个图像帧中可以包括图像块A，后一个图像帧中可以包括图像块B，且图像块B为后一个图像帧中与图像块A最相似的图像块，则运动向量可以为图像块A和图像块B之间的向量。由此，针对前一个图像帧中的任意图像块，均可以在后一个图像帧中确定出与其最相似的图像块，从而确定相邻两个图像帧之间最相似的两个图像块之间的向量。

所述待划分图像帧中的物体的运动追踪信息具体可以包括图像帧中的物体的运动过程的追踪信息，具体地，可以包括运动场图。

可选地，本实施例中，可以通过预设的特征提取模型，对所述待划分图像帧及其参考图像帧进行运动特征提取，得到所述待划分图像帧对应的运动特征。针对不同的运动特征可以采用不同的特征提取模型，本实施例对对此不进行限定。

S202、采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果。

本实施例中，预先训练的预测模型可以为任意的模型，例如分类器等，本实施例对此不进行限定。

通过预先训练的预测模型，可以根据待划分图像帧的运动信息，对待划分图像帧的若干个图像块进行帧间划分深度预测，得到帧间划分深度预测结果。

示例地，待划分图像帧可以划分为10个图像块，则本实施例中的帧间划分深度预测结果可以包括10个图像块分别对应的帧间划分深度。每个图像块的帧间划分深度具体可以包括图像块的每个区域的划分深度。

以四叉树为例，参见图2B，图像块y1(U)的大小可以为64*64，其对应的帧间划分深度预测结果可以为一个4*4的矩阵，矩阵中的每个元素可以标识对应位置的大小为16*16的块在四叉树中的层数。示例地，在四叉树中的划分深度层数可以包括四层，分别为0、1、2、3。若处于0层，则16*16的块处在64*64所在的y1层，并未继续进行深度划分，即整个图像块均未继续进行深度划分；若处于1层，则16*16的块处在32*32所在的y2层，并未继续进行深度划分，此时与该块处于同一个四叉树分支上的块均处在32*32所在的y2层；若处于2层，则16*16的块处在16*16所在的y3层，并未继续进行深度划分，此时与该块处于同一个四叉树分支上的块均处在16*16所在的y3层；若处于3层，则16*16的块处在8*8所在的层，并未继续进行深度划分，即该块被划分为4个8*8的块。

S203、根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。

本实施例中，根据上述内容可知，帧间划分深度预测结果可以表征图像块的划分深度，则可以直接根据帧间划分深度预测结果确定出图像块划分出的帧间编码单元，从而根据帧间编码单元进行帧间编码，并可以得到对应的码流。

需要说明的是，本实施例中的步骤S203由编码器执行，步骤S201-S202可以由编码器执行，也可以由编码器之外的设备或者程序执行，本实施例对此不进行限定。

参见图2C，示出了本申请实施例提供的一种场景示意图，如图所示，视频中可以包括多个待编码的视频帧。

特征提取单元可以针对多个待编码视频帧分别进行运动特征提取，每提取出一个待编码视频帧的运动特征，即传输至预先训练的预测模型。

预先训练的预测模型可以根据运动特征进行帧间划分深度预测，得到帧间划分深度预测结果，并将帧间划分深度预测结果发送至编码器。

编码器可以根据帧间划分深度预测结果确定出待编码视频帧的若干个图像块划分出的编码单元，并进行帧间编码，以及得到编码后的码流。此时，特征提取单元可以并行提取下一个待编码视频帧的运动特征，预先训练的预测模型也可以针对下一个待编码视频帧进行帧间划分深度预测，从而实现并行。

本实施例提供的方案，通过运动特征提取，可以获得待划分图像帧对应的用于表征其与参考图像帧之间的物体运动信息的运动特征；之后采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；并根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。与通过编码器对图像块进行划分相比，本实施例提供的方案中进行运动特征提取与通过预先训练的预测模型进行预测的过程可以依赖于待编码的视频执行，而不依赖于编码过程执行，但是编码过程可以依赖于确定出的帧间划分深度预测结果执行，因此，本实施例提供的方案实现了预测过程与编码过程的单向解耦合，能够并行执行预测过程和编码过程，且节省了编码过程中划分编码单元的耗时，提高了视频编码的效率以及性能。

参见图3A，示出了本申请提供的一种图像块的划分方法的流程示意图，如图所示，其包括：

S301、通过运动特征提取获得待划分图像帧对应的运动特征。

以运动特征是光流图为例，本实施例中，可以通过预设的光流图提取模型，对所述待划分图像帧及其参考图像帧进行运动特征提取，得到所述待划分图像帧对应的光流图。

示例地，参见图3B，光流图提取模型可以为基于深度学习光流算法的可学习的特征提取器(LFE，Learnable Feature Extractor)。通过光流图提取模型可以从待划分图像帧(图中所示出的image2帧)和它的参考图像帧(图中所示出的image1帧)中提取出光流信息，从而形成可作为后续步骤输入的光流图。

如图3B所示，其包括：头部增强池化金字塔特征提取器(HEPP)，用于通过多层卷积convolution以及池化层pooling进行特征提取；中心密集扩张相关(CDDC)层，用于根据针对两帧图像帧提取出的特征构造紧凑的代价体积cost colume，从而保持较大的搜索半径并减少计算负担；交换解码器(SBD)用于输出预测光流信息predicted flow；上采样(upsample)后的预测光流信息调整(wrap)后再次输入至中心密集扩张相关(CDDC)层，构造紧凑的代价体积cost colume，并再次通过交换解码器(SBD)用于输出预测光流信息predicted flow作为最终输出的光流图。

示例地，具体提取过程可表达为F:x->o，F为光流图提取模型中使用的光流算法，x为待划分图像帧的Y通道信息及参考图像帧的Y通道信息融合形成的时空域信息输入张量，o为从时空域信息中提取出的光流场图。若x是形状为(2,H,W)的张量，则o也是形状为(2,H,W)的张量，其中某一坐标处的像素点的两个通道H、W的值分别表示该像素点的运动矢量在水平方向的分量和竖直方向的分量。

另外，光流场提取模型可以按照多个尺度提取特征，并输出多尺度光流场图矩阵，以增加提取出的光流特征的数量，进而提高后续预测模型输出的帧间划分深度预测结果的准确性。

S302、采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，帧间划分深度预测结果可以为若干个划分深度标志位组成的向量。

本实施例中，所述预先训练的预测模型为卷积神经网络模型。示例地，帧间划分深度预测结果可以为若干个划分深度标志位组成的向量；所述根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，包括：按照所述帧间划分深度预测结果中包括的划分深度标志位的值指示的划分深度，对所述图像块进行划分，得到若干帧间编码单元。

本申请实施例中，在划分过程中，图像块可以被划分为若干个子图像块，子图像块还可继续被划分为更小的子图像块，每划分一次划分深度加一，子图像块的数量指数级增加。示例地，图像块及其划分出的子图像块的数量可以为

其中，A为子图像块可被进一步划分出的块数量，例如若采用四叉树，则A＝4，若采用三叉树，则A＝3；i＝0时表征还未被划分的图像块，i≥1时表征被划分出的子图像块的划分深度，例如图2B所示，被划分出的子图像块的划分深度分别为1时对应图中的y1,划分深度为2时对应图中的y2,划分深度为3时对应图中的y3。

具体地，划分深度标志位可以存在以下两种设置方式：

第一、划分深度最高的每个子图像块对应一个划分深度标志位，即每个可被划分出的最小子图像块对应一个划分深度标志位，划分深度标志位的值可以为子图像块对应的预测划分深度的值。

示例地，以四叉树为例，当划分深度最高为2时，64*64大小的图像块可划分出16个子图像块，对应图2B中的y3子图像块，则划分深度标志位的数量为16，与16个自图像块一一对应。划分深度标志位的值可以为对应图像块的划分深度，例如，若y3(U_2，2)对应的划分深度值为1，则其完成划分时得到的为y3(U₂)，此时，与y3(U_2，2)属于同一个上级子图像块的其他子图像块对应的划分深度标志位的值也为1，即y3(U_2，1)、y3(U_2，3)、y3(U_2，4)对应的划分深度标志位的值也为1。

第二、每个子图像块对应一个划分深度标志位，即从划分深度为0到划分深度最大值，每个划分深度都对应有一组能够划分出的子图像块，每个子图像块都对应有一个划分深度标志位，划分深度标志位用于表征是否按照子图像块对应的划分深度进行划分，划分深度标志位的值可以为0或者1，本申请的后续步骤S304-S306在使用第二种划分深度标志位时执行。

此时，针对尺寸为k*k的图像块，按照n叉树的划分方式，可以存在多组标志位，其中，第i组标志位用于表示尺寸为k/(nⁱ)*k/(nⁱ)的块是否继续划分，i＝0、1、2……

当n＝4时，即四叉树为例，假设划分深度最高为2，即i的最大值为2，当划分深度为1时，对应图2B中的y1图像块，当划分深度为2时对应图2B中的四个y2子图像块，当划分深度为2时对应图2B中的16个y3子图像块。对应的划分深度标志位的数量为1+4+16,＝21个。对应的，若干个划分深度标志位组成的向量可以为21维向量，各个划分深度标志位具体可以包括：1个表示64*64的CTU是否继续划分的标志位，对应图2B中的y1，4个表示32*32大小的子CU是否继续划分的标志位对应于图2B中的4个y2，16个16*16大小的子CU是否继续划分的标志位，即对应图2B中的y3。y2(Ui)中的i可以用于表征块的位置，y3(U_m，n)中的m和n可以用于表征块的坐标，以表征块的位置。

当然上述仅为举例说明，在本申请的其他实现方式中，采用其他形式的标志位组成的向量也在本申请的保护范围内。

另外，每个标志位的值可以为0或者1，0用于表征不继续划分，1用于表征继续划分。由于每个标志位可能的值有两个，则预测模型具体可以为若干个二分类器，二分类器的数量与标志位的数量相同。另外，此时可将训练预测模型的过程视为多个二分类任务，则可以选择二值交叉熵损失函数(Binary cross entropy loss)求和作为总的损失函数，其表达式可表示为：

l_n＝-w[y_n·logx_n+(1-y_n)·log(1-x_n)]。

其中，xn表示21维划分向量的预测值，yn表示真实值，w表示每一维度的权重，在本实施例中w为1。

本实施例中，所述预先训练的预测模型为卷积神经网络模型。

为了获得更好的预测效果，所述卷积神经网络模型包括若干个卷积模块，所述根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，包括：将所述运动特征输入至相连的若干个卷积模块中，通过所述卷积模块依次对所述运动特征进行特征提取，其中，当前进行特征提取的所述卷积模块的输入为上一所述卷积模块的输出与所述运动特征的融合；根据所述若干个卷积模块的输出，确定所述待划分图像的所述帧间划分深度预测结果。

参见图3C，示出了一个卷积模块的示意图，卷积模块具体为第T层卷积模块，其输入为第T-1层卷积模块输出的C*H*W的特征数据与尺寸为2*H*W的光流特征的拼接融合。第T层卷积模块输出的尺寸为(2*C)*(H/2)*(W/2)的特征数据，用于作为第T+1层卷积模块的输入。若不存在第T+1层卷积模块，则第T层卷积模块输出的特征数据可以直接输出。

本实施例中，每个卷积模块中可以包括依次连接的卷积(convolution)层，批标准化(batch normalization)层，激活函数Relu层，卷积层，批标准化(batch normalization)层，激活函数Relu层及平均池化(average pooling)层构成，平均池化层的步长可以为2。

示例地，模型中各模块输入和输出尺寸可以如下表一所示。

表一

表1中的Conv1、Conv2、Conv3、Conv4、Conv5、Conv6分别对应上文中提到的卷积模块；Linear1和Linear2为神经网络中的线性层(又称全连接层)；ReLU和Sigmoid为无参数的激活函数。

另外，本实施例中的预测模型可以通过下述方法训练得到：

获得样本数据，所述样本数据包括样本图像帧、所述样本图像帧的参考图像帧、所述样本图像帧的各个图像块划分出的帧间编码单元标签；将所述样本图像帧以及所述参考图像帧输入至特征提取网络，通过所述特征提取网络提取得到所述样本图像帧的运动特征；将所述运动特征输入至所述预测模型，通过所述预测模型根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；根据所述帧间划分深度预测结果表征的帧间编码单元，以及所述帧间编码单元表征的帧间编码单元的区别，调整所述预测模型。

样本数据可以包括样本图像帧的CTU组，CTU组中可以包括多个图像块，每个图像块对应有帧间编码单元标签，用于表征CTU被划分为帧间CU的划分结果；样本数据还包括参考图像帧的CTU组，用于提取样本图像的CTU的运动特征。

具体训练过程可参考相关监督训练或者半监督训练的相关方案，在此不再赘述。

S303、将所述划分深度标志位的值与预设的第一划分阈值th_up以及第二划分阈值th_down比较，所述第一划分阈值大于所述第二划分阈值。

S304、若大于等于所述第一划分阈值th_up，则确定按照所述划分深度标志位指示的划分深度进行划分，并针对划分出的子图像块对应的划分深度标志位，执行步骤S323，以继续划分。

S305、若小于等于所述第二划分阈值th_down，则确定按照所述划分深度标志位指示的划分深度进行划分并不再继续划分。

S306、若小于所述第一划分阈值th_up且大于所述第二划分阈值th_down，则通过视频编码器的深度划分方式进行划分。

需要说明的是，本实施例中的步骤S303-S306由编码器执行，步骤S301-S302可以由编码器执行，也可以由编码器之外的设备或者程序执行，本实施例对此不进行限定。

本实施例中，当帧间划分深度预测结果包括若干个划分深度标志位组成的向量时，各个划分深度标志位的值可能为的浮点数而非整数。示例地，若在训练过程中，每个标志位的值可以为0或者1，0用于表征不继续划分，1用于表征继续划分，则在执行步骤S303时，每个划分深度标志为的值可能为0到1，越接近1标识继续划分的概率越高，越接近0标识不继续划分的概率越高。

因此，本实施例中，通过第一划分阈值th_up和第二划分阈值th_down，确定出继续划分的子图像块以及不继续划分的子图像块，无法确定的部分子图像块可以由视频编码器按照自身内置的深度划分方式进行划分。

第一划分阈值th_up和第二划分阈值th_down的具体大小可以通过实验得到，也可以通过相关人员设置，本实施例对此不进行限定。

具体地，进行划分时，可以预先设置有待划分的当前帧、当前帧的参考帧、CU变量、第一划分阈值th_up和第二划分阈值th_down。并可以设置两个标志位is_skip_Current_flag、is_skip_split_flag，is_skip_Current_flag表征结束划分，is_skip_Current_flag表征继续划分。

具体进行划分时，可以先将两个标志位设置为false，并将CU变量赋值为当前需要划分的CU，并可以针对当前CU：

判断当前CU的位置信息是否超出了需要划分的图像边界；若超出边界，则可以将当前CU对应的标志位is_skip_Current_flag设置为true，表征跳过当前CU，例如，图像帧中可以包括多个图像块，即包括多个y1，若需要划分的为图2B中的y2对应的四个子图像块CU,则获得对应的CU后，可以判断CU是否超出了当前图像块y1的图像边界，若超出，则表征不能根据当前图像块y1对应的帧间深度划分预测结果进行划分，则可以将标志位is_skip_Current_flag设置为true；若未超出边界，则获取当前CU的深度值depth_value以及获取当前CU在图像块CTU中的位置序号，位置序号可以例如图2B中的y2对应的四个子图像块的分别对应的序号，并根据深度值以及位置信息获得当前CU对应的划分深度标志位的值。将所述划分深度标志位的值与第一划分阈值th_up和第二划分阈值th_down比较，若大于等于所述第一划分阈值th_up，则确定按照所述划分深度标志位指示的划分深度进行划分，则可以将当前CU对应的标志位is_skip_Current_flag设置为true，表征跳过当前CU；若小于等于所述第二划分阈值th_down，则确定按照所述划分深度标志位指示的划分深度进行划分并不再继续划分，则可以将当前CU对应的标志位is_skip_split_flag设置为true，表征不再继续进行划分。

之后可以返回当前CU对应的两个标志位is_skip_Current_flag、is_skip_split_flag的值，以结束针对当前CU的操作；并可以再次将两个标志位设置为false，并将CU变量赋值为下一需要划分的CU，以继续执行。

后续针对标志位is_skip_Current_flag为true的CU，可以确定其进行划分后的CU，并针对划分出的CU继续执行上述步骤，直至不存在标志位is_skip_Current_flag为true的CU。

之后针对标志位is_skip_split_flag为true的CU，可以将各个CU对应的划分深度值作为最终的划分深度值，针对标志位is_skip_Current_flag为false或者标志位is_skip_split_flag为false的CU，可以通过视频编码器的深度划分方式进行划分。

示例地，参见下述表二，示出了在不同量化参数(quantization parameter，QP)下，不同尺寸的图像块使用的第一划分阈值th_up和第二划分阈值th_down。

表二

通过本实施例提供的方案，可以利用光流图等运动特征提取出待划分视频帧对应的运动信息，并使用卷积神经网络模型CNN根据光流图进行帧间划分深度预测，得到帧间划分深度预测结果，并且提取光流图以及通过CNN进行帧间划分深度预测的过程可以使用GPU加速，从而通过GPU并行计算实现对视频编码过程的加速。另外，本实施例提供的方案不局限于通过像素级别的信息来获得运动特征，即不局限于通过逐一比对像素的方法来获得运动特征，而是使用预设的特征提取模型来提取出光流图从而表示运动特征，并可以通过光流图近似表示每一个图像块的运动向量，最后使用生成的张量作为CNN的输入，并通过CNN输出帧间划分深度预测结果，并将帧间划分深度预测结果作为编码过程中跳过划分的依据，从而加速视频编码过程。

参见图4，示出了本申请实施例提供的一种图像块的划分装置的结构示意图，如图所示其包括：

运动特征提取模型401，用于通过运动特征提取获得待划分图像帧对应的运动特征，所述运动特征用于表征相邻两个图像帧之间的物体运动信息；

预测模型402，用于根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；

划分模块403，嵌入于编码器，用于根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以使得所述编码器根据所述帧间编码单元进行帧间编码。

本实施例提供的方案中进行运动特征提取与通过预先训练的预测模型进行预测的过程可以依赖于待编码的视频执行，而不依赖于编码过程执行，但是编码过程可以依赖于确定出的帧间划分深度预测结果执行，因此，本实施例提供的方案实现了预测过程与编码过程的单向解耦合，能够并行执行预测过程和编码过程，且节省了编码过程中划分编码单元的耗时，提高了视频编码的效率以及性能。

参见图5，示出了本实施例提供的一种图像块的划分系统的结构示意图，如图所示，其包括GPU和CPU。

本实施例中，GPU用于通过运动特征提取获得待划分图像帧对应的运动特征；以及，采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；

CPU用于根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。CPU还可以用于进行帧间编码并输出码流。

本实施例提供的方案中进行运动特征提取与通过预先训练的预测模型进行预测的过程可以依赖于待编码的视频执行，而不依赖于编码过程执行，但是编码过程可以依赖于确定出的帧间划分深度预测结果执行，因此，本实施例提供的方案实现了预测过程与编码过程的单向解耦合，能够并行执行预测过程和编码过程，还可以通过GPU加速执行预测过程，且节省了编码过程中划分编码单元的耗时，提高了视频编码的效率以及性能。

参见图6，示出了本实施例提供的一种解码方法的流程示意图，如图所示，其包括：

S601、获取待解码的码流，并从所述码流中解析获得图像块划分出的帧间编码单元。

所述帧间编码单元通过如上述实施例所述的方法确定。

S602、根据所述图像块的所述帧间编码单元进行解码。

参照图7，示出了一种使用场景示意图，如图所示，使用场景中可以包括用户设备1、通信网络、用户设备2。

在一些实施例中，通信网络可以是一个或多个有线和/或无线网络的任何适当的组合，通信网络可以包括传输中介，例如用户设备1可以通信网络将数据传输至服务节点，再由服务节点通过通信网络将数据转发至用户设备2。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。电子设备能够通过一个或多个通信链路(例如，通信链路)连接到通信网络，该通信网络能够经由一个或多个通信链路(例如，通信链路)被链接到云服务端。通信链路可以是适合于在电子设备和云服务端之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备1可以为任意能够运行程序、采集图像、进行图像编码以及发送码流的电子设备。在一些实施例中，用户设备1可以包括任何合适类型的设备。例如，在一些实施例中，用户设备1可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、云电脑终端、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的电子设备。

用户设备2可以为任意能够进行视频解码以及播放视频的电子设备，与用户设备1类似，用户设备2可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、云电脑终端、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的电子设备。

在会议场景下，用户设备1可以为一个参与会议的用户的电子设备，用户设备1可以采集分享的桌面对应的视频或者摄像头拍摄的视频，并通过上述方案进行视频编码，通过通信网络将编码后的码流传输至用户设备2。用户设备2可以通过上述方案进行解码并播放解码后的视频。

在直播场景下，用户设备1可以为一个主播的电子设备，用户设备1可以采集主播的视频，并通过上述方案进行视频编码，通过通信网络将编码后的码流传输至用户设备2。用户设备2可以通过上述方案进行解码并播放解码后的视频，从而观看直播。

参照图8，示出了根据本申请实施例五的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它电子设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行上述图像块的划分方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行前述多个方法实施例中任一实施例所描述的方法对应的操作。

程序810中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机存储介质，包括计算机程序，该计算机程序用于实现上述多个方法实施例中的任一图像块的划分方法。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一图像块的划分方法对应的操作。

编解码实验

将上述实施例提供的方案应用至编码器并进行比对测试后，得出的结果如下表三。实验中以BDrate(Bjotegaard Delta rate)和TS两个指标对编码器的性能进行评估。

其中，BDBR表示在同样的客观质量下两种编码方法的码率差值，由同一段视频在四个QP取值下(22,27,32,37)分别编码并计算码率和PSNR所得到。BDBR能够综合反映视频的码率和质量，其值越大说明所提出的快速算法相比原编码器码率更高，算法的压缩性能越差。

TS用于衡量快速算法在原编码器的基础上对编码时间的缩减程度，其计算方式如下：

其中，T_p为将快速算法嵌入编码器后的总编码时间，T_o为原编码器的总编码时间。

表三实验结果

实验可知，应用上述方案的编码器BDBR增加了0.77％，说明码率并无明显增加，即有效地保证了编码器的压缩性能，而编码时间缩减程度TS表示，应用上述方案后的编码器的编码时间相比原编码器减少了9.9％，即有效地缩短了编码时间，提高了编码效率。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种图像块的划分方法，包括：

通过运动特征提取获得待划分图像帧对应的运动特征，所述运动特征用于表征相邻两个图像帧之间的物体运动信息；

采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，以根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，根据所述帧间编码单元进行帧间编码。

2.根据权利要求1所述的方法，其中，所述通过运动特征提取获得待划分图像帧对应的运动特征，包括：

通过预设的特征提取模型，对所述待划分图像帧及其参考图像帧进行运动特征提取，得到所述待划分图像帧对应的运动特征；其中，所述运动特征包括以下至少之一：

光流图、按照所述图像块划分的运动向量、所述待划分图像帧中的物体的运动追踪信息。

3.根据权利要求2所述的方法，其中，若所述运动特征包括所述光流图，所述通过运动特征提取获得待划分图像帧对应的运动特征，包括：

通过预设的光流图提取模型，对所述待划分图像帧及其参考图像帧进行运动特征提取，得到所述待划分图像帧对应的光流图。

4.根据权利要求1-3任一项所述的方法，其中，所述预先训练的预测模型为卷积神经网络模型，所述卷积神经网络模型包括若干个卷积模块，所述根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，包括：

将所述运动特征输入至相连的若干个卷积模块中，通过所述卷积模块依次对所述运动特征进行特征提取，其中，当前进行特征提取的所述卷积模块的输入为上一所述卷积模块的输出与所述运动特征的融合；

根据最后一个卷积模块的输出，确定所述待划分图像的所述帧间划分深度预测结果。

5.一种图像块的划分装置，包括：

运动特征提取模型，用于通过运动特征提取获得待划分图像帧对应的运动特征，所述运动特征用于表征相邻两个图像帧之间的物体运动信息；

预测模型，用于根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果，以根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以使得所述编码器根据所述帧间编码单元进行帧间编码。

6.一种编码方法，其中，包括：

获取待划分图像帧对应的帧间划分深度预测结果，其中，所述帧间划分深度预测结果采用预先训练的预测模型，根据所述待划分图像帧对应的运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测得到；

根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。

7.根据权利要求6所述的方法，其中，所述帧间划分深度预测结果包括：若干个划分深度标志位组成的向量；所述根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，包括：

按照所述帧间划分深度预测结果中包括的划分深度标志位的值指示的划分深度，对所述图像块进行划分，得到若干帧间编码单元。

8.根据权利要求7所述的方法，其中，所述图像块按照划分深度进行多层划分，每层对应多个子图像块；

划分深度最高的每个子图像块对应一个所述划分深度标志位，所述划分深度标志位的值为所述子图像块对应的预测划分深度；或者，每个所述子图像块对应一个划分深度标志位，所述划分深度标志位的值用于指示是否按照对应子图像块的划分深度进行划分。

9.根据权利要求8所述的方法，其中，若每个所述子图像块对应一个划分深度标志位，所述按照所述帧间划分深度预测结果中包括的划分深度标志位的值指示的划分深度，对所述图像块进行划分，得到若干帧间编码单元，包括：

将所述划分深度标志位的值与预设的第一划分阈值以及第二划分阈值比较，所述第一划分阈值大于所述第二划分阈值；

若大于等于所述第一划分阈值，则确定按照所述划分深度标志位指示的划分深度进行划分，并针对划分出的子图像块对应的划分深度标志位，执行所述将所述划分深度标志位的值与预设的第一划分阈值以及第二划分阈值比较，所述第一划分阈值大于所述第二划分阈值的步骤，以继续划分；

若小于等于所述第二划分阈值，则确定按照所述划分深度标志位指示的划分深度进行划分并不再继续划分；

若小于所述第一划分阈值且大于所述第二划分阈值，则通过视频编码器的深度划分方式进行划分。

10.一种图像块的划分系统，包括GPU和CPU，

所述GPU用于通过运动特征提取获得待划分图像帧对应的运动特征；以及，采用预先训练的预测模型，根据所述运动特征对所述待划分图像帧的若干个所述图像块进行帧间划分深度预测，得到帧间划分深度预测结果；

所述CPU用于根据各个所述图像块对应的所述帧间划分深度预测结果，确定若干个所述图像块划分出的帧间编码单元，以根据所述帧间编码单元进行帧间编码。

11.一种解码方法，包括：

获取待解码的码流，并从所述码流中解析获得图像块划分出的帧间编码单元，所述帧间编码单元通过如权利要求1-4、6-9任一项所述的方法确定；

对所述图像块的所述帧间编码单元进行解码。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-4、6-9、11中任一项所述的方法对应的操作。