CN111885389A

CN111885389A - 一种多媒体数据编码方法、装置及存储介质

Info

Publication number: CN111885389A
Application number: CN202010724859.2A
Authority: CN
Inventors: 许桂森; 王诗涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-03
Anticipated expiration: 2040-07-24
Also published as: CN111885389B

Abstract

本申请实施例公开一种多媒体数据编码方法、装置及存储介质，其中，方法包括在多媒体数据的目标图像帧中获取图像块i的基础运动信息，在目标图像帧对应的参考图像帧中获取N×M个候选运动信息；从M个偏移距离中选取固定偏移距离，在N×M个候选运动信息中确定固定偏移距离对应的N个候选运动信息；在N个候选运动信息中所对应的偏移方向中确定最优偏移方向；在与所述最优偏移方向相关联的M个候选运动信息中，将具有最小率失真代价的候选运动信息作为最优候选运动信息，基于最优候选运动信息确定图像块i的目标最优候选运动信息；目标最优候选运动信息用于参与确定所述图像块i对应的参考图像块。采用本申请实施例，可以提高提高编码效率。

Description

一种多媒体数据编码方法、装置及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种多媒体数据编码方法、装置及存储介质。

背景技术

目前，编码端在采用音视频编码技术对当前待编码块进行帧间预测的过程中，可以通过UMVE技术或者MMVD技术从候选运动信息列表中选出多个运动信息作为基础运动信息，进而可以在每一个基础运动信息上叠加不同的偏移值的多个UMVE或者MMVD的候选。比如，可以将N个偏移方向和M个偏移距离进行组合，以得到不同的偏移值，当将这些不同的偏移值叠加在每个基础运动信息上之后，可以得到大量的新的运动信息，并将这些新的运动信息无差别的纳入CU(编码单元)的模式决策，以至于需要消耗大量的计算资源，进而增加了编码器的编码复杂度。

发明内容

本申请实施例提供一种多媒体数据编码方法、装置及存储介质，可以优化编码器的编码复杂度，以提高编码效率。

本申请实施例一方面提供了一种多媒体数据编码方法，方法包括：

获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；目标图像帧包括图像块i的基础运动信息，参考图像帧包括基础运动信息对应的N×M个候选运动信息；N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；偏移信息包括N个偏移方向和M个偏移距离；N和M为正整数；

在M个偏移距离中选取一个偏移距离作为固定偏移距离，在N×M个候选运动信息中确定与固定偏移距离相关联的N个候选运动信息；

在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为图像块i的运动矢量的最优偏移方向；

在N×M个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息；

在M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为基础运动信息对应的最优候选运动信息，基于最优候选运动信息确定图像块i的目标最优候选运动信息；目标最优候选运动信息用于指示在参考图像帧中参与确定图像块i对应的参考图像块。

本申请实施例一方面提供了一种多媒体数据编码装置，装置包括：

图像帧获取模块，用于获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；目标图像帧包括图像块i的基础运动信息，参考图像帧包括基础运动信息对应的N×M个候选运动信息；N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；偏移信息包括N个偏移方向和M个偏移距离；N和M为正整数；

偏移距离固定模块，用于在M个偏移距离中选取一个偏移距离作为固定偏移距离，在N×M个候选运动信息中确定与固定偏移距离相关联的N个候选运动信息；

最优方向确定模块，用于在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为图像块i的运动矢量的最优偏移方向；

候选方向确定模块，用于在N×M个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息；

最优候选确定模块，用于在M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为基础运动信息对应的最优候选运动信息；

目标最优确定模块，用于基于最优候选运动信息确定图像块i的目标最优候选运动信息；目标最优候选运动信息用于指示在参考图像帧中参与确定图像块i对应的参考图像块。

其中，图像块i的基础运动信息是由图像块j的历史最优候选运动信息确定的；基础运动信息包括运动矢量信息和参考帧索引信息；参考帧索引信息用于确定目标图像帧对应的参考图像帧；运动矢量信息用于指示在参考图像帧中确定图像块j对应的参考图像块；图像块j对应的参考图像块用于对图像块j进行帧间预测，且图像块j的历史最优候选运动信息是由按照目标音视频标准技术所导出的图像块i的候选运动信息列表所确定的。

其中，目标音视频标准技术为UMVE(Ultimate motion vector express，高级运动矢量表达)技术和MMVD(Merge mode with motion vector difference，带运动残差的合并模式)技术中的任意一种。

其中，当目标音视频标准技术为UMVE技术时，图像块j为与图像块i在空域或者时域上相邻的图像块。

其中，图像块i的候选运动信息列表包括：空域相邻列表和时域相邻列表；图像块j为从空域相邻列表和/或者时域相邻列表中所选取的2个图像块中的任意一个；空域相邻列表或者时域相邻列表是按照UMVE技术对应的第一邻块检测规则所确定的。

其中，第一邻块检测规则用于指示在空域上扫描与图像块i具有空域位置相邻的图像块；

其中，装置还包括：

空域列表确定模块，用于图像块将扫描到的与图像块i具有空域位置相邻的图像块添加至空域相邻列表；

时域列表确定模块，用于若空域相邻列表中所添加的在空域上扫描到与图像块i具有空域位置相邻的图像块的数量小于2，则基于第一邻块检测规则在时域上扫描与图像块i具有时域位置相邻的图像块，将扫描到的与图像块i具有时域位置相邻的图像块添加至时域相邻列表。

可选的，其中，当目标音视频标准技术为MMVD技术时，图像块j来自于图像块i的合并模式列表；合并模式列表中的图像块是按照MMVD技术对应的第二邻块检测规则所确定的，且图像块i的候选运动信息列表包括合并模式列表。

其中，图像块j为在合并模式列表中所确定的2个图像块中的任意一个，且2个图像块是根据候选运动信息列表中的每个图像块的候选运动信息所对应的邻块检查优先级所确定的；邻块检查优先级包含具有第一优先级的空域邻块候选的检查、具有第二优先级的时域候选的检查，具有第三优先级的基于历史参考的空域候选的检查，具有第四优先级的空域平均候选的检查，以及具有第五优先级的零向量的检查。

其中，基础运动信息的数量为两个，一个基础运动信息对应一个最优候选运动信息；

目标最优确定模块，具体用于在每个基础运行信息对应的最优候选运动信息中，将具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息。

其中，装置还包括：

模式确定模块，用于当使用目标最优候选运动信息参与图像块i的模式决策时，将目标最优候选运动信息对应的模型类型确定为第一模式类型；

参考块确定模块，用于在获取到与图像块i相关联的第二模式类型时，基于第一模式类型和第二模式类型，确定图像块i对应的参考图像块。

其中，参考块确定模块包括：

辅助信息确定单元，用于在获取到与图像块i相关联的第二模式类型时，将第二模型类型对应的最优候选运动信息作为辅助最优候选运动信息；

代价比较单元，用于将第一模型类型所对应的目标最优候选运动信息的率失真代价和辅助最优候选运动信息的率失真代价进行比较；

目标模式确定的单元，用于若目标最优候选运动信息的率失真代价小于辅助最优候选运动信息的率失真代价，则将第一模式类型作为参与模式决策的目标模式类型；

帧间预测单元，用于按照目标模式类型对应的目标最优候选运动信息，在参考图像帧中确定图像块i对应的参考图像块，根据图像块i对应的参考图像块对图像块i进行帧间预测。

其中，在基于图像块i的参考图像块对图像块i进行帧间预测时，目标最优候选运动信息所指示的预测方向与基础运动运动信息所指示的预测方向保持一致。

其中，N×M个候选运动信息是在将偏移信息叠加在基础运动信息上时所得到的；N的值为4；4个偏移方向包括X轴正方向，X轴负方向，Y轴正方向和Y轴负方向；若目标音视频标准技术为UMVE技术，则M的值为5，且5个偏移距离包括：1/4像素，1/2像素，整像素，2个整像素和4个整像素；若目标音视频标准技术为MMVD技术，则M的值为8，且8个偏移距离包括：1/4像素，1/2像素，整像素，2个整像素，4个整像素、8个整像素，16个整像素以及32个整像素。

本申请实施例一方面提供了一种编码设备，包括：处理器、存储器、网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，存储器用于存储计算机程序，处理器用于调用计算机程序，以执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，当处理器执行程序指令时执行如本申请实施例一方面中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例一方面中的方法。

本申请实施例在获取到多媒体数据中的目标图像帧时，可以进一步通过目标图像帧中的图像块i的基础运动信息(也可以称之为基础运动矢量)，在目标图像帧对应的参考图像帧中确定该基础运动信息对应的N×M个候选运动信息，应当理解，这里的N×M个候选运动信息是由与该基础运动信息相关联的偏移信息所确定的，比如，当将N个偏移方向和M个偏移距离进行组合后所构成的偏移矢量(即前述偏移信息)叠加在基础运动矢量上时，则可以得到N×M个候选运动信息。其中，N和M均为正整数；另外，可以理解的是，这里的图像块i为对目标图像帧进行分块处理后所得到的多个图像块中的一个待编码的编码单元(即一个CU)。进一步的，为在编码端提高对图像块i进行帧间编码的效率，本申请实施例可以在M个偏移距离中选取一个偏移距离作为固定偏移距离，进而可以在N×M个候选运动信息确定出与固定偏移距离相关联的N个候选运动信息，进而可以在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为最优偏移方向。进一步的，本申请实施例可以在N×M个候选运动信息中，确定出与最优偏移方向相关联的M个候选运动信息，进而可以在M个候选运动信息所对应的率失真代价中，将具有最小率失真代价所对应的候选运动信息作为最优候选运动信息。由此可见，本申请实施例在从M个偏移距离中选择一个偏移距离之后，可以快速计算出该偏移距离所对应的N个偏移方向上的候选运动信息的率失真代价，进而可以基于计算出的N个偏移方向上的候选运动信息的率失真代价确定出最优偏移方向。进一步的，本申请还可以将沿着最优偏移方向所确定出的M个偏移距离上的候选运动信息的率失真代价进行比较，进而可以将最优偏移方向上具有最小率失真代价的候选运动信息作为该基础运动信息所对应的最优候选运动信息，从而可以基于最优候选运动信息确定出该图像块i的目标最优候选运动信息。可以理解的是，这里的目标最优候选运动信息可以用于参与编码单元(即图像块i)的模式决策，以便于后续可以在参考图像帧中参与确定图像块i对应的参考图像块；反之，可以理解的是，在本申请实施例中，非最优偏移方向上的候选运动信息则无需参与编码单元的模式决策，这意味着采用本申请实施例，不仅可以加速编码单元的模式决策，还可以快速在参考图像帧中找出用于对图像块i进行帧间编码的参考图像块，进而可以对编码器的编码复杂度进行优化，以提高编码效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种编码架构的结构示意图；

图2是本申请实施例提供的一种多媒体数据编码方法的流程示意图；

图3是本申请实施例提供的一种在空域上确定当前待编码的图像块的邻块的场景示意图；

图4是本申请实施例提供的一种固定偏移距离的场景示意图；

图5是本申请实施例提供的一种在最优偏移方向上搜索候选运动信息的场景示意图；

图6是本申请实施例提供的一种多媒体数据编码方法的示意图；

图7是本申请实施例提供的一种从UMVE候选或者MMVD候选中快速确定出最优候选的流程示意图；

图8是本申请实施例提供的一种获取基础运动信息的场景示意图；

图9是本申请实施例提供的一种多媒体数据编码装置的结构示意图；

图10是本申请实施例提供的一种编码设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种编码架构的结构示意图。如图1所示的编码架构可以应用于图1所示的音视频编码系统10。如图1所示，该音视频编码系统10可以包括编码设备12和解码设备14。其中，如图1所示的编码设备12具体可以包括：音视频获取装置121、预处理器122、编码器123和通信接口124。其中，解码设备14具体可以包括：显示设备141、处理器142、解码器143和通信接口144。如图1所示，编码设备12可以将编码得到的编码数据13(也可以称之为编码码流)发送给解码设备14，以使解码设备14可以进一步对编码码流进行解码处理，以在该解码设备14中重构并播放相应的多媒体数据。

其中，可以理解的是，本申请实施例可以将编码设备12中统称为音视频编码设备，并可以将解码设备14统称为音视频解码设备。可以理解的是，这里的编码设备12和解码设备14具体可以包括以下设备中的任一个，比如，可以包含任何类别的手持或静止设备，例如，笔记本或膝上型计算机、移动电话、智能电话、平板或平板计算机、摄像机、台式计算机、机顶盒、电视、显示设备、数字媒体播放器、视频游戏控制台、视频流式传输设备(例如内容服务服务器或内容分发服务器)、广播接收器设备、广播发射器设备等具备图像数据处理功能的智能终端。

应当理解，该音视频编码系统10中所涉及的编码设备12和解码设备14可以为两个相互独立的终端设备，这样，编码设备12和解码设备14可以通过无线通信方式进行数据交互；此时，编码设备12和解码设备14可以用作无线通信设备。可选的，该音视频编码系统10中所涉及的编码设备12和解码设备14还可以被集成在同一计算机设备中，以在同一计算机设备中实现多媒体数据的编解码处理。其中，编码设备12可以对在本地存储器中检索到的多媒体数据进行编码处理，并且将编码处理后的码流数据存储到与该编码设备12具有网络连接关系的业务服务器的存储器中，这样，解码设备14可以从该业务服务器的存储器上获取到相应多媒体数据所对应的编码码流，进而可以对获取到的编码码流中的码流数据进行解码处理。

其中，本申请实施例可以将如图1所示的音视频编码系统10中的编码器123统称为音视频编码器，并可以将该音视频编码系统10中的解码器143统称为音视频解码器。应当理解，这里的编码器123可以用于根据本申请所描述的各种实例执行帧内预测、帧间预测等技术。

其中，如图1所示的音视频获取装置121可以为任何类别的多媒体数据捕获设备(例如，图片捕获设备、音频捕获设备等)，这意味着该音视频获取装置121可以具备多媒体数据采集功能，并可以利用该多媒体采集功能对现实世界中的多媒体数据进行采集，以捕获现实世界的图片，和/或任何类别的图片或评论(对于屏幕内容编码，屏幕上的一些文字也认为是待编码的图片或图像的一部分)、以及声音数据，进而可以将捕捉到的这些多媒体数据通过该音视频获取装置121中的计算机图形处理器生成多媒体数据源。

其中，计算机图形处理器可以用于获取和/或提供现实世界图片、计算机动画图片(例如，屏幕内容、虚拟现实(virtual reality，VR)图片)、和/或其任何组合(例如，增强现实(augmented reality，AR)图片)。其中，可以理解的是，多媒体数据源中的每张图片均可以视为一个图像帧，每个图像帧均可以为具有相应亮度值的采样点的二维阵列或矩阵。为便于理解，本申请实施例以阵列为例，可以将图像帧所对应的阵列中的任意一个采样点称之为一个像素(pixel)。该阵列在水平(例如，X轴方向)和垂直方向(例如，Y轴方向)上的采样点数目可以用于定义该图片的尺寸和/或分辨率。

其中，如图1所示的预处理器122可以用于接收音视频获取装置121所传输的多媒体数据源(简称为多媒体数据)，以进一步对接收到的多媒体数据源进行预处理，从而可以获取到经预处理后的图片(也可以称之为经预处理后的图片数据)。其中，预处理器122所执行的预处理具体可以包括色彩格式转换(例如，从RGB转换为YCbCr)、色差修正、基础块的划分或者去噪等。其中，可以理解的是，图1所示的编码器123(例如，音视频编码器)可以进一步用于接收经预处理后的图片(即经预处理后的图片数据)，进而可以对预处理后的图片数据进行编码处理，以将编码处理后的图片数据确定为图1所示的编码数据13，进而可以将该编码数据13通过图1所示的通信接口124传输给另一通信接口(例如，图1所示的通信接口144)，以通过该通信接口144将该编码数据13进一步传输到图1所示的解码设备14。

其中，可以理解的是，图1所示的预处理器122在得到上述多媒体数据源时，可以通过该预处理器122对该多媒体数据源所对应的多媒体数据序列中的某个图像帧(例如，待编码的图像帧)进行基础块的划分，以得到该图像帧的多个基础块。可以理解的是，本申请实施例在得到这些基础块之后，可以将每个基础块统称为图像块，进而可以通过图1所示的编码器123对这个图像帧中的每个图像块进行帧间预测。应当理解，本申请实施例可以将划分后的每个基础块(即图像块)统称为编码单元(即Coding Unit，CU)。

其中，可以理解的是，编码设备12的通信接口124可以用于接收经编码处理后的图片数据，并可以将该编码处理后的图片数据(即图1所示的编码数据13)传输至其它设备，例如，可以传输给图1所示的解码设备14或任何其它设备，进而可以在解码设备或任何其他设备(例如，上述业务服务器可以为视频客户端对应的后台服务器)中将接收到的编码数据13用于进行数据存储或直接进行数据重构。其中，可以理解的是，这里的解码设备14的通信接口144可以用于直接从编码设备12或任何其它存储设备(即上述业务服务器)上获取上述编码数据13。

其中，通信接口124和通信接口144可以用于通过编码设备12和解码设备14之间的直接通信链路或通过其他任何类别的网络传输接收上述经编码处理后的图片数据(即编码数据13)，这里的直接通信链路具体可以包含有线或无线连接，任何类别的网络例如为有线或无线网络或其任何组合，或任何类别的私网和公网，或其任何组合。通信接口124可以例如用于将经编码处理后的图片数据(即上述编码数据13)封装成合适的格式，以在通信链路或通信网络上进行数据传输。如图1所示的通信接口124所对应的通信接口144可以用于解封装上述编码数据13，以获取上述经编码处理后的图片数据。通信接口124和通信接口144都可以配置为单向通信接口，或配置为双向通信接口，以及可以用于例如发送和接收消息来建立连接、确认和交换用于传输经编码处理后的图片数据的相关数据信息。

其中，可以理解的是，解码器143可以用于接收到的经编码处理后的图片数据进行解码处理，以得到经解码处理后的图片数据(或经解码处理后的图片)。如图1所示，解码设备14的处理器142，可以用于对经解码处理后的图片数据(或经解码处理后的图片)进行后处理，以得到经后处理后的图片数据。处理器142执行的后处理具体可以包括，例如，色彩格式转换(例如，从YCbCr转换为RGB)、色差修正、整修或重采样，或任何其它处理，以重构得到上述多媒体数据源所对应的多媒体数据。

其中，可以理解的是，解码设备14的音视频显示装置141用于对接收到的经后处理后的图片数据进行显示，以向用户或观看者展示上述重构的多媒体数据。应当理解，这里的音视频显示装置141具体可以包括任何类别的用于呈现经重构后的多媒体数据的显示器，例如，集成的或外部的显示器或监视器。例如，显示器可以包括液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light emitting diode，OLED)显示器、等离子显示器、投影仪、微LED显示器、硅基液晶(liquid crystal on silicon，LCoS)、数字光处理器(digital light processor，DLP)或任何类别的其它显示器。

可以理解的是，图1所示的编码器123(例如，音视频编码器)和解码器143(例如，音视频解码器)都可以实施为各种合适电路中的任一个，例如，一个或多个微处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specificintegrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、离散逻辑、硬件或其任何组合。如果部分地以软件实施技术，则设备可将软件的指令存储于合适的非暂时性计算机可读存储介质中，且可使用一或多个处理器以硬件执行指令从而执行本申请的技术。前述内容(包含硬件、软件、硬件与软件的组合等)中的任一者可视为一或多个处理器。编码器123和解码器143中的每一个可以包含在一或多个编码器或解码器中，编码器或解码器中的任一个可以集成为对应设备中的组合编码器/解码器(编解码器)的一部分。应当理解，对于以上参考编码器123所描述的实例中的每一个，解码器143可以用于执行相反过程。关于信令语法元素，解码器143可以用于接收并解析这种语法元素，以解码得到相关的多媒体数据。比如，当编码器123用于将一个或多个定义的语法元素熵编码成经编码处理后的音视频比特流时，解码器143可以解析这种语法元素，并相应地解码得到相关的多媒体数据。

其中，编码设备12对上述多媒体数据源中的某个图像帧(即目标图像帧)进行图像块的划分，以及对划分后的某个图像块进行预测编码的具体实现方式，可以参见下述图2-图8所对应实施例的描述。

进一步的，请参见图2，图2是本申请实施例提供的一种多媒体数据编码方法的流程示意图。如图1所示的音视频处理方法可以由编码设备执行，该编码设备可以为上述图1所对应实施例中的编码设备12，该编码设备具体可以包括：智能手机、平板电脑、桌上型电脑等携带图像数据处理功能(例如，多媒体数据采集功能、多媒体数据编码功能等)的智能终端。方法具体可以包含以下步骤S101-步骤S105。

步骤S101，获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；

具体的，编码设备在获取到多媒体数据源(比如，上述图1所对应实施例中的音视频获取装置所采集到的多媒体数据)时，可以对该多媒体数据源进行预处理，进而可以将预处理后的多媒体数据源统称为这里的多媒体数据，此时，该编码设备还可以在该多媒体数据中将当前待编码的图像帧作为目标图像帧，进而可以按照指定的音视频编码标准技术，对当前待编码的图像帧进行基础块的划分，进而可以将该目标图像帧划分为多个基础块，本申请实施例可以将该目标图像帧中的待编码的每个基础块统称为编码单元(即codingunit，简称为CU)。其中，可以理解的是，本申请实施例可以在该目标图像帧中将当前待编码的编码单元统称为图像块i，以在目标图像帧中将已编码的相邻图像块(简称为邻块)的历史最优候选运动信息作为图像块i的基础运动信息，进而可以根据基础运动信息在该目标图像帧对应的参考图像帧中，确定出使用同一基础运动信息的N×M个候选运动信息。其中，该目标图像帧可以包括图像块i的基础运动信息，在本申请实施例中，基础运动信息的数量具体可以为两个，此时，一个基础运动信息可以对应一个参考图像帧，当在这两个基础运动信息中选取一个基础运动信息之后，可以在对应的参考图像帧中找到相应基础运动信息所对应的N×M个候选运动信息。那么，对于两个基础运动信息而言，则可以对应的找到2×N×M个候选运动信息。其中，可以理解的是，这里的N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；这里的偏移信息具体是指由N个偏移方向和M个偏移距离进行组合后所得到的偏移矢量，当将一个偏移信息叠加在一个基础运动信息上之后，可以得到一个新的运动信息，本申请实施例可以将得到的每个新的运动信息作为候选，进而可以将每个候选统称为候选运动信息；可以理解的是，这里的N和M均可以为正整数。

其中，可以理解的是，本申请实施例在得到上述多媒体数据时，可以在该多媒体数据中将当前需要进行编码的图像帧作为目标图像帧，进而可以通过指定的音视频编码技术对目标图像帧进行分块处理，以将该目标图像帧分割成不重叠的块集合。应当理解，该块集合中可以包含上述多个基础块，一个基础块可以为一个编码单元，进而可以在编码设备中实现块层级上的编码处理。换句话说，编码设备可以在块(图像块)层级上进行模式决策，进而可以通过空间(图片内)预测和时间(图片间)预测来产生当前图像块的预测块。

其中，可以理解的是，本申请实施例在对目标图像帧进行基础块的划分的过程中，可以使用指定的音视频标准技术所涉及的块划分规则(例如，编码树的四叉树结构、二叉树结构以及扩展的四叉树划分结构等)，将目标图像帧中的编码树单元(Coding Tree Unit，CTU)拆分为多个编码单元(Coding Unit，CU)。其中，一个编码单元可以对应于一个A×B的矩形区域，该A×B的矩形区域中具体可以包含A×B个亮度像素和它对应的色度像素，A为矩形区域的宽，B为矩形区域的高，可以理解的是，划分所得到的矩形区域的宽和高的值可以相同也可以不同，比如，A和B的取值通常为2的整数次幂，例如128、64、32、16、8、4。

可选的，应当理解，本申请实施例还可以将同时具备多媒体数据编码功能(例如，音视频编码功能)和多媒体数据解码功能(例如，音视频解码功能)的编码设备统称为上述音视频编解码设备。这意味着该音视频编解码设备在对某个编码单元(例如，当前待编码的图像块i)所涉及的相关数据进行解码处理之后，可以解码得到该A×B的矩形区域的重建图像。其中，可以理解的是，该音视频编解码设备中所涉及的解码处理通常可以包括预测、反量化、反变换等处理，以产生预测块(即图像块i所对应的参考图像块)所对应的预测图像和残差，进而可以将预测图像和残差进行叠加后得到前述图像块i所对应的A×B的矩形区域的重建图像。

其中，可以理解的是，一个图像帧中可以由多个CTU(即编码树单元)构成，一个CTU(即编码树单元)通常可以对应于一个方形图像区域，该CTU所对应的方形图像区域中可以包含这个图像区域中的亮度像素和色度像素(或者也可以只包含亮度像素，或者也可以只包含色度像素)；可以理解的是，CTU中还包含语法元素，这些语法元素可以用于指示如何按照上述块划分规则将CTU划分成至少一个CU，以及如何在解码侧解码得到每个编码单元所对应的重建图像。应当理解，本申请实施例可以将编码树下的叶子节点位置处的图像块(例如，图像块i)作为编码单元。

其中，应当理解，该编码设备所涉及的编码过程主要包括帧内预测、帧间预测、变换、量化、熵编码、环内滤波(in-loop filtering)(主要为去块滤波，de-blockingfiltering)等环节，即，将图像帧划分为多个基础块(即多个编码单元)之后，可以基于对应编码单元的模式决策进行帧内预测或者帧间预测，并且可以在得到残差之后进行变换量化，最终进行熵编码并输出码流(这里的码流可以为上述图1所对应实施例中编码数据13)。

其中，可以理解的是，在当前待编码的图像帧(即目标图像帧)为B帧(或者P帧)时，可以进一步获取通过上述基础运行信息确定出该目标图像帧对应的参考图像帧，以通过该参考图像帧进行帧间预测。此时，这里的帧间预测是在已重建的图像(即参考图像帧)中，为当前待编码的图像帧(即目标图像帧)中的当前图像块(即图像块i，也可以称之为编码单元i)寻找匹配的参考图像块，以通过确定出的参考图像块确定对该图像块i进行帧间运动估计。

其中，需要说明的是，图像块i的基础运动信息中具体可以包括以下数据信息，比如，可以包含预测方向的指示信息(比如，预测方向的指示信息可以包含前向预测、后向预测或者双向预测中的任意一种)、一个或两个用于指向参考图像块的运动矢量(Motionvector，MV)信息、以及与该图像块i具有相邻关系的邻块(例如，图像块j)所对应的参考图像块所在的参考图像帧的指示信息(通常记为参考帧索引，Reference index)等数据信息。其中，可以理解的是，本申请实施例可以将用于确定出该参考图像帧的参考帧索引统称为参考帧索引信息。由此可见，在本申请实施例中的基础运动信息具体可以包括运动矢量信息和参考帧索引信息；参考帧索引信息可以用于确定目标图像帧对应的参考图像帧；运动矢量信息可以用于指示在参考图像帧中确定图像块j对应的参考图像块；图像块j对应的参考图像块可以用于对图像块j进行帧间预测，且图像块j的历史最优候选运动信息是由按照指定的音视频标准技术(即目标音视频标准技术)所导出的图像块i的候选运动信息列表所确定的。

其中，可以理解的是，这里的前向预测是指图像块j(即已编码的图像块)能够从前向参考图像集合中所选择的一个参考图像帧中获取参考图像块。这里的后向预测是指图像块j(即已编码的图像块)能够从后向参考图像集合中选择一个参考图像帧中获取参考图像块。这里的双向预测是指图像块i(即已编码的图像块)能够从前向和后向参考图像集合中各选择一个参考图像帧，以获取相应参考图像帧中的参考图像块。

可选的，可以理解的是，在本申请实施例中，在当前待编码的图像帧(即目标图像帧)为突变帧(比如，I帧)时，则可以在该目标图像帧中进行帧内预测，这里的帧内预测是指利用当前待编码的图像帧(即目标图像帧)内的已重建区域内的像素点的像素值，对当前待编码的图像块(即图像块i)内的像素点的像素值进行预测。

此外，可以理解的是，本申请实施例所涉及的音视频编码标准具体可以包含第三代音视频编码标准(Audio Video coding Standard 3，简称为AVS3)和多功能视频编码标准(Versatile Video Coding，简称为VVC)。即本申请实施例可以在指定了AVS3中的高级运动矢量表达(Ultimate motion vector express，简称为UMVE)和VVC中的待运动矢量残差的合并模式(Merge mode with motion vector difference，简称为MMVD)等任意一种音视频标准技术的情况下，在编码设备中阐述如何按照指定的音视频标准技术(即目标音视频标准技术)所对应的邻块检测规则搜索到已编码图像块，进而可以基于搜索到的已编码图像块的信息建立得到当前待编码的图像块(即图像块i)的候选运动信息列表，从而可以在该候选运动信息列表中将前两个图像块的历史最优候选运动信息分别作为该图像块i的基础运动信息。

其中，可以理解的是，图像块i的基础运动信息是由图像块j的历史最优候选运动信息确定的。为便于理解，本申请实施例对已编码的图像块j在某个模式类型(例如，模式类型2)所对应的具有最小率失真代价的最优候选运动信息和待编码的图像块(即图像块i)在当前模式类型(比如，模式类型1)所确定的最优候选运动信息进行了区别，即本申请实施例在对图像块j进行帧间预测时，可以将最终参与图像块j的模式决策的具有最小率失真代价的最优候选运动信息称之为历史最优候选运动信息，并可以将后续执行下述步骤S102-步骤S105所确定的能够参与图像块i的模式决策的最优候选运动信息称之为目标最优候选运动信息。

可以理解的是，这里的历史最优候选运动信息为最终能够在对上述图像块j进行帧间预测时所采用的参与图像块j的模式决策的目标模式类型所对应的最优候选运动信息，这里的目标模式类型是指在参与图像块j的模式决策时，从多种模式类型(例如，模式类型1、模式类型2、模式类型3等)中所选取的具有最小率失真代价的最优候选运动信息所对应的模式类型，可以理解的是，对于图像块j而言，可以存在多种模式类型，每个模式类型均可以对应一个最优候选运动信息。所以，编码设备在得到图像块j在当前模式类型(即模式类型1)下的最优候选运动信息的情况下，需要将其与其他模式类型下的最优候选运动信息进行比较，进而可以将具有最小率失真代价所对应的模式类型统称为图像块j的目标模式类型，进而可以将该图像块j的目标模式类型所对应的最优候选运动信息作为上述历史最优候选运动信息，进而可以在确定该图像块j为当前待编码的图像块(即图像块i)的邻块的情况下，直接将该图像块j的历史最优候选运动信息作为该图像块i的基础运动信息。

其中，可以理解的是，本申请实施例可以将在该图像块i的候选运动信息列表中所选取的前两个图像块中的任意一个图像块作为上述图像块j，可以理解的是，本申请实施例可以将该图像块j统称为该图像块i的邻块，进而可以通过该图像块i的邻块来推测得到当前待编码的图像块(即图像块i)的基础运动信息。其中，应当理解，这里的邻块可以包括但不限于空域上的位置相邻，和时域上的位置相邻，还存在一些其他形式的位置相邻。比如，当目标音视频标准技术为UMVE技术时，图像块j可以为与图像块i在空域或者时域上相邻的图像块。

为便于理解，进一步的，请参见图3，图3是本申请实施例提供的一种在空域上确定当前待编码的图像块的邻块的场景示意图。应当理解，在本申请实施例中，UMVE技术属于一种针对skip和direct模式的高级运动矢量的表达方式。该UMVE技术旨在根据当前待编码的图像块(即图3所示的图像块i)的周边块信息(即图3所示的邻块A1、邻块B0)所导出的运动矢量(即上述基础运动信息)的基础上，对这些导出的运动矢量(即上述基础运动信息)进行偏移，以得到更有利于当前待编码的图像块(即图3所示的图像块i)的运动矢量，即对于图3所示的两个与该图像块i具有空域位置相邻关系的邻块A1、邻块B0而言，可以得到2×N×M个候选运动信息。

其中，可以理解的是，本申请实施例中的图像块j可以为图3所示的图像块i的邻块(即邻块A1和邻块B0)中的任意一个。如图3所示，邻块A1和邻块B0为从图3所示的空域相邻列表中所选取的前两个邻块。为便于理解，本申请实施例以该图像块j为邻块A1为例，可以将从该邻块A1所导出的历史最优候选运动信息作为当前待编码的图像块(即图3所示的图像块i)的基础运动信息(例如，运动矢量1)，进而可以在获取到用于叠加在该基础运动信息(例如，运动矢量1)上的偏移信息之后，进一步在图3所示的该图像帧20(即目标图像帧)所对应的参考图像帧中(该参考图像帧可以为上述邻块A1所对应的参考图像块j1所在的图像帧)，确定出该基础运动信息(例如，运动矢量1)对应的N×M个候选运动信息。此时，该图像块i的候选运动信息列表具体可以包括：图3所示的空域相邻列表，该空域相邻列表中具体可以包含该编码设备按照该UMVE技术对应的第一邻块检测规则所确定的5个邻块，这5个邻块具体可以为图3所示的邻块A1、邻块B0、邻块B1、邻块A0、邻块B2。

其中，可以理解的是，该UMVE技术需要传输的关于该运动矢量1的信息具体可以包括：skip/direct模式中的MV index(即运动矢量索引信息)、MV偏移方向、MV偏移距离。可以理解的是，该运动矢量索引信息可以为上述参考帧索引信息，通过该参考帧索引信息可以确定出目标图像帧对应的参考图像帧，进而可以将该运动矢量1在参考图像帧中所指向的参考图像块j1的位置作为起始位置，进而可以根据该起始位置所对应的运动矢量1(即基础运动信息)、N个偏移方向和M个偏移距离，在该图像帧20(即目标图像帧)所对应的参考图像帧中，确定出该基础运动信息(例如，运动矢量1)对应的N×M个候选运动信息，进而可以继续执行下述步骤S102。

应当理解，对于该图像块i的邻块为邻块B0时，可以将该邻块B0作为上述图像块j，进而可以从该邻块B0所导出的另一个历史最优候选运动信息作为当前待编码的图像块(即图3所示的图像块i)的基础运动信息(例如，运动矢量2)，进而可以在获取到用于叠加在该基础运动信息(例如，运动矢量2)上的偏移信息之后，进一步在图3所示的该图像帧20(即目标图像帧)所对应的参考图像帧中(该参考图像帧可以为上述邻块B0所对应的参考图像块j2所在的图像帧)，确定出该基础运动信息(例如，运动矢量2)对应的N×M个候选运动信息。

其中，可以理解的是，这里的第一邻块检测规则可以用于指示在空域上扫描与图像块i具有空域位置相邻的图像块；应当理解，编码设备在按照该第一邻块检查规则在空域上对图像块i的周边块(即上述邻块)进行扫描之后，还可以进一步将扫描到的与图像块i具有空域位置相邻的图像块添加至空域相邻列表，该空域相邻列表可以为图3所示的空域相邻列表。可以理解的是，在图3所示的空域相邻列表中，邻块A1的扫描顺序优先于邻块BO的扫描顺序，同理，邻块B0的扫描顺序优先于邻块B1的扫描顺序。以此类推，邻块B1的扫描顺序优先于邻块AO的扫描顺序，同理，邻块A0的扫描顺序优先于邻块B2的扫描顺序。基于此，当编码设备按照扫描顺序扫描得到这些邻块之后，可以基于扫描顺序在空域相邻列表中对这些邻块依次进行排布，以得到图3所示的空域相邻列表。

可选的，若编码设备所构建得到的空域相邻列表中所添加的在空域上扫描到与图像块i具有空域位置相邻的图像块的数量小于2，则该编码设备可以进一步按照上述第一邻块检测规则继续在时域上扫描与图像块i具有时域位置相邻的图像块，并可以将扫描到的与图像块i具有时域位置相邻的图像块添加至时域相邻列表，进而可以在目标音视频标准技术为UMVE技术将构建的空域相邻列表和时域相邻列表统称为图像块i的候选运动信息列表。

可选的，又比如，当目标音视频标准技术为MMVD技术时，图像块j可以来自于图像块i的合并(merge)模式列表，该合并模式列表中的图像块是按照MMVD技术对应的第二邻块检测规则所确定的，且图像块i的候选运动信息列表包括合并模式列表。即此时，在参与构建合并模式列表的过程中，该编码设备不仅可以通过上述空域和/或时域上的位置相邻的方式来确定邻块，还可以基于历史参考的空域候选、空域平均候选以及零向量等方式来确定邻块，这里将对确定邻块的方式进行一一列举。

其中，可以理解的是，当目标音视频标准技术为MMVD技术时，图像块j可以为在合并模式列表中所确定的前2个图像块中的任意一个，且2个图像块是根据候选运动信息列表中的每个图像块的候选运动信息所对应的邻块检查优先级所确定的；比如，邻块检查优先级具体可以包含具有第一优先级的空域邻块候选的检查、具有第二优先级的时域候选的检查，具有第三优先级的基于历史参考的空域候选的检查，具有第四优先级的空域平均候选的检查，以及具有第五优先级的零向量的检查。可以理解的是，编码设备在通过该MMVD技术在合并模式列表中找到与图像块i具有相邻关系的两个2个图像块时，可以将这2个图像块统称为上述图像块i的邻块，进而可以将由这两个邻块所导出的历史最优候选运动信息分别作为图像块i的基础运动信息，以在上述目标图像帧所对应的参考图像帧中找到每个基础运动信息所对应的N×M个候选运动信息。此时，编码设备可以在目标音视频标准技术为MMVD技术时，也将构建的合并模式列表统称为图像块i的候选运动信息列表。

换言之，可以理解的是，该图像块i所在的图像帧可以和具有相邻关系的图像块j所在的图像帧为同一图像帧；可选的，该图像块i所在的图像帧可以和具有相邻关系的图像块j所在的图像帧为两个不同的图像帧，但是这两个图像帧可以为上述多媒体数据中具有相邻帧关系的图像帧。

步骤S102，在M个偏移距离中选取一个偏移距离作为固定偏移距离，在N×M个候选运动信息中确定与固定偏移距离相关联的N个候选运动信息；

具体的，编码设备可以在采用指定音视频编码技术(即采用上述目标音视频标准技术)的情况下，得到相应数量的偏移距离。比如，当音视频标准技术为UMVE技术时，M的值可以为4，且这4个偏移距离具体可以包括：1/4像素，1/2像素，整像素，2个整像素和4个整像素；可选的，当音视频标准技术为MMVD技术时，则M的值可以为8，且这8个偏移距离具体可以包括：1/4像素，1/2像素，整像素，2个整像素，4个整像素、8个整像素，16个整像素以及32个整像素。可以理解的是，本申请实施例在执行完上述步骤S101之后，对于一个基础运动信息而言，可以得到N×M个候选运动信息。此时，计算机设备可以根据采用的目标音视频标准技术，在该目标音视频标准技术所对应的M个偏移距离中选取一个偏移距离作为固定偏移距离，进而可以在N×M个候选运动信息中确定出与固定偏移距离相关联的N个候选运动信息。其中，该目标音视频标准技术所对应的N的值可以为4；这里的4个偏移方向具体可以包括X轴正方向，X轴负方向，Y轴正方向和Y轴负方向。

为便于理解，进一步的，请参见图4，图4是本申请实施例提供的一种固定偏移距离的场景示意图。如图4的图像帧30可以为上述图3所对应实施例中的图像帧20(即目标图像帧)所对应的参考图像帧。该参考图像帧中的位置O1可以为编码设备基于上述基础运动信息(例如，运动矢量1)在该图像帧30中所定为到的图像块j所对应的参考图像块的位置，比如，该图像块j所对应的参考图像块可以为上述图3所对应实施例中的邻块A1所对应的参考图像块j1的位置信息。

如图4所示，当编码设备利用上述目标音视频标准技术确定出M个偏移距离之后，可以从M个偏移距离中选取一个偏移距离作为固定偏移距离(即图4所示的偏移距离F1)，为便于理解，本申请实施例以该目标音视频标准技术为UMVE技术为例，此时，该M个偏移距离具体可以包含：1/4像素，1/2像素，整像素，2个整像素和4个整像素。为便于理解，本申请实施例以如图4所示的偏移距离F1为1/4像素为例，以阐述在固定好偏移距离的情况下，如何从以图4所示的位置O1(起始位置)，沿4个偏移方向上进行候选运动信息的搜索。

具体的，如图4所示的，该位置O1可以为该图像帧30所对应的二维坐标系的轴坐标中心，此时，编码设备可以沿着图4所示的N个偏移方向搜索到与固定偏移距离相关联的N个候选运动信息。例如，沿着图4所示的X轴正方向可以搜索到图4所示的候选运动信息30d，沿着图4所示的X轴负方向可以搜索到图4所示的候选运动信息30b，沿着图4所示的Y轴正方向可以搜索到图4所示的候选运动信息30a，沿着图4所示的Y轴负方向可以搜索到图4所示的候选运动信息30c。换言之，本申请实施例可以将图4所示的候选运动信息30d、候选运动信息30b、候选运动信息30a和候选运动信息30c统称为与固定偏移距离相关联的N个候选运动信息，以便于后续可以执行下述步骤S103。

同理，可选的，对于上述图3所对应实施例中的图像块i的另一个邻块(邻块B0)而言，也可以在该邻块B0所对应的参考图像块j2所在的参考图像帧中定为到该参考图像块j2的位置，该参考图像块j2的位置可以记为位置O2，可以理解的是，该位置O2所对应的二维坐标系可以一并参考上述图4所对应实施例中的二维坐标系，故而可以以在该参考图像块j2所在的参考图像帧中，搜索到与固定偏移距离相关联的新的N个候选运动信息，这里将不对以位置O2为起始位置，来搜索出与固定偏移距离相关联的新的N个候选运动信息的具体过程进行赘述。可以理解的是，在本申请实施例中，参考图像块j2所在的参考图像帧可以不同于上述参考图像块j1所在的参考图像帧。

步骤S103，在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为图像块i的运动矢量的最优偏移方向。

具体的，编码设备在执行完上述步骤S102之后，可以得到N个候选运动信息，比如，这里的N个候选运动信息可以为上述图4所对应实施例中的候选运动信息30d、候选运动信息30b、候选运动信息30a和候选运动信息30c。此时，计算机设备可以计算着4(即N＝4)个候选运动信息的率失真代价，进而可以在这4个候选运动信息的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为最优偏移方向，以便于继续执行下述步骤S104。

为便于理解，本申请实施例以上述图4所对应实施例中的4个候选运动信息为例，以阐述根据这4个候选运动信息确定出最优偏移方向的具体过程。进一步的，请参见下述表1，为本申请实施例提供的一种候选运动信息的映射关系表。

表1

偏移方向	X轴正方向	X轴负方向	Y轴正方向	Y轴负方向
					候选运动信息	运动信息1	运动信息2	运动信息3	运动信息4
率失真代价	RD1	RD2	RD3	RD4

如上述表1所示，运动信息1即为上述图4所对应实施例中的在X轴正方向上所搜索到的候选运动信息30d，该候选运动信息30d所对应的率失真代价可以为表1中的RD1；同理，如上述表1所示，运动信息2即为上述图4所对应实施例中的在X轴负方向上所搜索到的候选运动信息30b，该候选运动信息30b所对应的率失真代价可以为表1中的RD2。以此类推，运动信息3即为上述图4所对应实施例中的在Y轴正方向上所搜索到的候选运动信息30a，该候选运动信息30a所对应的率失真代价可以为表1中的RD3；同理，如上述表1所示，运动信息4即为上述图4所对应实施例中的在Y轴负方向上所搜索到的候选运动信息30c，该候选运动信息30c所对应的率失真代价可以为表1中的RD4。

如上述表1所示，若这四个候选运动信息所对应的率失真代价中，存在RD2>RD1>RD4>RD3，则可以将率失真代价RD3所对应的偏移方向确定为在4个偏移方向上所确定出的最优偏移方向，进而可以继续执行下述步骤S103。

步骤S104，在N×M个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息；

为便于理解，进一步的，请参见图5，图5是本申请实施例提供的一种在最优偏移方向上搜索候选运动信息的场景示意图。具体的，如图5的偏移方向1可以为上述表1中的Y轴正方向，如图5的偏移方向2可以为上述表1中的X轴负方向，如图5的偏移方向3可以为上述表1中的Y轴负方向，如图5的偏移方向4可以为上述表1中的X轴正方向。基于上述表1所对应实施例可知，若在这4(N＝4)个偏移方向中确定出图5所示的Y轴正方向上的候选运动信息30a具有最小率失真代价，则可以将该Y轴正方向作为最优偏移方向。进一步的，编码设备还可以在N×M(例如，4*5＝20)个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息。如图5所示，编码设备在将上述偏移距离为1/4像素作为固定偏移距离的情况下，可以在M个偏移距离中将沿着该最优偏移方向继续搜索余下的(M-1)个偏移距离所对应的候选运动信息。比如，(M-1)个偏移距离所对应的候选运动信息具体可以包含1/2像素所对应的候选运动信息40a，整像素所对应的候选运动信息40b，2个整像素所对应的候选运动信息40c和4个整像素所对应的候选运动信息40d。

进一步的，计算机设备可以将沿着最优方向上所搜索到的候选运动信息30a、候选运动信息40a、候选运动信息40b、候选运动信息40c、候选运动信息40d统称为与该最优偏移方向相关联的M个候选运动信息，即图5所示的在最优偏移方向上的候选运动信息的数量为M个，以便于后续可以继续执行下述步骤S105。

步骤S105，在M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为基础运动信息对应的最优候选运动信息，基于最优候选运动信息确定图像块i的目标最优候选运动信息。

其中，目标最优候选运动信息可以用于指示在参考图像帧中参与确定图像块i对应的参考图像块。为便于理解，本申请实施例以上述图5所对应实施例中的5(M＝5)个候选运动信息为例，以阐述根据这5个候选运动信息确定出最优偏移方向的具体过程。进一步的，请参见下述表2，为本申请实施例提供的一种最优偏移方向上的候选运动信息的映射关系表。

表2

如上述表2所示，候选运动信息30a可以为上述表1中的在Y轴正方向上的运动信息3，即该表2中的候选运动信息30a可以为上述图5所对应实施例中的在Y轴正方向上所搜索到的候选运动信息30a，该候选运动信息30a所对应的率失真代价可以为表2中的RD3；同理，如上述表2所示，该表2中的候选运动信息40a可以为上述图5所对应实施例中的在Y轴正方向上所搜索到的候选运动信息40a，该候选运动信息40a所对应的率失真代价可以为表2中的RD5。以此类推，该表2中的候选运动信息40b可以为上述图5所对应实施例中的在Y轴正方向上所搜索到的候选运动信息40b，该候选运动信息40b所对应的率失真代价可以为表2中的RD6；同理，如上述表2所示，该表2中的候选运动信息40c可以为上述图5所对应实施例中的在Y轴正方向上所搜索到的候选运动信息40c，该候选运动信息40c所对应的率失真代价可以为表2中的RD7。如上述表2所示，该表2中的候选运动信息40d可以为上述图5所对应实施例中的在Y轴正方向上所搜索到的候选运动信息40d，该候选运动信息40d所对应的率失真代价可以为表2中的RD8。

如上述表1所示，若这5个候选运动信息所对应的率失真代价中，存在RD3>RD5>RD6>RD7>RD8，则编码设备可以在该最优偏移方向上(例如，上述图5所对应实施例中的Y轴正方向上)将具有最小率失真代价RD8所对应的候选运动信息确定为基础运动信息对应的最优候选运动信息。

其中，可以理解的是，对于上述图3所对应实施例中的两个邻块(即上述邻块A1和邻块B0)而言，可以按照上述目标音视频标准技术(比如，UMVE技术或者MMVD技术)将从这两个邻块所导出的矢量信息(即上述历史最优候选运动信息)作为当前待编码的图像块(即图像块i)的基础运动信息，此时，该图像块i的基础运动信息的数量可以为两个，这意味着编码设备通过对着两个基础运动信息执行上述步骤S101-步骤S105后，可以得到每个基础运动信息对应的最优候选运动信息。

进一步的，编码设备可以基于这些最优候选运动信息确定出图像块i的目标最优候选运动信息，进而可以使用目标最优候选运动信息参与图像块i的模式决策。其中，编码设备确定图像块i的目标最优候选运动信息的具体实现方式可以描述为：编码设备可以在每个基础运行信息对应的最优候选运动信息中，将具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息，这里的目标最优候选运动信息可以用于指示在参考图像帧中参与确定图像块i对应的参考图像块。应当理解，最终所确定出的图像块i对应的参考图像块可以用于对当前待编码的图像块(即图像块i)进行帧间预测编码。应当理解，本申请实施例在基于图像块i的参考图像块对图像块i进行帧间预测时，需要确保目标最优候选运动信息所指示的预测方向与基础运动运动信息所指示的预测方向保持一致。这里的预测方向可以为上述前向预测、后向预测或者双向预测中的一种。本申请实施例可以将该图像块i所对应的参考图像块统称为上述预测块。

此时，编码设备可以从图像块i(当前待编码的图像块)减去预测块(即当前待编码的图像块所对应的参考图像块)，以获取残差块，进而可以在变换域变换残差块并量化残差块，以减少待传输(压缩)的数据量，而该编码设备所对应的解码设备中的解码器则可以将相对于编码设备中的编码器的逆处理部分应用于经编码或经压缩的图像块i，以重构用于表示该图像块i的重构图像。另外，编码器可以用于复制解码器的处理循环，使得用于进行编码的编码器和用于进行解码的解码器，能够生成相同的预测(例如帧内预测和帧间预测)和/或重构。应当理解，本申请实施例所公开的多媒体数据编码方法可以用于在编码设备中快速确定出能够参与图像块i的模式决策的目标最优候选运动信息。可以理解的是，本申请实施例可以将在当前待编码的图像帧(即目标图像帧)中，所存在的待用于进行编码的任意一个图像块统称为上述图像块i，以通过执行上述步骤S101-步骤S105，快速从图像块i对应的N×M个候选运动信息中，找到最终能够参与该图像块i的模式决策的目标最优候选运动信息，以便于后续在基于目标最优候选运动信息进行模式选择的时候，可以找到具有最小率失真代价的模式类型作为目标模式类型，进而可以将目标模式类型所对应的最优候选运动信息，用于在参考图像帧中确定出该图像块i对应的参考图像块。

应当理解，在对多媒体数据进行编码的过程中，可以在一定码率(即码率表现为数据压缩的程度，码率越低，则数据压缩的比例越大)的情况下，基于参考图像帧中的预测块对目标图像帧中的每个待编码的图像块中的数据进行压缩处理，进而可以在进行码流传输的过程中，减少目标图像帧中的数据的失真，这样，解码设备在获取到相应码流之后，则可以相对于编码设备中的编码器作逆处理，以在解码设备中重构这些图像块的图像数据，进而可以在解码设备中展示该目标图像帧所对应的重构图像数据(即解码得到的多媒体数据)。

进一步的，应当理解，在无损音视频编码的情况下，本申请实施例可以通过该编码设备对应的解码设备可以重构原始多媒体数据，即经重构所得到的多媒体数据具有与原始多媒体数据(即上述多媒体数据)相同的质量(假设存储或传输期间没有传输损耗或其它数据丢失)。可选的，在有损视音频编码得情况下，可以通过例如量化执行进一步压缩，以减少表示上述原始多媒体数据(即多媒体数据源)所需的数据量，而此时，解码设备中的解码器则无法完全重构出原始多媒体数据，即经重构所得到的多媒体数据的质量，会相比于原始多媒体数据的质量较低或较差，即在有损视音频编码得情况下，可以在允许一定的失真时，尽可能的将原始多媒体数据(即上述多媒体数据)压缩到最小，以提高编解码的效率。

进一步地，请参见图6，图6是本申请实施例提供的一种多媒体数据编码方法的示意图。如图6所示，该方法可以由编码设备执行，该编码设备可以为上述图1所对应实施例中的可以包含以下步骤：

步骤S201，获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；

其中，目标图像帧包括图像块i的基础运动信息，参考图像帧包括基础运动信息对应的N×M个候选运动信息；N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；偏移信息包括N个偏移方向和M个偏移距离；N和M均为正整数；

步骤S202，在M个偏移距离中选取一个偏移距离作为固定偏移距离，在N×M个候选运动信息中确定与固定偏移距离相关联的N个候选运动信息；

步骤S203，在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为图像块i的运动矢量的最优偏移方向；

步骤S204，在N×M个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息；

应当理解，当编码设备利用指定的音视频标准技术(即上述目标音频标准技术)执行上述步骤S101-步骤203之后，可以将在固定偏移距离时所确定的具有最小率失真代价的候选运动信息称之为第一候选运动信息。然后，编码设备可以在N×M个候选运动信息中，沿着确定出的最优偏移方向，继续搜索与其他剩余的偏移距离相关联的(M-1)个候选运动信息，进而可以将搜索到的(M-1)个候选运动信息统称为第二候选运动信息；此时，编码设备可以基于第一候选运动信息和第二候选运动信息，得到与该最优偏移方向相关联的M个候选运动信息。换言之，在本申请实施例中，在使用同一基础运动信息所得到的N×M个候选运动信息中，第一候选运动信息的数量(例如，1个)和第二候选运动信息的数量(例如，(M-1)个)之和可以为前述M个。

比如，在固定偏移距离为1/4像素时，若该目标音视频标准技术为UMVE技术，则沿着最优偏移方向所确定的候选运动信息的数量(即M的值)可以为5个，且这5个候选运动信息所对应的偏移距离具体可以包括：1/4像素，1/2像素，整像素，2个整像素和4个整像素。编码设备得到这5个候选运动信息的具体实现方式，可以一并参见上述图2所对应实施例中对最优偏移方向上的M个候选运动信息的描述，这里将不再继续进行赘述。

可选的，又比如，若目标音视频标准技术为MMVD技术，则沿着最优偏移方向所确定的候选运动信息的数量(即M的值)可以为8个，且8个最优偏移方向上的候选运动信息所对应的偏移距离具体可以包括：1/4像素，1/2像素，整像素，2个整像素，4个整像素、8个整像素，16个整像素以及32个整像素。同理，编码设备得到这5个候选运动信息的具体实现方式，可以一并参见上述图2所对应实施例中对最优偏移方向上的M个候选运动信息的描述，这里将不再继续进行赘述。

步骤S205，在M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为基础运动信息对应的最优候选运动信息；

其中，步骤S201-步骤S205的具体实现可以参见上述图2所对应实施例对步骤S101-步骤S105的描述，这里将不再继续进行赘述。

步骤S206，基于最优候选运动信息确定图像块i的目标最优候选运动信息；

具体的，编码设备可以在每个基础运行信息对应的最优候选运动信息中，将具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息。应当理解，当基础运动信息的数量为2个时，可以得到这2个基础运动信息分别对应的最优候选运动信息，由于这两个最优候选运动信息主要是用于描述该图像块i在同一音视频标准技术所对应的模式类型下的运动矢量的表达，故而可以将这两个最优候选运动信息所对应的率失真代价进行比较，以在这两个最优候选运动信息中选取具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息。其中，目标最优候选运动信息用于指示在参考图像帧中参与确定图像块i对应的参考图像块。

其中，为便于理解，本申请实施例可以将基于UMVE技术所得到的两个基础运动信息对应的2×N×M(此时，M＝5，2×N×M＝2×4×5＝40)个候选运动信息统称为UMVE候选；这样，一个基础运动信息所对应的UMVE候选的数量可以为20个。

可选的，本申请实施例也可以将基于MMVD技术所得到的两个基础运动信息对应的2×N×M(此时，M＝8，2×N×M＝2×4×8＝64)个候选运动信息统称为MMVD候选；这样，一个基础运动信息所对应的MMVD候选的数量可以为32个。

为便于理解，进一步的，请参见图7，图7是本申请实施例提供的一种从UMVE候选或者MMVD候选中快速确定出最优候选的流程示意图。如图7所示，编码设备可以用于执行以下步骤S11-步骤S19；

其中：步骤S11，选取第一个基础运动信息，并选用一个偏移距离作为固定偏移距离；

具体的，编码设备在需要对当前待编码的图像块(例如，上述目标图像帧中的图像块i)进行编码之前，可以按照上述邻块检测规程(即上述第一邻块检测规则或者第二邻块检测规则)，构建候选运动信息列表，进而可以在候选运动信息列表中选取与该图像块i具有相邻关系的两个邻块，从而可以将从每个邻块中所导出的运动矢量分别作为该图像块i的基础运动信息。

为便于理解，进一步的，请参见图8，图8是本申请实施例提供的一种获取基础运动信息的场景示意图。如图8所示的候选运动信息列表可以为按照上述目标音视频标准技术所对应的邻块检测规则所构建的；如图8所示，本申请实施例可以将在该候选运动信息列表中的前两个邻块(例如，图8所示的邻块E1和邻块E2)作为当前待编码的图像块(即图像块i)的邻块，进而可以将导出的图像块i的邻块的运动矢量分别作为该图像块i的基础运动信息。比如，如图8所示，可以将图像块i的邻块E1的运动矢量R1作为该图像块i的基础运动信息，以得到图8所示的基础运动信息1。另外，如图8所示，本申请实施例还可以将图像块i的邻块E2的运动矢量R2作为该图像块i的另一基础运动信息，以得到图8所示的基础运动信息2。

为便于理解，如图8所示，编码设备在得到图像块的基础运动信息(即基础运动信息1和基础运动信息2)之后，可以在这些基础运动信息的基础上叠加N×M个偏移信息，进而可以得到基础运动信息1对应的N×M个候选运动信息，以及基础运动信息2对应的N×M个候选运动信息。应当理解，本申请实施例可以将该基础运动信息1对应的N×M个候选运动信息(即图8所示的候选集合1)和基础运动信息2对应的N×M个候选运动信息(即图8所示的候选集合2)统称为上述UMVE候选或者MMVD候选。可以理解的是，这里的所有UMVE候选或者MMVD候选所对应的候选运动信息的数量可以为2×N×M个。

基于此，当编码设备图7所示的步骤S11时，可以将图8所示的基础运行信息1作为第一个基础运动信息，并可以在与该第一基础运动信息相关联的M个偏移距离中选取一个偏移距离作为固定偏移距离，比如，可以M个偏移距离中(例如，距离F₁，距离F₂，…，距离F_M，)将偏移距离(例如，图8所示的距离F₁)作为固定偏移距离，以便于候选可以继续执行下述步骤S12。

步骤S12，从所有UMVE候选或者MMVD候选中，选出基础运动信息对应的候选。

可以理解的是，当编码设备将图8所示的基础运动信息1作为第一个基础运动信息时，可以从所有UMVE候选或者MMVD候选中选出该基础运动信息1对应的候选，具体的，可以将图8所示的候选集合1中的N×M个候选运动信息，作为从所有UMVE候选或者MMVD候选中所选出的该基础运动信息1对应的候选。

步骤S13，从基础运动信息对应的候选中选出固定偏移距离所对应的候选；

其中，可以理解的是，如图8所示，在固定偏移距离为距离F₁时，可以从该基础运动信息1所对应的N×M个候选运动信息中选取固定偏移距离(即该距离F1)所对应的N个候选运动信息。其中，编码设备选取固定偏移距离所对应的候选的具体实现方式可以参见上述图4所对应实施例中对N(即上述N＝4)个候选运动信息的描述，这里将不再继续进行赘述。

步骤S14，计算所选出的候选的率失真代价，将率失真代价最小的候选的偏移方向作为最优偏移方向；

比如，如图8所示，编码设备可以将N个候选运动信息的率失真代价进行比较，以在这N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向确定为最优偏移方向。其中，编码设备确定最优偏移方向的具体实现方式可以参见上述图2所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

步骤S15，在基础运动信息对应的候选中，进一步选出最优偏移方向所对应的候选。

比如，如图8所示，编码设备可以在确定出最优偏移方向的情况下，从基础运动信息对应N×M个候选运动信息中，选取与最优偏移方向相关联的M个候选运动信息。其中，编码设备确定与最优偏移方向相关联的M个候选运动信息的具体实现方式，可以参见上述图2所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

步骤S16，计算所选出的候选的率失真代价，将率失真代价最小的候选作为最优候选。

比如，如上述图8所示，编码设备在该步骤S16中所选出的候选可以为沿着最优偏移方向所选取的M个候选运动信息，此时，编码设备可以计算这M个候选运动信息的率失真代价，进而可以在这M个候选运动信息对应的率失真代价中，将在该最优偏移方向上具有最小率失真代价的候选运动信息作为该基础运动信息1的最优候选运动的信息，以继续执行下述步骤S17。

步骤S17，判断当前所选取的基础运动信息是否为最后一个基础运动信息。

其中，可以理解的是，如图8所示，由于该基础运动信息1为两个基础运动信息中的第一个基础运动信息，所以，当前所选取的基础运动信息并不是最后一个基础运动信息，进而需要跳转到下述步骤S18。

步骤S18，选用下一个基础运动信息；

如图8所示，编码设备可以将图8所示的基础运动信息2作为第二个基础运动信息，进而可以重复执行图7所示的步骤S12-步骤S17，此时，由于该基础运动信息2为两个基础运动信息中的最后一个基础运动信息，故而可以继续执行下述步骤S19。

步骤S19，得到每个基础运动信息对应的最优候选。

比如，如图8所示，可以得到基础运动信息1对应的最优候选运动信息，以及基础运动信息2对应的最优候选运动信息。此时，编码设备可以将这两个基础运动信息对应的最优候选运动信息的率失真代价进行比较，以将具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息。

步骤S207，当使用目标最优候选运动信息参与图像块i的模式决策时，将目标最优候选运动信息对应的模型类型确定为第一模式类型，且在获取到与图像块i相关联的第二模式类型时，基于第一模式类型和第二模式类型，确定图像块i对应的参考图像块。

具体的，编码设备在使用目标最优候选运动信息参与图像块i的模式决策时，可以将目标最优候选运动信息对应的模型类型确定为第一模式类型。可以理解的是，该图像块i可以对应于多种模式类型，所以，本申请实施例在通过指定的音视频标准技术执行上述步骤S201-步骤S206之后，可以将当前所得到的目标最优候选运动信息对应的模型类型确定为第一模式类型。该第一模式类型可以为该图像块i对应的多种模式类型中的一种模式类型，本申请实施例可以将该图像块i对应的多种模式类型中其他模式类型统称为第二模式类型，并将这些第二模式类型所对应的最优候选运动信息统称为辅助最优候选运动信息。此时，编码设备可以将该第一模式类型所对应的目标最优候选运动信息的率失真代价和其他模式类型(即第二模式类型)所对应的辅助最优候选运动信息的率失真代价进行比较，以通过比较所得到的模式比较结果竞争最终能够参与该图像块i的模式决策的目标模式类型。

比如，若该模式比较结果指示目标最优候选运动信息的率失真代价小于辅助最优候选运动信息的率失真代价，则可以直接将该第一模式类型作为最终能够参与该图像块i的模式决策的目标模式类型，进而可以按照目标模式类型对应的目标最优候选运动信息，在参考图像帧中确定图像块i对应的参考图像块，并可以进一步根据图像块i对应的参考图像块对图像块i进行帧间预测。

又比如，可选的，若该模式比较结果指示目标最优候选运动信息的率失真代价大于辅助最优候选运动信息的率失真代价，则可以进一步在这些辅助最优候选运动信息对应的率失真代价中，将找到的具有最小率失真代价的辅助最优候选运动信息所对应的模式类型作为最终能够参与该图像块i的模式决策的目标模式类型，进而可以按照该目标模式类型对应的辅助最优候选运动信息，在参考图像帧中确定图像块i对应的参考图像块，并可以进一步根据图像块i对应的参考图像块对图像块i进行帧间预测。

可选的，还应当理解的是，对于本申请实施例所涉及的目标音视频标准技术为UMVE技术或者MMVD技术而言，偏移方向的数量(即N的取值)可以为4，此时，这4个偏移方向具体可以包括X轴正方向，X轴负方向，Y轴正方向和Y轴负方向。可选的，本申请实施例还可以适用于其他模式类型所对应的音视频标准技术，比如，在上述多媒体数据为3D环境中的多媒体数据时，该编码设备可以用于捕获现实空间中的一些特定位置上的多媒体数据，此时，这些捕获到的多媒体数据源可以作为沉浸媒体的全景视频，进而可以在三维空间中通过特定的编码方式(例如，点云编码技术)对不同自由度下的多媒体数据源偏中的图像帧进行编码处理，以得到沉浸媒体的编码码流。此时，编码设备可以根据实际业务需求，设置多个偏移方向，即此时偏移方向所对应的数量(即N的取值)可以多于4个，这里将不对N的取值进行具体限定。

可选的，本申请实施例还可以在目标图像帧所对应的参考图像帧中确定出基础运动信息对应的N×M个候选运动信息时，在N个偏移方向中选取一个偏移方向作为固定偏移方向，进而可以在N×M个候选运动信息中沿着该固定偏移方向搜索到与该固定偏移方向相关联的M个候选运动信息。此时，编码设备可以在这M个候选运动信息所对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移距离作为最优偏移距离，进而可以在将该最优偏移距离作为上述固定偏移距离，以在N×M个候选运动信息中选取与该固定偏移距离相关联的N个候选运动信息，进而可以在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为最优偏移方向，进而可以按照上述步骤S204-步骤S205，确定出当前所采集的基础运动信息对应的最优候选运动信息。

进一步地，请参见图9，是本申请实施例提供的一种多媒体数据编码装置的结构示意图。多媒体数据编码装置1可以应用于上述编码设备，该编码设备可以为上述图1所对应实施例中的编码设备12；进一步地，该多媒体数据编码装置1可以包括：图像帧获取模块10，偏移距离固定模块20，最优方向确定模块30，候选方向确定模块40，最优候选确定模块50和目标最优确定模块60；进一步的，该多媒体数据编码装置1还可以包含：空域列表确定模块70和时域列表确定模块80，模式确定模块90和参考块确定模块100；

图像帧获取模块10，用于获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；目标图像帧包括图像块i的基础运动信息，参考图像帧包括基础运动信息对应的N×M个候选运动信息；N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；偏移信息包括N个偏移方向和M个偏移距离；N和M为正整数；

其中，第一邻块检测规则用于指示在空域上扫描与图像块i具有空域位置相邻的图像块；此时，装置还包括空域列表确定模块70和时域列表确定模块80；

空域列表确定模块70，用于图像块将扫描到的与图像块i具有空域位置相邻的图像块添加至空域相邻列表；

时域列表确定模块80，用于若空域相邻列表中所添加的在空域上扫描到与图像块i具有空域位置相邻的图像块的数量小于2，则基于第一邻块检测规则在时域上扫描与图像块i具有时域位置相邻的图像块，将扫描到的与图像块i具有时域位置相邻的图像块添加至时域相邻列表。

其中，空域列表确定模块70和时域列表确定模块80的具体实现方式，可以参见上述图2所对应实施例中对UMVE技术的描述，这里将不再继续进行赘述。

偏移距离固定模块20，用于在M个偏移距离中选取一个偏移距离作为固定偏移距离，在N×M个候选运动信息中确定与固定偏移距离相关联的N个候选运动信息；

最优方向确定模块30，用于在N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为图像块i的运动矢量的最优偏移方向；

候选方向确定模块40，用于在N×M个候选运动信息中，确定与最优偏移方向相关联的M个候选运动信息；

最优候选确定模块50，用于在M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为基础运动信息对应的最优候选运动信息；

目标最优确定模块60，用于基于最优候选运动信息确定图像块i的目标最优候选运动信息；目标最优候选运动信息用于指示在参考图像帧中参与确定图像块i对应的参考图像块。

其中，基础运动信息的数量为两个，一个基础运动信息对应一个最优候选运动信息；此时，目标最优确定模块60，具体用于在每个基础运行信息对应的最优候选运动信息中，将具有最小率失真代价的最优候选运动信息作为目标最优候选运动信息。

可选的，模式确定模块90，用于当使用目标最优候选运动信息参与图像块i的模式决策时，将目标最优候选运动信息对应的模型类型确定为第一模式类型；

参考块确定模块100，用于在获取到与图像块i相关联的第二模式类型时，基于第一模式类型和第二模式类型，确定图像块i对应的参考图像块。

其中，参考块确定模块100包括：辅助信息确定单元101，代价比较单元102，目标模式确定的单元103和帧间预测单元104；

辅助信息确定单元101，用于在获取到与图像块i相关联的第二模式类型时，将第二模型类型对应的最优候选运动信息作为辅助最优候选运动信息；

代价比较单元102，用于将第一模型类型所对应的目标最优候选运动信息的率失真代价和辅助最优候选运动信息的率失真代价进行比较；

目标模式确定的单元103，用于若目标最优候选运动信息的率失真代价小于辅助最优候选运动信息的率失真代价，则将第一模式类型作为参与模式决策的目标模式类型；

帧间预测单元104，用于按照目标模式类型对应的目标最优候选运动信息，在参考图像帧中确定图像块i对应的参考图像块，根据图像块i对应的参考图像块对图像块i进行帧间预测。

其中，辅助信息确定单元101，代价比较单元102，目标模式确定的单元103和帧间预测单元104的具体实现方式，可以参见上述图6所对应实施例中对确定图像块i对应的参考图像块的具体实现方式的描述，这里将不再继续进行赘述。

其中，图像帧获取模块10，偏移距离固定模块20，最优方向确定模块30，候选方向确定模块40，最优候选确定模块50和目标最优确定模块60的具体实现方式，可以参见上述图2所对应实施例中对步骤S101-步骤S105的描述，这里将不再继续进行赘述。可选的，模式确定模块90和参考块确定模块100的具体实现方式可以参见上述图6所对应实施例中对步骤S207的描述，这里将不再继续进行赘述。可以理解的是，本申请实施例中的多媒体数据编码装置1可执行前文图2或图6所对应实施例中对多媒体数据编码方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种编码设备的结构示意图。如图10所示，该编码设备1000可以为上述图1所对应实施例中的编码设备12，比如，该编码设备12可以为SVT-AVS3编码器。该编码设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该编码设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该编码设备1000中的可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图10所示的编码设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取多媒体数据中的目标图像帧，以及目标图像帧对应的参考图像帧；目标图像帧包括图像块i的基础运动信息，参考图像帧包括基础运动信息对应的N×M个候选运动信息；N×M个候选运动信息是由与基础运动信息相关联的偏移信息所确定的；偏移信息包括N个偏移方向和M个偏移距离；N和M均为正整数；

应当理解，本申请实施例中所描述的编码设备1000可执行前文图2或图6所对应实施例中对多媒体数据编码方法的描述，也可执行前文图9所对应实施例中对多媒体数据编码装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的多媒体数据编码装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图2或图6所对应实施例中对多媒体数据编码方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

可以理解的是，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备(比如，上述编码设备)的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图2、图6所对应实施例中对多媒体数据编码方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据编码方法，其特征在于，包括：

获取多媒体数据中的目标图像帧，以及所述目标图像帧对应的参考图像帧；所述目标图像帧包括图像块i的基础运动信息，所述参考图像帧包括所述基础运动信息对应的N×M个候选运动信息；所述N×M个候选运动信息是由与所述基础运动信息相关联的偏移信息所确定的；所述偏移信息包括N个偏移方向和M个偏移距离；所述N和M为正整数；

在所述M个偏移距离中选取一个偏移距离作为固定偏移距离，在所述N×M个候选运动信息中确定与所述固定偏移距离相关联的N个候选运动信息；

在所述N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为所述图像块i的运动矢量的最优偏移方向；

在所述N×M个候选运动信息中，确定与所述最优偏移方向相关联的M个候选运动信息；

在所述M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为所述基础运动信息对应的最优候选运动信息，基于所述最优候选运动信息确定所述图像块i的目标最优候选运动信息；所述目标最优候选运动信息用于指示在所述参考图像帧中参与确定所述图像块i对应的参考图像块。

2.根据权利要求1所述的方法，其特征在于，所述图像块i的所述基础运动信息是由图像块j的历史最优候选运动信息确定的；所述基础运动信息包括运动矢量信息和参考帧索引信息；所述参考帧索引信息用于确定所述目标图像帧对应的参考图像帧；所述运动矢量信息用于指示在所述参考图像帧中确定所述图像块j对应的参考图像块；所述图像块j对应的参考图像块用于对所述图像块j进行帧间预测，且所述图像块j的历史最优候选运动信息是由按照目标音视频标准技术所导出的所述图像块i的候选运动信息列表所确定的。

3.根据权利要求2所述的方法，其特征在于，当所述目标音视频标准技术为UMVE(Ultimate motion vector express，高级运动矢量表达)技术时，所述图像块j为与所述图像块i在空域或者时域上相邻的图像块。

4.根据权利要求3所述的方法，其特征在于，所述图像块i的候选运动信息列表包括：空域相邻列表和时域相邻列表；所述图像块j为从所述空域相邻列表和/或者时域相邻列表中所选取的2个图像块中的任意一个；所述空域相邻列表或者所述时域相邻列表是按照所述UMVE技术对应的第一邻块检测规则所确定的。

5.根据权利要求4所述的方法，其特征在于，所述第一邻块检测规则用于指示在所述空域上扫描与所述图像块i具有空域位置相邻的图像块；

所述方法还包括：

将扫描到的与所述图像块i具有空域位置相邻的图像块添加至所述空域相邻列表；

若所述空域相邻列表中所添加的在所述空域上扫描到与所述图像块i具有空域位置相邻的图像块的数量小于2，则基于所述第一邻块检测规则在所述时域上扫描与所述图像块i具有时域位置相邻的图像块，将扫描到的与所述图像块i具有时域位置相邻的图像块添加至所述时域相邻列表。

6.根据权利要求2所述的方法，其特征在于，当所述目标音视频标准技术为所述MMVD(Merge mode with motion vector difference，带运动残差的合并模式)技术时，所述图像块j来自于所述图像块i的合并模式列表；所述合并模式列表中的图像块是按照所述MMVD技术对应的第二邻块检测规则所确定的，且所述图像块i的候选运动信息列表包括所述合并模式列表。

7.根据权利要求6所述的方法，其特征在于，所述图像块j为在所述合并模式列表中所确定的2个图像块中的任意一个，且所述2个图像块是根据所述候选运动信息列表中的每个图像块的候选运动信息所对应的邻块检查优先级所确定的；所述邻块检查优先级包含具有第一优先级的空域邻块候选的检查、具有第二优先级的时域候选的检查，具有第三优先级的基于历史参考的空域候选的检查，具有第四优先级的空域平均候选的检查，以及具有第五优先级的零向量的检查。

8.根据权利要求1～7任一项所述的方法，其特征在于，所述基础运动信息的数量为两个，一个基础运动信息对应一个最优候选运动信息；

所述基于所述最优候选运动信息确定所述图像块i的目标最优候选运动信息，包括：

在每个所述基础运行信息对应的最优候选运动信息中，将具有最小率失真代价的最优候选运动信息作为所述目标最优候选运动信息。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

当使用所述目标最优候选运动信息参与所述图像块i的模式决策时，将所述目标最优候选运动信息对应的模型类型确定为第一模式类型；

在获取到与所述图像块i相关联的第二模式类型时，基于所述第一模式类型和所述第二模式类型，确定所述图像块i对应的参考图像块。

10.根据权利要求9所述的方法，其特征在于，所述在获取到与所述图像块i相关联的第二模式类型时，基于所述第一模式类型和所述第二模式类型，确定所述图像块i对应的参考图像块，包括：

在获取到与所述图像块i相关联的第二模式类型时，将所述第二模型类型对应的最优候选运动信息作为辅助最优候选运动信息；

将所述第一模型类型所对应的目标最优候选运动信息的率失真代价和所述辅助最优候选运动信息的率失真代价进行比较；

若所述目标最优候选运动信息的率失真代价小于所述辅助最优候选运动信息的率失真代价，则将所述第一模式类型作为参与所述模式决策的目标模式类型；

按照所述目标模式类型对应的所述目标最优候选运动信息，在所述参考图像帧中确定所述图像块i对应的参考图像块，根据所述图像块i对应的参考图像块对所述图像块i进行帧间预测。

11.根据权利要求10所述的方法，其特征在于，在基于所述图像块i的参考图像块对所述图像块i进行帧间预测时，所述目标最优候选运动信息所指示的预测方向与所述基础运动运动信息所指示的预测方向保持一致。

12.根据权利要求2所述的方法，其特征在于，所述N×M个候选运动信息是在将所述偏移信息叠加在所述基础运动信息上时所得到的；所述N的值为4；所述4个偏移方向包括X轴正方向，X轴负方向，Y轴正方向和Y轴负方向；若所述目标音视频标准技术为UMVE技术，则所述M的值为5，且所述5个偏移距离包括：1/4像素，1/2像素，整像素，2个整像素和4个整像素；若所述目标音视频标准技术为MMVD技术，则所述M的值为8，且所述8个偏移距离包括：1/4像素，1/2像素，整像素，2个整像素，4个整像素、8个整像素，16个整像素以及32个整像素。

13.一种多媒体数据处理装置，其特征在于，包括：

图像帧获取模块，用于获取多媒体数据中的目标图像帧，以及所述目标图像帧对应的参考图像帧；所述目标图像帧包括图像块i的基础运动信息，所述参考图像帧包括所述基础运动信息对应的N×M个候选运动信息；所述N×M个候选运动信息是由与所述基础运动信息相关联的偏移信息所确定的；所述偏移信息包括N个偏移方向和M个偏移距离；所述N和M为正整数；

偏移距离固定模块，用于在所述M个偏移距离中选取一个偏移距离作为固定偏移距离，在所述N×M个候选运动信息中确定与所述固定偏移距离相关联的N个候选运动信息；

最优方向确定模块，用于在所述N个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息所对应的偏移方向作为所述图像块i的运动矢量的最优偏移方向；

候选方向确定模块，用于在所述N×M个候选运动信息中，确定与所述最优偏移方向相关联的M个候选运动信息；

最优候选确定模块，用于在所述M个候选运动信息对应的率失真代价中，将具有最小率失真代价的候选运动信息作为所述基础运动信息对应的最优候选运动信息；

目标最优确定模块，用于基于所述最优候选运动信息确定所述图像块i的目标最优候选运动信息；所述目标最优候选运动信息用于指示在所述参考图像帧中参与确定所述图像块i对应的参考图像块。

14.一种编码设备，其特征在于，包括：处理器、存储器、网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-12任一项所述的多媒体数据编码方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-12任一项所述的多媒体数据编码方法。