CN114339216A

CN114339216A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114339216A
Application number: CN202011080641.4A
Authority: CN
Inventors: 李东阳; 谭志羽; 孙振鉷; 孙修宇; 李�昊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-04-12

Abstract

本公开实施例公开了一种视频处理方法、装置、电子设备及存储介质，所述方法包括：获取待处理视频中的当前帧和至少一个参考帧的重构参考帧；利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息；根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。该技术方案能够在运动预测过程中通过多样化的运动预测模式提高了视频帧的运动预测性能。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

在视频编解码领域，国际编码标准如H.264、H.265、H.266等取得明显的技术进步与市场推广。然而，上述国际编码标准的技术框架与数十年前并无不同。近年来，基于深度学习的图像和/或视频压缩技术引起了广泛的研究，并取得了一定的成果。但是本公开发明人发现，目前基于深度学习的图像和/或视频压缩技术基本上限于单一的时域预测模式如光流对视频帧之间的时域运动关系进行预测，而仅靠这一种预测模式并不能完整地体现一段视频中复杂的时域运动关系，因此如何完整地预测出视频中复杂的时域运动关系成为了深度学习视频编解码技术领域需解决的技术问题之一。

发明内容

本公开实施例提供一种视频处理方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种视频处理方法，包括：

获取待处理视频中的当前帧和至少一个参考帧的重构参考帧；

利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息；

根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。

进一步地，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，包括：

根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧；

利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧。

进一步地，所述权重信息是所述运动预测模型根据所述当前帧以及所述重构参考帧得到的；和/或，每种所述运动预测信息对应的所述权重信息表示为与所述当前帧大小相同的矩阵，且所述多种运动预测信息对应的多组所述权重信息中相同位置的元素之和等于1。

进一步地，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧，包括：

根据所述光流运动预测信息和所述重构参考帧获取所述光流运动预测信息对应的第一候选预测帧；

根据所述自适应卷积核和所述重构参考帧获取所述自适应卷积核对应的第二候选预测帧。

进一步地，所述权重信息还包括至少一种预设预测帧对应的权重信息；利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧，包括：

根据所述第一候选预测帧、第二候选预测帧、所述预设预测帧以及对应的所述权重信息加权求和得到所述目标预测帧。

进一步地，所述预设预测帧包括重构参考帧和/或元素均为0的预测帧。

进一步地，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息，包括：

利用所述运动预测模型对所述当前帧和所述重构参考帧进行处理，获得所述多种运动预测信息的第一编码码流；

利用所述运动预测模型对所述第一编码码流进行处理获得所述多种运动预测信息。

进一步地，所述方法还包括：

利用所述当前帧以及所述目标预测帧获取所述当前帧的残差数据；

对所述残差数据进行编码得到第二编码码流。

进一步地，所述参考帧包括多个，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息，包括：

针对每一个参考帧的所述参考重构帧，利用所述运动预测模型获取所述当前帧以及每个所述重构参考帧的多种运动预测信息；

根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，包括：

根据所述重构参考帧和每个所述重构参考帧的多种运动预测信息确定所述当前帧对应的分支预测帧；

根据多个所述重构参考帧对应的多个所述分支预测帧确定所述目标预测帧。

第二方面，本公开实施例中提供了一种视频处理方法，包括：

获取当前帧对应的第一编码码流以及至少一个参考帧的重构参考帧；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间的运动预测信息的编码码流；

利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息；

进一步地，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧，包括：

进一步地，所述权重信息还包括至少一种预设预测帧对应的权重信息；根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧，还包括：

根据所述第一候选预测帧、第二候选预测帧和所述预设预测帧以及分别对应的所述权重信息加权求和得到所述目标预测帧。

进一步地，所述方法还包括：

对所述第二编码码流进行解码获得所述当前帧的残差数据；

根据所述目标预测帧以及所述残差数据获得所述当前帧。

进一步地，所述第一编码码流包括对应多个所述重构参考帧的多组编码码流；利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，包括：

针对每一组所述第一编码码流，利用所述运动预测模型获取所述当前帧以及每个所述重构参考帧的多种运动预测信息；

根据多个所述重构参考帧对应的多个所述分支候选预测帧确定所述目标预测帧。

第三方面，本公开实施例中提供了一种视频处理方法，包括：

获取待处理视频；

调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型对所述当前帧以及所述重构参考帧进行处理获得所述当前帧的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

输出所述目标预测帧。

第四方面，本公开实施例中提供了一种视频处理方法，包括：

获取待处理视频；

调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型获取所述当前帧与所述重构参考帧之间的多种运动预测信息以及所述多种运动预测信息对应的第一编码码流，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述运动预测模型获得所述当前帧与所述目标预测帧之间残差数据的第二编码码流；

输出所述第一编码码流和所述第二编码码流。

第五方面，本公开实施例中提供了一种视频处理方法，包括：

获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；

调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

输出所述目标预测帧。

第六方面，本公开实施例中提供了一种视频处理方法，包括：

获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；所述第二编码码流包括所述当前帧与目标预测帧之间残差数据的编码码流；

调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及对所述第二编码码流解码获得所述当前帧与所述目标预测帧之间的残差数据，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述残差数据得到所述当前帧；

输出所述当前帧。

第七方面，本公开实施例中提供了一种视频处理方法，包括：

获取待编码视频中的当前帧和至少一个参考帧的重构参考帧；

利用运动预测模型获取所述当前帧与所述重构参考帧之间的多种运动预测信息以及所述多种运动预测信息对应的第一编码码流；

根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

根据所述目标预测帧和所述运动预测模型获得所述当前帧与所述目标预测帧之间残差数据的第二编码码流；

输出所述第一编码码流和所述第二编码码流。

第八方面，本公开实施例中提供了一种视频处理方法，包括：

利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及对所述第二编码码流解码获得所述当前帧与所述目标预测帧之间的残差数据；

根据所述目标预测帧和所述残差数据得到所述当前帧；

输出所述当前帧。

第九方面，本公开实施例中提供了一种视频处理装置，包括：

第一获取模块，被配置为获取待处理视频中的当前帧和至少一个参考帧的重构参考帧；

第二获取模块，被配置为利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息；

第一确定模块，被配置为根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。

第十方面，本公开实施例中提供了一种视频处理装置，包括：

第四获取模块，被配置为当前帧对应的第一编码码流以及至少一个参考帧的重构参考帧；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间的运动预测信息的编码码流；

第一处理模块，被配置为利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息；

第二确定模块，被配置为根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。

第六获取模块，被配置为获取待处理视频；

第一调用模块，被配置为调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型对所述当前帧以及所述重构参考帧进行处理获得所述当前帧的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

第一输出模块，被配置为输出所述目标预测帧。

第十一方面，本公开实施例中提供了一种视频处理装置，包括：

第七获取模块，被配置为获取待处理视频；

第二调用模块，被配置为调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型获取所述当前帧与所述重构参考帧之间的多种运动预测信息以及所述多种运动预测信息对应的第一编码码流，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述运动预测模型获得所述当前帧与所述目标预测帧之间残差数据的第二编码码流；

第二输出模块，被配置为输出所述第一编码码流和所述第二编码码流。

第十二方面，本公开实施例中提供了一种视频处理装置，包括：

第七获取模块，被配置为获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；

第三调用模块，被配置为调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

第三输出模块，被配置为输出所述目标预测帧。

第十三方面，本公开实施例中提供了一种视频处理装置，包括：

第八获取模块，被配置为获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；所述第二编码码流包括所述当前帧与目标预测帧之间残差数据的编码码流；

第四调用模块，被配置为调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及对所述第二编码码流解码获得所述当前帧与所述目标预测帧之间的残差数据，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述残差数据得到所述当前帧；

第四输出模块，被配置为输出所述当前帧。

第九获取模块，被配置为获取待编码视频中的当前帧和至少一个参考帧的重构参考帧；

第十获取模块，被配置为利用运动预测模型获取所述当前帧与所述重构参考帧之间的多种运动预测信息以及所述多种运动预测信息对应的第一编码码流；

第三确定模块，被配置为根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

第十一获取模块，被配置为根据所述目标预测帧和所述运动预测模型获得所述当前帧与所述目标预测帧之间残差数据的第二编码码流；

第五输出模块，被配置为输出所述第一编码码流和所述第二编码码流。

第十四方面，本公开实施例中提供了一种视频处理装置，包括：

第十二获取模块，被配置为获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；所述第二编码码流包括所述当前帧与目标预测帧之间残差数据的编码码流；

第十三获取模块，被配置为利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及对所述第二编码码流解码获得所述当前帧与所述目标预测帧之间的残差数据；

第四确定模块，被配置为根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

第五确定模块，被配置为根据所述目标预测帧和所述残差数据得到所述当前帧；

第六输出模块，被配置为输出所述当前帧。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。

第十三方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。

第十四方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例针对当前帧，通过运动预测模型获得多种运动预测模式对应的多种不同的运动预测信息之后，通过综合多种不同的运动预测信息最终获得当前帧的目标预测帧。本公开实施例的技术方案在运动预测过程中通过多样化的运动预测模式提高了视频帧的运动预测性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的视频处理方法的流程图；

图2示出根据本公开另一实施方式的视频处理方法的流程图；

图3示出根据本公开另一实施方式的视频处理方法的流程图；

图4示出根据本公开另一实施方式的视频处理方法的流程图；

图5示出根据本公开另一实施方式的视频处理方法的流程图；

图6示出根据本公开另一实施方式的视频处理方法的流程图；

图7示出根据本公开一实施方式在视频编解码场景下利用运动预测模型获取当前帧的预测帧以及残差数据的一种实现流程示意图；

图8是适于用来实现根据本公开一实施方式的视频处理方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

下面通过具体实施例详细介绍本公开实施例的细节。

图1示出根据本公开一实施方式的视频处理方法的流程图。如图1所示，该视频处理方法包括以下步骤：

在步骤S101中，获取待处理视频中的当前帧和至少一个参考帧的重构参考帧；

在步骤S102中，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息；

在步骤S103中，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。

本实施例中，该视频处理方法可以在编码端执行，编码端可以位于用户设备、服务器设备、云端等。待处理视频可以包括一系列具有顺序关系的视频帧，当前帧可以是当前待编码的视频帧，而参考帧可以是利用当前所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在编码当前帧时，参考帧为已经经过编码的视频帧，并且重构参考帧为根据参考帧的编码信息解码获得的视频帧。

运动预测模型可以是基于深度学习的机器自学习模型，例如可以是卷积神经网络模型。运动预测模型可以预先经过训练，并且在训练过程中，运动预测模型可以学习样本数据中当前样本帧以及重构参考样本帧之间的运动关系，进而根据学习到的运动关系预测出当前帧以及重构参考帧之间多种不同的运动预测信息。在一些实施例中，多种不同的运动预测信息可以理解为利用不同的运动预测模式得到的运动预测信息，例如可以包括但不限于通过光流模式预测得到的运动预测信息以及自适应卷积核预测得到的运动预测信息等。需要说明的，此处运动预测模式仅为举例说明，任何运动预测模式均可以适用本公开实施例中的运动预测模型。

在一些实施例中，运动预测模型可以包括编码部分和解码部分，编码部分可以通过对输入信息进行处理后编码压缩，而解码部分可以对编码压缩得到的编码信息进行解码。本公开实施例中的运动预测模型在对输入的当前帧以及重构参考帧进行处理的过程中，既能够得到当前帧以及重构参考帧之间的多种运动预测信息，还能够通过对处理得到的多种运动预测信息进行压缩编码。需要说明的是，视频编码端的运动预测模型输出的多种运动预测信息为经过编码部分压缩编码后再经过解码部分解码得到的，通过这种方式可以使得视频编码端获得的目标预测帧与视频解码端通过对当前帧的编码码流进行解码后获得的目标预测帧保持一致。

利用运动预测模型从当前帧以及当前帧的重构参考帧获得两者之间的多种不同运动预测模式下的多种不同的运动预测信息之后，可以根据多种不同的运动预测信息确定当前帧对应的目标预测帧。

在本实施例的一个可选实现方式中，步骤S103，即根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧的步骤，进一步包括以下步骤：

该可选的实现方式中，在利用运动预测模型获得多种不同的运动预测信息之后，可以分别根据不同的运动预测信息获得当前帧对应的候选预测帧，获得候选预测帧的方式基于不同的运动预测信息对应的运动预测模式的不同而不同，例如光流模式下可以利用其对应的运动预测信息也即光流信息对重构参考帧进行warp操作(扭曲操作)得到对应的候选预测帧，而其他模式下也可以利用对应的运动预测信息对重构参考帧进行相应操作得到对应的候选预测帧，具体根据运动预测模式的不同而不同，在此不做限制。

在获得每种不同的运动预测信息对应的候选预测帧之后，可以利用不同运动预测模式下的运动预测信息对应的权重信息对候选预测帧进行加权操作而得到目标预测帧。权重信息可以用于表示对应的运动预测信息在当前帧的对应图像块上的预测准确程度，预测准确程度越高，该图像块上的权重值可以越大，而预测准确程度越低，该图像块上对应的权重值可以越小。权重信息可以利用经验值预先设置，也可以利用运动预测模型预测得到。

在一些实施例中，权重信息可以由运动预测模型根据当前帧以及重构参考帧得到。本实施例中，运动预测模型在对当前帧以及重构参考帧进行处理获得压缩后的多种运动预测信息的同时，还可以获得多种运动预测信息对应的权重信息。

在一些实施例中，每种运动预测信息对应的权重信息可以表示为与当前帧大小相同的矩阵，且多种运动预测信息对应的多组权重信息中相同位置的元素之和等于1。本实施例中，权重信息可以表示为一矩阵，该矩阵的大小与当前帧的大小相同，且该矩阵中的每一位表示当前帧中每一像素在对应运动预测模式下的预测准确程度，而多种运动预测模式对应的多个权重信息中相同位置的元素的值相加等于1。通过这种方式，可以针对当前帧的不同图像区域采用不同的权重对不同的运动预测信息进行加权得到目标预测帧中对应的区域信息。例如，使用了两种运动预测信息A和B的情况下，对于当前帧的当前图像区域，运动预测信息A对应的权重值为a，运动预测信息B对应的权重值为b，且a+b＝1，则目标预测帧中当前图像区域块对应的信息为aA+bB。

在本实施例的一个可选实现方式中，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧的步骤，进一步包括以下步骤：

该可选的实现方式中，运动预测模型可以根据当前帧以及重构参考帧预测得到当前帧与重构参考帧之间的光流运动预测信息，光流运动预测信息包含了重构参考帧与当前帧在时域上的运动变化信息。运动预测模型在训练过程中通过学习样本数据中当前样本帧与重构参考样本帧之间的光流变化进而针对输入的当前帧和重构参考帧可以输出光流运动预测信息。

在一些实施例中，还可以将当前帧与重构参考帧之间的已知光流信息作为运动预测模型的输入，使得运动预测模型能够进一步对当前帧、重构参考值以及光流信息进行处理，获得多种运动预测信息，该多种运动预测信息中包括运动预测模型输出的重构光流信息。已知光流信息可以利用已有的方式确定，而重构光流信息为在已知光流信息的基础上进一步优化得到的光流信息。

此外，运动预测模型还可以根据当前帧以及重构参考帧预测得到能够表示运动预测信息的自适应卷积核，在确定当前帧与重构参考帧的残差数据和/或解码阶段均可以通过该自适应卷积核以及重构参考帧得到当前帧的预测帧。

可以理解的是，除了光流运动预测信息以及自适应卷积核之外，运动预测模型还可以预测出其他运动预测模式对应的其他运动预测信息，在此不做任何限制。

针对每种运动预测信息，可以利用该运动预测信息以及重构参考帧获得对应的候选预测帧。例如，利用光流运动预测信息对重构参考帧进行warp(扭曲)操作可以获得光流运动预测模式下的第一候选预测帧，利用表示运动预测信息的自适应卷积核对重构参考帧进行卷积操作可以得到第二候选预测帧；以及在利用运动预测模式预测得到了其他运动模式下的其他运动预测信息时，可以利用该其他运动预测信息以及重构参考帧获得其他候选预测帧。

在本实施例的一个可选实现方式中，所述权重信息还包括至少一种预设预测帧对应的权重信息；利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧的步骤，进一步包括以下步骤：

该可选的实现方式中，还可以预先设置一个或多个预设预测帧，预设预测帧可以是针对特殊情况而设置的预设预测帧，权重信息中也可以包含预设预测帧的权重。

在一些实施例中，预设预测帧可以包括但不限于以重构参考帧作为预测帧、元素均置为0的预测帧等。

例如，针对当前帧的某个图像区域块，在多种运动预测信息均不够准确(比如利用该多种运动预测信息获得的预测帧与当前帧的相似程度还不如重构参考帧)的情况下，可以直接将重构参考帧作为预测帧，并且可以通过设置权重信息，在确定目标预测帧中该图像区域块的信息时使得重构参考帧的信息所占比重较大，而使得其他多种运动预测信息所占比重较小。再例如，针对当前帧的某个图像区域块，在多种运动预测信息均不够准确(比如利用多种运动预测信息得到的预测帧以及重构参考帧中的信息均与当前帧中的信息相差较大)的情况下，可以使用元素均为0的预测帧，并且可以通过设置权重信息，在确定目标预测帧中该图像区域块的信息时使得元素均为0的预测帧的信息所占比重较大，而使得其他多种运动预测信息所占比重较小，这种情况下在计算当前帧与目标预测帧之间的残差数据时，可以尽量将当前帧中该图像区域块内的信息保留在残差数据中，以便解码端解码获得当前帧时能够针对该图像区域块得到更加准确的图像信息。

将各候选预测帧(包括第一候选预测帧、第二候选预测帧以及预设预测帧)与对应的权重信息相乘后再相加可以得到目标预测帧。

在本实施例的一个可选实现方式中，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息的步骤，进一步包括以下步骤：

该可选的实现方式中，运动预测模型可以包括但不限于编码部分和解码部分。以运动预测模型采用卷积神经网络为例说明，运动预测模型中的解码部分可以包括但不限于编码网络和码流编码部分。编码网络可以为下采样网络，也即用于压缩图像信息的网络，该编码网络可以包括多层卷积层，每个卷积层的步幅可以根据实际情况设置，例如可以设置为2，也即编码网络可以为2倍下采样的卷积神经网络。当前帧和重构参考帧经过编码网络的下采样之后，可以经过码流编码部分得到用于表示当前帧与重构参考帧之间的运动变化信息的多种不同运动模式下的多种运动预测信息。该多种运动预测信息还可以经过例如信息熵编码流程后得到第一编码码流，该第一编码码流为经过压缩后的运动预测信息。举例说明，码流编码部分可以包括码字估计网络以及算数编码部分等，经过编码网络下采样后得到的隐式张量可以输入至码字估计网络，用于估计该隐式张量中各个特征点的出现概率。码字估计网络也可以包括下采样网络和上采样网络构成的自编码器结构，在对输入的隐式张量进行了下采样和上采样处理之后，还可以使用上下文信息估计该隐式张量中特征点的出现概率，进而根据估计出的出现概率量化隐式张量，并利用算数编码对量化后的隐式张量进行无损编码，得到第一编码码流。

运动预测模型中的解码部分可以包括但不限于解码网络和码流解码部分。第一编码码流经过与码流编码部分对应的码流解码部分后得到解码信息，该解码信息经过解码网络后得到解码后的多种运动预测信息。解码网络可以为上采样网络，其可以与编码网络对应，包括多层反卷积层，且每个反卷积层的步幅与编码网络中的步幅相同，具体取决于实际需要，在此不做限制。经过解码网络上采样后得到多种运动预测信息。需要说明的是，在视频编码端通过运动预测模型的解码部分对第一编码码流进行解码的目的是，为了后续根据多种运动预测信息得到的目标预测帧和残差数据与在视频解码端得到的目标预测帧和残差数据保持一致，使得视频解码端能够解码得到当前帧。

在本实施例的一个可选实现方式中，该方法进一步还包括以下步骤：

对所述残差数据进行编码得到第二编码码流。

该可选的实现方式中，根据当前帧与重构参考帧之间的运动预测信息获得的目标预测帧可以理解为能够从重构参考帧预测到并且与当前帧较为接近的视频帧，视频解码端可以根据运动预测信息对应的第一编码码流以及重构参考帧解码得到目标预测帧。然而为了能够最终恢复出当前帧的信息，还需要得到当前帧与目标预测帧之间的残差数据。因此，视频编码端在获得目标预测帧之后，可以通过当前帧与目标预测帧获得残差数据，进而再将残差数据进行编码后得到第二编码码流。残差数据的压缩编码可以利用残差数据编码网络实现，残差数据编码网络的网络结构可以与运动预测网络中的编码网络相同，但是模型参数可以不同。残差数据例如可以通过当前帧直接减去目标预测帧的方式得到。第一编码码流和第二编码码流均可以发送至视频解码端，由视频解码端根据第一编码码流恢复出目标预测帧，并由第二编码码流恢复出残差数据，最后再根据目标预测帧和残差数据即可得到解码出的当前帧。

在本实施例的一个可选实现方式中，所述参考帧包括多个，步骤S102，即利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息的步骤，进一步包括以下步骤：

步骤S103，即根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧的步骤，进一步包括以下步骤：

该可选的实现方式中，在视频编码过程中，针对当前帧基于编码模式的不同，可以选取一个参考帧或者多个参考帧。在选用多个参考帧对当前帧进行编码的情况下，可以利用本公开实施例中的视频处理方法针对每个参考帧均获得一个对应的预测帧，为了与最终的目标预测帧进行区分，本公开实施例中称之为分支预测帧，也即一个参考帧或者是一个重构参考帧对应一个分支预测帧。针对每个重构参考帧，运动预测模型均可以获得对应的多种运动预测信息，进而可以根据该多种运动预测信息获得该重构参考帧对应的分支预测帧。最终可以根据多个重构参考帧对应的多个分支预测帧得到当前帧的目标预测帧，例如可以通过将多个分支预测帧相加求平均的方式得到目标预测帧。

图2示出根据本公开另一实施方式的视频处理方法的流程图。如图2所示，该视频处理方法包括以下步骤：

在步骤S201中，获取当前帧对应的第一编码码流以及至少一个参考帧的重构参考帧；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间的运动预测信息的编码码流；

在步骤S202中，利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息；

在步骤S203中，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧。

本实施例中，该视频处理方法在视频解码端执行，视频解码端可以位于用户终端、服务器端、云端等。当前帧可以是待解码视频中当前待解码的视频帧，参考帧可以是在视频编码端利用所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在解码当前帧时，参考帧为已经经过解码的视频帧，并且重构参考帧为根据参考帧的编码码流解码获得的视频帧。

在一些实施例中，运动预测模型可以包括编码部分和解码部分，编码部分可以通过对输入信息进行处理后编码压缩，而解码部分可以对编码压缩得到的编码信息进行解码。本公开实施例中的运动预测模型利用解码部分对第一编码码流进行解码获得当前帧以及当前帧对应的重构参考帧之间的多种运动预测信息。需要说明的是，在视频编码端利用该运动预测模型对输入的当前帧以及重构参考帧进行处理后得到当前帧以及重构参考帧之间的多种运动预测信息，并且对所得到的多种运动预测信息进行压缩编码得到第一编码码流。

视频解码端在利用运动预测模型对第一编码码流进行解码获得当前帧与重构参考帧之间的多种运动预测信息之后，根据重构参考帧以及多种运动预测信息可以得到当前帧的目标预测帧。

在本实施例的一个可选实现方式中，步骤S203，即根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧的步骤，进一步包括以下步骤：

在获得每种不同的运动预测信息对应的候选预测帧之后，可以利用不同运动预测模式下的运动预测信息对应的权重信息对候选预测帧进行加权操作而得到目标预测帧。权重信息可以用于表示对应的运动预测信息在当前帧的对应图像块上的预测准确程度，预测准确程度越高，该图像块上的权重值可以越大，而预测准确程度越低，该图像块上对应的权重值可以越小。在视频编码端，权重信息可以利用经验值预先设置，也可以利用运动预测模型预测得到。

在一些实施例中，视频编码端可以由运动预测模型根据当前帧以及重构参考帧得到权重信息。本实施例中，运动预测模型从第一编码码流解码得到多种运动预测信息的同时，还可以获得多种运动预测信息对应的权重信息。

该可选的实现方式中，在视频编码端运动预测模型可以根据当前帧以及重构参考帧预测得到当前帧与重构参考帧之间的光流运动预测信息，光流运动预测信息包含了重构参考帧与当前帧在时域上的运动变化信息。运动预测模型在训练过程中通过学习样本数据中当前样本帧与重构参考样本帧之间的光流变化进而针对输入的当前帧和重构参考帧可以输出光流运动预测信息。因此在视频解码端可以通过对第一编码码流进行解码而获得光流运动预测信息

此外，在视频编码端运动预测模型还可以根据当前帧以及重构参考帧预测得到能够表示运动预测信息的自适应卷积核，因此在视频解码端可以通过对第一编码码流解码而获得该自适应卷积核。可以通过该自适应卷积核以及重构参考帧得到当前帧与重构参考帧的残差数据以及当前帧的目标预测帧。

例如，针对当前帧的某个图像区域块，在多种运动预测信息均不够准确(比如利用该多种运动预测信息获得的预测帧与当前帧的相似程度还不如重构参考帧)的情况下，可以直接将重构参考帧作为预测帧，并且可以通过设置权重信息，在确定目标预测帧中该图像区域块的信息时使得重构参考帧的信息所占比重较大，而使得其他多种运动预测信息所占比重较小。再例如，针对当前帧的某个图像区域块，在多种运动预测信息均不够准确(比如利用多种运动预测信息得到的预测帧以及重构参考帧中的信息均与当前帧中的信息相差较大)的情况下，可以使用元素均为0的预测帧，并且可以通过设置权重信息，在确定目标预测帧中该图像区域块的信息时使得元素均为0的预测帧的信息所占比重较大，而使得其他多种运动预测信息所占比重较小，这种情况下在视频编码端编码过程中，计算当前帧与目标预测帧之间的残差数据时，可以尽量将当前帧中该图像区域块内的信息保留在残差数据中，以便视频解码端解码通过解码获得当前帧时能够针对该图像区域块得到更加准确的图像信息。

对所述第二编码码流进行解码获得所述当前帧的残差数据；

根据所述目标预测帧以及所述残差数据获得所述当前帧。

该可选的实现方式中，目标预测帧可以理解为能够从重构参考帧预测到并且与当前帧较为接近的视频帧，视频解码端可以根据运动预测信息对应的第一编码码流以及重构参考帧解码得到目标预测帧。而为了解码出当前帧，还需要根据第二编码码流解码得到当前帧与目标预测帧之间的残差数据。第二编码码流可以利用残差数据解码网络进行解码，该残差数据解码网络的网络结构可以与运动预测网络中的解码网络相同，但是模型参数可以不同。在解码得到目标预测帧以及残差数据之后，即可获得当前帧。例如可以通过目标预测帧和残差数据相加得到当前帧。

在本实施例的一个可选实现方式中，所述第一编码码流包括对应多个所述重构参考帧的多组编码码流；步骤S202中，利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息的步骤，进一步包括以下步骤：

步骤S203中，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧的步骤，进一步包括以下步骤：

该可选的实现方式中，在视频编码端，针对当前帧进行编码时，由于基于编码模式的不同而可以选取一个参考帧或者多个参考帧进行编码。在选用多个参考帧对当前帧进行了编码的情况下，视频编码端可以利用本公开实施例中的视频处理方法针对每个参考帧均获得一个对应的预测帧，为了与最终的目标预测帧进行区分，本公开实施例中称之为分支预测帧，也即一个参考帧或者是一个重构参考帧对应一个分支预测帧。视频解码端获得的第一编码码流中包括每个分支预测帧对应的多组运动预测信息，每组运动预测信息对应一个重构参考帧，且包括多种运动预测信息。视频解码端通过对第一编码码流解码获得多组运动预测信息，进而可以根据每组中的多种运动预测信息获得对应重构参考帧对应的分支预测帧。最终可以得到多个重构参考帧对应的多个分支预测帧，根据该多个重构参考帧对应的多个分支预测帧可以得到当前帧的目标预测帧，例如可以通过将多个分支预测帧相加求平均的方式得到目标预测帧。

图3示出根据本公开另一实施方式的视频处理方法的流程图。如图3所示，该视频处理方法包括以下步骤：

在步骤S301中，获取待处理视频；

在步骤S302中，调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型对所述当前帧以及所述重构参考帧进行处理获得所述当前帧的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

在步骤S303中，输出所述目标预测帧。

本实施例中，该视频处理方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是Saas(Software-as-a-service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务对待处理视频进行处理，以便获得待处理视频中当前帧的目标预测帧。

待处理视频可以包括一系列具有顺序关系的视频帧，当前帧可以是当前待编码的视频帧，而参考帧可以是利用当前所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在编码当前帧时，参考帧为已经经过编码的视频帧，并且重构参考帧为根据参考帧的编码信息解码获得的视频帧。

本公开实施例可以响应于需求方的请求，而调用预设服务接口，以便由预设服务接口针对当前帧，通过运动预测模型获得多种运动预测模式对应的多种不同的运动预测信息之后，通过综合多种不同的运动预测信息最终获得当前帧的目标预测帧。本公开实施例的技术方案在运动预测过程中通过多样化的运动预测模式提高了视频帧的运动预测性能。

图4示出根据本公开另一实施方式的视频处理方法的流程图。如图4所示，该视频处理方法包括以下步骤：

在步骤S401中，获取待处理视频；

在步骤S402中，调用预设服务接口，以便由所述预设服务接口获取待处理视频中的当前帧和至少一个参考帧的重构参考帧，利用运动预测模型获取所述当前帧与所述重构参考帧之间的多种运动预测信息以及所述多种运动预测信息对应的第一编码码流，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述运动预测模型获得所述当前帧与所述目标预测帧之间残差数据的第二编码码流；

在步骤S403中，输出所述第一编码码流和所述第二编码码流。

本实施例中，该视频处理方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是Saas(Software-as-a-service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务对待处理视频进行处理，以便获得待处理视频中当前帧的编码码流。

以运动预测模型采用卷积神经网络为例说明，运动预测模型中的解码部分可以包括但不限于编码网络和码流编码部分。编码网络可以为下采样网络，也即用于压缩图像信息的网络，该编码网络可以包括多层卷积层，每个卷积层的步幅可以根据实际情况设置，例如可以设置为2，也即编码网络可以为2倍下采样的卷积神经网络。当前帧和重构参考帧经过编码网络的下采样之后，可以经过码流编码部分得到用于表示当前帧与重构参考帧之间的运动变化信息的多种不同运动模式下的多种运动预测信息。该多种运动预测信息还可以经过例如信息熵编码流程后得到第一编码码流，该第一编码码流为经过压缩后的运动预测信息。举例说明，码流编码部分可以包括码字估计网络以及算数编码部分等，经过编码网络下采样后得到的隐式张量可以输入至码字估计网络，用于估计该隐式张量中各个特征点的出现概率。码字估计网络也可以包括下采样网络和上采样网络构成的自编码器结构，在对输入的隐式张量进行了下采样和上采样处理之后，还可以使用上下文信息估计该隐式张量中特征点的出现概率，进而根据估计出的出现概率量化隐式张量，并利用算数编码对量化后的隐式张量进行无损编码，得到第一编码码流。

根据当前帧与重构参考帧之间的运动预测信息获得的目标预测帧可以理解为能够从重构参考帧预测到并且与当前帧较为接近的视频帧，视频解码端可以根据运动预测信息对应的第一编码码流以及重构参考帧解码得到目标预测帧。然而为了能够最终恢复出当前帧的信息，还需要得到当前帧与目标预测帧之间的残差数据。因此，视频编码端在获得目标预测帧之后，可以通过当前帧与目标预测帧获得残差数据，进而再将残差数据进行编码后得到第二编码码流。残差数据例如可以通过当前帧直接减去目标预测帧的方式得到。第一编码码流和第二编码码流均可以发送至视频解码端，由视频解码端根据第一编码码流恢复出目标预测帧，并由第二编码码流恢复出残差数据，最后再根据目标预测帧和残差数据即可得到解码出的当前帧。

本公开实施例可以响应于需求方的请求，而调用预设服务接口，以便由预设服务接口针对当前帧，通过运动预测模型获得多种运动预测模式对应的多种不同的运动预测信息及其对应的第一编码码流之后，通过综合多种不同的运动预测信息最终获得当前帧的目标预测帧，进而再根据目标预测帧以及当前帧获得当前帧与目标预测值之间残差数据的第二编码码流，最终获得当前帧的编码码流。本公开实施例的技术方案在运动预测过程中通过多样化的运动预测模式提高了视频帧的运动预测性能，进而提高了视频帧的编码准确率。

图5示出根据本公开另一实施方式的视频处理方法的流程图。如图5所示，该视频处理方法包括以下步骤：

在步骤S501中，获取第一编码码流；所述第一编码码流包括当前帧和至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；

在步骤S502中，调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧；

在步骤S503中，输出所述目标预测帧。

本实施例中，该视频处理方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是Saas(Software-as-a-service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务对编码码流进行处理，以便获得待处理视频中当前帧的目标预测帧。

当前帧可以是待解码视频中当前待解码的视频帧，参考帧可以是在视频编码端利用所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在解码当前帧时，参考帧为已经经过解码的视频帧，并且重构参考帧为根据参考帧的编码码流解码获得的视频帧。

图6示出根据本公开另一实施方式的视频处理方法的流程图。如图6所示，该视频处理方法包括以下步骤：

在步骤S601中，获取第一编码码流以及第二编码码流；所述第一编码码流包括当前帧与至少一个参考帧的重构参考帧之间多种运动预测信息的编码码流；所述第二编码码流包括所述当前帧与目标预测帧之间残差数据的编码码流；

在步骤S602中，调用预设服务接口，以便由所述预设服务接口利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，以及对所述第二编码码流解码获得所述当前帧与所述目标预测帧之间的残差数据，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，以及根据所述目标预测帧和所述残差数据得到所述当前帧；

在步骤S603中，输出所述当前帧。

本实施例中，该视频处理方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是Saas(Software-as-a-service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务对编码码流进行处理，以便解码得到待处理视频中的当前帧。

目标预测帧可以理解为能够从重构参考帧预测到并且与当前帧较为接近的视频帧，视频解码端可以根据运动预测信息对应的第一编码码流以及重构参考帧解码得到目标预测帧。而为了解码出当前帧，还需要根据第二编码码流解码得到当前帧与目标预测帧之间的残差数据。在解码得到目标预测帧以及残差数据之后，即可获得当前帧。例如可以通过目标预测帧和残差数据相加得到当前帧。

本公开实施例可以响应于需求方的请求，而调用预设服务接口，以便由预设服务接口针对当前帧，通过运动预测模型对第一编码码流进行解码获得多种运动预测模式对应的多种不同的运动预测信息之后，通过综合多种不同的运动预测信息最终获得当前帧的目标预测帧，进而再利用运动预测模型对第二编码码流解码获得当前帧与目标预测帧之间的残差数据，并根据目标预测帧和残差数据得到解码后的当前帧，最终能够输出解码得到的当前帧。本公开实施例的技术方案在运动预测过程中通过多样化的运动预测模式提高了视频帧的运动预测性能，进而提高了视频帧的解码准确率。

根据本公开另一实施方式的视频处理方法，该视频处理方法包括以下步骤：

输出所述第一编码码流和所述第二编码码流。

本实施例中，待处理视频可以包括一系列具有顺序关系的视频帧，当前帧可以是当前待编码的视频帧，而参考帧可以是利用当前所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在编码当前帧时，参考帧为已经经过编码的视频帧，并且重构参考帧为根据参考帧的编码信息解码获得的视频帧。

本公开实施例提出的视频处理方法可以在视频编码端执行，在接收到用户或者其他相关方提供的待处理视频之后，对待处理视频进行编码处理，最终输出第一编码码流和第二编码码流，该第一编码码流和第二编码码流可以存储在存储介质或者通过网络发送至视频解码端进行解码。本公开实施例中的具体细节可以参见上述图4所示实施例及相关实施例中的描述，在此不再赘述。

根据所述目标预测帧和所述残差数据得到所述当前帧；

输出所述当前帧。

本实施例中，当前帧可以是待解码视频中当前待解码的视频帧，参考帧可以是在视频编码端利用所采取的编码模式对当前帧进行编码时所参考的视频帧，参考帧可以是当前帧的前一帧、后一帧等，并且参考帧可以包括一个或多个，具体基于不同的编码模式而有所不同，在此不做限制。需要说明的是，在解码当前帧时，参考帧为已经经过解码的视频帧，并且重构参考帧为根据参考帧的编码码流解码获得的视频帧。

本公开实施例提出的视频处理方法可以在视频解码端执行，在接收到用户或者其他相关方提供的第一编码码流和第二编码码流之后，对第一编码码流和第二编码码流进行解码处理，最终输出视频帧。解码得到的视频帧可以通过电子设备的显示屏进行输出。本公开实施例中的具体细节可以参见上述图6所示实施例及相关实施例中的描述，在此不再赘述。

下面举例说明利用本公开实施例进行视频编解码过程中目标预测帧以及残差数据的获取流程。

图7示出根据本公开一实施方式在视频编解码场景下利用运动预测模型获取当前帧的预测帧以及残差数据的一种实现流程示意图。如图7所示，运动预测模型可以包括但不限于编码网络和解码网络，在视频编码端，当前帧的视频编码可以分为两各阶段：第一阶段包括多种运动预测信息的预测以及压缩编码；第二阶段包括当前帧的残差数据的压缩编码。

在第一阶段，当前帧x_t和重构参考帧

输入至运动预测模型中的编码网络，本实施例中输入至运动预测模型的还包括当前帧x_t和重构参考帧

之间的光流信息flow，该光流信息flow可以根据已知的方式获得。重构参考帧

可以根据参考帧的编码过程中获得的信息得到，也即可以根据参考帧的预测帧以及残差数据得到。编码网络可以采用4层步幅为2的卷积层构成，当前帧x_t、重构参考帧

以及光流信息经过编码网络后变换为隐式张量，该隐式张量进入码字估计网络；该码字估计网络在图7中未显示，其结构为包括下采样网络和上采样网络的自编码器结构，其同时使用了上下文信息对上述隐式张量中各种特征点的出现概率进行估计，并输出概率模型参数；利用上述概率模型参数对上述隐式张量进行量化，并利用算数编码器对量化后的隐式张量进行无损编码得到第一编码码流，该第一编码码流为输出至视频解码端的部分码流。

第二阶段，第一编码码流输入至运动预测模型，经过与编码网络中的算数编码器对应的算数解码器解码后得到量化后的隐式张量，该隐式张量对应于第一阶段中量化后的隐式张量。该隐式张量进入运动预测网络的解码网络后输出多种运动预测信息以及多种运动预测信息对应的多组权重信息，多种运动预测信息包括重建光流信息

和自适应卷积核K。在解码得到多种运动预测信息以及对应的权重信息之后，可以获取各种运动预测信息对应的候选预测帧，重建光流信息

与对应的权重信息相乘之后得到第一幅候选预测帧，将自适应卷积核与对应的权重信息相乘之后得到第二幅候选预测帧，将重构参考帧

本身与对应的权重信息相乘之后得到第三幅候选预测帧，将大小与当前帧相同且元素为0的图像与对应的权重信息相乘之后得到第四幅候选预测帧，上述四幅候选预测帧相加可以得到当前帧x_t的目标预测帧

当前帧x_t与目标预测帧

之间的差别即为当前帧x_t的残差数据R，因此可以同将当前帧x_t减去目标预测帧的方式得到当前帧x_t的残差数据R，该残差数据R进一步经过残差编码网络的处理之后，得到第二编码码流；此处的残差编码网络的可以与上述运动预测模型中的编码网络结构相同(模型参数可以不同)，残差数据R至第二编码码流变换过程与上述第一编码码流的编码过程类似，具体可以参见上述描述，在此不再赘述。

在视频解码端端，当前帧x_t的视频解码包括多种运动预测信息的解码、根据解码得到的多种预测信息获得目标预测帧

当前帧x_t的残差数据R的解码等。多种运动预测信息的解码流程与视频编码端中通过对第一编码码流解码获得多种运动预测信息的流程相同，具体可以参见上述描述在此不再赘述；当前帧x_t的残差数据R的解码部分则是利用残差数据解码网络对第二编码码流进行解码得到重构残差数据

残差数据解码网络的网络结构可以与运动预测网络中的解码网络相同(模型参数可以不同)。在解码得到目标预测帧

以及重构残差数据

之后，可以通过将目标预测帧

以及重构残差数据

相加获得重构当前帧

下述为本公开装置实施例，可以用于执行本公开方法实施例。

根据本公开一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：

在本实施例的一个可选实现方式中，所述第一确定模块，包括：

第一确定子模块，被配置为根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧；

第一获取子模块，被配置为利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧。

在本实施例的一个可选实现方式中，所述权重信息是所述运动预测模型根据所述当前帧以及所述重构参考帧得到的；和/或，每种所述运动预测信息对应的所述权重信息表示为与所述当前帧大小相同的矩阵，且所述多种运动预测信息对应的多组所述权重信息中相同位置的元素之和等于1。

在本实施例的一个可选实现方式中，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；所述第一确定子模块，包括：

第二获取子模块，被配置为根据所述光流运动预测信息和所述重构参考帧获取所述光流运动预测信息对应的第一候选预测帧；

第三获取子模块，被配置为根据所述自适应卷积核和所述重构参考帧获取所述自适应卷积核对应的第二候选预测帧。

在本实施例的一个可选实现方式中，所述权重信息还包括至少一种预设预测帧对应的权重信息；所述第一获取子模块，包括：

第一求和子模块，被配置为根据所述第一候选预测帧、第二候选预测帧、所述预设预测帧以及对应的所述权重信息加权求和得到所述目标预测帧。

在本实施例的一个可选实现方式中，所述预设预测帧包括重构参考帧和/或元素均为0的预测帧。

在本实施例的一个可选实现方式中，所述第二获取模块，包括：

第一处理子模块，被配置为利用所述运动预测模型对所述当前帧和所述重构参考帧进行处理，获得所述多种运动预测信息的第一编码码流；

第二处理子模块，被配置为利用所述运动预测模型对所述第一编码码流进行处理获得所述多种运动预测信息。

在本实施例的一个可选实现方式中，所述装置还包括：

第三获取模块，被配置为利用所述当前帧以及所述目标预测帧获取所述当前帧的残差数据；

第一编码模块，被配置为对所述残差数据进行编码得到第二编码码流。

在本实施例的一个可选实现方式中，所述参考帧包括多个，所述第二获取模块，包括：

第五获取子模块，被配置为针对每一个参考帧的所述参考重构帧，利用所述运动预测模型获取所述当前帧以及每个所述重构参考帧的多种运动预测信息；

所述第一确定模块，包括：

第二确定子模块，被配置为根据所述重构参考帧和每个所述重构参考帧的多种运动预测信息确定所述当前帧对应的分支预测帧；

第三确定子模块，被配置为根据多个所述重构参考帧对应的多个所述分支预测帧确定所述目标预测帧。

本实施例中的视频处理装置与图1所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图1所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

在本实施例的一个可选实现方式中，所述第二确定模块，包括：

第四确定子模块，被配置为根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧；

第六获取子模块，被配置为利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧。

在本实施例的一个可选实现方式中，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；第四确定子模块，包括：

第七获取子模块，被配置为根据所述光流运动预测信息和所述重构参考帧获取所述光流运动预测信息对应的第一候选预测帧；

第八获取子模块，被配置为根据所述自适应卷积核和所述重构参考帧获取所述自适应卷积核对应的第二候选预测帧。

在本实施例的一个可选实现方式中，所述权重信息还包括至少一种预设预测帧对应的权重信息；所述第四确定子模块，还包括：

第二求和子模块，被配置为根据所述第一候选预测帧、第二候选预测帧和所述预设预测帧以及分别对应的所述权重信息加权求和得到所述目标预测帧。

在本实施例的一个可选实现方式中，所述装置还包括：

第二处理模块，被配置为对所述第二编码码流进行解码获得所述当前帧的残差数据；

第五获取模块，被配置为根据所述目标预测帧以及所述残差数据获得所述当前帧。

在本实施例的一个可选实现方式中，所述第一编码码流包括对应多个所述重构参考帧的多组编码码流；所述第一处理模块，包括：

第九获取子模块，被配置为针对每一组所述第一编码码流，利用所述运动预测模型获取所述当前帧以及每个所述重构参考帧的多种运动预测信息；

所述第二确定模块，包括：

第五确定子模块，被配置为根据所述重构参考帧和每个所述重构参考帧的多种运动预测信息确定所述当前帧对应的分支预测帧；

第六确定子模块，被配置为根据多个所述重构参考帧对应的多个所述分支候选预测帧确定所述目标预测帧。

本实施例中的视频处理装置与图2所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图2所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

第六获取模块，被配置为获取待处理视频；

第一输出模块，被配置为输出所述目标预测帧。

本实施例中的视频处理装置与图3所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图3所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

第七获取模块，被配置为获取待处理视频；

本实施例中的视频处理装置与图4所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图4所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

第三输出模块，被配置为输出所述目标预测帧。

本实施例中的视频处理装置与图5所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图5所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

第四输出模块，被配置为输出所述当前帧。

本实施例中的视频处理装置与图6所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图6所示实施例及相关实施例中的视频处理方法的描述，在此不再赘述。

图8是适于用来实现根据本公开实施方式的视频处理方法的电子设备的结构示意图。

如图8所示，电子设备800包括处理单元801，其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM803中，还存储有电子设备800操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频处理方法，其中，包括：

2.根据权利要求1所述的方法，其中，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，包括：

3.根据权利要求2所述的方法，其中，所述权重信息是所述运动预测模型根据所述当前帧以及所述重构参考帧得到的；和/或，每种所述运动预测信息对应的所述权重信息表示为与所述当前帧大小相同的矩阵，且所述多种运动预测信息对应的多组所述权重信息中相同位置的元素之和等于1。

4.根据权利要求2或3所述的方法，其中，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧，包括：

5.根据权利要求4所述的方法，其中，所述权重信息还包括至少一种预设预测帧对应的权重信息；利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧，包括：

6.根据权利要求5所述的方法，其中，所述预设预测帧包括重构参考帧和/或元素均为0的预测帧。

7.根据权利要求1-3、5-6任一项所述的方法，其中，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息，包括：

8.根据权利要求1-3、5-6任一项所述的方法，其中，所述方法还包括：

对所述残差数据进行编码得到第二编码码流。

9.根据权利要求1-3、5-6任一项所述的方法，其中，所述参考帧包括多个，利用运动预测模型获取所述当前帧以及所述重构参考帧的多种运动预测信息，包括：

10.一种视频处理方法，其中，包括：

11.根据权利要求10所述的方法，其中，根据所述重构参考帧和所述多种运动预测信息确定所述当前帧对应的目标预测帧，包括：

12.根据权利要求11所述的方法，其中，所述权重信息是所述运动预测模型根据所述当前帧以及所述重构参考帧得到的；和/或，每种所述运动预测信息对应的所述权重信息表示为与所述当前帧大小相同的矩阵，且所述多种运动预测信息对应的多组所述权重信息中相同位置的元素之和等于1。

13.根据权利要求11或12所述的方法，其中，所述多种运动预测信息包括光流运动预测信息、用于表示运动预测信息的自适应卷积核；利用所述多种运动预测信息对应的权重信息以及多个所述候选预测帧获得所述目标预测帧，包括：

14.根据权利要求13所述的方法，其中，所述权重信息还包括至少一种预设预测帧对应的权重信息；根据所述多种运动预测信息确定所述当前帧对应的多个候选预测帧，还包括：

15.根据权利要求14所述的方法，其中，所述预设预测帧包括重构参考帧和/或元素均为0的预测帧。

16.根据权利要求10-12、14-15任一项所述的方法，其中，所述方法还包括：

对所述第二编码码流进行解码获得所述当前帧的残差数据；

根据所述目标预测帧以及所述残差数据获得所述当前帧。

17.根据权利要求10-12、14-15任一项所述的方法，其中，所述第一编码码流包括对应多个所述重构参考帧的多组编码码流；利用运动预测模型对所述第一编码码流进行处理获得所述当前帧与所述重构参考帧之间的多种运动预测信息，包括：

18.一种视频处理方法，其中，包括：

获取待处理视频；

输出所述目标预测帧。

19.一种视频处理方法，其中，包括：

获取待处理视频；

输出所述第一编码码流和所述第二编码码流。

20.一种视频处理方法，其中，包括：

输出所述目标预测帧。

21.一种视频处理方法，其中，包括：

输出所述当前帧。

22.一种视频处理方法，其中，包括：

输出所述第一编码码流和所述第二编码码流。

23.一种视频处理方法，其中，包括：

根据所述目标预测帧和所述残差数据得到所述当前帧；

输出所述当前帧。

24.一种视频处理装置，其中，包括：

25.一种视频处理装置，其中，包括：

26.一种视频处理装置，其中，包括：

第六获取模块，被配置为获取待处理视频；

第一输出模块，被配置为输出所述目标预测帧。

27.一种视频处理装置，其中，包括：

第七获取模块，被配置为获取待处理视频；

28.一种视频处理装置，其中，包括：

第三输出模块，被配置为输出所述目标预测帧。

29.一种视频处理装置，其中，包括：

第四输出模块，被配置为输出所述当前帧。

30.一种视频处理装置，其中，包括：

31.一种视频处理装置，其中，包括：

第六输出模块，被配置为输出所述当前帧。

32.一种电子设备，其中，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-23任一项所述的方法。

33.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-23任一项所述的方法。