CN114419517A

CN114419517A - 视频帧处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114419517A
Application number: CN202210100894.6A
Authority: CN
Inventors: 曹铭登; 樊艳波; 王家豪; 张勇; 印飞; 王珏; 杨余久
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-04-29

Abstract

本申请实施例公开了一种视频帧处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取视频帧序列，从每个视频帧中提取多个尺度的第一特征信息，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息；基于多个视频帧的第二特征信息与模糊视频帧的第二特征信息之间的相似度，对多个视频帧的第二特征信息进行加权融合，得到模糊视频帧对应的第一融合特征信息；基于第一融合特征信息，对模糊视频帧进行重建。本申请实施例提供的方法，考虑到模糊视频帧的多尺度的特征信息以及与该模糊视频帧关联的其他视频帧的多个尺度的特征信息的影响，以适应视频帧的不同的模糊程度，保证重建出的视频帧的清晰度和准确性。

Description

视频帧处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频帧处理方法、装置、计算机设备及存储介质。

背景技术

近年来，拍摄视频越来越受到用户的喜爱。但是，用户通过拍摄设备进行拍摄时，由于拍摄设备的抖动，或者所拍摄的物体的快速移动，易导致拍摄的视频存在模糊的情况。因此，需要对视频中的模糊视频帧进行处理。

发明内容

本申请实施例提供了一种视频帧处理方法、装置、计算机设备及存储介质，能够保证重建的视频帧的清晰度和准确性。所述技术方案如下：

一方面，提供了一种视频帧处理方法，所述方法包括：

获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括模糊视频帧；

从每个视频帧中提取多个尺度的第一特征信息，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息；

基于所述多个视频帧的第二特征信息与所述模糊视频帧的第二特征信息之间的相似度，对所述多个视频帧的第二特征信息进行加权融合，得到所述模糊视频帧对应的第一融合特征信息；

基于所述第一融合特征信息，对所述模糊视频帧进行重建。

在一种可能实现方式中，所述第n-1个尺度的融合特征信息为矩阵；所述对所述第n-1个尺度的融合特征信息进行解码处理，得到所述第n-1个尺度的第一特征信息，包括：

对所述第n-1个尺度的融合特征信息进行分割，得到多个第三局部矩阵，所述第三局部矩阵包括多个位置上的特征；

对于每个特征，基于所述特征所在的第三局部矩阵中的多个特征及所述多个特征的位置特征，对所述特征进行更新，所述位置特征指示对应的特征在所述第三局部矩阵中的位置；

将同一第三局部矩阵更新后的多个特征构成第四局部矩阵；

基于所述多个第三局部矩阵在所述第n-1个尺度的融合特征信息中的位置，对多个第四局部矩阵进行拼接，得到第二拼接矩阵；

基于所述第二拼接矩阵，确定所述第n-1个尺度的第一特征信息。

在另一种可能实现方式中，所述基于所述多个视频帧的第二特征信息与所述模糊视频帧的第二特征信息之间的相似度，对所述多个视频帧的第二特征信息进行加权融合，得到所述模糊视频帧对应的第一融合特征信息之前，所述方法还包括：

对于多个第二特征信息中的目标特征信息，基于所述多个第二特征信息与所述目标特征信息之间的相似度，对所述多个第二特征信息进行加权融合，得到第二融合特征信息，所述目标特征信息为所述多个第一特征信息中的任一第一特征信息；

将所述第二融合特征信息与所述目标特征信息进行融合，将融合得到的特征信息确定为所述目标特征信息更新后的特征信息。

在另一种可能实现方式中，所述方法还包括：

基于所述标签视频帧及所述预测视频帧之间的图像差异度，获取第二损失值；

所述基于所述第一损失值，对所述视频帧处理模型进行训练，包括：

基于所述第一损失值及所述第二损失值，对所述视频帧处理模型进行训练。

另一方面，提供了一种视频帧处理装置，所述装置包括：

获取模块，用于获取视频帧序列，所述视频帧序列包括连续的多个视频帧，所述多个视频帧包括模糊视频帧；

融合模块，用于从每个视频帧中提取多个尺度的第一特征信息，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息；

所述融合模块，还用于基于所述多个视频帧的第二特征信息与所述模糊视频帧的第二特征信息之间的相似度，对所述多个视频帧的第二特征信息进行加权融合，得到所述模糊视频帧对应的第一融合特征信息；

重建模块，用于基于所述第一融合特征信息，对所述模糊视频帧进行重建。

在一种可能实现方式中，所述融合模块，包括：

变换单元，用于对于任一视频帧对应的多个第一特征信息，将除目标尺度的第一特征信息以外的其他第一特征信息变换至所述目标尺度，所述目标尺度为所述多个尺度中的最大尺度；

融合单元，用于将变换后的多个第一特征信息进行融合，得到所述视频帧的第二特征信息。

在另一种可能实现方式中，所述融合单元，用于将变换后的多个第一特征信息进行拼接，得到拼接特征信息；对所述拼接特征信息进行卷积处理，得到所述视频帧的第二特征信息。

在另一种可能实现方式中，所述多个尺度的个数为2，所述融合模块，包括：

提取单元，用于对于所述多个视频帧中的每个视频帧，对所述视频帧进行特征提取，得到所述视频帧的第四特征信息；

编码单元，用于对所述第四特征信息进行编码，得到第1个尺度的编码特征信息；

降维单元，用于对所述第1个尺度的编码特征信息进行降维，得到第2个尺度的编码特征信息；

解码单元，用于对所述第2个尺度的编码特征信息进行解码，得到所述第2个尺度的第一特征信息；

所述解码单元，还用于对所述第2个尺度的第一特征信息进行升维，得到所述第1个尺度的升维特征信息，对所述第1个尺度的升维特征信息及所述第1个尺度的编码特征信息进行解码，得到所述第1个尺度的第一特征信息。

在另一种可能实现方式中，所述多个尺度的个数为n，n为大于2的整数，所述融合模块，包括：

所述编码单元，还用于对所述第1个尺度的编码特征信息进行降维和编码，得到第2个尺度的编码特征信息，直至得到第n-1个尺度的编码特征信息；

降维单元，用于对所述第n-1个尺度的编码特征信息进行降维，得到第n个尺度的编码特征信息；

解码单元，用于对所述第n个尺度的编码特征信息进行解码，得到所述第n个尺度的第一特征信息；

所述解码单元，还用于对第n个尺度的第一特征信息进行升维，得到所述第n-1个尺度的升维特征信息，对所述第n-1个尺度的升维特征信息及所述第n-1个尺度的编码特征信息进行解码，得到所述第n-1个尺度的第一特征信息，直至得到所述第1个尺度的第一特征信息。

在另一种可能实现方式中，所述第1个尺度的编码特征信息为矩阵；所述编码单元，用于对所述第1个尺度的编码特征信息进行降维，得到所述第2个尺度的降维特征信息；对所述降维特征信息进行分割，得到多个第一局部矩阵，所述第一局部矩阵包括多个位置上的特征；对于每个特征，基于所述特征所在的第一局部矩阵中的多个特征及所述多个特征的位置特征，对所述特征进行更新，所述位置特征指示对应的特征在所述第一局部矩阵中的位置；将同一第一局部矩阵更新后的多个特征构成第二局部矩阵；基于所述多个第一局部矩阵在所述降维特征信息中的位置，对多个第二局部矩阵进行拼接，得到第一拼接矩阵；基于所述第一拼接矩阵，确定所述第2个尺度的编码特征信息。

在另一种可能实现方式中，所述编码单元，用于对于每个第一局部矩阵，将所述第一局部矩阵中的多个特征，分别与对应的位置特征进行融合，得到多个第一融合特征；对于所述第一局部矩阵中的每个特征，基于所述特征对应的第一融合特征与所述多个第一融合特征之间的相似度，对所述多个第一融合特征进行加权融合，将加权融合得到的特征确定为所述特征更新后的特征。

在另一种可能实现方式中，所述编码单元，用于将所述第一拼接矩阵，确定为所述第2个尺度的编码特征信息。

在另一种可能实现方式中，所述装置还包括：

变换模块，用于基于第一位置变换矩阵，对所述降维特征信息中的特征进行位置变换，得到更新后的降维特征信息；

所述编码单元，用于基于第二位置变换矩阵，对所述第一拼接矩阵中的特征进行位置变换，将变换得到的特征矩阵确定为所述第2个尺度的编码特征信息，所述第二位置变换矩阵为所述第一位置变换矩阵的反变换矩阵。

在另一种可能实现方式中，所述解码单元，用于将所述第n-1个尺度的升维特征信息与所述第n-1个尺度的编码特征信息进行融合，得到所述第n-1个尺度的融合特征信息；对所述第n-1个尺度的融合特征信息进行解码处理，得到所述第n-1个尺度的第一特征信息。

在另一种可能实现方式中，所述第n-1个尺度的融合特征信息为矩阵；所述解码单元，用于对所述第n-1个尺度的融合特征信息进行分割，得到多个第三局部矩阵，所述第三局部矩阵包括多个位置上的特征；对于每个特征，基于所述特征所在的第三局部矩阵中的多个特征及所述多个特征的位置特征，对所述特征进行更新，所述位置特征指示对应的特征在所述第三局部矩阵中的位置；将同一第三局部矩阵更新后的多个特征构成第四局部矩阵；基于所述多个第三局部矩阵在所述第n-1个尺度的融合特征信息中的位置，对多个第四局部矩阵进行拼接，得到第二拼接矩阵；基于所述第二拼接矩阵，确定所述第n-1个尺度的第一特征信息。

在另一种可能实现方式中，融合模块，用于对于多个第二特征信息中的目标特征信息，基于所述多个第二特征信息与所述目标特征信息之间的相似度，对所述多个第二特征信息进行加权融合，得到第二融合特征信息，所述目标特征信息为所述多个第一特征信息中的任一第一特征信息；将所述第二融合特征信息与所述目标特征信息进行融合，将融合得到的特征信息确定为所述目标特征信息更新后的特征信息。

在另一种可能实现方式中，所述视频帧处理装置是基于视频帧处理模型实现的，所述装置还包括：

所述获取模块，还用于获取样本视频帧序列，所述样本视频帧序列包括连续的多个样本视频帧，所述多个样本视频帧包括样本模糊视频帧，并获取所述样本模糊视频帧对应的标签视频帧；

处理模块，用于基于所述视频帧处理模型，对所述样本视频帧序列中的样本视频帧进行处理，得到所述样本模糊视频帧对应的预测视频帧；

提取模块，用于基于图像对比模型，分别对所述标签视频帧及所述预测视频帧进行特征提取，得到所述标签视频帧的第五特征信息及所述预测视频帧的第六特征信息；

确定模块，用于基于图像对比模型，获取所述第五特征信息与第六特征信息之间的特征差异度，将所述特征差异度，确定为所述第一损失值。

训练模块，用于基于所述第一损失值，对所述视频帧处理模型进行训练。

在另一种可能实现方式中，所述获取模块，还用于基于所述标签视频帧及所述预测视频帧之间的图像差异度，获取第二损失值；

所述训练模块，用于基于所述第一损失值及所述第二损失值，对所述视频帧处理模型进行训练。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的视频帧处理方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的视频帧处理方法所执行的操作。

再一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述方面所述的视频帧处理方法所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，在对模糊视频帧进行重建时，不仅考虑到模糊视频帧的多尺度的特征信息，还考虑到了与该模糊视频帧关联的其他视频帧的多个尺度的特征信息的影响，通过将多个视频帧的多尺度的特征信息融合后的特征信息，按照与模糊视频帧之间的关联程度再次进行融合，使得到的融合特征信息中包含了多个视频帧的多尺度的特征信息，以适应视频帧的不同的模糊程度，基于该融合特征信息来对模糊视频帧进行重建，以削弱视频帧的模糊程度，保证重建出的视频帧的清晰度及准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图；

图2是本申请实施例提供的一种视频帧处理方法的流程图；

图3是本申请实施例提供的另一种视频帧处理方法的流程图；

图4是本申请实施例提供的一种对每个第二特征信息进行更新的流程图；

图5是本申请实施例提供的一种对第2个视频帧的第二特征信息进行更新的示意图；

图6是本申请实施例提供的一种获取第三融合特征信息的流程图；

图7是本申请实施例提供的一种提取多个尺度的第一特征信息的流程图；

图8是本申请实施例提供的一种获取第2个编码特征信息的流程图；

图9是本申请实施例提供的另一种获取第2个编码特征信息的流程图；

图10是本申请实施例提供的一种降维特征信息更新前后的对比示意图；

图11是本申请实施例提供的一种对第n-1个尺度的升维特征信息及第n-1个尺度的编码特征信息进行解码的流程图；

图12是本申请实施例提供的另一种对第n-1个尺度的升维特征信息及第n-1个尺度的编码特征信息进行解码的流程图；

图13是本申请实施例提供的另一种提取多个尺度的第一特征信息的流程图；

图14是本申请实施例提供的一种对视频帧处理模型进行训练的流程图；

图15是本申请实施例提供的一种基于视频帧处理模型对视频帧进行处理的流程图；

图16是本申请实施例提供的一种对特征信息进行更新的流程图；

图17是本申请实施例提供的一种视频帧处理方法的计算复杂度及峰值信噪比的示意图；

图18是本申请实施例提供的一种图像对比的示意图；

图19是本申请实施例提供的一种视频帧处理装置的结构示意图；

图20是本申请实施例提供的一种视频帧处理装置的结构示意图；

图21是本申请实施例提供的一种终端的结构示意图；

图22是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一特征信息称为第二特征信息，且类似地，可将第二特征信息称为第一特征信息。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个视频帧包括3个视频帧，而每个是指这3个视频帧中的每一个视频帧，任一是指这3个视频帧中的任意一个视频帧，可以是第一个，或者是第二个，或者是第三个。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案，基于人工智能的机器学习技术，能够训练出视频帧处理模型，基于训练后的视频帧处理模型来实现视频帧处理方法。

本申请实施例提供的视频帧处理方法，由计算机设备执行。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端及飞行器等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

在一种可能实现方式中，该计算机设备提供为服务器。图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101用于拍摄视频，从拍摄到的视频中获取视频帧序列，该视频帧序列包括连续的多个视频帧，该多个视频帧包括模糊视频帧，通过与服务器102之间的网络连接，向服务器102发送该视频帧序列。服务器102用于基于该视频帧序列，对模糊视频帧进行重建，将重建的视频帧返回终端101，由终端101基于重建的视频帧更新视频，并播放更新后的视频。

在一种可能实现方式中，终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如视频帧处理、数据传输等功能。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。例如，目标应用为视频处理应用，该视频处理应用具有视频帧处理的功能，当然，该视频处理应用还能够具有其他功能，例如，视频播放功能、购物功能、导航功能等。可选地，服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。

图2是本申请实施例提供的一种视频帧处理方法的流程图，该方法由计算机设备执行，如图2所示，该方法包括：

201、计算机设备获取视频帧序列，该视频帧序列包括连续的多个视频帧，该多个视频帧包括模糊视频帧。

其中，该视频帧序列是任一视频包含的视频帧序列，该视频帧序列包括的连续的多个视频帧均为该视频中的视频帧。在该视频帧序列中，该多个视频帧是按照在视频帧中的时间先后顺序排列的。该模糊视频帧包含的图像存在模糊的情况，该模糊视频帧为多个视频帧中的任一视频帧，例如，该模糊视频帧为连续的多个视频帧中的第一个视频帧，或者是最后一个视频帧，或者是多个视频帧中的其他视频帧，本申请对此不做限定。

202、计算机设备从每个视频帧中提取多个尺度的第一特征信息，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息。

其中，多个尺度用于表示特征信息的大小，该尺度为二维尺度或者三维尺度。该第一特征信息能够以任意的形式表示，例如，该第一特征信息以矩阵的形式表示。例如，该第一特征信息为二维矩阵或三维矩阵。在多个尺度为二维尺度、且该第一特征信息为二维矩阵时，该二维尺度即为二维矩阵的尺寸大小；在该多个尺度为二维尺度、且该第一特征信息为三维矩阵时，该二维尺度即为三维矩阵中任两个维度的尺寸的大小，如二维尺度为H×W，三维矩阵的维度为d×H×W；在该多个尺度为三维尺度、且该第一特征信息为三维矩阵时，该三维尺度即为三维矩阵的尺寸大小。

在本申请实施例中，每个视频帧对应有多个尺度的第一特征信息，每个尺度的第一特征信息均用于表征对应的视频帧，不同尺度的第一特征信息包含视频帧中不同的特征。

对于每个视频帧，将该视频帧对应的多个第一特征信息进行融合，得到该视频帧的第二特征信息，按照上述方式，即可得到每个视频帧的第二特征信息。由于每个第二特征信息是由对应的视频帧的多个尺度的第一特征信息融合得到的，该第二特征信息包含了对应的视频帧的多尺度特征信息，丰富了第二特征信息中的信息量。

203、计算机设备基于该多个视频帧的第二特征信息与该模糊视频帧的第二特征信息之间的相似度，对该多个视频帧的第二特征信息进行加权融合，得到该模糊视频帧对应的第一融合特征信息。

其中，任一视频帧的第二特征信息与该模糊视频帧的第二特征信息之间的相似度，表示该视频帧与模糊视频帧之间的关联程度。

在本申请实施例中，同一视频中连续的多个视频帧之间的是具有关联的，按照每个视频帧与该模糊视频帧之间的关联程度，将多个视频帧的第二特征信息进行加权融合，得到该模糊视频帧对应的第一融合特征信息，使得该第一融合特征信息中不仅包含了该模糊视频帧的特征还包含了与该模糊视频帧关联的其他视频帧的特征，并且，按照其他视频帧与该模糊视频帧之间的关联程度，将其他视频帧的特征融入进来，以丰富第一融合特征信息包含的特征。

204、计算机设备基于该第一融合特征信息，对该模糊视频帧进行重建。

由于该第一融合特征信息中融入了多个视频帧包含的特征，通过该第一融合特征信息，对模糊视频帧进行重建，以便考虑与该模糊视频帧关联的其他视频帧的影响，从而重建出该模糊视频帧对应的视频帧，且使得重建出的视频帧的清晰度大于该模糊视频帧的清晰度。

本申请实施例提供的方法，在对模糊视频帧进行重建时，不仅考虑到模糊视频帧的多尺度的特征信息，还考虑到了与该模糊视频帧关联的其他视频帧的多个尺度的特征信息的影响，通过将多个视频帧的多尺度的特征信息融合后的特征信息，按照与模糊视频帧之间的关联程度再次进行融合，使得到的融合特征信息中包含了多个视频帧的多尺度的特征信息，以适应视频帧的不同的模糊程度，基于该融合特征信息来对模糊视频帧进行重建，以削弱视频帧的模糊程度，保证重建出的视频帧的清晰度及准确性。

在图2所示实施例的基础上，还会按照多个视频帧的第二特征信息来对每个视频帧的第二特征信息进行更新，以增强多个视频帧之间的时序联系，之后再对模糊视频帧进行重建，此过程详见下述实施例。

图3是本申请实施例提供的一种视频帧处理方法的流程图，该方法由计算机设备执行，如图3所示，该方法包括：

301、计算机设备获取视频帧序列，该视频帧序列包括连续的多个视频帧，该多个视频帧包括模糊视频帧。

在一种可能实现方式中，该视频帧序列包括连续的2k+1个视频帧，k为正整数，该模糊视频帧为该2k+1个视频帧中的第k+1个视频帧。

在本申请实施例中，该视频帧序列包含的视频帧是按照视频帧在视频帧中的时间顺序排列的。对于视频中的任一视频帧，该视频帧之前的多个视频帧以及该视频帧之后的多个视频帧均与该视频帧具有关联关系，为了保证后续对该视频帧进行重建的准确性，获取的视频帧序列中包括该模糊视频帧之前的视频帧以及该模糊视频帧之后的视频帧。

例如，该视频帧序列包括5个视频帧，该模糊视频帧为5个视频帧中的第3个视频帧，该视频帧序列包括该模糊视频帧之前的2个视频帧，以及该模糊视频帧之后的2个视频帧。

在一些实施例中，获取该视频帧序列的方式包括：基于目标视频中的模糊视频帧，从该目标视频中获取与该模糊视频帧相邻的至少一个视频帧，基于获取到的视频帧生成该视频帧序列。

在确定目标视频中的模糊视频帧后，基于该模糊视频帧，确定与该模糊视频帧连续的多个视频帧，从而得到一个视频帧序列。

可选地，从目标视频中获取模糊视频帧的方式包括：对目标视频中的视频帧进行图像质量检测，将目标视频中不满足清晰度条件的视频帧确定为模糊视频帧；或者，由人工从目标视频中指定模糊视频帧，本申请对此不做限定。

302、计算机设备从每个视频帧中提取多个尺度的第一特征信息。

在一种可能实现方式中，多个尺度由大到小或者由小到大的顺序排列，相邻的两个尺度中大尺度为小尺度的2倍。

在一种可能实现方式中，对于每个视频帧，按照多个尺度由小到大或者由大到小的顺序，获取该视频帧对应的多个尺度的第一特征信息。

303、计算机设备对于任一视频帧对应的多个第一特征信息，将除目标尺度的第一特征信息以外的其他第一特征信息变换至该目标尺度。

其中，目标尺度为该多个尺度中的最大尺度。对于任一视频帧，该视频帧对应的多个第一特征信息属于多个不同的尺度，将多个第一特征信息中目标尺度的第一特征信息以外的其他第一特征信息变换为目标尺度，即变换后的多个第一特征信息均属于目标尺度，变换后的多个第一特征信息为同一尺度，以便后续将变换后的多个第一特征信息进行融合。

在一种可能实现方式中，将其他第一特征信息变换至目标尺度时，采用上采样的方式进行变换，或者采取其他方式进行变换，本申请对此不做限定。

304、计算机设备将该视频帧变换后的多个第一特征信息进行融合，得到视频帧的第二特征信息。

由于变换后的多个第一特征信息属于同一尺度，即均属于目标尺度，则能够直接将变换后的多个第一特征信息进行融合，从而得到该视频帧的第二特征信息。按照上述步骤303-304，对每个视频帧的多个第一特征信息进行处理，即可得到每个视频帧的第二特征信息。

在一些实施例中，该步骤304包括：将变换后的多个第一特征信息进行拼接，得到拼接特征信息，对该拼接特征信息进行卷积处理，得到该视频帧的第二特征信息。

采用先拼接再卷积的方式，对视频帧变换后的多个第一特征信息进行处理，以使视频帧的多个尺度的特征信息充分融合，提升第二特征信息的准确性。

可选地，第二特征信息的尺度为目标尺度。例如，变换后的多个第一特征信息均为d×H×W的矩阵，将变换后的多个第一特征信息拼接成的拼接特征信息为3d×H×W的矩阵，对该拼接特征信息进行卷积处理，得到的第二特征信息为d×H×W的矩阵。

需要说明的是，本申请实施例是采取先尺度变换再融合的方式，获取视频帧的第二特征信息的，而在另一实施例中，无需执行步骤303-304，而是采取其他方式，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息。

305、计算机设备对于多个第二特征信息中的目标特征信息，基于该多个第二特征信息与该目标特征信息之间的相似度，对该多个第二特征信息进行加权融合，得到第二融合特征信息。

其中，目标特征信息为多个第一特征信息中的任一第一特征信息。任一第二特征信息与该目标特征信息之间的相似度，表示该第二特征信息与该目标特征信息之间的关联程度，也能够表示该第二特征信息对应的视频帧与该目标特征信息对应的视频帧之间的关联程度。按照多个第二特征信息与该目标特征信息之间的相似度，对多个第二特征信息进行加权融合，使融合得到的第二融合特征信息中不仅包含对应的视频帧的第二特征信息，还融入了与该视频帧关联的其他视频帧的特征信息。

306、计算机设备将该第二融合特征信息与该目标特征信息进行融合，将融合得到的特征信息确定为该目标特征信息更新后的特征信息。

其中，目标特征信息更新后的特征信息，也即是该目标特征信息对应的视频帧的更新后的特征信息。按照上述步骤305-306，对每个第二特征信息进行更新，即可得到每个第二特征信息更新后的特征信息，也即是获取到多个视频帧的更新后的特征信息。通过多个视频帧的第二特征信息，分别对每个视频帧的第二特征信息进行更新，以增强了多个视频帧的特征信息之间的时序联系，增强多个视频帧更新后的特征信息之间的关联性。并且，对多个第二特征信息进行加权融合，得到目标特征信息对应的第二融合特征信息后，再将融合后的特征信息与目标特征信息进行融合，以保证得到的更新后的特征信息与该目标特征信息对应的视频帧相匹配，即保证更新后的特征信息的准确性。

如图4所示，在得到多个视频帧的第二特征信息后，采用注意力机制，如利用注意力模型，该注意力模型为MSA(Multi-Scale Attention Network，多头注意力网络)，按照上述步骤305-306，对每个第二特征信息进行更新，得到每个第二特征信息更新后的特征信息。在对每个第二特征信息进行更新时，考虑到不同第二特征信息中相同位置的特征之间的时序联系，如图5所示，在对第2个视频帧的第二特征信息进行更新时，考虑到第1个视频帧及第3个视频帧的第二特征信息，以增强了多个视频帧的更新后的特征信息之间的时序联系。

307、计算机设备基于多个视频帧的更新后的特征信息与该模糊视频帧的更新后的特征信息之间的相似度，对该多个视频帧的更新后的特征信息进行加权融合，得到该模糊视频帧对应的第一融合特征信息。

其中，任一视频帧的更新后的特征信息与模糊视频帧的更新后的特征信息之间的相似度，表示该视频帧与该模糊视频帧之间的关联程度。

308、计算机设备基于该第一融合特征信息，对该模糊视频帧进行重建。

由于该第一融合特征信息中融入了多个视频帧的多个尺度的特征信息，丰富了该第一融合特征信息包含的信息量，基于该第一融合特征信息来对模糊视频帧进行重建，能够考虑到其他视频帧的影响，从而提升重建出的视频帧的清晰度，保证重建出的视频帧的准确性。

在一种可能实现方式中，对第一融合特征信息进行卷积处理，得到重建出的视频帧。

其中，能够采取Pixel Shuffle(像素重组)的方式对第一融合特征信息进行卷积处理的过程，重建出的模糊视频帧对应的新的视频帧。

在一种可能实现方式中，该步骤308包括：将第一融合特征信息与该模糊视频帧的更新后的特征信息进行融合，得到第三融合特征信息，基于该第三融合特征信息，对模糊视频帧进行重建。

在得到模糊视频帧对应的第一融合特征信息后，将第一融合特征信息与该模糊视频帧的更新后的特征信息再次进行融合，使得到的第三融合特征信息与该模糊视频帧相匹配，保证得到的第三融合特征信息的准确性，以保证后续重建出的视频帧的清晰度和准确性。如图6所示，在得到多个第二特征信息更新后的特征信息后，采用注意力机制，按照上述步骤307，获取第一融合特征信息，并将第一融合特征信息与该模糊视频帧的更新后的特征信息进行融合，以获取更为准确的第三融合特征信息。

需要说明的是，本申请实施例在获取到每个视频帧的第二特征信息后，先基于多个视频帧的第二特征信息，分别对每个视频帧的第二特征信息进行更新，之后，再以多个视频帧更新后的第二特征信息获取第一融合特征信息，而在另一实施例中，无需执行上述步骤305-306，而是直接基于多个视频帧的第二特征信息与模糊视频帧的第二特征信息之间的相似度，对多个视频帧的第二特征信息进行加权融合，得到该第一融合特征信息。

在一种可能实现方式中，在直接以多个视频帧的第二特征信息获取第一融合特征信息的情况下，对模糊视频帧进行重建的过程，包括：将第一融合特征信息与模糊视频帧的第二特征信息进行融合，得到第四融合特征信息，基于该第四融合特征信息，对模糊视频帧进行重建。

并且，在得到每个视频帧的第二特征信息之后，基于多个视频帧的第二特征信息，分别对每个视频帧的第二特征信息进行更新，以提升多个视频帧的特征信息之间的时序连续，以提升每个视频帧的更新后的特征信息的准确性，以保证后续重建出的视频帧的清晰度和准确性。

并且，在得到模糊视频帧对应的第一融合特征信息后，将第一融合特征信息与该模糊视频帧的更新后的特征信息再次进行融合，使得到的第三融合特征信息与该模糊视频帧相匹配，保证得到的第三融合特征信息的准确性，以保证后续重建出的视频帧的清晰度和准确性。

在上述图2或图3所示的实施例的基础上，在多个尺度的个数为n，n为大于2的整数的情况下，按照多个尺度由小到大的顺序从视频帧中提取多个尺度的第一特征信息，如图7所示，从每个视频帧中提取多个尺度的第一特征信息的过程，包括：

701、计算机设备对于多个视频帧中的每个视频帧，对该视频帧进行特征提取，得到该视频帧的第四特征信息。

其中，第四特征信息用于表征该视频帧，该第四特征信息能够以任意的形式表示，例如，该第四特征信息以矩阵的形式表示。

在一种可能实现方式中，该步骤701包括：对视频帧进行分割，得到多个图像块，分别对每个图像块进行特征提取，得到每个图像块的特征信息；基于该多个图像块在该视频帧中的位置，对多个图像块的特征信息进行拼接，得到该视频帧的第四特征信息。

通过采取先分割再融合的方式，来获取视频帧的第四特征信息，无需直接对大尺寸的视频帧进行特征提取，从而降低计算复杂度。

可选地，每个图像块的特征信息为矩阵，则按照多个图像块在视频帧中的位置，将多个图像块的特征信息拼接成一个矩阵，将拼接得到的矩阵确定为该视频帧的第四特征信息。

702、计算机设备对该第四特征信息进行编码，得到第1个尺度的编码特征信息。

其中，第1个尺度的编码特征信息能够以任意的形式表示，例如，该第1个尺度的特征信息以矩阵的形式表示，该矩阵为二维矩阵或者三维矩阵。

由于该第四特征信息用于表征该视频帧，对该第四特征信息进行编码，以增强第四特征信息中的特征之间的联系，增强编码特征信息对视频帧的表征能力。

在一种可能实现方式中，该第四特征信息属于第1尺度，对该第四特征信息进行编码，仅提升特征信息对视频帧的表征能力，而不对特征信息的尺度进行变换。

703、计算机设备对该第1个尺度的编码特征信息进行降维和编码，得到第2个尺度的编码特征信息，直至得到第n-1个尺度的编码特征信息。

在本申请实施例中，按照多个尺度由大到小的顺序，依次获取多个尺度的编码特征信息，第1个尺度为多个尺度中的最大尺度，由第1个尺度至第n-1个尺度，尺度逐渐变小。通过对第1个尺度的编码特征信息进行降维，以获取第2个尺度的特征信息，并再次进行编码，以进一步增强第2个尺度的特征信息对视频帧的表征能力。按照上述获取第2个尺度的编码特征信息的方式，继续获取下一个尺度的编码特征信息，直至得到第n-1个尺度的编码特征信息。

例如，对第2个尺度的编码特征信息进行降维和编码，得到第3个尺度的编码特征信息；对第3个尺度的编码特征信息进行降维和编码，得到第4个尺度的编码特征信息。

704、计算机设备对该第n-1个尺度的编码特征信息进行降维，得到第n个尺度的编码特征信息。

通过对该第n-1个尺度的编码特征信息进行降维，以获取第n个尺度的特征信息，将获取到的第n个尺度的特征信息作为该第n个尺度的编码特征信息。

705、计算机设备对该第n个尺度的编码特征信息进行解码，得到该第n个尺度的第一特征信息。

对该第n个编码特征信息进行解码，以增强特征信息中的特征之间的联系，从而增强编码特征信息对视频帧的表征能力。

在本申请实施例中，对特征信息进行解码时，仅是增强特征信息中的特征之间的联系，并不会对特征信息的尺度进行变换。

706、计算机设备对第n个尺度的第一特征信息进行升维，得到该第n-1个尺度的升维特征信息；对该第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息进行解码，得到该第n-1个尺度的第一特征信息，直至得到该第1个尺度的第一特征信息。

其中，在n个尺度中，第n个尺度为n个尺度中的最小尺度，第1个尺度为多个尺度中的最大尺度，由第1个尺度至第n-1个尺度，尺度逐渐变小。

在本申请实施例中，按照多个尺度由小到大的顺序依次获取多个尺度的第一特征信息。并且，在获取除第n个尺度的第一特征信息外的其他尺度的第一特征信息，均是基于相邻的小尺度的第一特征信息以及与当前尺度的编码特征信息来获取的，以增强多个尺度的第一特征信息对视频帧的表征能力。

通过对第n个尺度的第一特征信息进行升维，并基于第n-1的升维特征信息及第n-1个尺度的编码特征信息，获取第n-1个尺度的第一特征信息，以此来推，基于第n-1个尺度的第一特征信息及第n-2个尺度的编码特征信息，获取第n-3个尺度的编码特征信息，直至获取到第1个尺度的第一特征信息。

例如，n为3，对第3个尺度的编码特征信息进行解码处理，得到第3个尺度的第一特征信息；对第3个尺度的第一特征信息进行升维，得到第2个尺度的升维特征信息，对第2的升维特征信息及第2个尺度的编码特征信息进行解码，得到第2个尺度的第一特征信息；对第2个尺度的第一特征信息进行升维，得到第1个尺度的升维特征信息，对第1的升维特征信息及第1个尺度的编码特征信息进行解码，得到第1个尺度的第一特征信息。

需要说明的是，上述图7所示的实施例是以任一视频帧为例来进行说明的，而对于多个视频帧，按照上述步骤701-706，即可获取到每个视频帧的n个尺度的第一特征信息。

本申请实施例提供的方法，对于多个视频帧中的每个视频帧，从该视频帧的第四特征信息开始，采用多次编码和多次解码的方式，获取每个视频帧的多个尺度的第一特征信息，以增强每个第一特征信息对视频帧的表征能力，从而提升每个视频帧的多个尺度的第一特征信息的准确性。

并且，在获取除第n个尺度的第一特征信息外的其他尺度的第一特征信息，均是基于相邻的小尺度的第一特征信息以及与当前尺度的编码特征信息来获取的，以增强多个尺度的第一特征信息对视频帧的表征能力。

上述图7所示的实施例的基础上，对第1个尺度的编码特征信息进行降维后，对降维特征信息，采取先分割成多个局部矩阵进行更新，之后再融合的方式，获取第2个编码特征信息。如图8所示，获取第2个编码特征信息的过程，包括：

801、计算机设备对该第1个尺度的编码特征信息进行降维，得到该第2个尺度的降维特征信息。

其中，该2个尺度小于第1个尺度。对编码特征信息进行降维时能够采取多种降维方式，例如，采用Embedding-Reduction(一种降维处理)对编码特征信息进行降维。

在一种可能实现方式中，该第1个尺度为第2个尺度的2倍。

例如，第1个尺度的编码特征信息为三维矩阵，该三维矩阵的维度为d×H×W，降维得到的第2个尺度的降维特征信息也为三维矩阵，该三维矩阵的维度为

802、计算机设备对该第2个尺度的降维特征信息进行分割，得到多个第一局部矩阵。

在本申请实施例中，第2个尺度的降维特征信息为矩阵，对该降维特征信息进行分割即可得到多个第一局部矩阵。其中，每个第一局部矩阵包括多个位置上的特征，例如，该第一局部矩阵为二维矩阵或三维矩阵，该第一局部矩阵包括的多个特征均为一维特征值，则该第一局部矩阵为二维矩阵；该第一局部矩阵包括的多个特征均为的向量，则该第一局部矩阵为三维矩阵。

在一种可能实现方式中，多个第一局部矩阵的尺寸大小相同，即每个第一局部矩阵包括的多个位置上的特征的数目相同。

在一种可能实现方式中，在该降维特征信息为三维特征矩阵的情况下，对该降维特征信息分割得到的多个第一局部矩阵也为三维特征矩阵；或者，在该降维特征信息为二维特征矩阵的情况下，对该降维特征信息分割得到的多个第一局部矩阵也为二维特征矩阵。

例如，该降维特征信息为三维特征矩阵，该三维特征矩阵的维度为d×H×W，分割得到的每个第一局部矩阵也是三维特征矩阵，每个第一局部矩阵的维度为d×p×p，即仅是将降维特征信息中H×W维度划分成多个p×p大小，d维度保持不变。再例如，该降维特征信息为三维特征矩阵，该三维特征矩阵的维度为H×W，而每个第一局部矩阵的维度为p×p。

803、计算机设备对于每个特征，基于该特征所在的第一局部矩阵中的多个特征及该多个特征的位置特征，对该特征进行更新。

其中，位置特征指示对应的特征在第一局部矩阵中的位置，该位置特征能够以任意的形式表示，例如，该位置特征以向量或矩阵的形式表示。对于每个第一局部矩阵，该第一局部矩阵包括多个特征，基于该多个特征及该多个特征的位置特征，分别对每个特征进行更新，使得每个特征中不仅融入了自身的位置特征，还融入了位于同一第一局部矩阵的其他特征以及其他特征的位置特征，从而增强同一第一局部矩阵中不同位置上的特征之间的关联。

在一种可能实现方式中，该步骤803包括：对于每个第一局部矩阵，将该第一局部矩阵中的多个特征，分别与对应的位置特征进行融合，得到多个第一融合特征；对于该第一局部矩阵中的每个特征，基于该特征对应的第一融合特征与该多个第一融合特征之间的相似度，对该多个第一融合特征进行加权融合，将加权融合得到的特征确定为该特征更新后的特征。

其中，对于第一局部矩阵中的任一特征，该特征对应的第一融合特征与多个第一融合特征之间的相似度，表示该第一局部特征中的多个特征对应的第一融合特征与该特征对应的第一融合特征之间的关联程度。

按照多个第一融合特征与该特征对应的第一融合特征之间的相似度，对多个第一融合特征进行加权融合，将加权融合得到的特征确定为该特征更新后的特征，使得更新后的特征中融入的其他位置上的特征，是按照与其他特征之间的关联程度来融合的，从而提升了更新后的特征的准确性。

804、计算机设备将同一第一局部矩阵更新后的多个特征构成第二局部矩阵。

对于同一第一局部矩阵，得到该第一局部矩阵中多个特征更新后的特征，即得到该第一局部矩阵更新后的多个特征，按照该多个特征在该第一局部矩阵中的位置，将更新后的多个特征构成该第二局部矩阵。

在一种可能实现方式中，每个第一局部特征中多个特征对应的位置特征构成位置矩阵，则对第一局部特征中的每个特征进行更新的过程，满足以下关系：

Z＝Flatten(X+LPE)

Q＝ZW_q，K＝ZW_k，V＝ZW_υ

其中，X用于表示任一第一局部矩阵，LPE用于表示该第一局部特征对应的位置矩阵，Flatten(·)用于表示映射矩阵，用于对特征矩阵的维度进行变换；Z用于表示多个第一融合特征构成的融合矩阵；W_q，W_k，W_υ用于表示映射矩阵，均为常数矩阵；Q，K，V分别表示对融合矩阵Z进行映射变换后的矩阵；Attention(Q，K，V)用于表示更新后的多个特征构成的第二局部矩阵；SoftMax(·)用于表示逻辑回归函数，d用于表示第一局部矩阵中的每个特征的维度，T用于表示对矩阵的转置。

805、计算机设备基于该多个第一局部矩阵在该第2个尺度的降维特征信息中的位置，对多个第二局部矩阵进行拼接，得到第一拼接矩阵。

其中，多个第一局部矩阵是从该降维特征信息中分割出来的，不同的第一局部矩阵在该降维特征信息中的位置不同。在得到每个第一局部矩阵对应的第二局部矩阵后，按照多个第一局部矩阵在降维特征信息中的位置，对多个第二局部矩阵进行拼接，保证多个第二局部矩阵在第一拼接矩阵中的位置，与对应的第一局部矩阵在该降维特征信息中的位置相同，以保证得到的第一拼接矩阵的准确性。

在一种可能实现方式中，该步骤805包括：对每个第二局部矩阵进行特征转换，得到更新后的第二局部特征，基于该多个第一局部矩阵在该第2个尺度的降维特征信息中的位置，对更新后的多个第二局部矩阵进行拼接，得到第一拼接矩阵息。

其中，在得到每个第二局部矩阵后，对每个第二局部矩阵进行特征转换，以将每个第二局部矩阵映射到目标特征空间内，从而得到更新后的多个第二局部矩阵，即更新后的多个第二局部矩阵属于该目标特征空间内。对每个第二局部矩阵进行特征转换能够采用多种方法，例如，采用Linear Projection(一种线性映射方法)或者Feed-forward Network(前馈网络)，将每个第二局部矩阵映射到目标特征空间内，以得到属于该目标特征空间内的更新后的多个第二局部矩阵。

本申请实施例是先将降维特征信息分割成多个局部矩阵，对多个局部矩阵分别进行更新，之后，再将更新后的局部矩阵再进行拼接，从而得到该降维特征信息更新后的特征信息，即为第一拼接矩阵。由于每个局部矩阵包含的特征数量比降维特征信息中包含的特征数量少，这样分割成多个局部矩阵再分别对局部矩阵中的特征进行更新的方式，使得对每个局部矩阵进行更新时涉及到的特征数量少，计算复杂度低，这样降低了对降维特征信息进行更新的计算复杂度。

在一种可能实现方式中，计算复杂度与局部矩阵的尺寸大小成正相关关系，即计算复杂度满足以下关系：

o(LTB)＝2p²HWd

其中，o(LTB)用于表示计算复杂度，p表示局部矩阵的尺寸大小，在本申请实施例中，局部矩阵的尺寸为p×p；H、W为第2个尺度的降维特征信息的尺寸，d为局部矩阵中每个特征的特征维度。

806、计算机设备将该第一拼接矩阵，确定为该第2个尺度的编码特征信息。

由于该降维特征信息属于第2个尺度，即更新后的第一拼接特征也属于第2个尺度，该第一拼接矩阵即为第2个尺度的编码特征信息。

需要说明的是，本申请实施例是直接将第一拼接矩阵作为第2个尺度的编码特征信息的，而在另一实施例中无需执行步骤806，而是采取其他方式，基于该第一拼接矩阵，确定该第2个尺度的编码特征信息。

在一种可能实现方式中，在得到第一拼接矩阵后，对第一拼接矩阵进行特征转换，得到该第2个尺度的编码特征信息。

对第一拼接矩阵进行特征转换，以将该第一拼接矩阵映射到目标特征空间内，从而得到该第2个尺度的编码特征信息。对第一拼接矩阵进行特征转换能够采用多种方法，例如，采用Linear Projection或者Feed-forward Network，将第一拼接矩阵映射到目标特征空间内，以得到属于该目标特征空间内的第2个尺度的编码特征信息。

本申请实施例提供的方法，先将降维特征信息分割成多个局部矩阵，对多个局部矩阵分别进行更新，之后，再将更新后的局部矩阵再进行拼接，从而得到该降维特征信息更新后的特征信息，即为第一拼接矩阵，将该第一拼接矩阵作为第2个尺度的编码特征信息。由于每个局部矩阵包含的特征数量比降维特征信息中包含的特征数量少，这样对每个局部矩阵进行更新时涉及到的特征数量少，计算复杂度低，这样降低了对降维特征信息进行更新的计算复杂度，从而降低了获取多尺度的编码特征信息的计算复杂度。

需要说明的是，在上述图3所示的实施例的基础上，在得到第一融合特征信息后，还能够按照上述图8所示的实施例中的步骤802-805对第2个尺度的降维特征信息进行更新的方式，对第一融合特征信息进行多次更新，基于更新后的第一融合特征信息，对模糊视频帧进行重建。在得到第一融合特征信息后，在对第一融合特征信息进行多次更新，以提升第一融合特征信息对视频帧的表征能力，进一步提升特征信息的准确性。

在上述图8所示的实施例的基础上，对得到的第2个尺度的降维信息进行编码时，先对降维特征信息中的特征进行位置变换，之后再采用分割的方式对变换后的降维特征信息进行更新之后，对更新后的降维特征信息中的特征进行位置反变换，以提升最终得到的特征信息中的特征之间的关联性。如图9所示，获取第2个编码特征信息的过程，包括：

901、计算机设备对该第1个尺度的编码特征信息进行降维，得到该第2个尺度的降维特征信息。

该步骤与上述步骤801同理，在此不再赘述。

902、计算机设备基于第一位置变换矩阵，对该降维特征信息中的特征进行位置变换，得到更新后的降维特征信息。

其中，第一位置变换矩阵用于对矩阵包含的特征的位置进行变换。

在一种可能实现方式中，该第2个尺度的降维特征信息为矩阵，则将该第一位置变换矩阵与该降维特征信息相乘得到的矩阵，即为更新后的降维特征信息。

例如，降维特征信息为3×3的矩阵，通过第一位置变换矩阵对该降维特征信息进行变换，变换后的降维特征信息与原来的降维特征信息如图10所示。

903、计算机设备对更新后的降维特征信息进行分割，得到多个第一局部矩阵。

904、计算机设备对于每个特征，基于该特征所在的第一局部矩阵中的多个特征及该多个特征的位置特征，对该特征进行更新。

905、计算机设备将同一第一局部矩阵更新后的多个特征构成第二局部矩阵。

906、计算机设备基于该多个第一局部矩阵在该更新后的降维特征信息中的位置，对多个第二局部矩阵进行拼接，得到第一拼接矩阵。

该步骤903-906与上述步骤802-805同理，在此不再赘述。

907、计算机设备基于第二位置变换矩阵，对该第一拼接矩阵中的特征进行位置变换，将变换得到的特征矩阵确定为该第2个尺度的编码特征信息。

其中，第二位置变换矩阵为第一位置变换矩阵的反变换矩阵。在得到第一拼接矩阵后，基于该第二位置变换矩阵，对第一拼接矩阵中的特征进行位置变换，以使变换得到的特征矩阵中每个特征所在的位置，与每个特征未更新前在降维特征信息中的位置相同，实现了对特征所处的位置进行还原，以保证得到的编码特征信息的准确性。

在一种可能实现方式中，该步骤907包括：对该第一拼接矩阵中的特征进行位置变换后，对变换得到的特征矩阵进行特征转换，得到该第2个尺度的编码特征信息。

其中，对变换得到的特征矩阵进行特征转换能够采用多种方法，例如，采用LinearProjection或者Feed-forward Network，将第一拼接矩阵映射到目标特征空间内，以得到属于该目标特征空间内的第2个尺度的编码特征信息。

本申请实施例提供的方法，在对降维特征信息进行编码时，先对降维特征信息中的特征进行位置变换，得到更新后的降维特征信息，再将更新后的降维特征信息分割成多个第一局部矩阵进行更新，使得更新后的每个特征融入了可能不属于同一个局部区域的其他位置上的特征，提升了长距离建模能力，增强了降维特征信息中不同位置上的特征之间的关联性，以保证得到的编码特征信息的准确性。

需要说明的是，上述图8及图9所示的两种方式能够任意结合，例如，先按照上述步骤801-805，得到第一拼接矩阵之后，再按照上述步骤902-907，对第一拼接矩阵处理，得到第2个尺度的编码特征信息；或者，先按照上述步骤901-906得到第一拼接矩阵后，再按照上述步骤802-805，对第一拼接特征进行处理，得到第2个尺度的编码特征信息。

需要说明的是，上述图8或图9所示的实施例均是以第1尺度的编码特征信息来获取第2尺度的编码特征信息为例进行说明的，而在获取第2尺度的编码特征信息之后，基于第2尺度的编码特征信息，按照上述图8或图9所示的实施例，获取下一个尺度的编码特征信息，直至获取到第n-1个尺度的编码特征信息。

在上述图7所示的实施例的基础上，先将该第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息进行融合，之后对融合特征信息，采取先分割成多个局部矩阵进行更新，之后再融合的方式，获取第n-1个尺度的第一特征信息。如图11所示，对该第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息进行解码的过程，包括：

1101、计算机设备将该第n-1个尺度的升维特征信息与该第n-1个尺度的编码特征信息进行融合，得到该第n-1个尺度的融合特征信息。

其中，第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息均能够以任意的形式表示，例如，第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息均以矩阵的形式表示，则将该第n-1个尺度的升维特征信息与该第n-1个尺度的编码特征信息相加得到的矩阵，即为该第n-1个尺度的融合特征信息。

1102、计算机设备对该第n-1个尺度的融合特征信息进行分割，得到多个第三局部矩阵。

其中，第三局部矩阵包括多个位置上的特征。该步骤与上述步骤802同理，在此不再赘述。

1103、计算机设备对于每个特征，基于该特征所在的第三局部矩阵中的多个特征及该多个特征的位置特征，对该特征进行更新。

其中，位置特征指示对应的特征在第三局部矩阵中的位置。该步骤与上述步骤803同理，在此不再赘述。

1104、计算机设备将同一第三局部矩阵更新后的多个特征构成第四局部矩阵。

该步骤与上述步骤804同理，在此不再赘述。

1105、计算机设备基于该多个第三局部矩阵在该第n-1个尺度的融合特征信息中的位置，对多个第四局部矩阵进行拼接，得到第二拼接矩阵。

该步骤与上述步骤805同理，在此不再赘述。

1106、计算机设备将该第二拼接矩阵，确定为该第n-1个尺度的第一特征信息。

需要说明的是，本申请是以先将升维特征信息与编码特征信息进行融合后再解码来获取第一特征信息的，而在另一实施例中，无需执行步骤1101-1106，而是采取其他方式，对该第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息进行解码。

需要说明的是，本申请实施例是以直接将第二拼接矩阵作为第n-1个尺度的第一特征信息，而在另一实施例中无需执行步骤1106，而是采取其他方式，基于该第二拼接矩阵，确定该第n-1个尺度的第一特征信息。

在一种可能实现方式中，在得到第二拼接矩阵后，对第二拼接矩阵进行特征转换，得到该第n-1个尺度的编码特征信息。

对第二拼接矩阵进行特征转换，以将该第二拼接矩阵映射到目标特征空间内，从而得到该第n-1个尺度的编码特征信息。对第一拼接矩阵进行特征转换能够采用多种方法，例如，采用Linear Projection或者Feed-forward Network，将第一拼接矩阵映射到目标特征空间内，以得到属于该目标特征空间内的第n-1个尺度的编码特征信息。

本申请实施例提供的方法，先将第n-1个尺度的融合特征信息分割成多个局部矩阵，对多个局部矩阵分别进行更新，之后，再将更新后的局部矩阵再进行拼接，从而得到该第n-1个尺度的融合特征信息更新后的特征信息，即为第二拼接矩阵，将该第二拼接矩阵作为第n-1个尺度的第一特征信息。由于每个局部矩阵包含的特征数量比降维特征信息中包含的特征数量少，这样对每个局部矩阵进行更新时涉及到的特征数量少，计算复杂度低，这样降低了对降维特征信息进行更新的计算复杂度，从而降低了获取多尺度的第一特征信息的计算复杂度。

在上述图11所示的实施例的基础上，对第n-1个尺度的融合特征信息进行分割之前时，先对融合特征信息中的特征进行位置变换，然后再分割成局部矩阵进行编码，之后，再将多个局部矩阵拼接后的矩阵进行位置反变换，以提升最终得到的特征信息中的特征之间的关联性。如图12所示，对该第n-1个尺度的升维特征信息及该第n-1个尺度的编码特征信息进行解码的过程，包括：

1201、计算机设备将该第n-1个尺度的升维特征信息与该第n-1个尺度的编码特征信息进行融合，得到该第n-1个尺度的融合特征信息。

该步骤与上述步骤1101同理，在此不再赘述。

1202、计算机设备基于第三位置变换矩阵，对该融合特征信息中的特征进行位置变换，得到更新后的融合特征信息。

其中，第三位置变换矩阵用于对矩阵包含的特征的位置进行变换。该步骤与上述步骤902同理，在此不再赘述。

1203、计算机设备对该更新后的融合特征信息进行分割，得到多个第三局部矩阵。

1204、计算机设备对于每个特征，基于该特征所在的第三局部矩阵中的多个特征及该多个特征的位置特征，对该特征进行更新。

1205、计算机设备将同一第三局部矩阵更新后的多个特征构成第四局部矩阵。

1206、计算机设备基于该多个第三局部矩阵在该更新后的融合特征信息中的位置，对多个第四局部矩阵进行拼接，得到第二拼接矩阵。

该步骤1203-1206与上述步骤1102-1105同理，在此不再赘述。

1207、计算机设备基于第四位置变换矩阵，对该第二拼接矩阵中的特征进行位置变换，将变换得到的特征矩阵确定为该第n-1个尺度的第一特征信息。

其中，第四位置变换矩阵为第三位置变换矩阵的反变换矩阵。在得到第二拼接矩阵后，基于该第四位置变换矩阵，对第二拼接矩阵中的特征进行位置变换，以使变换得到的特征矩阵中每个特征所在的位置，与每个特征未更新前在第n-1个尺度的升维特征信息中的位置相同，实现了对特征所处的位置进行还原，以保证得到的第一特征信息的准确性。

在一种可能实现方式中，该步骤1207包括：对该第二拼接矩阵中的特征进行位置变换后，对变换得到的特征矩阵进行特征转换，得到该第n-1个尺度的编码特征信息。

其中，对变换得到的特征矩阵进行特征转换能够采用多种方法，例如，采用LinearProjection或者Feed-forward Network，将第二拼接矩阵映射到目标特征空间内，以得到属于该目标特征空间内的第n-1个尺度的编码特征信息。

本申请实施例提供的方法，在对第n-1个尺度的升维特征信息与该第n-1个尺度的编码特征信息进行融合后，先对第n-1个尺度的融合特征信息中的特征进行位置变换，得到更新后的融合特征信息，再将更新后的融合特征信息分割成多个第三局部矩阵进行更新，使得更新后的每个特征融入了可能不属于同一个局部区域的其他位置上的特征，提升了长距离建模能力，增强了降维特征信息中不同位置上的特征之间的关联性，以保证得到的第一特征信息的准确性。

需要说明的是，上述图11及图12所示的两种解码过程能够任意结合，例如，先按照上述步骤1101-1105，得到第二拼接矩阵之后，再按照上述步骤1202-1207，对第二拼接矩阵处理，得到第n-1个尺度的第一特征信息；或者，先按照上述步骤1201-1206得到第二拼接矩阵后，再按照上述步骤1102-1105，对第二拼接特征进行处理，得到第n-1个尺度的第一特征信息。

需要说明的是，上述图11或图12所示的实施例均是以第n尺度的第一特征信息来获取第n-1尺度的第一特征信息为例进行说明的，而在获取第n-1尺度的第一特征信息之后，基于第n-1尺度的第一特征信息，按照上述图11或图12所示的实施例，获取下一个尺度的第一特征信息，直至获取到第1个尺度的第一特征信息。

需要说明的是，上述图7所示的实施例是以n为大于2的整数为例来进行说明的，而在另一实施例中，多个尺度的个数为2，则如图13所示，从每个视频帧中提取多个尺度的第一特征信息的过程，包括：

1301、计算机设备对于多个视频帧中的每个视频帧，对该视频帧进行特征提取，得到该视频帧的第四特征信息。

1302、计算机设备对该第四特征信息进行编码，得到第1个尺度的编码特征信息。

1303、计算机设备对该第1个尺度的编码特征信息进行降维，得到第2个尺度的编码特征信息。

1304、计算机设备对该第2个尺度的编码特征信息进行解码，得到该第2个尺度的第一特征信息。

1305、计算机设备对该第2个尺度的第一特征信息进行升维，得到该第1个尺度的升维特征信息，对该第1个尺度的升维特征信息及该第1个尺度的编码特征信息进行解码，得到该第1个尺度的第一特征信息。

该步骤1301-1305，与上述图7所示的实施例中的步骤同理，在此不再赘述。

需要说明的是，在上述图3所示的实施例的基础上，对视频帧进行处理的过程是基于视频帧处理模型来实现的，在此之前，需要对视频帧处理模型进行训练，如图14所示，对视频帧处理模型进行训练的过程，包括：

1401、计算机设备获取样本视频帧序列，该样本视频帧序列包括连续的多个样本视频帧，该多个样本视频帧包括样本模糊视频帧，并获取该样本模糊视频帧对应的标签视频帧。

其中，样本视频帧序列是任一视频包含的视频帧序列，该样本视频帧序列中包括样本模糊视频帧。标签视频帧的清晰度大于该样本模糊视频帧，可选地，该标签视频帧是通过对该样本模糊视频帧进行去模糊处理后得到的视频帧。可选地，标签视频帧是由人工对样本模糊视频帧进行去模糊处理得到的。

1402、计算机设备基于该视频帧处理模型，对该样本视频帧序列中的样本视频帧进行处理，得到该样本模糊视频帧对应的预测视频帧。

该步骤与上述图2或图3所示的实施例类似，基于该视频帧处理模型，按照上述图2或图3中的步骤，对样本视频帧序列中的多个样本视频帧处理，重建出样本模糊视频帧对应的预测视频帧。

1403、计算机设备基于图像对比模型，分别对该标签视频帧及该预测视频帧进行特征提取，得到该标签视频帧的第五特征信息及该预测视频帧的第六特征信息。

其中，图像对比模型用于对图像的特征信息进行对比。该第五特征信息用于表征标签视频帧，第六特征信息用于表征预测视频帧。

1404、计算机设备基于图像对比模型，获取该第五特征信息与第六特征信息之间的特征差异度，将该特征差异度，确定为第一损失值。

其中，特征差异度表示第五特征信息与第六特征信息之间的差异程度。基于该特征差异度，能够反映出视频帧处理模型的准确性。因此，将该特征差异度作为训练视频帧处理模型的损失值。

1405、计算机设备基于该第一损失值，对该视频帧处理模型进行训练。

通过该第一损失值，对视频帧处理模型进行训练，以提升视频帧处理模型的准确性。

在一种可能实现方式中，对视频帧处理模型进行训练的过程包括：基于该标签视频帧及该预测视频帧之间的图像差异度，获取第二损失值；基于该第一损失值及该第二损失值，对该视频帧处理模型进行训练。

其中，图像差异度用于表示标签视频帧及预测视频帧之间的图像差异程度，例如，该图像差异度是基于标签视频帧及预测视频帧中的像素差异得到的。

由于该第一损失值及该第二损失值均能够反映出视频帧处理模型的准确度，基于该第一损失值及该第二损失值对视频帧处理模型进行训练，以提升视频帧处理模型的准确性。

本申请实施例提供的方法，通过结合图像对比模型，以视频帧处理模型输出的预测视频帧与标签视频帧的特征信息之间的特征差异度，对视频帧处理模型进行训练，以提升视频帧处理模型的准确性。

并且，还考虑到预测视频帧与标签视频帧之间的图像差异度，结合图像差异度及特征差异度，对视频帧处理模型进行训练，考虑到多方面因素的影响，进一步提升视频帧处理模型的准确性。

基于上述图14所示的实施例，提供了一种基于视频帧处理模型对视频帧进行处理的流程图，该视频帧处理模型包括特征提取子模型、特征更新子模型、时序关联子模型、局部更新子模型及像素重组子模型，如图15所示，该流程包括：

1501、获取视频帧序列，该视频帧序列包括连续的多个视频帧，该多个视频帧包括模糊视频帧。

1502、对于每个视频帧，基于特征提取子模型，将该视频帧分割成多个图像块，提取每个图像块的特征信息，基于多个图像块在视频帧中的位置上，将多个图像块的特征信息拼接成该视频帧的特征信息。

1503、基于特征更新子模型，按照上述图7所示的实施例，从每个视频帧中提取多个尺度的第一特征信息，并按照上述步骤303-304，得到每个视频帧的第二特征信息。

在一种可能实现方式中，特征更新子模型包括多个编码层、多个降维层、多个升维层及多个解码层。

其中，编码层用于对特征信息进行编码，如该编码层用于按照上述步骤702对特征信息进行编码。降维层用于对特征信息进行降维处理，升维层用于对特征信息进行升维处理，解码层用于对特征信息进行解码，如该解码层用于按照上述步骤705对特征信息进行解码。

其中，特征更新子模型为Transformer-based encoder-decoder(一种编解码器)，该编码层为LTB(Local Transformer Block，局部更新网络)，该降维层为EmbeddingReduction(降维处理网络)，该升维层为EmbeddingExpansion(扩展处理网络)，该解码层为LTB。基于该特征更新子模型包括的编码层、降维层、升维层及解码层，对特征信息进行更新的过程，如图16所示。

1504、基于时序关联子模型，按照上述步骤305-307，对每个视频帧的第二特征信息进行更新，并获取模糊视频帧对应的第一融合特征信息。

1505、基于局部更新子模型，按照上述图8所示的实施例中的步骤502-505对第2个尺度的降维特征信息进行更新的方式，对第一融合特征信息进行多次更新。

1506、基于像素重组子模型，对更新后的特征信息进行重建，得到该模糊视频帧对应的目标视频帧，该目标视频帧的清晰度大于该模糊视频帧的清晰度。

本申请实施例提供过的视频帧处理方法能够应用于多种场景下，例如，应用于拍照场景下。用户通过终端对物体进行拍摄，得到视频，用户通过该终端选择视频中的任意视频帧作为模糊视频帧，并生成包含的模糊视频帧的视频帧序列，之后按照本申请实施例提供的视频帧处理方法，基于该视频帧序列，对模糊视频帧进行重建，得到目标视频帧，将视频中的模糊视频帧替换为目标视频帧，从而得到更新后的视频，该更新后的视频中不存在模糊视频帧的情况，提升了用户的拍摄体验。

再例如，应用于识别场景下。在人脸识别场景下，需要拍摄用户人脸的视频，对该视频中的视频帧进行图像质量检测，确定出视频中的模糊视频帧，从该视频帧中提取包含该模糊视频帧的视频帧序列，按照本申请实施例提供的视频帧处理方法，基于该视频帧序列，对模糊视频帧进行重建，得到目标视频帧，将该视频中的模糊视频帧替换为该目标视频帧，得到更新后的视频，基于更新后的视频进行人脸识别，无需在视频中存在模糊视频帧的情况下，提示用户重新拍摄，从而提升了人脸识别的效率和准确性。

另外，本申请实施例提供的视频帧处理方法还能够作为一种对视频进行预处理的一种方式，以便后续基于更新后的视频来实现目标检测、图像分割等其他任务。

如表1和表2所示，基于两种数据集，将本申请实施例提供的视频帧处理方法，与相关技术中的视频帧处理方法进行对比。其中，第一数据集为DVD(一种视频)数据集，第二数据集为GOPRO(一种视频)数据集，峰值信噪比(PSNR，Peak Signal to Noise Ratio)，结构相似性(SSIM，Structural Similarity)。通过表2对比可知，本申请实施例提供的方法，对模糊视频帧的处理效果更好。并且，通过图17可知，本申请实施例提供的方法能够降低计算复杂度(GFLOPs，Giga Floating-point Operations Per second)，并能够保证去模糊的视频帧的准确性。基于本申请实施例提供的方法以及相关技术中的方法，对同一模糊视频帧进行处理。在重建出的多个视频帧中，确定模糊视频帧中的一个局部区域对应的局部区域，对重建出的多个视频帧中多个局部区域进行比较，如图18所示。通过图18中的局部区域对比可知，本申请实施例提供的方法重建出的视频帧的清晰度更高。

表1

数据集	训练集	测试集
			第一数据集	61个视频，共5708帧	10个视频，共300帧
第二数据集	22个视频，共2103帧	11个视频，共1111帧

表2

图19是本申请实施例提供的一种视频帧处理装置的结构示意图，如图19所示，该装置包括：

获取模块1901，用于获取视频帧序列，视频帧序列包括连续的多个视频帧，多个视频帧包括模糊视频帧；

融合模块1902，用于从每个视频帧中提取多个尺度的第一特征信息，分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息；

融合模块1902，还用于基于多个视频帧的第二特征信息与模糊视频帧的第二特征信息之间的相似度，对多个视频帧的第二特征信息进行加权融合，得到模糊视频帧对应的第一融合特征信息；

重建模块1903，用于基于第一融合特征信息，对模糊视频帧进行重建。

在一种可能实现方式中，如图20所示，融合模块1902，包括：

变换单元1921，用于对于任一视频帧对应的多个第一特征信息，将除目标尺度的第一特征信息以外的其他第一特征信息变换至目标尺度，目标尺度为多个尺度中的最大尺度；

融合单元1922，用于将变换后的多个第一特征信息进行融合，得到视频帧的第二特征信息。

在另一种可能实现方式中，融合单元1922，用于将变换后的多个第一特征信息进行拼接，得到拼接特征信息；对拼接特征信息进行卷积处理，得到视频帧的第二特征信息。

在另一种可能实现方式中，多个尺度的个数为2，如图20所示，融合模块1902，包括：

提取单元1923，用于对于多个视频帧中的每个视频帧，对视频帧进行特征提取，得到视频帧的第四特征信息；

编码单元1924，用于对第四特征信息进行编码，得到第1个尺度的编码特征信息；

降维单元1925，用于对第1个尺度的编码特征信息进行降维，得到第2个尺度的编码特征信息；

解码单元1926，用于对第2个尺度的编码特征信息进行解码，得到第2个尺度的第一特征信息；

解码单元1926，还用于对第2个尺度的第一特征信息进行升维，得到第1个尺度的升维特征信息，对第1个尺度的升维特征信息及第1个尺度的编码特征信息进行解码，得到第1个尺度的第一特征信息。

在另一种可能实现方式中，多个尺度的个数为n，n为大于2的整数，如图20所示，融合模块1902，包括：

编码单元1924，还用于对第1个尺度的编码特征信息进行降维和编码，得到第2个尺度的编码特征信息，直至得到第n-1个尺度的编码特征信息；

降维单元1925，用于对第n-1个尺度的编码特征信息进行降维，得到第n个尺度的编码特征信息；

解码单元1926，用于对第n个尺度的编码特征信息进行解码，得到第n个尺度的第一特征信息；

解码单元1926，还用于对第n个尺度的第一特征信息进行升维，得到第n-1个尺度的升维特征信息，对第n-1个尺度的升维特征信息及第n-1个尺度的编码特征信息进行解码，得到第n-1个尺度的第一特征信息，直至得到第1个尺度的第一特征信息。

在另一种可能实现方式中，第1个尺度的编码特征信息为矩阵；编码单元1924，用于对第1个尺度的编码特征信息进行降维，得到第2个尺度的降维特征信息；对降维特征信息进行分割，得到多个第一局部矩阵，第一局部矩阵包括多个位置上的特征；对于每个特征，基于特征所在的第一局部矩阵中的多个特征及多个特征的位置特征，对特征进行更新，位置特征指示对应的特征在第一局部矩阵中的位置；将同一第一局部矩阵更新后的多个特征构成第二局部矩阵；基于多个第一局部矩阵在降维特征信息中的位置，对多个第二局部矩阵进行拼接，得到第一拼接矩阵；基于第一拼接矩阵，确定第2个尺度的编码特征信息。

在另一种可能实现方式中，编码单元1924，用于对于每个第一局部矩阵，将第一局部矩阵中的多个特征，分别与对应的位置特征进行融合，得到多个第一融合特征；对于第一局部矩阵中的每个特征，基于特征对应的第一融合特征与多个第一融合特征之间的相似度，对多个第一融合特征进行加权融合，将加权融合得到的特征确定为特征更新后的特征。

在另一种可能实现方式中，编码单元1924，用于将第一拼接矩阵，确定为第2个尺度的编码特征信息。

在另一种可能实现方式中，如图20所示，装置还包括：

变换模块1904，用于基于第一位置变换矩阵，对降维特征信息中的特征进行位置变换，得到更新后的降维特征信息；

编码单元1924，用于基于第二位置变换矩阵，对第一拼接矩阵中的特征进行位置变换，将变换得到的特征矩阵确定为第2个尺度的编码特征信息，第二位置变换矩阵为第一位置变换矩阵的反变换矩阵。

在另一种可能实现方式中，解码单元1926，用于将第n-1个尺度的升维特征信息与第n-1个尺度的编码特征信息进行融合，得到第n-1个尺度的融合特征信息；对第n-1个尺度的融合特征信息进行解码处理，得到第n-1个尺度的第一特征信息。

在另一种可能实现方式中，第n-1个尺度的融合特征信息为矩阵；解码单元1926，用于对第n-1个尺度的融合特征信息进行分割，得到多个第三局部矩阵，第三局部矩阵包括多个位置上的特征；对于每个特征，基于特征所在的第三局部矩阵中的多个特征及多个特征的位置特征，对特征进行更新，位置特征指示对应的特征在第三局部矩阵中的位置；将同一第三局部矩阵更新后的多个特征构成第四局部矩阵；基于多个第三局部矩阵在第n-1个尺度的融合特征信息中的位置，对多个第四局部矩阵进行拼接，得到第二拼接矩阵；基于第二拼接矩阵，确定第n-1个尺度的第一特征信息。

在另一种可能实现方式中，融合模块1902，用于对于多个第二特征信息中的目标特征信息，基于多个第二特征信息与目标特征信息之间的相似度，对多个第二特征信息进行加权融合，得到第二融合特征信息，目标特征信息为多个第一特征信息中的任一第一特征信息；将第二融合特征信息与目标特征信息进行融合，将融合得到的特征信息确定为目标特征信息更新后的特征信息。

在另一种可能实现方式中，视频帧处理装置是基于视频帧处理模型实现的，如图20所示，装置还包括：

获取模块1901，还用于获取样本视频帧序列，样本视频帧序列包括连续的多个样本视频帧，多个样本视频帧包括样本模糊视频帧，并获取样本模糊视频帧对应的标签视频帧；

处理模块1905，用于基于视频帧处理模型，对样本视频帧序列中的样本视频帧进行处理，得到样本模糊视频帧对应的预测视频帧；

提取模块1906，用于基于图像对比模型，分别对标签视频帧及预测视频帧进行特征提取，得到标签视频帧的第五特征信息及预测视频帧的第六特征信息；

确定模块1907，用于基于图像对比模型，获取第五特征信息与第六特征信息之间的特征差异度，将特征差异度，确定为第一损失值。

训练模块1908，用于基于第一损失值，对视频帧处理模型进行训练。

在另一种可能实现方式中，获取模块1901，还用于基于标签视频帧及预测视频帧之间的图像差异度，获取第二损失值；

训练模块1908，用于基于第一损失值及第二损失值，对视频帧处理模型进行训练。

需要说明的是：上述实施例提供的视频帧处理装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频帧处理装置与视频帧处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例的视频帧处理方法所执行的操作。

可选地，计算机设备提供为终端。图21示出了本申请一个示例性实施例提供的终端2100的结构框图。该终端2100可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电及车载终端等。终端2100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端2100包括有：处理器2101和存储器2102。

处理器2101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2101可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器2101所执行以实现本申请中方法实施例提供的视频帧处理方法。

在一些实施例中，终端2100还可选包括有：外围设备接口2103和至少一个外围设备。处理器2101、存储器2102和外围设备接口2103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2103相连。具体地，外围设备包括：射频电路2104、显示屏2105、摄像头组件2106、音频电路2107和电源2108中的至少一种。

外围设备接口2103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器2101和存储器2102。在一些实施例中，处理器2101、存储器2102和外围设备接口2103被集成在同一芯片或电路板上；在一些其他实施例中，处理器2101、存储器2102和外围设备接口2103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2105是触摸显示屏时，显示屏2105还具有采集在显示屏2105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2101进行处理。此时，显示屏2105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2105可以为一个，设置在终端2100的前面板；在另一些实施例中，显示屏2105可以为至少两个，分别设置在终端2100的不同表面或呈折叠设计；在另一些实施例中，显示屏2105可以是柔性显示屏，设置在终端2100的弯曲表面上或折叠面上。甚至，显示屏2105还可以设置成非矩形的不规则图形，也即异形屏。显示屏2105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件2106用于采集图像或视频。可选地，摄像头组件2106包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路2107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2101进行处理，或者输入至射频电路2104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端2100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2101或射频电路2104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2107还可以包括耳机插孔。

电源2108用于为终端2100中的各个组件进行供电。电源2108可以是交流电、直流电、一次性电池或可充电电池。当电源2108包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图21中示出的结构并不构成对终端2100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，计算机设备提供为服务器。图22是本申请实施例提供的一种服务器的结构示意图，该服务器2200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)2201和一个或一个以上的存储器2202，其中，存储器2202中存储有至少一条计算机程序，至少一条计算机程序由处理器2201加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现上述实施例的视频帧处理方法所执行的操作。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述方面所述的视频帧处理方法所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频帧处理方法，其特征在于，所述方法包括：

基于所述第一融合特征信息，对所述模糊视频帧进行重建。

2.根据权利要求1所述的方法，其特征在于，所述分别将同一视频帧对应的多个第一特征信息进行融合，得到第二特征信息，包括：

对于任一视频帧对应的多个第一特征信息，将除目标尺度的第一特征信息以外的其他第一特征信息变换至所述目标尺度，所述目标尺度为所述多个尺度中的最大尺度；

将变换后的多个第一特征信息进行融合，得到所述视频帧的第二特征信息。

3.根据权利要求2所述的方法，其特征在于，所述将变换后的多个第一特征信息进行融合，得到所述视频帧的第二特征信息，包括：

将变换后的多个第一特征信息进行拼接，得到拼接特征信息；

对所述拼接特征信息进行卷积处理，得到所述视频帧的第二特征信息。

4.根据权利要求1所述的方法，其特征在于，所述多个尺度的个数为2，所述从每个视频帧中提取多个尺度的第一特征信息，包括：

对于所述多个视频帧中的每个视频帧，对所述视频帧进行特征提取，得到所述视频帧的第四特征信息；

对所述第四特征信息进行编码，得到第1个尺度的编码特征信息；

对所述第1个尺度的编码特征信息进行降维，得到第2个尺度的编码特征信息；

对所述第2个尺度的编码特征信息进行解码，得到所述第2个尺度的第一特征信息；

对所述第2个尺度的第一特征信息进行升维，得到所述第1个尺度的升维特征信息，对所述第1个尺度的升维特征信息及所述第1个尺度的编码特征信息进行解码，得到所述第1个尺度的第一特征信息。

5.根据权利要求1所述的方法，其特征在于，所述多个尺度的个数为n，n为大于2的整数，所述从每个视频帧中提取多个尺度的第一特征信息，包括：

对所述第1个尺度的编码特征信息进行降维和编码，得到第2个尺度的编码特征信息，直至得到第n-1个尺度的编码特征信息；

对所述第n-1个尺度的编码特征信息进行降维，得到第n个尺度的编码特征信息；

对所述第n个尺度的编码特征信息进行解码，得到所述第n个尺度的第一特征信息；

对第n个尺度的第一特征信息进行升维，得到所述第n-1个尺度的升维特征信息，对所述第n-1个尺度的升维特征信息及所述第n-1个尺度的编码特征信息进行解码，得到所述第n-1个尺度的第一特征信息，直至得到所述第1个尺度的第一特征信息。

6.根据权利要求5所述的方法，其特征在于，所述第1个尺度的编码特征信息为矩阵；所述对所述第1个尺度的编码特征信息进行降维和编码，得到第2个尺度的编码特征信息，包括：

对所述第1个尺度的编码特征信息进行降维，得到所述第2个尺度的降维特征信息；

对所述降维特征信息进行分割，得到多个第一局部矩阵，所述第一局部矩阵包括多个位置上的特征；

对于每个特征，基于所述特征所在的第一局部矩阵中的多个特征及所述多个特征的位置特征，对所述特征进行更新，所述位置特征指示对应的特征在所述第一局部矩阵中的位置；

将同一第一局部矩阵更新后的多个特征构成第二局部矩阵；

基于所述多个第一局部矩阵在所述降维特征信息中的位置，对多个第二局部矩阵进行拼接，得到第一拼接矩阵；

基于所述第一拼接矩阵，确定所述第2个尺度的编码特征信息。

7.根据权利要求6所述的方法，其特征在于，所述对于每个特征，基于所述特征所在的第一局部矩阵中的多个特征及所述多个特征的位置特征，对所述特征进行更新，包括：

对于每个第一局部矩阵，将所述第一局部矩阵中的多个特征，分别与对应的位置特征进行融合，得到多个第一融合特征；

对于所述第一局部矩阵中的每个特征，基于所述特征对应的第一融合特征与所述多个第一融合特征之间的相似度，对所述多个第一融合特征进行加权融合，将加权融合得到的特征确定为所述特征更新后的特征。

8.根据权利要求6所述的方法，其特征在于，所述基于所述第一拼接矩阵，确定所述第2个尺度的编码特征信息，包括：

将所述第一拼接矩阵，确定为所述第2个尺度的编码特征信息。

9.根据权利要求6所述的方法，其特征在于，所述对所述降维特征信息进行分割，得到多个第一局部矩阵之前，所述方法还包括：

基于第一位置变换矩阵，对所述降维特征信息中的特征进行位置变换，得到更新后的降维特征信息；

所述基于所述第一拼接矩阵，确定所述第2个尺度的编码特征信息，包括：

基于第二位置变换矩阵，对所述第一拼接矩阵中的特征进行位置变换，将变换得到的特征矩阵确定为所述第2个尺度的编码特征信息，所述第二位置变换矩阵为所述第一位置变换矩阵的反变换矩阵。

10.根据权利要求5所述的方法，其特征在于，所述对所述第n-1个尺度的升维特征信息及所述第n-1个尺度的编码特征信息进行解码，得到所述第n-1个尺度的第一特征信息，包括：

将所述第n-1个尺度的升维特征信息与所述第n-1个尺度的编码特征信息进行融合，得到所述第n-1个尺度的融合特征信息；

对所述第n-1个尺度的融合特征信息进行解码处理，得到所述第n-1个尺度的第一特征信息。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述视频帧处理方法是基于视频帧处理模型实现的，所述方法还包括：

获取样本视频帧序列，所述样本视频帧序列包括连续的多个样本视频帧，所述多个样本视频帧包括样本模糊视频帧，并获取所述样本模糊视频帧对应的标签视频帧；

基于所述视频帧处理模型，对所述样本视频帧序列中的样本视频帧进行处理，得到所述样本模糊视频帧对应的预测视频帧；

基于图像对比模型，分别对所述标签视频帧及所述预测视频帧进行特征提取，得到所述标签视频帧的第五特征信息及所述预测视频帧的第六特征信息；

基于图像对比模型，获取所述第五特征信息与第六特征信息之间的特征差异度，将所述特征差异度，确定为所述第一损失值；

基于所述第一损失值，对所述视频帧处理模型进行训练。

12.一种视频帧处理装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至11任一权利要求所述的视频帧处理方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至11任一权利要求所述的视频帧处理方法所执行的操作。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11任一权利要求所述的视频帧处理方法所执行的操作。