CN116208807A

CN116208807A - 视频帧处理方法及装置、视频帧去噪方法及装置

Info

Publication number: CN116208807A
Application number: CN202310101110.6A
Authority: CN
Inventors: 罗正雄; 陈大友; 张迎亚; 赵德丽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-06-02

Abstract

本说明书实施例提供视频帧处理方法及装置、视频帧去噪方法及装置，其中，视频帧处理方法包括确定目标视频的初始视频帧集合；根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声；根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合。该方法对连续视频帧加噪的过程中，将噪声分解为共享的基础噪声以及独立的残差噪声，实现被加噪为拥有共享噪声成分的连续视频帧，使得在后续的去噪过程中恢复连续视频帧更加简单。

Description

视频帧处理方法及装置、视频帧去噪方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种视频帧处理方法及装置、一种视频帧去噪方法及装置、一种计算设备、一种计算机可读存储介质。

背景技术

现有技术中，由于拍摄条件的限制以及发送设备、传输设备、接收设备的影响，视频经常受到噪声干扰，使视频质量下降，从而影响视频的视觉效果，妨碍视频的进一步处理。因此，需要对视频去噪以提升视频的质量。

发明内容

有鉴于此，本说明书实施例提供了一种视频帧处理方法。本说明书一个或者多个实施例同时涉及一种视频帧处理装置，一种视频帧去噪方法，一种视频帧去噪装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频帧处理方法，包括：

确定目标视频的初始视频帧集合，其中，所述初始视频帧集合中包括至少两个视频帧；

根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同；

根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，其中，所述目标视频帧集合中包括至少两个加噪视频帧。

根据本说明书实施例的第二方面，提供了一种视频帧处理装置，包括：

视频帧确定模块，被配置为确定目标视频的初始视频帧集合，其中，所述初始视频帧集合中包括至少两个视频帧；

噪声确定模块，被配置为根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同；

加噪模块，被配置为根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，其中，所述目标视频帧集合中包括至少两个加噪视频帧。

根据本说明书实施例的第三方面，提供了一种视频帧去噪方法，包括：

确定待处理视频帧集合，其中，所述待处理视频帧集合中包括至少两个加噪的待处理视频帧；

将所述至少两个加噪的待处理视频帧输入扩散模型的去噪网络，获得去噪后的至少两个待处理视频帧，

其中，所述扩散模型的去噪网络为上述视频帧处理方法中的扩散模型的去噪网络。

根据本说明书实施例的第四方面，提供了一种视频帧去噪装置，包括：

加噪视频帧确定模块，被配置为确定待处理视频帧集合，其中，所述待处理视频帧集合中包括至少两个加噪的待处理视频帧；

视频帧去噪模块，被配置为将所述至少两个加噪的待处理视频帧输入扩散模型的去噪网络，获得去噪后的至少两个待处理视频帧，

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频帧处理方法或者视频帧去噪方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述视频帧处理方法或者视频帧去噪方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频帧处理方法或者视频帧去噪方法的步骤。

本说明书一个实施例实现了一种视频帧处理方法，包括确定目标视频的初始视频帧集合，其中，所述初始视频帧集合中包括至少两个视频帧；根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同；根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，其中，所述目标视频帧集合中包括至少两个加噪视频帧。

具体的，该视频帧处理方法在对初始视频帧集合中连续视频帧加噪的过程中，将噪声分解为连续视频帧共享的第一目标噪声、以及独立的第二目标噪声，实现该连续视频帧在扩散过程(即加噪过程)中，被加噪为拥有共享噪声成分的连续视频帧，使得在后续的去噪过程中恢复连续视频帧更加简单，并且更有可能生成质量更高的连续视频帧，从而根据质量更高的连续视频帧生成高质量的视频。

附图说明

图1是本说明书一个实施例提供的一种分解概率扩散模型训练的具体实现场景示意图；

图2是本说明书一个实施例提供的一种视频帧处理方法的流程图；

图3是本说明书一个实施例提供的一种视频帧处理方法中扩散模型的加噪过程示意图；

图4是本说明书一个实施例提供的一种视频帧处理方法中扩散模型的去噪过程示意图；

图5是本说明书一个实施例提供的一种视频帧处理方法中扩散模型的加噪、去噪的具体处理过程；

图6是本说明书一个实施例提供的一种视频帧去噪方法的流程图；

图7是本说明书一个实施例提供的一种视频帧处理装置的结构示意图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

DPM：英文全称，Diffusion Probabilistic Model，中文全称，概率扩散模型。

扩散过程：DPM的前向过程；在这一过程中，DPM经由一个马尔可夫链向数据(如图像、视频帧等)中添加随机噪声，并最终把数据样本转化为高斯噪声(如加噪的图像、加噪的视频帧等)。

去噪过程：DPM的逆向过程；在这一过程中，DPM把数据生成建模为一个去噪过程，通过反复去噪，把高斯噪声转化为数据样本。

DecDPM：英文全称，Decomposed DPM，中文全称，分解概率扩散模型。

Base generator:基础生成器。

Res i dua l generator:残差生成器。

此外，需要说明的是，本说明书实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在本说明书中，提供了一种视频帧处理方法。本说明书一个或者多个实施例同时涉及一种视频帧处理装置，一种视频帧去噪方法，一种视频帧去噪装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种分解概率扩散模型训练的具体实现场景示意图。

图1中包括云侧设备102和端侧设备104，其中，云侧设备102可以理解为云服务器，当然，在另一种可实现方案中，云侧设备102也可以替换为物理服务器；该端侧设备104包括但不限于台式电脑、笔记本电脑等；为了便于理解，本说明书实施例中，均以云侧设备102为云服务器、端侧设备104为笔记本电脑为例进行详细介绍。

具体实施时，可以在云侧设备102进行分解概率扩散模型的训练。如图1所示，图1的分解概率扩散模型包括加噪网络和去噪网络，具体的模型训练如下所述：

确定连续的初始视频帧，如16个连续的初始视频帧：初始视频帧1、初始视频帧2...初始视频帧16；确定分解概率扩散模型的扩散时间步，如1000个扩散时间步：扩散时间步1、扩散时间步1...扩散时间步1000；以及确定每个初始视频帧在对应的扩散时间步的真实噪声(即基础噪声、残差噪声)、扩散系数、分解系数，其中，基础噪声在连续的初始视频帧中共享，残差噪声在连续的初始视频帧中独立，即每个初始视频帧的残差噪声不同。

具体的，将连续的初始视频帧、连续的初始视频帧中每个初始视频帧，在对应的扩散时间步的真实噪声、扩散系数、分解系数，输入分解概率扩散模型的加噪网络，在该加噪网络中实现分解概率扩散模型的加噪过程，获得连续的、加噪后的目标视频帧。

然后，将该目标视频帧输入分解概率扩散模型的去噪网络，在该去噪网络中实现分解概率扩散模型的加噪过程，获得连续的、加噪后的目标视频帧对应的预测噪声；最后根据该目标视频帧的真实噪声以及预测噪声，计算噪声损失函数，训练调整该分解概率扩散模型，获得训练后的分解概率扩散模型。

当端侧设备104需要使用该分解概率扩散模型时，则可以调用云侧设备102训练后获得的分解概率扩散模型进行功能使用；另外，在端侧设备104的计算资源以及计算能力足够的情况下，也可以将在该云侧设备102中训练后的分解概率扩散模型，部署在端侧设备104。具体根据实际应用进行部署实现，在此不作任何限定。

本说明书实施例提供的该分解概率扩散模型，将连续的初始视频帧在标准扩散过程中添加的噪声分解为基础噪声和残差噪声两部分，其中，基础噪声视频帧间共享；实现在连续视频帧的扩散过程中，连续视频帧不会被加噪为独立的噪声序列，而是拥有共享成分的噪声的连续视频帧；并通过该拥有共享成分的噪声的连续视频帧结合真实噪声，对分解概率扩散模型的去噪网络进行训练调整，使得后续该分解概率扩散模型在去噪过程中恢复连续视频帧更加简单，更有可能生成质量更高的视频。

参见图2，图2示出了根据本说明书一个实施例提供的一种视频帧处理方法的流程图，具体包括以下步骤。

步骤202：确定目标视频的初始视频帧集合。

其中，所述初始视频帧集合中包括至少两个视频帧。

具体的，目标视频可以理解为任意长度、任意类型、任意格式的视频，例如播放时长为30分钟的MPEG(Moving Picture Experts Group，运动图像专家组)格式的体育视频、播放时长为60分钟的AVI(Audio Video Interleaved，音频视频交错)格式的综艺视频等。

那么，目标视频的初始视频帧集合，可以理解为包含该目标视频的所有视频帧的初始视频帧集合；实际应用中，该初始视频帧集合中包括至少两个视频帧，如上述实施例中，该初始视频帧集合中可以包括16个视频帧。

步骤204：根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声。

其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同。

具体的，扩散时间步可以理解为构造的扩散模型的马尔可夫链中的时间步。

举例说明，以至少两个视频帧为16个视频帧为例，确定16个视频帧以及扩散时间步之后，即可确定16个视频帧中的每个视频帧在扩散时间步的第一目标噪声以及第二目标噪声；其中，第一目标噪声可以理解为上述实施例的基础噪声，第二目标噪声可以理解为上述实施例的残差噪声。实际应用中，基础噪声和残差噪声都是随机高斯白噪声，不同的是，不同视频帧对应的基础噪声是相同的。

实际应用中，扩散模型需要足够大的扩散步数，将视频帧信号完全破坏，才能起到较优的去噪效果；因此，为了获得较好的去噪效果，可以通过增加扩散时间步的数量实现，例如将扩散时间步设置为至少两个或者两个以上，如上述实施例所述，扩散时间步可以设置为1000个等。那么在扩散时间步为至少两个的情况下，需要确定至少两个视频帧在每个扩散时间步的基础噪声以及残差噪声。具体实现方式如下所述：

所述扩散时间步包括至少两个；

相应地，所述根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，包括：

根据所述至少两个视频帧、所述至少两个扩散时间步，确定所述至少两个视频帧在目标扩散时间步的第一目标噪声以及第二目标噪声，

其中，所述目标扩散时间步为所述至少两个扩散时间步的任一扩散时间步；例如至少两个扩散时间步包括扩散时间步1、扩散时间步2，那么目标扩散时间步则可以为扩散时间步1或者扩散时间步2。

沿用上例，若至少两个视频帧包括视频帧1、视频帧2，扩散时间步包括扩散时间步1、扩散时间步2的情况下，根据所述至少两个视频帧、所述至少两个扩散时间步，确定所述至少两个视频帧在目标扩散时间步的第一目标噪声以及第二目标噪声，则可以理解为，根据视频帧1、视频帧2、扩散时间步1、扩散时间步2，确定视频帧1、视频帧2在扩散时间步1的基础噪声以及残差噪声，或者视频帧1、视频帧2在扩散时间步2的基础噪声以及残差噪声。

本说明书实施例提供的视频帧处理方法，通过增加扩散模型的扩散步数，设置多个扩散时间步对视频帧进行加噪，极大的提升视频帧的加噪效果。

步骤206：根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合。

其中，所述目标视频帧集合中包括至少两个加噪视频帧；沿用上例，如加噪视频帧1、加噪视频帧2。

具体的，扩散参数可以理解为扩散系数，实际应用中，扩散过程(即去噪过程)中的扩散系数均为预先确定的，例如扩散系数可以设置为(0,1)，比如可以采用余弦策略预先计算出每个扩散时间步对应的扩散系数，即每个扩散时间步的扩散系数均可以根据实际需求，通过一个固定的公式或者方法预先计算获得。分解参数可以理解为分解系数，实际应用中，扩散过程中的分解系数也可以理解为预先确定的，例如分解系数可以设置为[0,1]，分解系数越大，表示扩散过程中基础噪声的占比越大，即视频帧之间共享噪声的成分越多；所以，当连续的视频帧之间比较相似，即差别较小的时候，分解系数会选的比较大，如果连续的视频帧之间差别较大，分解系数则会选的比较小。

具体实施时，在确定待加载的至少两个视频帧、扩散步数：扩散时间步、每个扩散时间步对应的扩散系数以及分解系数之后，即可根据该上述参数，对至少两个视频帧进行加噪，获得由至少两个加噪的视频帧组成的目标视频帧集合。

而为了提高视频帧加噪效果，设置扩散时间步为至少两个的情况下，根据至少两个视频帧、扩散时间步、每个扩散时间步对应的扩散系数以及分解系数，对至少两个视频帧进行加噪，获得目标视频帧集合的具体实现方式如下所述：

所述根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，包括：

根据目标视频帧、所述目标扩散时间步、扩散参数、分解参数、所述目标视频帧在所述目标扩散时间步的第一目标噪声以及第二目标噪声，对所述目标视频帧进行加噪，获得目标视频帧集合，

其中，所述目标视频帧为所述至少两个视频帧的任一视频帧。

沿用上例，在至少两个视频帧为视频帧1、视频帧2的情况下，目标视频帧可以理解为视频帧1或者视频帧2。

例如，目标视频帧为视频帧1或者视频帧2、目标扩散时间步为扩散时间步1或者扩散时间步2；那么根据目标视频帧、目标扩散时间步、扩散参数、分解参数、目标视频帧在目标扩散时间步的第一目标噪声以及第二目标噪声，对目标视频帧进行加噪，获得目标视频帧集合，可以理解为根据视频帧1、扩散时间步1、扩散时间步1的扩散系数、扩散时间步1的分解系数、视频帧1在扩散时间步1的基础噪声以及残差噪声，对视频帧1进行加噪，获得初始加噪视频帧1，并根据初始加噪视频帧1、扩散时间步2、扩散时间步2的扩散系数、扩散时间步2的分解系数、视频帧1在扩散时间步2的基础噪声以及残差噪声，对初始加噪视频帧1进行继续加噪，获得目标加噪视频帧1。

同理，根据目标视频帧、目标扩散时间步、扩散参数、分解参数、目标视频帧在目标扩散时间步的第一目标噪声以及第二目标噪声，对目标视频帧进行加噪，获得目标视频帧集合，可以理解为根据视频帧2、扩散时间步1、扩散时间步1的扩散系数、扩散时间步1的分解系数、视频帧2在扩散时间步1的基础噪声以及残差噪声，对视频帧2进行加噪，获得初始加噪视频帧2，并根据初始加噪视频帧2、扩散时间步2、扩散时间步2的扩散系数、扩散时间步2的分解系数、视频帧2在扩散时间步2的基础噪声以及残差噪声，对初始加噪视频帧2进行继续加噪，获得目标加噪视频帧2。

最后，根据目标加噪视频帧1以及目标加噪视频帧2，组成目标视频帧集合。

实际应用中，在后续DecDPM的去噪过程中，需要估计每一个加噪视频帧的噪声；如果中间视频帧的分解系数等于1的情况下，就意味着中间视频帧的残差噪声为0，那么就可以直接从中间视频帧估计出基础噪声；因此为了简化后续去噪过程，中间视频帧的分解系数可以设置为1；其他视频帧的分解系数可以为sqrt(2)/2。

那么在将至少两个视频帧分为中间视频帧以及其他视频帧的情况下，对至少两个视频帧进行加噪，获得目标视频帧集合的具体实现方式如下所述：

确定所述至少两个视频帧的中间视频帧，以及所述中间视频帧对应的第一分解参数；

根据所述至少两个视频帧、所述扩散时间步、扩散参数、所述第一分解参数、第二分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，

其中，所述第二分解参数为所述至少两个视频帧中、除所述中间视频帧之外的其他视频帧对应的分解参数。

举例说明，若至少两个连续的视频帧为16个视频帧的情况下，那么中间视频帧则可以理解为第8帧视频帧；同理，若至少两个连续的视频帧为20个视频帧的情况下，那么中间视频帧则可以理解为第10帧视频帧。

实际应用中，由于中间视频帧与其他视频帧在不同扩散时间步对应的分解系数不同，因此，至少两个视频帧的扩散过程如下所述：

首先，确定至少两个视频帧中的中间视频帧、扩散时间步、中间视频帧在每个扩散时间步对应的第一分解系数以及扩散系数、中间视频帧在每个扩散时间步的基础噪声以及残差噪声，对中间视频帧进行加噪，获得加噪中间视频帧；同理，确定至少两个视频帧中的其他视频帧、除该中间视频帧之外的其他视频帧、扩散时间步、其他视频帧在每个扩散时间步对应的第二分解系数以及扩散系数、其他视频帧在每个扩散时间步的基础噪声以及残差噪声，对其他视频帧进行加噪，获得加噪其他视频帧；然后根据加噪中间视频帧以及加噪其他视频帧，获得目标视频帧集合。

具体实施时，可以看做是将至少两个视频帧输入扩散模型的加噪网络，在该扩散模型的加噪网络中，根据上述参数对至少两个视频帧实现的扩散过程，实现对至少两个视频帧的快速且准确的加噪过程，具体实现方式如下所述：

将所述至少两个视频帧输入扩散模型的加噪网络；

在所述加噪网络中，根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合。

其中，扩散模型可以理解为上述实施例的分解概率扩散模型，该模型可以包括加噪网络实现扩散过程，以及去噪网络实现去噪过程。

参见图3，图3示出了本说明书一个实施例提供的一种视频帧处理方法中扩散模型的加噪过程示意图。

图3中的x可以理解为连续的视频帧，如上述实施例的至少两个视频帧；Z₁至Z_T可以理解为DecDPM扩散过程中的中间变量，b表示基础噪声，r表示残差噪声。

假设x＝{xⁱ|i＝1，2，...，N)为连续视频帧，

为DecDPM扩散过程中的中间变量，其中，N是连续视频帧的数量，如16或者18等，t＝0,1,2,…,T为扩散的步数，即扩散时间步。

那么，在确定上述参数之后，该扩散模型的加噪网络对该连续视频帧的扩散过程如公式1所述：

其中，

α_t∈(0，1)为扩撒系数；

为基础噪声，在连续帧中共享；/>

为残差噪声，各帧不一样；λⁱ∈[0，1]为分解系数。在实际使用中，扩散过程包含1000步加噪，即T＝1000。

如图3所述，连续视频帧x经过扩散模型的加噪网络的整个扩散过程，获得Z_T上表示的加噪连续视频帧。

并且，为了简化后续的扩散模型的去噪网络的去噪过程，本说明书实例中将连续视频帧的中间视频帧的分解系数设置为1，即

其中，/>

为高斯取整函数，此时，该扩散模型的加噪网络的扩散过程可表示为如下公式2：

那么，在获得目标视频帧集合之后，则可以根据该目标视频帧集合中的加噪视频帧，训练扩散模型的去噪网络，以使得训练获得的扩散模型的去噪网络应用于视频帧去噪过程中，恢复连续视频帧可以更加简单，更有可能生成质量更高的视频。具体实现方式如下所述：

所述获得目标视频帧集合之后，还包括：

从所述至少两个加噪视频帧中确定目标加噪视频帧，并确定所述目标加噪视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声；

将所述目标加噪视频帧输入扩散模型的去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声；

根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，训练所述去噪网络。

其中，目标视频帧集合中包括至少两个加噪视频帧，而目标加噪视频帧可以理解为至少两个加噪视频帧中的任意一个加噪视频帧。例如至少两个加噪视频帧包括加噪视频帧1以及加噪视频帧2，该目标加噪视频帧则可以理解为加噪视频帧1或者加噪视频帧2。

而目标加噪视频帧在扩散时间步的第一目标噪声以及第二目标噪声，则可以理解为目标加噪视频帧在每一个扩散时间步的基础噪声以及残差噪声。

具体的，扩散模型的去噪网络的具体训练过程如下所述：

首先，从至少两个加噪视频帧中确定目标加噪视频帧，并确定目标加噪视频帧在每个扩散时间步的第一目标噪声以及第二目标噪声，即真实的基础噪声以及残差噪声；然后将目标加噪视频帧输入扩散模型的去噪网络进行去噪，获得该去噪网络输出的该目标加噪视频在每个扩散时间步的第一预测噪声以及第二预测噪声，即预测的基础噪声以及残差噪声；最后根据目标加噪视频帧在每个扩散时间步的真实的基础噪声以及残差噪声、预测的基础噪声以及残差噪声，训练该扩散模型的去噪网络。

实际应用中，由于目标加噪视频帧的加噪过程中，通过基础噪声和残差噪声两种噪声进行加噪，那么为了获得更优的去噪效果，则会通过两个去噪网络，如基础生成器(base generator)以及残差生成器(residual generator)，分别用于预测目标加噪视频帧中的基础噪声以及残差噪声。具体实现方式如下所述：

所述将所述目标加噪视频帧输入扩散模型的去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声，包括：

将所述目标加噪视频帧输入扩散模型的第一去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声；以及

将所述目标加噪视频帧输入扩散模型的第二去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第二预测噪声。

其中，当第一预测噪声理解为预测的基础噪声的情况下，该第一去噪网络可以理解为基础生成器；当第二预测噪声理解为预测的残差噪声的情况下，该第二去噪网络可以理解为残差生成器。

以第一去噪网络为基础生成器，第二去噪网络为残差生成器的情况下，将所述目标加噪视频帧输入扩散模型的去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声，的具体实现方法如下所述：

将目标加噪视频帧输入扩散模型的基础生成器，获得该目标加噪视频帧在每个扩散时间步的预测基础噪声；同时，将目标加噪视频帧输入扩散模型的残差生成器，获得该目标加噪视频帧在每个扩散时间步的预测残差噪声。

实际应用中的具体实现可以理解为，将目标加噪视频帧输入扩散模型，在该扩散模型中基础生成器以及残差生成器同时输出，该目标加噪视频帧在每个扩散时间步的预测基础噪声以及预测残差噪声；后续即可根据该预测的基础噪声、残差噪声与真实的基础噪声、残差噪声对该扩散模型进行调整训练。

那么，根据该预测的基础噪声、残差噪声与真实的基础噪声、残差噪声，对该扩散模型进行调整训练的具体实现方式如下所述：

所述根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，训练所述去噪网络，包括：

根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，计算目标损失函数，并根据所述目标损失函数训练所述去噪网络。

具体的，在获得目标加噪视频帧在扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声之后，即可根据目标加噪视频帧在每个扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，计算对应的目标损失函数，根据该目标损失函数训练该扩散模型的去噪网络，提升该扩散模型的后续视频去噪效果。

具体实施例中，所述根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，计算目标损失函数，包括：

根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第一预测噪声，计算第一损失函数；

根据所述目标加噪视频帧在所述扩散时间步的第二目标噪声、第二预测噪声，计算第二损失函数；

根据所述第一损失函数和所述第二损失函数确定目标损失函数。

参见图4，图4示出了本说明书一个实施例提供的一种视频帧处理方法中扩散模型的去噪过程示意图。

图4中的扩散模型使用两个去噪网络分别预测基础噪声b_t和残差噪声

具体的去噪过程图4所示，基于图4中的去噪过程，即可获得去噪后的连续视频帧。

具体的，该扩散模型使用了两个去噪网络：基础生成器(base generator)和残差生成器(residual generator)，用于分别预测基础噪声和残差噪声，而每次预测得噪声可以通过如下公式2表示：

其中，

表示基础生成器的映射函数(如上述实施例的第一损失函数)，/>

表示残差生成器的映射函数(如上述实施例的第二损失函数)，并且

那么该扩散模型的去噪网络的目标损失函数则可以通过如下公式3表示：

本说明书实施例提供的视频帧处理方法，通过基础生成器的映射函数以及残差生成器的映射函数，计算扩散模型的目标损失函数，通过该目标损失函数调整该扩散模型的去噪网络的网络参数，获得该扩散模型的去噪网络，使得该扩散模型的去噪网络在后续对加噪视频帧的去噪过程中恢复连续视频帧更加简单，更有可能生成质量更高的视频。

具体的，本说明书实施例提供的该视频帧处理方法，在对初始视频帧集合中连续视频帧加噪的过程中，将噪声分解为连续视频帧共享的第一目标噪声、以及独立的第二目标噪声，实现该连续视频帧在扩散过程(即加噪过程)中，被加噪为拥有共享噪声成分的连续视频帧，使得在后续的去噪过程中恢复连续视频帧更加简单，并且更有可能生成质量更高的连续视频帧，从而根据质量更高的连续视频帧生成高质量的视频。

参见图5，图5示出了根据本说明书一个实施例提供的一种视频帧处理方法中扩散模型的加噪、去噪的具体处理过程，具体包括以下步骤。

步骤502：确定目标视频的初始视频帧集合，其中，所述初始视频帧集合中包括至少两个视频帧。

步骤504：根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同。

步骤506：根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，其中，所述目标视频帧集合中包括至少两个加噪视频帧。

步骤508：从所述至少两个加噪视频帧中确定目标加噪视频帧，并确定所述目标加噪视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声。

步骤510：将所述目标加噪视频帧输入扩散模型的去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声。

步骤512：根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，训练所述去噪网络。

具体实施时，步骤502至步骤512的具体实现过程参见上述实施例，本说明书对此不作任何限定。

本说明书实施例提供的该视频帧处理方法，在对初始视频帧集合中连续视频帧加噪的过程中，将噪声分解为连续视频帧共享的第一目标噪声、以及独立的第二目标噪声，实现该连续视频帧在扩散过程(即加噪过程)中，被加噪为拥有共享噪声成分的连续视频帧，使得在后续的去噪过程中恢复连续视频帧更加简单，并且更有可能生成质量更高的连续视频帧，从而根据质量更高的连续视频帧生成高质量的视频。

并且，本说明书一个实施例提供的视频帧处理方法中训练了一种新的基于视频帧的分解概率扩散模型，该分解概率扩散模型具有一种新的扩散过程，可以将标准的视频帧扩散过程中的噪声分解为基础噪声和残差噪声两部分，其中，基础噪声在连续的视频帧之间共享；该分解概率扩散模型还提供了一种新的去噪框架，使用两个生成器(即基础生成器和残差生成器)来分别估计基础噪声和残差噪声；使得后续使用该分解概率扩散模型在对视频帧去噪的过程中，能很好地利用连续视频帧的时序关联和冗余，在视频生成的质量和效率上得到极大的提高。

参见图6，图6示出了根据本说明书一个实施例提供的一种视频帧去噪方法的流程图，具体包括以下步骤。

步骤602：确定待处理视频帧集合，其中，所述待处理视频帧集合中包括至少两个加噪的待处理视频帧。

步骤604：将所述至少两个加噪的待处理视频帧输入扩散模型的去噪网络，获得去噪后的至少两个待处理视频帧。

具体的，待处理视频帧集合可以理解为由两个或两个以上的、连续的加噪的待处理视频帧组成的集合。并且该待处理视频帧还可以理解为由文本生成的视频帧，例如先使用文本编码器把一段文本编码为一个向量，再基于该向量生成待处理视频帧。当然，实际应用中，该待处理视频帧的生成形式、格式以及包含的内容等，本说明书实施例均不作任何限定，根据实际需求设置即可。

具体实施时，在确定待处理视频帧集合之后，即可将待处理视频帧集合中包括的至少两个加噪的待处理视频帧，输入扩散模型的去噪网络进行去噪，以获得去噪后的至少两个待处理视频帧。而该扩散模型的去噪网络则可以理解为，上述实施例的视频帧处理方法中的扩散模型的去噪网络，因此对于该扩散模型的去噪网络不再做过多解释。

本说明书实施例提供的视频帧去噪方法，根据上述实施例的视频帧处理方法中的扩散模型的去噪网络，实现对待处理视频帧集合中包括的至少两个加噪的待处理视频帧进行去噪，可以很好地利用连续视频帧的时序关联和冗余，在视频生成的质量和效率上得到极大的提高。

与上述方法实施例相对应，本说明书还提供了一种视频帧处理装置实施例，图7示出了本说明书一个实施例提供的一种视频帧处理装置的结构示意图。如图7所示，该装置包括：

视频帧确定模块702，被配置为确定目标视频的初始视频帧集合，其中，所述初始视频帧集合中包括至少两个视频帧；

噪声确定模块704，被配置为根据所述至少两个视频帧、扩散时间步，确定所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，其中，所述至少两个视频帧在所述扩散时间步的第一目标噪声相同，第二目标噪声不同；

加噪模块706，被配置为根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，其中，所述目标视频帧集合中包括至少两个加噪视频帧。

可选地，所述噪声确定模块704，进一步被配置为：

可选地，所述加噪模块706，进一步被配置为：

将所述至少两个视频帧输入扩散模型的加噪网络；

可选地，所述装置，还包括：

去噪模块，被配置为：

从所述至少两个加噪视频帧中确定目标视频帧，并确定所述目标视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声；

将所述目标视频帧输入扩散模型的去噪网络，获得所述目标视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声；

根据所述目标视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，训练所述去噪网络。

可选地，所述去噪模块，进一步被配置为：

将所述目标视频帧输入扩散模型的第一去噪网络，获得所述目标视频帧在所述扩散时间步的第一预测噪声；以及

将所述目标视频帧输入扩散模型的第二去噪网络，获得所述目标视频帧在所述扩散时间步的第二预测噪声。

可选地，所述去噪模块，进一步被配置为：

根据所述目标视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，计算目标损失函数，并根据所述目标损失函数训练所述去噪网络。

可选地，所述去噪模块，进一步被配置为：

根据所述目标视频帧在所述扩散时间步的第一目标噪声、第一预测噪声，计算第一损失函数；

根据所述目标视频帧在所述扩散时间步的第二目标噪声、第二预测噪声，计算第二损失函数；

可选地，所述扩散时间步包括至少两个；

相应地，所述噪声确定模块704，进一步被配置为：

其中，所述目标扩散时间步为所述至少两个扩散时间步的任一扩散时间步。

可选地，所述噪声确定模块704，进一步被配置为：

本说明书实施例提供的该视频帧处理装置，在对初始视频帧集合中连续视频帧加噪的过程中，将噪声分解为连续视频帧共享的第一目标噪声、以及独立的第二目标噪声，实现该连续视频帧在扩散过程(即加噪过程)中，被加噪为拥有共享噪声成分的连续视频帧，使得在后续的去噪过程中恢复连续视频帧更加简单，并且更有可能生成质量更高的连续视频帧，从而根据质量更高的连续视频帧生成高质量的视频。

上述为本实施例的一种视频帧处理装置的示意性方案。需要说明的是，该视频帧处理装置的技术方案与上述的视频帧处理方法的技术方案属于同一构思，视频帧处理装置的技术方案未详细描述的细节内容，均可以参见上述视频帧处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了一种视频帧去噪装置实施例，该装置包括：

上述为本实施例的一种视频帧去噪装置的示意性方案。需要说明的是，该视频帧去噪装置的技术方案与上述的视频帧去噪方法的技术方案属于同一构思，视频帧去噪装置的技术方案未详细描述的细节内容，均可以参见上述视频帧去噪方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频帧处理方法或者视频帧去噪方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频帧处理方法或者视频帧去噪方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频帧处理方法或者视频帧去噪方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频帧处理方法或者视频帧去噪方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频帧处理方法或者视频帧去噪方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频帧处理方法或者视频帧去噪方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频帧处理方法或者视频帧去噪方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的视频帧处理方法或者视频帧去噪方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述视频帧处理方法或者视频帧去噪方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频帧处理方法，包括：

2.根据权利要求1所述的视频处理方法，所述根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，包括：

3.根据权利要求1所述的视频处理方法，所述根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，包括：

将所述至少两个视频帧输入扩散模型的加噪网络；

4.根据权利要求1-3任意一项所述的视频处理方法，所述获得目标加噪视频帧集合之后，还包括：

5.根据权利要求4所述的视频处理方法，所述将所述目标加噪视频帧输入扩散模型的去噪网络，获得所述目标加噪视频帧在所述扩散时间步的第一预测噪声以及第二预测噪声，包括：

6.根据权利要求4所述的视频处理方法，所述根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，训练所述去噪网络，包括：

7.根据权利要求6所述的视频处理方法，所述根据所述目标加噪视频帧在所述扩散时间步的第一目标噪声、第二目标噪声、第一预测噪声以及第二预测噪声，计算目标损失函数，包括：

8.根据权利要求1或2所述的视频帧处理方法，所述扩散时间步包括至少两个；

9.根据权利要求8所述的视频帧处理方法，所述根据所述至少两个视频帧、所述扩散时间步、扩散参数、分解参数、所述至少两个视频帧在所述扩散时间步的第一目标噪声以及第二目标噪声，对所述至少两个视频帧进行加噪，获得目标视频帧集合，包括：

10.一种视频帧处理装置，包括：

11.一种视频帧去噪方法，包括：

其中，所述扩散模型的去噪网络为上述权利要求5-7任意一项所述视频帧处理方法中的扩散模型的去噪网络。

12.一种视频帧去噪装置，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述视频帧处理方法或者权利要求11所述视频帧去噪方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述视频帧处理方法或者权利要求11所述视频帧去噪方法的步骤。