CN117315056A

CN117315056A - 视频编辑方法及装置

Info

Publication number: CN117315056A
Application number: CN202311594465.XA
Authority: CN
Inventors: 董兴宁; 陈雨涛; 王清; 郭清沛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-29
Anticipated expiration: 2043-11-27
Also published as: CN117315056B

Abstract

本说明书实施例提供一种视频编辑方法及装置，其中视频编辑的实现基于预训练的文生图模型，所述文生图模型包括Unet模型。该方法包括：首先，确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码。然后，利用文本编码和Unet模型对n个加噪编码分别进行去噪处理，得到n个去噪编码；其中Unet模型包括接续在目标网络层之后的自注意力层，对任意第i个加噪编码进行的去噪处理包括：在Unet模型的自注意力层中，基于目标网络层针对第i个加噪编码的输出，以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。之后，分别对n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

Description

视频编辑方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种视频编辑方法及装置、一种计算机可读存储介质，以及一种计算设备。

背景技术

目前，机器学习（Machine Learning）技术已被广泛应用于许多不同领域，如用户推荐，视频编辑等。在视频编辑领域，希望在文本驱动的方式下，利用构建的机器学习模型实现对给定视频的自动编辑，编辑内容包括主体、风格、背景等视频元素。例如，如图1所示，给定视频中的身穿滑雪服的人物主体在文本“身穿盔甲的男人在滑雪”的驱动下，被替换为身穿盔甲的男人。

然而，目前利用机器学习技术实现视频编辑的方式难以满足实际应用中的更高要求，因此，本说明书实施例披露一种视频编辑方案，可以满足实际应用中降低计算代价、提升编辑效果等更高要求。

发明内容

本说明书实施例描述一种视频编辑方法及装置，可以实现有效降低计算代价、提升编辑效果等。

根据第一方面，提供一种视频编辑方法，其实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述方法包括：

确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码。利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码；其中各Unet模型包括接续在目标网络层之后的自注意力层，所述去噪处理包括：在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算。分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

在一个实施例中，所述预训练的训练数据包括文本-图像对。

在一个实施例中，在确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码之前，所述方法还包括：获取用户输入的所述原始视频和所述描述文本。

在一个实施例中，在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算，包括：在任意第i个Unet模型的自注意力层中，利用查询参数矩阵处理所述第i个Unet模型的目标网络层的输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述目标Unet模型中目标网络层的输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

在一个实施例中，所述文生图模型还包括针对预设类别图像信息的图信息编码器，所述任意Unet模型的自注意力层位于下采样模块中；其中，在利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码之前，所述方法还包括：从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码。其中，所述去噪处理还包括：在任意第i个Unet模型中，对其下采样模块的输出和第i个信息编码进行融合后，输入下一模块。

在一个具体的实施例中，利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码，包括：利用复制所述图信息编码器而得到的n个图信息编码器并行处理所述n个图信息，得到所述n个图信息编码。

在另一个具体的实施例中，所述预定图像信息类别包括图像的深度信息、边缘信息或光流图。

在又一个具体的实施例中，所述预定图像信息类别包括深度信息，所述图信息编码器为深度信息编码器，所述n个图信息为n个深度信息，所述n个信息编码为n个深度编码；在进行所述去噪处理之前，所述方法还包括：

分别对所述n个深度信息进行取反操作，得到n个反向深度信息；利用所述深度信息编码器分别处理所述n个反向深度信息，得到n个反向深度编码；将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果。

进一步，在一个例子中，将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果，包括：利用预定权重，对所述各个深度编码和对应的反向深度编码进行加权求和，得到对应的融合结果。

在一个实施例中，所述文生图模型还包括图像编码器；其中，确定与原始视频的n个视频帧对应的n个加噪编码，包括：利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码；对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个具体的实施例中，利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码，包括：针对所述n个视频帧中的各个视频帧，生成用于遮盖其中无需编辑区域的二值图；利用所述图像编码器处理该视频帧的完整像素图和所述二值图进行对位相乘后得到的遮盖后像素图，得到对应的原始编码。其中，在利用所述图像解码器分别处理所述n个去噪编码，得到n个目标图像之后，所述方法还包括：针对所述n个目标图像中的各个目标图像，将其与对应视频帧中无需编辑区域的图像进行融合，得到对应的目标视频帧；利用所述n个目标图像对应的n个目标视频帧构建出所述目标视频。

另一方面，在一个具体的实施例中，所述n个Unet模型为n个第一Unet模型；其中，对所述n个原始编码进行加噪处理，得到所述n个加噪编码，包括：利用置为零的文本编码和复制所述Unet模型而得到的n个第二Unet模型，对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个实施例中，所述文生图模型还包括图像解码器；其中，分别对所述n个去噪编码进行解码处理，得到n个目标图像，包括：利用所述图像解码器分别处理所述n个去噪编码，得到所述n个目标图像。

在一个实施例中，所述Unet模型包括多个下采样模块、若干中间模块和多个上采样模块，其中各个模块均包括所述自注意力层。

在一个具体的实施例中，所述各个模块还包括卷积层、激活层、池化层、交叉注意力层和全连接层，所述交叉注意力层的输入包括文本编码。

根据第二方面，提供一种视频编辑装置，该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述装置包括：加噪及编码图像模块，配置为确定与原始视频的n个视频帧对应的n个加噪编码；编码文本模块，配置为确定与引导视频编辑的描述文本对应的文本编码；去噪模块，配置为利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码；其中各Unet模型包括接续在目标网络层之后的自注意力层，所述去噪处理包括：在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算；解码模块，配置为分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

根据第三方面，提供一种视频编辑方法，其实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述方法包括：

确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码。利用所述文本编码和Unet模型对所述n个加噪编码分别进行去噪处理，得到n个去噪编码；其中Unet模型包括接续在目标网络层之后的自注意力层，对任意第i个加噪编码进行的去噪处理包括：在Unet模型的自注意力层中，基于目标网络层针对第i个加噪编码的输出，以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

在一个实施例中，在Unet模型的自注意力层中，基于目标网络层针对第i个加噪编码的输出，以及目标网络层针对预定的目标加噪编码的输出进行注意力计算，包括：在自注意力层中，利用查询参数矩阵处理所述第一输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述第二输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

在一个实施例中，所述文生图模型还包括针对预设类别图像信息的图信息编码器，所述Unet模型的自注意力层位于下采样模块中；其中，在利用所述文本编码和Unet模型对所述n个加噪编码分别进行去噪处理，得到n个去噪编码之前，所述方法还包括：从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码。其中，所述去噪处理还包括：在Unet模型中，对其下采样模块针对第i个加噪编码的输出和第i个信息编码进行融合后，输入下一模块。

进一步，在一个具体的实施例中，对所述n个原始编码进行加噪处理，得到所述n个加噪编码，包括：利用置为零的文本编码和所述Unet模型分别对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

根据第四方面，提供了一种视频编辑装置，该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述装置包括：

加噪及编码图像模块，配置为确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码。编码文本模块，利用所述文本编码和所述Unet模型分别对所述n个加噪编码进行去噪处理，得到n个去噪编码；所述Unet模型包括接续在目标网络层之后的自注意力层，其中对任意第i个加噪编码进行去噪处理包括：在所述自注意力层中，基于目标网络层针对所述第i个加噪编码的第一输出，以及所述目标网络层针对预定的目标加噪编码的第二输出进行注意力计算。去噪模块，分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令计算机执行第一方面或第三方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，上述存储器中存储有可执行代码，该处理器执行上述可执行代码时，实现第一方面或第三方面的方法。

在本说明书实施例提供的上述方法和装置中，不需要对预训练后的文生图模型进行任何额外的训练或微调，而是可以直接利用该文生图模型处理原始视频和引导视频编辑的描述文本，生成视觉效果好、连贯性较佳的编辑后视频。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为利用机器学习模型实现文本驱动视频编辑的场景示意图；

图2为本说明书实施例披露的视频编辑方案的实施架构示意图；

图3为本说明书实施例披露的视频编辑方法的流程步骤示意图之一；

图4为Unet模型的模块连接结构示意图；

图5为图4中各个模块的网络层连接结构示意图；

图6为本说明书实施例披露的视频编辑方法的流程步骤示意图之二；

图7为本说明书实施例披露的视频编辑装置的结构示意图之一；

图8为本说明书实施例披露的视频编辑装置的结构示意图之二。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

承前所述，在视频编辑领域，希望在文本驱动的方式下，利用构建的机器学习模型实现对给定的一段视频的自动编辑。目前在业界，利用文本控制图像生成、图像编辑已取得较大进展，尤其是文生图模型（text-to-image model）的成熟，使得编辑后的单个图像具有优良的视觉效果。

考虑到视频实际是多个图像组成的图像序列，提出基于预训练后的文生图模型实现文本控制视频生成。需理解，预训练是指预先利用海量数据进行模型训练，其中海量数据一般会尽可能涵盖多个领域，从而预训练后的文生图模型具有很强的通用性；另外，主流的文生图模型很多已开源，支持按需下载对应的预训练模型。

在一种方式中，可以利用文生图模型对视频进行逐帧编辑，然而，此种方式没有顾及视频帧的连续问题，连贯性效果不佳。在另一种方式中，根据视频编辑任务，对文生图模型进行拓展，加入新的时序模块，在文生图模型的预训练权重（或称预训练模型参数）的基础上微调部分模块的权重，然而，此种方式需要消耗训练样本和大量的硬件资源。

基于以上观察和分析，本说明书实施例提出一种视频编辑方案，不需要进行任何额外的训练，而是可以直接利用预训练的文生图模型，在文本引导下生成视觉效果好、连贯性较佳的编辑后视频。

图2为本说明书实施例披露的视频编辑方案的实施架构示意图，其中示出对预训练后的文生图模型中包括的Unet模型进行复制而得到的n（≥2）个Unet模型，其中任意的第i个Unet模型用于在文本的引导（图1中未示意文本引导）下，对原始视频的第i个视频帧Vi对应的加噪编码Ei进行去噪处理，得到对应的去噪编码Fi，从而解码得到目标图像Ri，用于形成编辑后的目标视频。在视频编辑方案中，对Unet模型中自注意力层的使用方式进行了改造，具体地，第i个Unet模型中自注意力层的输入除了相邻目标网络层的输出，还包括预定的目标Unet模型（图2中示意目标Unet模型为第1个Unet模型U1）中目标网络层的输出，由此可以实现跨帧注意力，从而使得后续生成的n个目标图像之间具有连贯性。需说明，为体现视频编辑方案中没有对自注意力层的模型参数进行修改，沿用Unet模型中对自注意力层的命名，实际在视频编辑方案中还可以更名为跨帧注意力层。

下面结合图3和更多实施例，介绍上述视频编辑方案的具体实施步骤。

图3为本说明书实施例披露的视频编辑方法的流程步骤示意图之一，该视频编辑方法基于预训练的文生图模型实现，例如，文生图模型可以采用当前主流的稳定扩散模型（Stable Diffusion Model），其中包括图像解码器和Unet模型。需理解，预训练的训练数据包括多个文本-图像对，不包括视频粒度的标注数据，因本说明书实施例披露的的视频编辑方法使用的是已有的预训练模型，不涉及对预训练方式的改进，所以对预训练过程不作过多描述，下文中或按需提及。另外，视频编辑方法的执行主体可以为任何具有计算、处理能力的装置、服务器、平台或设备集群等，例如，可以是视频编辑软件等。

如图3所示，所述方法包括以下步骤：

步骤S310，确定与原始视频的n个视频帧对应的n个加噪编码。

可以理解，上述原始视频为待编辑的视频，或者说编辑前的视频。示例性地，原始视频可以是用户基于视频编辑界面上传的视频。另外，上述n个视频帧（或称n个原始视频帧）是对原始视频进行抽帧而得到，n的取值取决于工作人员预先配置的规则。示例性的，可以按照预定时间间隔（如100ms）从原始视频中抽取多个视频帧，作为n个视频帧。

在实施方式A中，本步骤可以沿用预训练阶段中得到待编辑图像的加噪编码的方式实现。具体地，利用图像编码器（如变分自编码器）对n个视频帧逐个进行编码处理，得到n个原始编码，再对n个原始编码分别进行加噪处理，得到n个加噪编码。示例性地，其中加噪处理对应稳定生成模型中的正向扩散过程。

在实施方式B中，可以对实施方式A中的编码处理进行改进，具体地，相较于实施方式A中利用一个图像编码器对n个视频帧进行串行处理，提出利用复制图像编码器得到的n个图像编码器并行处理n个视频帧，得到n个原始编码。示例性的，对图像编码器复制n-1次，得到n-1个图像编码器，与被复制的图像编码器共同组成n个图像编码器。

另外，本说明书实施例中还提出对编码处理的方式进行其他改进，以及对加噪处理进行改进，因相关内容涉及到对其他步骤的描述，为清楚简洁起见，在下文中再做介绍。

由上，通过执行步骤S310可以得到n个原始视频帧对应的n个加噪编码。

在执行步骤S310之前、之后或同时，可以执行步骤S320，确定与引导视频编辑的描述文本对应的文本编码。

可以理解，上述描述文本用于引导、驱动视频编辑，可以由用户自定义输入，例如，图1中示意的描述文本为“身穿盔甲的男人在滑雪”，实际还可以为“穿着羽绒服的狗狗在滑雪”，等等。

本步骤可以沿用预训练阶段中对文本进行编码的方式实现。具体地，文生图模型中还包括文本编码器，示例性的，可以直接使用用于匹配图像和文本的预训练神经网络模型（Contrastive Language-Image Pre-Training，简称CLIP）中用于编码文本的编码器，作为文生图模型中的文本编码器，由此，可以将描述文本输入文本编码器，得到对应的文本编码。

由上，可以得到描述文本对应的文本编码。

基于以上得到的描述文本的文本编码，以及对应n个视频帧的n个加噪编码，执行步骤S330，利用文本编码和复制Unet模型而得到的n个Unet模型，对n个加噪编码进行去噪处理，得到n个去噪编码。

为便于理解，下面先对文生图模型中的Unet模型的进行简要介绍。如图4所示，模型结构形似字母“U”，故称为U-Net。Unet模型主要包括3类模块，下采样模块、中间模块和上采样模块，其中各类模块的数量可以是一个或多个（或称若干个），图4中简单示意3个下采样模块、1个中间模块和3个上采样模块。加噪编码（实质是一种特征图）被输入Unet模型后，在文本编码的引导下，经多个下采样模块的处理尺寸不断变小，经中间模块的处理后尺寸不变，经多个上采样模块的处理尺寸不断变大，一般还原为加噪编码的尺寸。需理解，上采样模块的输入还可以包括处于对称位置的下采样模块的输出（对此可参见图4中的虚线箭头）。

如图5所示，Unet模型的各个模块中均包括卷积层、自注意力层和交叉注意力层，还可以选择性的包括激活层、池化层和全连接层，对于各个模块中不同层的排列顺序和数量由工作人员按经验配置，图5中示意各个模块中不同网络层的一种典型排列顺序。可以理解，第1个下采样模块中首个卷积层的输入为加噪编码，各个模块中交叉注意力层的输入除了包括上一层的输出外，还包括文本编码；另外，不同模块中的同类网络层存在差异，例如，卷积层中卷积核的尺寸、个数或权重参数存在差异。

以上介绍文生图中的Unet模型。在本步骤中，利用了复制Unet模型而得到的n个Unet模型，从而通过将其中各个Unet模型中的自注意力层的使用方式改造为跨帧注意力，处理n个加噪编码和文本编码，得到经过跨帧交互的n个去噪编码。

具体地，将任意的第i个Unet模型（或者说每个Unet模型）中的自注意力层的前一网络层称为目标网络层，示例性的，此目标网络层可以是池化层（对此可参见图4）、激活层、或卷积层等。基于此，本步骤中的去噪处理包括：在第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算。

对于目标Unet模型，可以灵活指定。在一个实施例中，每个Unet模型对应的目标模型均相同，例如，均为预定的第j个Unet模型，例如，j=1（对此可参见图1）。在另一个实施例中，第i个Uet模型对应的目标模型为第i-1个模型，而对于第1个Unet模型其目标Unet模型为其自身或其他的Unet模型，如第2个Unet模型。

对于上述注意力计算，在一个可能的情况中，Unet模型的自注意力层的实现基于Transformer中的自注意力机制，此时，自注意力层中涉及查询矩阵Q、键矩阵K和值矩阵V的计算。此时，在一个实施例中，上述自注意力计算可以包括：在任意第i个Unet模型的自注意力层中，利用查询参数矩阵W_q处理所述第i个Unet模型的目标网络层的输出Z_i，得到查询矩阵Q；分别利用键参数矩阵W_k和值参数矩阵W_v处理目标Unet模型中目标网络层的输出Z_j（例如Z_j=Z₁），得到键矩阵K和值矩阵V。在此实施例，利用各个参数矩阵进行的处理均为线性变换处理，示例性的，可以参见下式（1）：

Q=W_q*Z_i ^T

K=W_k*Z_j ^T（1）

V=W_v*Z_j ^T

其中上标T表示矩阵的转置运算。

在另一个实施例中，上述自注意力计算可以采用下式（2）实现：

Q=W_q*Z_j ^T

K=W_k*Z_i ^T（2）

V=W_v*Z_i ^T

进一步，在第i个Unet模型的自注意力层中，可以基于查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出，具体可以沿用Unet模型中的原有计算方式，在此不作赘述。

在另一种可能的情况中，本步骤中的注意力计算可以采用下式（3）实现：

A= softmax(Z_i*Z_j ^T) （3）

在式（3）中，A表示注意力矩阵，softmax是一种归一化函数，按行作用在Z_i*Z_j ^T的乘积结果矩阵上。

进一步，可以基于A和Z_i确定当前注意力层的输出O，例如采用下式（4）：

O=A*Z_i（4）

以上介绍对n个Unet模型中自注意力层的使用方式进行改进，实现n个视频帧之间的跨帧交互，从而使得n个Unet模型输出的n个去噪编码之间具有良好的连贯性。

另一方面，在一种可能的情况中，文生图模型还包括深度信息编码器，在去噪处理中引入深度信息编码器的输出，可以实现利用显式的深度信息约束编辑后视频的连续性。示例性的，深度信息编码器中可以包括多个残差块。下面先介绍相关的实施步骤，再介绍对此实施步骤的改进。

具体地，针对原始视频中的n个视频帧，先提取其中各个视频帧的深度信息，再利用深度信息编码器分别处理n个视频帧的n个深度信息，得到n个深度编码。基于此，上述去噪处理还包括：在任意第i个Unet模型，对其下采样模块的输出和第i个信息编码进行融合后，输入下一模块。

需理解，深度信息又称深度图（Depth map），其指示图像中被拍摄场景里的每个点到拍摄设备的距离信息。在一个实施例中，原始视频采样双目摄像头拍摄得到，此时，拍摄图像的参数中自带深度信息，由此可以直接从拍摄参数中提取出深度信息。在另一个实施例中，原始视频采用单目摄像头拍摄得到，此时，可以采用已有的单目深度估计算法，例如，运动恢复结构（Structure From Motion）、基于机器学习技术的深度信息提取模型等，实现深度信息的提取。

另外，对于任意第i个Unet模型，若其包括多个下采样模块，那么，对于全部或部分下采样模块中各个下采样模块的输出，可以均与第i个信息编码进行融合后，再输入下一模块。基于图4可知，某个下采样模块的下一模块可能是另一个下采样模块或中间模块。

下面介绍对上述实施步骤提出的进一步改进。

在一种改进方式中，提出通过对深度信息进行取反操作，约束生成视频帧对远近景细节的一致性保持。具体包括：

1）先对n个深度信息分别进行取反操作，得到前后景逆反的n个反向深度信息。需理解，取反操作可以利用已有技术实现，不作赘述。

2）然后，还利用上述深度信息编码器分别处理n个反向深度信息，对应得到n个反向深度编码，进而对上述n个深度编码和n个反向深度编码两两进行融合，具体包括对对应同一视频帧的深度编码和反向深度编码进行第一融合处理，总共得到n个融合编码。

在一个具体的实施例中，上述第一融合处理的方式可以为加权求和，加权求和采用的权重可以是预先设定的。示例性的，可以利用下式（5）计算任意的第i个融合编码。

（5）

在式（5）中，、和分别表示第i个融合编码、第i个深度编码和第i个反向深度编码；和分别为和的权重；，其具体取值可以由工作人员设定，例如设定。

在另一个具体的实施例中，上述融合处理的方式还可以是直接加和或求平均。

3）基于以上得到的n个融合编码，对去噪处理做出改进：在任意第i个Unet模型，对其下采样模块的输出和第i个融合编码进行第二融合处理后，输入下一模块。示例性的，第二融合处理可以包括加和、求平均或加权求和等。

由上，将视频帧的连续性问题进一步分解为远景和近景的一致性保持子问题，通过取反操作，约束生成视频帧对远近景细节的一致性保持。

在另一种改进方式中，考虑到利用单个深度信息编码模型对n个深度信息（或n个反向深度信息）进行串行处理消耗的计算时间较长，提出利用复制所述深度信息编码器而得到的n个深度信息编码器并行处理n个深度信息（或n个反向深度信息），得到n个深度编码（或n个反向深度编码）。

以上介绍对利用深度信息引导去噪处理的改进。需理解，除了利用深度信息引导去噪处理，还可以利用其他类别的图像信息，如边缘信息或光流图等，利用其他类别的图像信息引导去噪处理的过程与利用深度信息引导去噪处理的过程类似，可以参照执行，但是没有取反操作。示例性的，假定其他类别的图像信息是边缘信息，则可以将上述部分实施例中的深度信息、深度信息编码器、深度编码合乎逻辑地对应替换为边缘信息、边缘信息编码器和边缘信息编码。

以上介绍步骤S330的执行过程，包括利用文本编码和n个Unet模型，对n个加噪编码进行去噪处理。另外，前述提及还可以对步骤S310中记载的加噪处理进行改进，具体地，可以利用Unet模型进行加噪，加噪过程与利用Unet模型进行去噪的过程类似，区别在于加噪和去噪时输入Unet模型的内容不同，由此输出的内容也不相同。

为区分描述，将用于去噪处理的n个Unet模型记作n个第一Unet模型，将用于加噪处理的n个Unet模型记作n个第二Unet模型，可以理解，n个第二Unet模型同样是对文生图模型中的Unet模型进行复制而得到。需说明，第一Unet模型的“第一”、第二Unet模型中的“第二”，以及文中他处的类似用语，均是为了区分同类事物，不具有排序等其他限定作用。

根据前述实施例的描述可知，去噪处理包括将描述文本的文本编码和第i个加噪编码作为第i个第一Unet模型的输入，n个第一Unet模型中部分或全部自注意力层的输入除了包括与其相邻且在前的目标网络层的输出，还包括目标第一Unet模型中目标网络层的输出，从而实现跨帧交互。进一步，提出还可以利用深度信息和取反操作得到的反向深度信息对应的融合编码，引导去噪过程。

与此相对应地，加噪处理可以包括将置为零的文本编码（也即是组成元素全为0的文本编码）和第i个视频帧对应的第i个原始编码作为第i个第二Unet模型的输入，n个第二Unet模型中部分或全部自注意力层的输入除了包括与其相邻且在前的目标网络层的输出，还包括目标第二Unet模型中目标网络层的输出，从而实现跨帧交互。如此，在加噪过程中实现跨帧交互，可以实现对加噪编码的优化，进一步提高编辑后视频的连贯性。另外，还可以利用深度信息和取反操作得到的反向深度信息对应的融合编码，引导加噪过程，如此，可以进一步约束后续生成的目标图像对远近景细节的一致性保持。

以上介绍对步骤S310中加噪处理的改进。回到步骤S330，可以执行得到n个原始视频帧对应的n个去噪编码。

基于n个去噪编码，执行步骤S340，利用图像解码器分别处理所述n个去噪编码，得到n个目标图像，用于形成编辑后的目标视频。

根据另一方面的实施例，在步骤S340之后，所述视频编辑方法还可以包括步骤S350（图3中未示出步骤S350）：基于n个目标图像，确定编辑后的目标视频。

在一种实施方式中，为更好地维持生成地视频帧之间的连贯性，在视频编辑方法中对原始视频中无需编辑的区域进行了遮盖，让生成过程只作用在编辑区域，此时，在本步骤中需要通过替换或融合的方式得到输出的目标视频。

具体地，上述步骤S310中的编码处理包括：针对原始视频中的各个原始视频帧，生成用于遮盖其中无需编辑区域的二值图，再利用图像编码器处理该视频帧的完整像素图和二值图进行对位相乘后得到的遮盖后像素图，得到对应的原始编码。

需理解，二值图中的元素为两个不同数值之一，例如，二值图中对应无需编辑区域的矩阵元素为0，对应其他区域（或称需编辑的目标区域）的矩阵元素为1。

可以理解，需编辑的目标区域确定后，无需编辑的非目标区域随之确定。目标区域的确定方式有多种，在一个实施例中，可以接收用户基于视频编辑界面输入的目标区域。在一个具体的实施例中，可以接收用户用画笔工具在某个原始视频帧中圈定的目标区域，再利用机器学习算法动态追踪其他原始视频帧的目标区域，从而可以得到各个原始视频帧中需编辑的目标区域。在另一个具体的实施例中，可以先在视频编辑界面向用户展示利用目标检测算法检测出的各个对象，让用户自行点击选取部分对象，从而将该部分对象所在的图像区域作为目标区域。在另一个实施例中，还可以利用引导视频编辑的描述文本匹配视频帧，自动得到需编辑的目标区域。示例性的，可以采用训练好的分类模型处理描述文本，得到描述文本指示的用户意图编辑的对象类别，再将之与利用目标检测算法从原始视频中检测出的各个对象的类别进行匹配，从而定位出目标区域。

基于此，在本步骤中包括：针对n个目标图像中的各个目标图像，将其与对应原始视频帧中无需编辑区域的图像进行融合，得到对应的目标视频帧，从而将n个目标图像对应的n个目标视频帧构建成编辑后的目标视频。

在另一种实施方式中，上述步骤S310中是直接对各个原始视频帧的完整像素图进行编码，此时，生成的目标图像是完整的，可以直接利用n个目标图像构建出目标视频。

由上，可以得到连贯性良好的编辑后视频。需说明，本说明书实施例披露的视频编辑方法尤其适用于原始视频为3-5s，且其中包含运动物体的短视频。另外，上述实施例中主要描述进行了改进的技术内容，对于没有描述的技术点，可以沿用已有方式实现，例如，利用n个Unet模型进行加噪处理包括T次循环迭代，相应，利用n个Unet模型进行去噪处理也包括T次循环迭代，又例如，在加噪处理或去噪处理涉及的每次循环迭代中，Unet模型的输入还包括当前的循环迭代轮次t，等等。

综上，采用本说明书实施例披露的视频编辑方法，不需要对预训练后的文生图模型进行任何的额外训练，而是可以直接利用该文生图模型处理原始视频和引导视频编辑的描述文本，生成视觉效果好、连贯性较佳的编辑后视频。

在图3示出的视频编辑方法中，采用复制Unet模型而得到的n个Unet模型对n个加噪编码进行去噪处理。实际上，也可以不对Unet模型进行复制，而是借助模型处理一批次多个样本时的batch通道，实现对n个视频帧的批量处理，可以理解，处理结果与前述实施例中采用n个Unet模型进行去噪处理的结果相同。

图6为本说明书实施例披露的视频编辑方法的流程步骤示意图之二，该视频编辑方法基于预训练的文生图模型实现，视频编辑方法的执行主体可以为任何具有计算、处理能力的装置、服务器、平台或设备集群等，例如，可以是视频编辑软件等。

如图6所示，所述方法包括以下步骤：

步骤S610，确定与原始视频的n个视频帧对应的n个加噪编码。

具体地，先对n个视频帧进行编码处理，对应得到n个原始编码，再对n个原始编码分别进行加噪处理，得到n个加噪编码。在一个实施例中，加噪处理包括：利用置为零的文本编码和Unet模型分别对所述n个原始编码进行加噪处理，得到n个加噪编码。

另外需说明，对步骤S610的介绍还可以参见前述对步骤S310的相关介绍。

步骤S620，确定与引导视频编辑的描述文本对应的文本编码。

需说明，对步骤S620的介绍可以参见前述对步骤S320的介绍，在此不作赘述。

步骤S630，利用所述文本编码和所述Unet模型分别对所述n个加噪编码进行去噪处理，得到n个去噪编码；所述Unet模型包括接续在目标网络层之后的自注意力层，其中对任意第i个加噪编码进行去噪处理包括：在所述自注意力层中，基于目标网络层针对所述第i个加噪编码的第一输出，以及所述目标网络层针对预定的目标加噪编码的第二输出进行注意力计算。

对于上述目标加噪编码，可以灵活指定。在一个实施例中，每个加噪编码对应的目标加噪编码均相同，例如，均为预定的第j个加噪编码（如j=1）。在另一个实施例中，第i个加噪编码对应的目标加噪编码为第i-1个加噪编码，而对于第1个加噪编码其目标加噪编码为其自身或其他的加噪编码，如第2个加噪编码。

在一个实施例中，上述注意力计算包括：在所述自注意力层中，利用查询参数矩阵处理所述第一输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述第二输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。在另一个实施例中，可以参考上述公式（3）实现注意力计算。

另一方面，在一个实施例中，文生图模型还包括针对预设类别图像信息的图信息编码器，所述Unet模型的自注意力层位于下采样模块中；其中，在利用所述文本编码和Unet模型对所述n个加噪编码分别进行去噪处理，得到n个去噪编码之前，所述方法还包括：从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码。其中，所述去噪处理还包括：在Unet模型中，对其下采样模块针对第i个加噪编码的输出和第i个信息编码进行融合后，输入下一模块。

另外需说明，对步骤S630的介绍还可以参见前述对步骤S630的相关介绍。

步骤S640，分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

需说明，对步骤S640的介绍可以参见前述对步骤S340的介绍，在此不作赘述。

与上述视频编辑方法相对应的，本说明书实施例还披露视频编辑装置。图7为本说明书实施例披露的视频编辑装置的结构示意图之一，该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型。如图7所示，视频编辑装置700包括：

加噪及编码图像模块710，配置为确定与原始视频的n个视频帧对应的n个加噪编码。编码文本模块720，配置为确定与引导视频编辑的描述文本对应的文本编码。去噪模块730，配置为利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码；其中各Unet模型包括接续在目标网络层之后的自注意力层，所述去噪处理包括：在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算。解码模块740，配置为分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

在一个实施例中，所述预训练的训练数据包括文本-图像对。

在一个实施例中，所述视频编辑装置700还包括视频及文本获取模块750，配置为获取用户输入的所述原始视频和所述描述文本。

在一个实施例中，去噪模块730具体配置为：在任意第i个Unet模型的自注意力层中，利用查询参数矩阵处理所述第i个Unet模型的目标网络层的输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述目标Unet模型中目标网络层的输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

在一个实施例中，所述文生图模型还包括针对预设类别图像信息的图信息编码器，所述任意Unet模型的自注意力层位于下采样模块中。所述视频编辑装置700还包括图信息编码模块760，配置为：从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码。所述去噪模块730具体配置为：在任意第i个Unet模型中，对其下采样模块的输出和第i个信息编码进行融合后，输入下一模块。

在一个具体的实施例中，图信息编码模块760具体配置为：利用复制所述图信息编码器而得到的n个图信息编码器并行处理所述n个图信息，得到所述n个图信息编码。

另一方面，在一个具体的实施例中，所述预定图像信息类别包括图像的深度信息、边缘信息或光流图。

又一方面，在一个具体的实施例中，所述预定图像信息类别包括深度信息，所述图信息编码器为深度信息编码器，所述n个图信息为n个深度信息，所述n个信息编码为n个深度编码；所述视频编辑装置700还包括取反模块770，配置为：分别对所述n个深度信息进行取反操作，得到n个反向深度信息；利用所述深度信息编码器分别处理所述n个反向深度信息，得到n个反向深度编码；将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果。

进一步，在一个例子中，取反模块770进一步配置为：利用预定权重，对所述各个深度编码和对应的反向深度编码进行加权求和，得到对应的融合结果。

在一个实施例中，所述文生图模型还包括图像编码器；其中，加噪及编码图像模块710具体配置为：利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码；对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个具体的实施例中，加噪及编码图像模块710进一步配置为：针对所述n个视频帧中的各个视频帧，生成用于遮盖其中无需编辑区域的二值图；利用所述图像编码器处理该视频帧的完整像素图和所述二值图进行对位相乘后得到的遮盖后像素图，得到对应的原始编码。所述视频编辑装置700还包括：目标视频生成模块780，配置为针对所述n个目标图像中的各个目标图像，将其与对应视频帧中无需编辑区域的图像进行融合，得到对应的目标视频帧；利用所述n个目标图像对应的n个目标视频帧构建出所述目标视频。

另一方面，在一个具体的实施例中，所述n个Unet模型为n个第一Unet模型；其中，加噪及编码图像模块710进一步配置为：利用置为零的文本编码和复制所述Unet模型而得到的n个第二Unet模型，对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个实施例中，所述文生图模型还包括图像解码器；解码模块740具体配置为：利用所述图像解码器分别处理所述n个去噪编码，得到所述n个目标图像。

图8为本说明书实施例披露的视频编辑装置的结构示意图之二。该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型。如图8所示，视频编辑装置800包括：

加噪及编码图像模块810，配置为确定与原始视频的n个视频帧对应的n个加噪编码。编码文本模块820，配置为确定与引导视频编辑的描述文本对应的文本编码。去噪模块830，配置为配置为利用所述文本编码和Unet模型对所述n个加噪编码分别进行去噪处理，得到n个去噪编码；其中Unet模型包括接续在目标网络层之后的自注意力层，对任意第i个加噪编码进行的去噪处理包括：在Unet模型的自注意力层中，基于目标网络层针对第i个加噪编码的输出，以及目标网络层针对预定的目标加噪编码的输出进行注意力计算。解码模块840，配置为分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

在一个实施例中，所述预训练的训练数据包括文本-图像对。

在一个实施例中，所述视频编辑装置800还包括视频及文本获取模块850，配置为获取用户输入的所述原始视频和所述描述文本。

在一个实施例中，去噪模块830具体配置为：在自注意力层中，利用查询参数矩阵处理所述第一输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述第二输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

在一个实施例中，所述文生图模型还包括针对预设类别图像信息的图信息编码器，所述Unet模型的自注意力层位于下采样模块中。所述视频编辑装置800还包括图信息编码模块860，配置为：从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码；所述去噪模块830具体配置为：在Unet模型中，对其下采样模块针对第i个加噪编码的输出和第i个信息编码进行融合后，输入下一模块。

在一个具体的实施例中，图信息编码模块860具体配置为：利用复制所述图信息编码器而得到的n个图信息编码器并行处理所述n个图信息，得到所述n个图信息编码。

又一方面，在一个具体的实施例中，所述预定图像信息类别包括深度信息，所述图信息编码器为深度信息编码器，所述n个图信息为n个深度信息，所述n个信息编码为n个深度编码；所述视频编辑装置800还包括取反模块870，配置为：分别对所述n个深度信息进行取反操作，得到n个反向深度信息；利用所述深度信息编码器分别处理所述n个反向深度信息，得到n个反向深度编码；将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果。

进一步，在一个例子中，取反模块870进一步配置为：利用预定权重，对所述各个深度编码和对应的反向深度编码进行加权求和，得到对应的融合结果。

在一个实施例中，所述文生图模型还包括图像编码器；其中，加噪及编码图像模块810具体配置为：利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码；对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个具体的实施例中，加噪及编码图像模块810进一步配置为：针对所述n个视频帧中的各个视频帧，生成用于遮盖其中无需编辑区域的二值图；利用所述图像编码器处理该视频帧的完整像素图和所述二值图进行对位相乘后得到的遮盖后像素图，得到对应的原始编码。所述视频编辑装置800还包括：目标视频生成模块880，配置为针对所述n个目标图像中的各个目标图像，将其与对应视频帧中无需编辑区域的图像进行融合，得到对应的目标视频帧；利用所述n个目标图像对应的n个目标视频帧构建出所述目标视频。

另一方面，在一个具体的实施例中，其中，加噪及编码图像模块810进一步配置为：利用置为零的文本编码和所述Unet模型分别对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

在一个实施例中，所述文生图模型还包括图像解码器；解码模块840具体配置为：利用所述图像解码器分别处理所述n个去噪编码，得到所述n个目标图像。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3或图6所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3或图6所描述的方法。本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种视频编辑方法，其实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述方法包括：

确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码；

利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码；其中各Unet模型包括接续在目标网络层之后的自注意力层，所述去噪处理包括：在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算；

分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

2.根据权利要求1所述的方法，其中，所述预训练的训练数据包括文本-图像对。

3.根据权利要求1所述的方法，其中，在确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码之前，所述方法还包括：

获取用户输入的所述原始视频和所述描述文本。

4.根据权利要求1所述的方法，其中，在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算，包括：

在任意第i个Unet模型的自注意力层中，利用查询参数矩阵处理所述第i个Unet模型的目标网络层的输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述目标Unet模型中目标网络层的输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

5.根据权利要求1所述的方法，其中，所述文生图模型还包括针对预设类别图像信息的图信息编码器，所述任意Unet模型的自注意力层位于下采样模块中；其中，在利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码之前，所述方法还包括：

从所述n个视频帧中提取所述预定类别图像信息下的n个图信息；

利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码；

其中，所述去噪处理还包括：

在任意第i个Unet模型中，对其下采样模块的输出和第i个信息编码进行融合后，输入下一模块。

6.根据权利要求5所述的方法，其中，利用所述图信息编码器分别处理所述n个图信息，得到n个信息编码，包括：

利用复制所述图信息编码器而得到的n个图信息编码器并行处理所述n个图信息，得到所述n个图信息编码。

7.根据权利要求5所述的方法，其中，所述预定图像信息类别包括图像的深度信息、边缘信息或光流图。

8.根据权利要求5所述的方法，其中，所述预定图像信息类别包括深度信息，所述图信息编码器为深度信息编码器，所述n个图信息为n个深度信息，所述n个信息编码为n个深度编码；在进行所述去噪处理之前，所述方法还包括：

分别对所述n个深度信息进行取反操作，得到n个反向深度信息；

利用所述深度信息编码器分别处理所述n个反向深度信息，得到n个反向深度编码；

将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果。

9.根据权利要求8所述的方法，其中，将所述n个深度编码中的各个深度编码更新为其与对应反向深度编码之间的融合结果，包括：

利用预定权重，对所述各个深度编码和对应的反向深度编码进行加权求和，得到对应的融合结果。

10.根据权利要求1所述的方法，其中，所述文生图模型还包括图像编码器；其中，确定与原始视频的n个视频帧对应的n个加噪编码，包括：

利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码；

对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

11.根据权利要求10所述的方法，其中，利用所述图像编码器分别对所述n个视频帧进行编码处理，得到n个原始编码，包括：

针对所述n个视频帧中的各个视频帧，生成用于遮盖其中无需编辑区域的二值图；利用所述图像编码器处理该视频帧的完整像素图和所述二值图进行对位相乘后得到的遮盖后像素图，得到对应的原始编码；

其中，在利用所述图像解码器分别处理所述n个去噪编码，得到n个目标图像之后，所述方法还包括：

针对所述n个目标图像中的各个目标图像，将其与对应视频帧中无需编辑区域的图像进行融合，得到对应的目标视频帧；

利用所述n个目标图像对应的n个目标视频帧构建出所述目标视频。

12.根据权利要求10所述的方法，其中，所述n个Unet模型为n个第一Unet模型；其中，对所述n个原始编码进行加噪处理，得到所述n个加噪编码，包括：

利用置为零的文本编码和复制所述Unet模型而得到的n个第二Unet模型，对所述n个原始编码进行加噪处理，得到所述n个加噪编码。

13.根据权利要求1所述的方法，其中，所述文生图模型还包括图像解码器；其中，分别对所述n个去噪编码进行解码处理，得到n个目标图像，包括：

利用所述图像解码器分别处理所述n个去噪编码，得到所述n个目标图像。

14.根据权利要求1-13中任一项所述的方法，其中，所述Unet模型包括多个下采样模块、若干中间模块和多个上采样模块，其中各个模块均包括所述自注意力层。

15.根据权利要求14所述的方法，其中，所述各个模块还包括卷积层、激活层、池化层、交叉注意力层和全连接层，所述交叉注意力层的输入包括文本编码。

16.一种视频编辑方法，其实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述方法包括：

利用所述文本编码和所述Unet模型分别对所述n个加噪编码进行去噪处理，得到n个去噪编码；所述Unet模型包括接续在目标网络层之后的自注意力层，其中对任意第i个加噪编码进行去噪处理包括：在所述自注意力层中，基于目标网络层针对所述第i个加噪编码的第一输出，以及所述目标网络层针对预定的目标加噪编码的第二输出进行注意力计算；

17.根据权利要求16所述的方法，其中，在Unet模型的自注意力层中，基于目标网络层针对所述第i个加噪编码的第一输出，以及所述目标网络层针对预定的目标加噪编码的第二输出进行注意力计算，包括：

在所述自注意力层中，利用查询参数矩阵处理所述第一输出，得到查询矩阵Q；分别利用键参数矩阵和值参数矩阵处理所述第二输出，得到键矩阵K和值矩阵V；基于所述查询矩阵Q、键矩阵K和值矩阵V，确定当前自注意力层的输出。

18.一种视频编辑装置，该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述装置包括：

加噪及编码图像模块，配置为确定与原始视频的n个视频帧对应的n个加噪编码；

编码文本模块，配置为确定与引导视频编辑的描述文本对应的文本编码；

去噪模块，配置为利用所述文本编码和复制所述Unet模型而得到的n个Unet模型，对所述n个加噪编码进行去噪处理，得到n个去噪编码；其中各Unet模型包括接续在目标网络层之后的自注意力层，所述去噪处理包括：在任意第i个Unet模型的自注意力层中，基于第i个Unet模型的目标网络层的输出，以及预定的目标Unet模型中目标网络层的输出进行注意力计算；

解码模块，配置为分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

19.一种视频编辑装置，该装置的功能实现基于预训练的文生图模型，所述文生图模型包括Unet模型，所述装置包括：

加噪及编码图像模块，配置为确定与原始视频的n个视频帧对应的n个加噪编码，以及，确定与引导视频编辑的描述文本对应的文本编码；

编码文本模块，利用所述文本编码和所述Unet模型分别对所述n个加噪编码进行去噪处理，得到n个去噪编码；所述Unet模型包括接续在目标网络层之后的自注意力层，其中对任意第i个加噪编码进行去噪处理包括：在所述自注意力层中，基于目标网络层针对所述第i个加噪编码的第一输出，以及所述目标网络层针对预定的目标加噪编码的第二输出进行注意力计算；

去噪模块，分别对所述n个去噪编码进行解码处理，得到n个目标图像，用于形成编辑后的目标视频。

20.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-17中任一项所述的方法。

21.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-17中任一项所述的方法。