CN116980541B

CN116980541B - 视频编辑方法、装置、电子设备以及存储介质

Info

Publication number: CN116980541B
Application number: CN202311229073.3A
Authority: CN
Inventors: 张韵璇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-08
Anticipated expiration: 2043-09-22
Also published as: CN116980541A

Abstract

本申请实施例提供了一种视频编辑方法、装置、电子设备以及存储介质，该方法涉及人工智能领域中的视频编辑领域，该方法包括：获取源视频，并对该源视频进行抽样得到源图像序列；得到该源图像序列的动作特征图序列和该源图像序列的分割特征图序列；获取参考图像并对该参考图像中的目标主体进行特征提取得到该目标主体的特征图；获取源描述和目标描述；以该源描述为条件，利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列；以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。该方法能够提升视频编辑的性能。

Description

视频编辑方法、装置、电子设备以及存储介质

技术领域

本申请实施例涉及人工智能领域中的视频编辑领域，并且更具体地，涉及视频编辑方法、装置、电子设备以及存储介质。

背景技术

图像编辑一直是计算机视觉领域的热门方向。

图像编辑可通过文本生成图像（text to image）扩散模型实现，其可基于文本生成相应的图像，文本生成图像扩散模型在内容真实性和多样性上取得了不错的效果。

对于视频编辑，可以通过视频编辑将源视频的已有的动作迁移到指定的主体上以生成新视频。

考虑到针对视频编辑重新训练模型会产生大量的机器成本及时间成本，通常情况下，会通过选取关键帧，并利用文本生成图像扩散模型转换源视频的关键帧，进而生成新视频。但是，如果直接将文本生成图像扩散模型迁移到视频编辑上，会导致编辑得到的新视频出现严重的闪烁以及视频的不连贯的现象。

此外，由于文本生成图像扩散模型没有考虑到时序信息，比如动作和三维（3D）形状，其编辑能力有限，而视频编辑需要针对指定主体的生成特定的动作，需要细粒度的控制。因此，如果直接利用文本生成图像扩散模型编辑关键字，无法保证编辑得到的新视频在空间和时序上的动作变化的连续性，进而导致新视频出现不流畅且闪烁严重的问题。例如，将猫的动作迁移到老虎上时，会导致老虎的形状或位置发生变化，进而会出现老虎的形状和位置闪烁严重的问题。

发明内容

本申请实施例提供了一种视频编辑方法、装置、电子设备以及存储介质，能够提升视频编辑性能。

第一方面，本申请实施例提供了一种视频编辑方法，包括：

获取源视频，并对该源视频进行抽样得到源图像序列；

对该源图像序列中图像的主体信息和动作信息进行解耦，得到该源图像序列的动作特征图序列和该源图像序列的分割特征图序列；该动作特征图序列为对该源图像序列中图像的主体的动作特征进行提取得到的特征图，该分割特征图序列为对该源图像序列中的主体进行分割得到的特征图；

获取参考图像并对该参考图像中的目标主体进行特征提取得到该目标主体的特征图；

获取源描述和目标描述；该源描述用于描述该源视频的画面内容，该目标描述用于描述该源视频经过视频编辑后期望生成的视频的画面内容；

以该源描述为条件，利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列；

以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

第二方面，本申请实施例提供了一种电子设备，用于执行上文涉及的第一方面或其各实现方式中的方法。

具体地，所述电子设备包括用于执行上文涉及的第一方面或其各实现方式中的方法的功能模块。

在一种实现方式中，该电子设备可包括处理单元，该处理单元用于执行与信息处理相关的功能。例如，该处理单元可以为处理器。在另一种实现方式中，该电子设备可包括发送单元和/或接收单元。该发送单元用于执行与发送相关的功能，该接收单元用于执行与接收相关的功能。例如，该发送单元可以为发射机或发射器，该接收单元可以为接收机或接收器。再如，该电子设备为通信芯片，该发送单元可以为该通信芯片的输入电路或者接口，该发送单元可以为该通信芯片的输出电路或者接口。

第三方面，本申请实施例提供了一种电子设备，包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上文涉及的第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上文涉及的第一方面的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上文涉及的第一方面的方法。

针对本申请实施例提供的视频编辑方法，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频时，以该源描述为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列，且以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

由于该动作特征图序列可以为该视频编辑模型提供源图像序列中图像的主体的动作特征，该分割特征图序列可以为该视频编辑模型提供源图像序列中图像的结构特征，以及该目标主体的特征图可以为该视频编辑模型提供目标主体的结构特征，因此，对于该视频编辑模型对该噪声图像序列进行去噪声处理得到的图像序列，以该动作特征图序列、该分割特征图序列以及该目标主体的特征图为条件，其不仅能够使得该目标视频保留有源视频序列的动作特征和结构特征，还能够使得该目标视频保留该目标主体的结构特征，即保证了该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。例如，将猫的动作迁移到老虎上时，可以避免老虎的形状或位置发生变化，进而避免出现老虎的形状和位置闪烁严重的问题。

此外，利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理并得到噪声图像序列时，以该源描述为条件，可以为该视频编辑模型提供该源图像序列中图像的时序信息，进而保证该噪声图像序列中的图像保留有该源图像序列中图像的时序信息；类似的，利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频时，以该目标描述为条件，可以为该视频编辑模型提供该目标视频中图像的时序信息；相当于，在去噪声处理过程中，以该目标描述为条件，利用该视频编辑模型对结合有源描述的噪声图像序列进行去噪声处理，实现了对该源图像序列中图像的时序信息和该目标主体的时序信息的融合，保证了源图像序列中的主体和该目标主体在空间上的结构变化和动作变化的兼容性，进而避免该目标视频出现背景不流畅且闪烁严重的问题。例如，将猫的动作迁移到老虎上时，可以避免老虎的背景的形状或位置发生变化，进而避免出现老虎的背景的形状和位置闪烁严重的问题。

综上可知，该视频编辑方法在扩散处理过程引入源描述，在去噪声处理过程中引入该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述，不仅可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题，还可以保证该目标视频出现背景不流畅且闪烁严重的问题，进而能够提升视频编辑的性能。

此外，由于可以通过一张参考图像获取目标主体的特征图，因此无需重新训练模型，即仅由一张参考图片就可以完成动作迁移，降低了视频编辑模型的研发成本。另外，以目标主体的特征图和目标描述为条件进行去噪声处理，避免了针对目标主体对模型进行微调，不仅节省了模型训练的机器成本和时间成本，还有利于将在移动设备上部署该视频编辑模型，提升了该视频编辑模型的实用性。以该目标主体的特征图和目标描述为条件进行去操作处理，不仅利于定制化生成效果且效果优异，还可以灵活的满足用于的生成需求，丰富了视频编辑的编辑方式。

附图说明

图1是本申请实施例提供的视频编辑系统的示例。

图2是本申请实施例提供的视频编辑方法的示意性流程图。

图3是本申请实施例提供的视频编辑模型的示意性结构图。

图4是本申请实施例提供的视频编辑模型的训练过程的示意性原理图。

图5是本申请实施例提供的视频编辑模型的编辑过程的示意性原理图。

图6是本申请实施例提供的源图像序列中的图像和对其进行编辑后的图像的示例。

图7是本申请实施例提供的视频编辑模型包括的扩散模块和去噪声模块的示意性结构图。

图8是本申请实施例提供的混合注意力块的示意性结构图。

图9是本申请实施例提供的编辑交叉注意力图和经过视频编辑得到的图像的示例。

图10是本申请实施例提供的更新后的交叉注意力图和经过视频编辑得到的图像的另一示例。

图11是本申请实施例提供的源自注意力图、编辑自注意力图和更新后的自注意力图的示例。

图12是本申请实施例提供的视频编辑装置的示意性框图。

图13是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请提供的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案涉及人工智能(Artificial Intelligence，AI)技术领域。例如，涉及基于人工智能的视频编辑技术领域。

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例也可以涉及人工智能技术中的机器学习(Machine Learning，ML)。例如，涉及基于机器学习的视频编辑模型对源视频进行编辑进而得到目标视频。

ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

下面对本申请实施例涉及的相关术语进行描述。

稳定扩散（stable diffusion）：通过在一个潜在表示空间中迭代“去噪声”数据来生成图像，然后将表示结果解码为完整的图像。

预训练（pre-training）：即预先训练，器可通过自监督学习从大规模数据中获得与具体任务无关的预先训练的模型。体现某一个词在一个特定上下文中的语义表征。

预先训练的模型：预先训练好的模型。

其中，预先训练的模型使用的训练数据可以是文本、文本-图像对、文本视频对等。预先训练的模型的训练方法可使用自监督学习技术（如自回归的语言模型和自编码技术）。预先训练的模型可以是单语言、多语言或多模态的模型。预先训练的模型可经过微调之后，用于各种具体的场景下的应用，例如支持分类、序列标记、结构预测和序列生成等各项技术，并构建文摘、机器翻译、图片检索、视频注释等应用。

微调：使用特定数据集对预先训练模型进行进一步训练的过程。

描述（prompt）：其可以是文本描述，用于生成图像。

嵌入表示：是一种用于将高维数据映射到低维向量空间的技术。它可以将复杂的数据结构，如文本、图像、音频等，转换为向量表示，使得数据在数学上更易于处理和比较。

特征图：是在计算机视觉和图像处理领域中常用的一种数据表示方式。它是对输入图像进行特征提取操作后得到的输出结果。特征图可以看作是原始图像在不同抽象层次上提取的特征信息的映射。

自注意力（self-attention）机制：主要用于计算序列内部元素之间的相关性。给定一个序列，自注意力机制能够对序列中的每个元素计算出其与序列中其他元素的相关度分数，以捕捉每个元素与整个序列的关系。

交叉注意力（cross-attention）机制：用于计算不同序列之间的相关性。它可以将一个序列的注意力应用到另一个序列上，以获得两个序列之间的对应关系。

需要说明的是，自注意力机制更常见于处理单一序列的任务，如机器翻译和文本生成。通过自注意力，模型可以根据句子中的每个单词与其他单词之间的依赖关系生成适当的上下文表示。交叉注意力机制更适用于处理多个序列之间的关系，如图像标注、语言对齐等任务。此外，自注意力机制通常将输入序列看作是一个整体，对每个元素进行注意力计算。而交叉注意力机制需要两个或多个输入序列，其中一个作为“查询”序列，另一个作为“键”和“值”序列，通过计算注意力来获取两个序列之间的对应关系。另外，在自注意力机制中，注意力权重是由序列内部元素之间的相似性计算得出的。而在交叉注意力机制中，注意力权重是通过两个序列之间的相似度计算得出的。

遮罩（mask）：在图像处理领域，通常指的是一种二进制图像，其中的像素被分为两个类别：前景和背景。

遮罩（mask）图像：用于指示哪些部分是感兴趣的前景，哪些部分是背景。遮罩图像可以是二值图像，背景的像素的值为0（即为黑色），表示背景区域；前景（感兴趣的目标）的像素的值为1（即为白色）或其他的非零数值。通过创建和使用遮罩图像，可以选择性地对图像进行操作，例如分割图像中的对象、提取感兴趣的区域、去除背景、掩盖特定区域等。

变换（warp）处理：是一种图像处理操作，它利用旋转缩放矩阵对图像进行变换。变换处理包括平移、旋转和缩放等处理方式。

需要说明的是，本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

例如，本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。术语“至少一项”，仅仅是一种描述列举对象的组合关系，表示可以存在一项或多项，例如，以下中的至少一项：A、B、C，可以表示以下几种组合情况：单独存在A，单独存在B，单独存在C，同时存在A和B，同时存在A和C，同时存在B和C，同时存在A、B以及C。术语“多个”是指两个或两个以上。字符“/”，一般表示前后关联对象是一种“或”的关系。

再如，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。术语“指示”可以是直接指示，也可以是间接指示，还可以是表示具有关联关系。举例说明，A指示B，可以表示A直接指示B，例如B可以通过A获取；也可以表示A间接指示B，例如A指示C，B可以通过C获取；还可以表示A和B之间具有关联关系。术语“预定义”或“预配置”可以在设备中预先保存相应的代码、表格或其他可用于指示的相关信息，也可以是指由协议约定。“协议”可以指本领域的标准协议。术语“在……时”可以被解释成为“如果”或“若”或“当……时”或“响应于”等类似描述。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”等类似描述。术语“第一”、“第二”、“第三”、“第四”、“第A”、“第B”等是用于区别不同对象，而不是用于描述特定顺序。术语“包括”和“具有”以及它们任何变形，意图在于覆盖不（或非）排他的包含。其中，数字视频压缩技术主要是将庞大的数字影像视频数据进行压缩，以便于传输以及存储等。

下面将对本申请实施例的视频编辑系统、所要解决的技术问题以及发明构思进行说明。

图1是本申请实施例提供的视频编辑系统100的示例。

如图1所示，该视频编辑系统100包括终端110和服务器120。终端110和服务器120通过网络连接。例如，终端110和服务器120可以通过有线或无线通信的方式进行直接或间接的连接。

其中，终端110可以是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑、可穿戴设备、车载设备等中的至少一种。

服务器120可以是独立的服务器，也可以是多个服务器组成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础计算服务的云服务器。当然，服务器也可以成为区块链的节点。服务器可以是一台或多台。服务器是多台时，存在至少两台服务器用于提供不同的服务，和/或，存在至少两台服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务。

服务器120用于为应用程序（例如终端110上的应用程序）提供后台服务。该应用程序可以是视频编辑应用程序。可选地，服务器120承担主要计算工作，终端110承担次要计算工作；或者，服务器120承担次要计算工作，终端110承担主要计算工作；或者，终端110和服务器120之间采用分布式计算架构进行协同计算。

以视频编辑系统100是网页浏览系统为例，服务器120用于获取终端110上安装的应用程序的视频编辑请求，并基于该视频编辑请求对获取到的源视频进行视频编辑，并生成编辑后的目标视频，然后服务器120可以将编辑得到的目标视频发送给终端110，以便该终端110显示该目标视频。应理解，图1仅为本申请的示例，不应理解为对本申请的限制。例如，本申请对服务器或终端设备的数量不作限定。本申请提供的方案可以由终端设备独立完成，也可以由服务器独立完成，还可以由终端设备和服务器配合完成，本申请对此不作限定。

服务器120进行视频编辑时，可以通过视频编辑将源视频的已有的动作迁移到指定的主体上以生成新视频。

考虑到针对视频编辑重新训练模型会产生大量的机器成本及时间成本，通常情况下，会通过选取关键帧，并利用文本生成图像扩散模型（文本生成图像扩散模型可基于文本生成相应的图像）转换源视频的关键帧，进而生成新视频。但是，如果直接将文本生成图像扩散模型迁移到视频编辑上，会导致编辑得到的新视频出现严重的闪烁以及视频的不连贯的现象。

有鉴于此，本申请实施例提供了一种视频编辑方法，能够提升视频编辑模型的性能。

下面对本申请实施例提供的视频编辑方法进行说明。

图2示出了根据本申请实施例的视频编辑方法200的示意性流程图，该方法200可以由任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为终端设备或服务器。该终端设备可以是台式终端或移动终端，该移动终端具体可以是手机、平板电脑、笔记本电脑、车载终端等中的任意一种便携式设备。例如，该终端设备可以是图1所示的终端110。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供有云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据服务的人工智能平台或云服务器，例如，该服务器可以是如图1所示的服务器120。为便于描述下文以视频编辑装置为例进行说明。

如图2所示，该方法200可包括：

S210，视频编辑装置获取源视频，并对该源视频进行抽样得到源图像序列。

其中，该源视频即输入（input）视频或待编辑的视频。

示例性地，该源视频可以是拍摄的视频或下载的视频。

示例性地，视频编辑装置对该源视频进行抽样得到的源图像序列包括多个图像，该多个图像中的部分图像为关键图像（也可称为关键帧），该多个图像中除关键图像之外的图像为中间图像，即位于关键图像之间的中间图像。

S220，视频编辑装置对该源图像序列中图像的主体信息和动作信息进行解耦，得到该源图像序列的动作特征图序列和该源图像序列的分割特征图序列；该动作特征图序列为对该源图像序列中图像的主体的动作特征进行提取得到的特征图，该分割特征图序列为对该源图像序列中的主体进行分割得到的特征图。

示例性地，视频编辑装置对该源图像序列中图像的主体信息和动作信息进行解耦时，可以利用动作特征提取模型对该源图像序列中图像的动作特征进行提取，得到该动作特征图序列。该动作特征提取模型包括控制信号提取器（control signal extractor）和控制网络（controlnet）。例如，该视频编辑装置通过控制信号提取器对该源图像序列中图像的动作特征进行提取，得到控制信号，该控制信号可以为灰度图序列，该控制信号提取器获取该控制信号后将该控制信号传递给控制网络，以便控制网络对该控制信号进行处理，得到该动作特征图序列。

此外，视频编辑装置可以利用主体提取模型确定源图像序列中图像的主体，然后利用主体分割模型对该源图像序列中的图像的主体进行分割，得到该分割特征图序列。该主体分割模型包括空间注意模块（Spatial Attention Module，SAM）和视频对象分割（Video Object Segmentation，VOS）模型。例如，该视频编辑装置通过SAM对该源图像序列中部分图像的主体进行分割，得到该部分图像的分割特征图，然后基于该部分图像的分割特征图，利用VOS模型对该源图像序列中的另一部分图像的主体进行分割，得到该另一部分图像的分割特征图，然后对该一部分图像的分割特征图和该另一部分图像的分割特征图进行组合，得到该分割特征图序列。

其中，SAM是一种用于图像语义分割的模型，它基于注意力机制实现对图像中不同区域的特征提取和分割。SAM模型通过引入空间注意力模块，能够更好地捕捉不同图像区域之间的关系，并对不同区域的特征进行加权。这种注意力机制使得SAM模型在图像分割任务上能够更准确地区分目标和背景，并生成更精细的分割结果。VOS模型是指用于处理视频中的对象分割任务的模型。VOS模型通常结合了时序信息和空间信息来进行对象分割。一些常见的VOS模型包括MaskTrack、FastMask、OSVOS等。这些模型使用深度学习技术，特别是卷积神经网络和循环神经网络，结合光流估计等技术来处理视频中的对象分割任务。本实施例中，结合SAM和VOS模型，可以将SAM输出的一部分图像的分割特征图作为VOS模型的空间信息辅助VOS模型进行图像分割，进而提升该分割特征图序列的准确性。

S230，视频编辑装置获取参考图像并对该参考图像中的目标主体进行特征提取得到该目标主体的特征图。

其中，该参考图像包括目标主体，该目标主体是需要对该源图像序列中图像的主体进行替换的主体。也即是说，视频编辑装置获取该参考图像后，可以对该参考图像中的目标主体进行特征提取并得到该目标主体的特征图，以便该视频编辑装置后续可基于该目标主体的特征图对该源图像序列中的图像进行编辑，进而实现视频编辑。

示例性地，视频编辑装置可以利用视觉特征提取模型对该参考图像中的目标主体进行特征提取得到该目标主体的特征图。该视觉特征提取模型可以是对比语言图像预训练（Contrastive Language-Image Pre-training，CLIP）视觉（vision）模型或其他具有视觉特征提取能力的模型，本申请对此不作具体限定。

S240，视频编辑装置获取源描述和目标描述；该源描述用于描述该源视频的画面内容，该目标描述用于描述该源视频经过视频编辑后期望生成的视频的画面内容。

示例性地，视频编辑装置可以通过描述提取模型对所述源图像序列的内容进行提取并得到源描述。例如，视频编辑装置可以通过描述提取模型对该源图像序列中图像的主体和主体的动作进行提取并得到源描述，该源描述包括源图像序列中图像的主体对应的描述词（例如主体的名称）、源图像序列中主体的动作对应的描述词、以及主体的环境或背景对应的描述词。其中，该描述提取模型可以是引导语言图像预训练（BootstrappingLanguage-Image Pre-training，BLIP）模型或其他具有将图像转换成文本的模型，本申请对此不作具体限定。

示例性地，该目标描述可以是响应于输入操作得到的描述。例如，该输入操作可以是对源描述的主体进行修改的输入操作。举例来说，假设源描述为：一辆银色吉普车行驶在乡间弯弯曲曲的路上，该输入操作为将源描述的主体（银色吉普车）修改为红色吉普车的操作时，该目标描述为：一辆红色吉普车行驶在乡间弯弯曲曲的路上。

其中，该目标描述用于描述源视频经过视频编辑后期望生成的视频的画面内容。

举例来说，假设源视频为画面内容为“一辆银色吉普车行驶在乡间弯弯曲曲的路上”的视频，该期望生成的视频为画面内容为“一辆红色吉普车行驶在乡间弯弯曲曲的路上”视频。则源描述为：一辆银色吉普车行驶在乡间弯弯曲曲的路上，并且该目标描述为：一辆红色吉普车行驶在乡间弯弯曲曲的路上。。

S250，以该源描述为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列。

换句话讲，视频编辑装置将该源描述和该源图像序列中的图像输入该视频编辑模型，以便该视频编辑装置以该源描述为条件，对该源图像序列中的图像进行扩散处理。也即是说，该源描述是该视频编辑模型对该源图像序列中的图像进行扩散处理的条件。或者说，该视频编辑模型对该源图像序列中的图像进行扩散处理后得到的噪声图像序列是满足该源描述（即携带有该源描述的信息）的图像序列。

示例性地，视频编辑装置可以先将该源描述进行嵌入化处理并得到该源描述的嵌入表示，然后以该源描述的嵌入表示为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列。例如，视频编辑装置可以利用嵌入表示生成模型将该源描述进行嵌入化处理并得到该源描述的嵌入表示。其中，该嵌入表示生成模型可以是CLIP文本（TEXT）模型或其他具有将描述转换成嵌入表示的模型，本申请对此不作具体限定。

当然，在其他可替代实施例中，该视频编辑装置可以先对该源图像序列中的图像进行扩散处理，得到扩散图像序列，然后以该源描述为条件，对该扩散图像序列进行图像处理并得到该噪声图像序列。这种情况下，视频编辑装置对该扩散图像序列进行图像处理并得到该噪声图像序列的过程也可称为反转（inversion）处理过程，即反转处理过程为扩散处理过程中的子过程，此时，该源描述也可以作为反转过程中的条件。本申请实施例对此不作具体限定。

S260，以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

换句话将，视频编辑装置将该噪声图像序列、该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述输入该视频编辑模型，以便该视频编辑模型以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，对该噪声图像序列进行去噪声处理并生成目标视频。也即是说，该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述是该视频编辑模型对该噪声图像序列进行去噪声处理的条件。或者说，该视频编辑模型对该噪声图像序列进行去噪声处理后生成的目标视频是满足该动作特征图序列、该分割特征图序列、该目标主体的特征图（即携带有该动作特征图序列、该分割特征图序列、该目标主体的特征图的信息）的图像序列形成的视频。

示例性地，视频编辑装置可以先将该目标描述进行嵌入化处理并得到该目标描述的嵌入表示，然后以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述的嵌入表示为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。例如，视频编辑装置可以利用嵌入表示生成模型将该目标描述进行嵌入化处理并得到该目标描述的嵌入表示。其中，该嵌入表示生成模型可以是CLIP文本（TEXT）模型或其他具有将描述转换成嵌入表示的模型，本申请实施例对此不作具体限定。

本实施例中，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频时，以该源描述为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列，且以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

示例性的，该视频编辑模型可以是稳定扩散模型（stable diffusion model），也可以称为潜在扩散模型（latent diffusion model，LDM）。下文中以视频编辑模型为LDM为例进行描述。

图3是本申请实施例提供的LDM的结构的示例。

如图3所示，LDM包括一个训练好的自编码模型（auto Encoder），自编码模型包括一个编码器E和解码器D。具体实现中，利用编码器E对像素空间（Pixel Space）的图像x进行压缩，得到图像x在潜在空间（Latent Space）的图像z，然后在潜在空间对z做扩散处理（Diffusion Process）得到随机噪声图像，再通过T个去噪声（Denosing）U型网络（UNet）对随机噪声图像/>进行去噪声处理得到z，最后再用解码器D将z恢复到原始像素空间即可得到恢复图像/>，LDM的这一先编码后解码的过程也可称为为感知压缩（PerceptualCompression）。

其中，由图像z进行扩散处理得到图像的过程可以称为前向扩散处理过程，对应的处理模块可以为扩散模块；由图像/>进行去噪声处理得到图像z的过程可以称为反向扩散处理过程，对应的处理模块可以为去噪声模块。例如，如图3所示，去噪声模块可以包括T个去噪声U型网络/>。

LDM可以是在普通的扩散模型（diffusion model，DM）的技术上引入自编码模型（auto Encoder）后得到的模型。DM可以解释为一个时序去噪声自编码器;t=1…T，其目标是根据输入/>预测一个对应去噪声后的变体，其中/>是输入图像x的加噪版本，相应的目标函数/>可以表示为如下形式：

。

其中，时间t从{1,…,T}中均匀采样得到；表示期望，/>表示从（0,1）正态分布中随机采样得到噪声项，/>为先验空间，/>表示模型的输出。

LDM引入了自编码模型（auto Encoder），这样可以利用编码器对像素空间的图像x进行编码得到图像z，从而让模型在潜在空间中学习，相应的目标函数可以表示为如下形式：

。

上述过程用于无条件图片生成。

当然，LDM也可以用于条件图片生成，这可以通过扩展得到条件时序去噪声自编码器来实现，这样可以通过条件y来控制图像的生成过程。具体的，如图3所示，可以通过在U型网络（Unet）上增加注意力机制（cross-attention Mechanism）来实现/>。为了能够从多个不同模态预处理y，可以引入一个领域专用编码器/>，来将y映射为一个中间表示/>，这样可以很方便地引入各种形态的条件（conditioning），如图中所示的语义图（Semantic Map）、文本（text）、描述（Representations）、图像（images），或者图中没有示出的布局（layout）等类别。最终LDM模型通过注意力层（cross-attention，表示为QKV）映射将条件控制信息融入到Unet的中间层。注意力层的实现如下：

。

其中，,/>,/>，d为输入信息的维度，表示K的转置，/>是Unet的一个中间表征，/>、/>、/>分别表示权重。

相应的目标函数可以表示为如下形式：

。

其中，表示期望，/>表示模型的输出。

本实施例中，该源图像序列的动作特征图序列和该源图像序列的分割特征图序列都提供了主体的位置和运动信息，因此其可以对应如图3所示的条件中的语义图，该目标主体的特征图可对应如图3所示的条件中的图像，该目标描述可对应如图3所示的条件中的描述。当然，该源描述可以理解为在扩散处理过程中引入的条件。

如图4所示，该视频编辑模型可包括扩散模块和去噪声模块，由此可通过训练扩散模块和去噪声模块的参数得到预先训练的视频编辑模型。具体地，在输入源视频后，该视频编辑模型可以基于该源视频进行采用得到源图像序列，然后通过扩散模块对该源图像序列中的图像进行扩散处理，得到扩散图像序列，并对该扩散图像序列进行反转处理得到噪声图像序列；接着，该视频编辑模型利用该去噪声模块对该噪声图像序列进行去噪声处理并生成相应的输出视频；然后，该视频编辑模型将该源视频和输出视频之间的差异作为重建损失，对扩散模块和去噪声模块的参数进行调整，进而得到训练后的视频编辑模型。

此外，该视频编辑模型对该源图像序列中的图像进行扩散处理之前，可以利用描述提取模型对该源图像序列中图像的内容进行提取并获取源描述，然后利用嵌入表示生成模型将该源描述进行嵌入化处理并得到该源描述的嵌入表示；另外，该视频编辑模型还可以利用特征提取模型对参考图像中的目标主体进行特征提取并得到该目标主体的特征图。由此，视频编辑模型利用扩散模块对该源图像序列中的图像进行扩散处理时，可以采用该源描述的嵌入表示作为条件对该源图像序列中的图像进行扩散处理，利用该去噪声模块对该噪声图像序列进行去噪声处理时，可以采用该目标主体的特征图作为条件进行去噪声处理，并得到输出视频。

当然，在其他可替代实施例中，在训练过程中，也可以对该源图像序列中图像的主体信息和动作信息进行解耦，得到该源图像序列的动作特征图序列和该源图像序列的分割特征图序列，以及获取目标描述，进而将及动作特征图序列、及分割特征图序列以及该目标描述为条件，对该噪声图像序列进行去噪声处理，以提高该去噪声模块的参数的准确性，本申请对此不作具体限定。

本实施例中，通过描述提取模型生成源视频对应的源描述，将单一的视觉模态扩充成视觉+文本模态，嵌入表示生成模型将文本描述编码为嵌入表示，特征图提取模型从参考图像中提取出该参考图像中目标主体的特征图（也可称为视觉嵌入表示），文本嵌入表示和视觉嵌入表示作为视频生成模型的条件，使得生成视频编辑模型具有可编辑性。

如图5所示，视频编辑模型获取源视频，并对该源视频进行抽样得到源图像序列。

一方面，该视频编辑装置通过控制信号提取器对该源图像序列中图像的动作特征进行提取，得到控制信号，该控制信号可以为灰度图序列，该控制信号提取器获取该控制信号后将该控制信号传递给控制网络，以便控制网络对该控制信号进行处理，得到该动作特征图序列。

另一方面，该视频编辑装置通过SAM对该源图像序列中部分图像的主体进行分割，得到该部分图像的分割特征图，然后基于该部分图像的分割特征图，利用VOS模型对该源图像序列中的另一部分图像的主体进行分割，得到该另一部分图像的分割特征图，然后对该一部分图像的分割特征图和该另一部分图像的分割特征图进行组合，得到该分割特征图序列。

再一方面，视频编辑装置可以利用视觉特征提取模型对该参考图像中的目标主体进行特征提取得到该目标主体的特征图。该视觉特征提取模型可以是CLIP）视觉（vision）模型或其他具有视觉特征提取能力的模型。当然，视频编辑装置也可以利用视觉特征提取模型对利用SAM对参考图像处理后输出的图像进行处理，进而得到该目标主体的特征图。再一方面，视频编辑装置可以利用嵌入表示生成模型将该源描述进行嵌入化处理并得到该源描述的嵌入表示。视频编辑装置可以利用嵌入表示生成模型将该目标描述（即：一辆在沙漠中行驶的汽车）进行嵌入化处理并得到该目标描述的嵌入表示。其中，该嵌入表示生成模型可以是CLIP文本（TEXT）模型或其他具有将描述转换成嵌入表示的模型。

基于此，以该源描述的嵌入表示为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列。以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述的嵌入表示为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

本实施例中，将源视频进行信息解耦，利用控制信号提取器和控制网络从中提取出该动作特征图序列并利用SAM和VOS模型从中提取该分割特征图序列，此外利用SAM和视觉特征提取模型从参考图像中提取出主体的特征图，还可以基于嵌入表示生成模型得到目标描述的嵌入表示，由此，视频编辑模型可以通过融合各种模态信息（即该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述的嵌入表示）生成新的视频。简言之，视频编辑装置可以利用多个模型（包括控制信息提取器、控制网络、主体提取模型、SAM、VOS模型以及视觉特征提取模型）去解析源视频（提供目标动作的视频）和目标主体，以及利用VOS模型输出的分割特征图序列和目标主体的特征图去指导视频编辑模型的去噪声过程，提升了针对源视频的视频编辑效果。

如图6所示，对于源图像序列中的图像，其主体为兔子且主体的动作为吃西瓜，通过本申请提供的视频编辑方法，可将该源图像序列中的图像编辑为老虎吃西瓜的图像，即对该源视频进行视频编辑后得到的目标视频可以是老虎吃西瓜的视频。

在一些实施例中，该视频编辑模型包括扩散模块。其中，该S250可包括：

以该源描述为条件，视频编辑装置利用该扩散模块对该源图像序列中的图像进行扩散处理，得到该噪声图像序列。

示例性地，以该源描述为条件，视频编辑装置利用该扩散模块对该源图像序列中的图像进行多次扩散处理，并得到该噪声图像序列。

其中，该多次扩散处理可对应多个扩散时间步（step）。

或者说，以该源描述为条件，视频编辑装置利用该扩散模块对该源图像序列中的图像进行与该多个扩散时间步对应的多次扩散处理，并得到该噪声图像序列。

在一些实施例中，该视频编辑模型可包括去噪声模块。其中，该S260可包括：

以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该去噪声模块对该噪声图像序列进行去噪声处理并生成该目标视频。

示例性地，以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该去噪声模块对该噪声图像序列进行多次去噪声处理并生成该目标视频。

其中，该多次去噪声处理可对应多个去噪声时间步（step）。

或者说，以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该去噪声模块对该噪声图像序列进行与该多个去噪声时间步对应的多次去噪声处理，并基于最后一次去噪声处理得到的输出序列生成该目标视频。

在一些实施例中，该扩散模块包括多个扩散时间步对应的多个扩散层，该多个扩散层中的第一扩散层为在该多个扩散时间步中的任意一个扩散时间步下的输入序列进行扩散处理的层，该第一扩散层包括第一时空自注意力块和与该第一时空自注意力块相连的第一交叉注意力块。

示例性地，该多个扩散层可以通过串联连接的方式或其他方式进行连接。

当然，在其他可替代实施例中，该多个扩散层也可以集成到该视频编辑模型中位于该扩散模块之后的模块，本申请对此不作具体限定。

值得注意的是，视频编辑装置对该扩散图像序列进行图像处理并得到该噪声图像序列的过程称为反转（inversion）处理过程时，该反转处理过程为扩散处理过程中的子过程，此时，该扩散层也可以称为反转层。本申请实施例对此不作具体限定。

在一些实施例中，该S250可包括：

利用该第一时空自注意力块，基于该第一时空自注意力块的输入序列确定该第一时空自注意力块的Q值和K值，并基于该第一时空自注意力块的Q值和K值，确定源自注意力图序列；该源自注意力图序列包括该源图像序列中每一个图像的源自注意力图，该每一个图像的源自注意力图包含该每一个图像在该任意一个扩散时间步下的空间信息；利用该第一时空自注意力块，基于该第一时空自注意力块的输入序列确定该第一时空自注意力块的V值，并基于该第一时空自注意力块的V值和该源自注意力图序列确定该第一时空自注意力块输出的图像序列；利用该第一交叉注意力块，基于该第一时空自注意力块输出的图像序列确定该第一交叉注意力块的Q值，基于该源描述确定该第一交叉注意力块的K值，以及基于该第一交叉注意力块的Q值和该第一交叉注意力块的K值，确定源交叉注意力图集合；该源交叉注意力图集合包括该源描述中的每一个描述词对应的源交叉注意力图，该源交叉注意力图包含相应的描述词在该任意一个扩散时间步下的时序信息；利用该第一交叉注意力块，基于该源描述确定该第一交叉注意力块的V值，基于该第一交叉注意力块的V值和该源交叉注意力图集合，确定该第一交叉注意力块输出的图像序列，并在该任意一个扩散时间步为最后一个扩散时间步的情况下，将该第一交叉注意力块输出的图像序列，确定为该噪声图像序列。

示例性地，视频编辑装置可利用该第一时空自注意力块，对该第一时空自注意力块的输入序列和该第一时空自注意力块的Q值的权重进行乘法运算，并得到该第一时空自注意力块的Q值；类似的，对该第一时空自注意力块的输入序列和该第一时空自注意力块的K值的权重进行乘法运算，得到该第一时空自注意力块的K值，然后对该第一时空自注意力块的Q值和该第一时空自注意力块的K值的转置进行乘法运算，得到源自注意力图序列。接着，利用该第一时空自注意力块，对该第一时空自注意力块的输入序列和该第一时空自注意力块的V值的权重进行乘法运算，得到该第一时空自注意力块的V值，然后对该第一时空自注意力块的V值和该源自注意力图序列进行乘法运算，得到该第一时空自注意力块输出的图像序列。接着，利用该第一交叉注意力块，对该第一时空自注意力块输出的图像序列和该第一交叉注意力块的Q值的权重进行乘法运算，得到该第一交叉注意力块的Q值；类似的，对该源描述和该第一交叉注意力块的K值进行乘法运算，得到该第一交叉注意力块的K值，以及对该第一交叉注意力块的Q值和该第一交叉注意力块的K值的转置进行乘法运算，得到源交叉注意力图集合。接着，利用该第一交叉注意力块，对该源描述和该第一交叉注意力块的V值的权重进行乘法运算，得到该第一交叉注意力块的V值，以及对该第一交叉注意力块的V值和该源交叉注意力图集合进行乘法运算，得到该第一交叉注意力块输出的图像序列，并在该任意一个扩散时间步为最后一个扩散时间步的情况下，将该第一交叉注意力块输出的图像序列，确定为该噪声图像序列。

其中，该第一时空自注意力块的Q值的权重、K值的权重以及V值的权重可以是通过学习得到的数值；类似的，该第一交叉注意力块的Q值的权重、K值的权重以及V值的权重可以是通过学习得到的数值。

当然，在其他可替代实施例中，该视频编辑装置也可以采用其他方式确定该第一时空自注意力块的Q值、K值以及V值，该第一交叉注意力块的Q值的权重、K值的权重以及V值，本申请对此不作具体限定。例如，以基于该第一时空自注意力块的输入序列确定该第一时空自注意力块的Q值为例，在其他可替代实施例中，可以先对该第一时空自注意力块的输入序列进行预处理，然后对预处理后的序列确定该第一时空自注意力块的Q值。

应当理解，在注意力机制中，Q代表查询（query），K代表键（key），V代表值（value）。

其中，查询（Q）：表示当前的输入或需要注意的内容，其用于指导针对键值对的关注程度。本实施例中，可以直接对该第一时空自注意力块的输入序列和该第一时空自注意力块的Q值的权重进行乘法运算，得到该第一时空自注意力块的Q值；类似的，可以直接对该第一时空自注意力块输出的图像序列和该第一交叉注意力块的Q值的权重进行乘法运算，得到该第一交叉注意力块的Q值

键（K）：表示与查询相关的特征或属性。本实施例中，可以直接对该第一时空自注意力块的输入序列和该第一时空自注意力块的K值的权重进行乘法运算，得到该第一时空自注意力块的K值。K值通常用于计算注意力权重；类似的，对源描述和该第一交叉注意力块的K值进行乘法运算，得到该第一交叉注意力块的K值。

值（V）：表示需要关注的内容或信息。本实施例中，可以直接对该第一时空自注意力块的输入序列和该第一时空自注意力块的V值的权重进行乘法运算，得到该第一时空自注意力块的V值；类似的，对源描述和该第一交叉注意力块的V值的权重进行乘法运算，得到该第一交叉注意力块的V值。

以第一时空注意力块为例，在得到该第一时空注意力块的Q值、K值以及V值后，将Q值与K值进行比较，可以计算得到自注意力图，其可以用于表征对V值的关注程度或用于衡量V值的重要程度。其中，注意力机制中注意力图的计算可以使用点积（dot product）或其他相似性度量（如欧氏距离、余弦相似度）来计算，注意力机制的输出可以对计算得到的注意力图和V值进行乘法运算的方式进行计算。本实施例中，可以对该第一时空自注意力块的Q值和该第一时空自注意力块的K值的转置进行乘法运算，得到源自注意力图序列，然后对该第一时空自注意力块的V值和该源自注意力图序列进行乘法运算，得到该第一时空自注意力块输出的图像序列。

值得注意的是，在自注意力机制中，用于计算Q值、K值以及V值的输入相同。例如，对于第一时空自注意力块，用于计算Q值、K值以及V值的输入均为该第一时空自注意力块的输入序。在交叉注意力机制中，用于计算Q值和K值的输入不相同，并且用于计算K值和V值的输入相同。例如，对于第一交叉注意力块，用于计算Q值的输入为该第一时空自注意力块输出的图像序列，用于计算K值以及V值的输入均为源描述。应当理解，下文涉及的第二时空自注意力块和第二交叉注意力块，其Q值、K值以及V值的定义可参考第一时空自注意力块和第一交叉注意力块的相关描述，为避免重复，后续不再赘述。

在一些实施例中，该去噪声模块包括多个去噪声时间步对应的多个去噪声层，该多个去噪声层中的第一去噪声层为在该多个去噪声时间步中的任意一个去噪声时间步下输入序列进行去噪声处理的层，该第一扩散层通过混合注意力块连接至该第一去噪声层，该第一去噪声层包括第二时空自注意力块和与该第二时空自注意力块相连的第二交叉注意力块。

示例性地，该多个去噪声层可以通过串联或其他连接方式进行连接。

示例性地，该多个扩散层可通过多个混合注意力块连接至该多个去噪声层。例如，该多个扩散层、该多个混合注意力块和该多个去噪声层可以是一一对应的关系。当然，在其他可替代实施例中，该多个扩散层或该多个去噪声层的数量也可以大于该多个混合注意力块的数量，即该多个扩散层中的部分扩散层和该多个去噪声层中的部分去噪声层可以共享一个混合注意力块，以降低去噪声模块的复杂度。

在一些实施例中，该S260可包括：

利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的Q值和K值，并基于该第二时空自注意力块的Q值和K值，确定编辑自注意力图序列；该编辑自注意力图序列包括该源图像序列中每一个图像的编辑自注意力图，该每一个图像的编辑自注意力图包含该每一个图像在该任意一个去噪声时间步下的空间信息；利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值，并基于该第二时空自注意力块的V值和该编辑自注意力图序列确定该第二时空自注意力块输出的图像序列；利用该第二交叉注意力块，基于该第二时空自注意力块输出的图像序列确定该第二交叉注意力块的Q值，基于该目标描述确定该第二交叉注意力块的K值，以及基于该第二交叉注意力块的Q值和该第二交叉注意力块的K值，确定编辑交叉注意力图集合；该编辑交叉注意力图集包括该目标描述中的每一个描述词对应的编辑交叉注意力图，该编辑交叉注意力图包含相应的描述词在该任意一个去噪声时间步下的时序信息；利用该混合注意力块，基于该源自注意力图序列和该源交叉注意力图集合，对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合；利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值，基于该第二时空自注意力块的V值和该更新后的自注意力图序列，确定该第二时空自注意力块输出的图像序列；利用该第二交叉注意力块，基于该目标描述确定该第二交叉注意力块的V值，并基于该第二交叉注意力块的V值和该更新后的交叉注意力图集合，确定该第二交叉注意力块输出的图像序列，并在该任意一个时间步为最后一个去噪声时间步的情况下，将该第二交叉注意力块输出的图像序列，基于该第二交叉注意力块输出的图像序列生成该目标视频。

示例性地，视频编辑装置利用该第二时空自注意力块，对该第二时空自注意力块的输入序列和该第二时空自注意力块的Q值的权重进行乘法运算，并得到该第二时空自注意力块的Q值；类似的，对该第二时空自注意力块的输入序列和该第二时空自注意力块的K值的权重进行乘法运算，并得到该第二时空自注意力块的K值，并对该第二时空自注意力块的Q值和K值的转置进行乘法运算，并得到编辑自注意力图序列。接着，利用该第二时空自注意力块，对该第二时空自注意力块的输入序列和该第二时空自注意力块的V值的权重进行乘法运算，并得到该第二时空自注意力块的V值，并对该第二时空自注意力块的V值和该编辑自注意力图序列进行乘法运算，并得到该第二时空自注意力块输出的图像序列。接着，利用该第二交叉注意力块，对该第二时空自注意力块输出的图像序列和该第二交叉注意力块的Q值的权重进行乘法运算，并得到该第二交叉注意力块的Q值；类似的，对该目标描述和该第二交叉注意力块的K值的权重进行乘法运算，并得到该第二交叉注意力块的K值，以及对该第二交叉注意力块的Q值和该第二交叉注意力块的K值的转置进行乘法运算，并得到编辑交叉注意力图集合。接着，利用该混合注意力块，对该源自注意力图序列和该源交叉注意力图集合，对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合。接着，利用该第二时空自注意力块，对该第二时空自注意力块的V值和该更新后的自注意力图序列进行乘法运算，并得到该第二时空自注意力块输出的图像序列。接着，利用该第二交叉注意力块，对该第二交叉注意力块的V值和该更新后的交叉注意力图集合进行乘法运算，并得到该第二交叉注意力块输出的图像序列，以及在该任意一个时间步为最后一个去噪声时间步的情况下，将该第二交叉注意力块输出的图像序列，对该第二交叉注意力块输出的图像序列生成该目标视频。

其中，该第二时空自注意力块的Q值的权重、K值的权重以及V值的权重可以是通过学习得到的数值；类似的，该第二交叉注意力块的Q值的权重、K值的权重以及V值的权重可以是通过学习得到的数值。

当然，在其他可替代实施例中，该视频编辑装置也可以采用其他方式确定该第二时空自注意力块的Q值、K值以及V值，该第二交叉注意力块的Q值的权重、K值的权重以及V值，本申请对此不作具体限定。例如，以基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的Q值为例，在其他可替代实施例中，可以先对该第二时空自注意力块的输入序列进行预处理，然后对预处理后的序列确定该第二时空自注意力块的Q值。

如图7所示，假设该多个扩散层可通过多个混合注意力块连接至该多个去噪声层，且该多个扩散层、该多个混合注意力块和该多个去噪声层可以是一一对应的关系，其数量均为T，即扩散时间步和去噪声时间步的数量均为T。其中，源描述为：一辆银色吉普车行驶在乡间弯弯曲曲的路上；且目标描述可以为：一辆小汽车A行驶在乡间弯弯曲曲的路上。

在视频编辑过程中，以该源描述为条件，视频编辑装置利用该扩散模块对该源图像序列中的图像进行T次扩散处理，并得到该噪声图像序列。以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该去噪声模块对该噪声图像序列进行T次去噪声处理，并基于最后一次去噪声处理得到的输出序列生成该目标视频。

其中，在每一次扩散处理中先利用一个时空自注意力块进行自注意力计算，接下来利用一个交叉注意力块基于时空自注意力块的输出和该源描述进行交叉注意力计算，以完成本轮次的扩散处理。类似的，在每一次去噪声处理过程中，先利用一个时空自注意力块进行自注意力计算，接下来利用一个交叉注意力块基于时空自注意力块的输出和目标描述进行交叉注意力计算，以完成本轮次的去噪声处理。

值得注意的是，在视频编辑过程中，视频编辑装置在每一次扩散过程中可以得到该次扩散过程的源自注意力图序列、源交叉注意力图集合，在每一次去噪声过程中，可以得到此次去噪声过程的编辑自注意力图序列、编辑交叉注意力图集合；基于此，在每一次扩散过程中，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合，并得到更新后的自注意力图序列；此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新，并得到更新后的交叉注意力图集合。

由于源交叉注意力图提供了图片的语义布局，源自注意力图序列可以很好的保留动作信息，因此，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合时，源交叉注意力图集合可以作为阈值去辅助空间上的源自注意力图序列和编辑自注意力图序列的融合，这种自注意力图的融合策略使得更新后的自注意力图序列不仅可以保留部分原始结构，还能够融合目标主体的结构，进而，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新时，可以使得更新后的交叉注意力图集合不仅可以保留源图像的部分的语义布局，还能够融合编辑后期望生成的图像的语义布局，进而，可以保证生成的图像之间的稳定性以及能够提升视频编辑的性能。

本实施例中，源描述（source prompt p_src）指目标动作对应的描述（prompt），目标描述（target prompt p_edit）代表目标视频对应的描述（prompt），目标动作由源视频提供，用x = {x1, x2, ... xn}表示，对应的隐空间特征由z = {z1, z2, ...zn}表示。首先，利用扩散模型经过T步迭代，以z1为例，从z_step1（即第一个扩散时间步的输出）得到z_stepT（即第T个扩散时间步的输出），在每一步扩散中（用timestep t标记），由此可以得到保留由空间信息的源自注意力图序列（self-attention maps st_src）和保留有时序信息的交叉注意力图集合（cross-attention maps ct_src）。在每一步去噪声（denoise）过程（也用timestep t标记），使用目标描述（p_edit）控制z_stepT还原成z_step1，并在去噪声过程中，利用混合注意力块（Attention Blending Block）将扩散过程中存储的源自注意力图序列(st_src)和存储的源交叉注意力图集合(ct_src)与去噪声过程中的编辑自注意力图序列(st_edit)和编辑交叉注意力图集合(ct_edit)融合，得到更新后的自注意力图序列和更新后的交叉注意力图集合。

需要说明的是，传统方法将扩散过程和去噪声过程独立处理，即直接基于扩散得到的噪声图像序列进行编辑，这种方案会导致编辑得到的图像之间存在不一致的现象，产生这种现象的主要原因有以下两点：

1. 在扩散过程中，随着迭代步数的增加，会导致误差累积。

2. 当分类器自由指导（classifier-free guidance）（例如描述的作用方式）增大时，会增强视频编辑模型的可编辑性，然而更大的可编辑性会导致编辑得到的相邻图像之间存在不一致的现象。

也即是说，视频编辑模型利用目标描述（prompt）指导去噪声（denoise）过程时，由于在添加噪声过程中会产生误差累积，进而会破坏原始视频的结构和动作信息，使得在去噪声过程中无法保留目标动作的细节信息。

本实施例中，视频编辑模型存储了每一次扩散过程中的源自注意力图序列和源交叉注意力图集合，用于更新相应的去噪声过程中的编辑自注意力图序列和编辑交叉注意力图集合。具体的，在每一次扩散过程中，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合，并得到更新后的自注意力图序列；此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新，并得到更新后的交叉注意力图集合。

由于源交叉注意力图提供了图片的语义布局，源自注意力图序列可以很好的保留动作信息，因此，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合时，源交叉注意力图集合可以作为阈值去辅助空间上的源自注意力图序列和编辑自注意力图序列的融合，这种自注意力图的融合策略使得更新后的自注意力图序列不仅可以保留部分原始结构，还能够融合目标主体的结构，进而，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新时，可以使得更新后的交叉注意力图集合不仅可以保留源图像的部分的语义布局，还能够融合编辑后期望生成的图像的语义布局，进而，可以保证生成的图像之间的稳定性以及能够提升视频编辑的性能。

在一些实施例中，视频编辑装置基于该源自注意力图序列和该源交叉注意力图集合，对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合，可包括：

基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合，得到该更新后的自注意力图序列；该第一描述词为该源描述中与该目标描述中的描述词不同的描述词。

示例性地，视频编辑装置基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，可以采用加法运算、乘法运算以及拼接方式中的至少一种方式，对该源自注意力图序列和该编辑自注意力图序列进行融合时，得到该更新后的自注意力图序列。

示例性地，视频编辑装置基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合之前，可以通过对比该源描述和该目标描述，将该源描述中与该目标描述中的描述词不同的描述词，确定为该第一描述词。然后，基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合，得到该更新后的自注意力图序列。

本实施例中，由于源交叉注意力图提供了图片的语义布局，源自注意力图序列可以很好的保留动作信息，因此，视频编辑装置基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合时，该源交叉注意力图集合中第一描述词对应的源交叉注意力图可以作为阈值去辅助空间上的源自注意力图序列和编辑自注意力图序列的融合，这种自注意力图的融合策略可以使得更新后的自注意力图序列可以保留部分原始结构，比如原始动作中主体出现的位置，改善主体位置漂移的现象，即可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

在一些实施例中，视频编辑装置基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合，得到该更新后的自注意力图序列，包括：

对该第一描述词对应的源交叉注意力图中的背景进行遮蔽，得到背景遮蔽后的交叉注意力图，并对该第一描述词对应的源交叉注意力图中的主体进行遮蔽，得到主体遮蔽后的交叉注意力图；对该源自注意力图序列和该背景遮蔽后的交叉注意力图进行乘法运算，得到第一中间注意力图序列，并对该编辑自注意力图序列和该主体遮蔽后的交叉注意力图进行乘法运算，得到第二中间注意力图；对该第一中间注意力图和该第二中间注意力图进行加法运算，得到该更新后的自注意力图序列。

示例性地，该背景遮蔽后的交叉注意力图可以是背景为黑色且前景（即主体）为白色的灰度图。或者说，该背景遮蔽后的交叉注意力图可以是背景对应的像素值为0且前景（即主体）对应的像素值为1的灰度图。类似的，该主体遮蔽后的交叉注意力图可以是背景为白色且前景（即主体）为黑色的灰度图。或者说，该主体遮蔽后的交叉注意力图可以是背景对应的像素值为1且前景（即主体）对应的像素值为0的灰度图。

示例性地，视频编辑装置可按照以下公式，基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合，并得到该更新后的自注意力图序列：

。

。/>

其中，表示该背景遮蔽后的交叉注意力图，/>表示第t个去噪声时间步对应的源交叉注意力图集合中第一描述词对应的源交叉注意力图，/>表示遮蔽处理函数，/>表示遮蔽处理采用的参数，/>表示该更新后的自注意力图序列，/>表示该编辑自注意力图序列，/>表示该主体遮蔽后的交叉注意力图。/>表示该源自注意力图序列。/>表示乘法运算。

当然，在其他可替代实施例中，该视频编辑模型也可以在仅引入该背景遮蔽后的交叉注意力图或该主体遮蔽后的交叉注意力图的基础上，基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列和该编辑自注意力图序列进行融合，并得到该更新后的自注意力图序列，本实施例对此不作具体限定。

本实施例中，利用背景遮蔽后的交叉注意力图和主体遮蔽后的交叉注意力图去指导去噪声过程，能够使得更新后的自注意力图序列可以保留部分原始结构，比如原始动作中主体出现的位置，改善主体位置漂移的现象，即可以提升更新后的自注意力图序列在去噪声过程中的指导效果，保证了该目标主体在空间上的结构变化和动作变化的连续性，避免了该目标视频出现动作不流畅且闪烁严重的问题。

基于该源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换该编辑交叉注意力图集合中该第二描述词对应的编辑交叉注意力图，得到替换后的交叉注意力图集合。

示例性地，视频编辑装置可在保留该源交叉注意力图集合中第一描述词对应的源交叉注意力图的基础上，基于该源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换该编辑交叉注意力图集合中该第二描述词对应的编辑交叉注意力图，并得到替换后的交叉注意力图集合。

示例性地，视频编辑装置基于该源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换该编辑交叉注意力图集合中该第二描述词对应的编辑交叉注意力图之前，可以通过对比该源描述和该目标描述，将该源描述中与该目标描述中的描述词相同的描述词，确定为该第二描述词。然后，基于该源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换该编辑交叉注意力图集合中该第二描述词对应的编辑交叉注意力图，并得到替换后的交叉注意力图集合。

本实施例中，视频编辑装置基于该源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换该编辑交叉注意力图集合中该第二描述词对应的编辑交叉注意力图，可以使得更新后的交叉注意力图集合不仅可以保留第二描述词的语义布局，还能够融合保留的描述词的语义布局，进而，可以保证生成的图像之间的稳定性以及能够提升视频编辑的性能。

图8是本申请实施例提供的混合注意力块的示意性结构图。

如图8所示，若该第一描述词为小汽车，则视频编辑装置对该小汽车对应的源交叉注意力图中的背景（即小汽车的背景）进行遮蔽，得到背景遮蔽后的交叉注意力图，并对该小汽车对应的源交叉注意力图中的主体（即小汽车）进行遮蔽，得到主体遮蔽后的交叉注意力图/>。

基于此，视频编辑装置可对该源自注意力图序列和该背景遮蔽后的交叉注意力图进行乘法运算，得到第一中间注意力图序列，并对该编辑自注意力图序列和该主体遮蔽后的交叉注意力图/>进行乘法运算，得到第二中间注意力图；对该第一中间注意力图和该第二中间注意力图进行加法运算，得到该更新后的自注意力图序列。此外，若第二描述词为乡村，则视频编辑装置可在保留该源交叉注意力图集合中小汽车对应的源交叉注意力图的基础上，基于该源交叉注意力图集合中乡村对应的源交叉注意力图，替换该编辑交叉注意力图集合中乡村对应的编辑交叉注意力图，并得到替换后的交叉注意力图集合。

本实施例中，对于不用编辑的描述词对应的编辑交叉注意力图(比如背景相关的“道路”和“乡村”等描述词)，用源交叉注意力图（ct_src）替换编辑交叉注意力图（ct_edit），可以保证背景的一致性。对于需要修改的描述词对应的编辑交叉注意力图，利用从源交叉注意力图（ct_src）得到的自适应空间遮罩（mask）图像（即包括背景遮蔽后的交叉注意力图和主体遮蔽后的交叉注意力图）去融合源自注意力图（st_src）和编辑自注意力图（st_edit），以得到更新后的自注意力图。

需要说明的是，只在扩散过程中融合注意力图（attention）并不足以约束局部物体，而且如果在去噪声过程中固定编辑自注意力图序列（s_edit），会导致背景结构出现意料之外的变化，而且目标动作也会发生变化。本实施例中，考虑源交叉注意力图（cross-attention map）集合提供了图片的语义布局，源自注意力图（self-attention map）序列提供了主体的轮廓，因此通过源交叉注意力图的遮罩（mask）图像（即包括背景遮蔽后的交叉注意力图和主体遮蔽后的交叉注意力图）去融合源自注意力图（st_src）和编辑自注意力图（st_edit），以得到更新后的自注意力图，使得更新后的自注意力图序列不仅可以保留部分原始结构，还能够融合目标主体的结构，进而，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

图9是本申请实施例提供的编辑交叉注意力图和经过视频编辑得到的图像的示例。图10是本申请实施例提供的更新后的交叉注意力图和经过视频编辑得到的图像的另一示例。

通过对比图9和图10可见，将猫的动作迁移到老虎上时，如果只在去噪声过程融合注意力图（attention map）（即对输入的图像和目标描述进行注意力计算），如图9所示，编辑交叉注意力图可能会目标主体的结构出现偏差的问题。本实施例中，不仅在去噪声过程融合了注意力图（attention map）（即对输入的图像和目标描述进行注意力计算），还将扩散过程中产生的注意力图与去噪声过程中产生的注意力图进行融合。具体地，在每一次去噪声处理过程中，视频编辑装置需要基于相应的扩散过程中的交叉注意力图集合，对扩散过程中的自注意力图序列以及去噪声过程中的自注意力图序列进行融合，并得到更新后的自注意力图序列，以及对去噪声过程中的交叉注意力图集合进行更新，并得到更新后的交叉注意力图集合，由此，使得更新后的交叉注意力图可以为去噪声过程提供了更加准确的结构指导，如图10所示，不仅可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题，还可以保证该目标视频出现背景不流畅且闪烁严重的问题，进而能够提升视频编辑的性能。此外，还提升了去噪声过程的可编辑性。

如图11所示，图中第3列为更新后的自注意力图，图中第4列为源自注意力图，图中第5列为编辑自注意力图，通过对比第4列第3列可见，忽略编辑注意力图（即直接用源注意力图替换编辑注意力图）不能保持原始的结构信息（主体的位置和背景发生了改变）。通过对比第5列与第3列可见，直接采用编辑注意力图时会导致畸形。本实施例中，通过融合源自注意力图和编辑自注意力图，可以保证对图像的编辑性能。

在一些实施例中，视频编辑装置对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新之前，该方法200还可包括：

将该源自注意力图序列和该源交叉注意力图集合存储至该混合注意力块。

本实施例中，视频编辑装置在确定出该源自注意力图序列和该源交叉注意力图集合后，将其存储至该混合注意力块，在确定出该编辑自注意力图序列后，可以方便该混合注意力块基于该源交叉注意力图集合中第一描述词对应的源交叉注意力图，对该源自注意力图序列该编辑自注意力图序列进行融合，提升了该源视频的编辑效率。

在一些实施例中，该第二时空自注意力块的输入序列包括该源图像序列中第一图像和第二图像，该第二图像为该第一图像对应的关键帧；其中，视频编辑装置基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的Q值和K值可包括：

对该第一图像和该第二时空自注意力块的Q值的权重进行乘法运算，得到该第二时空自注意力块的Q值；对该第二图像进行变换处理得到处理图像；对该第一图像和该处理图像进行连接，得到连接图像，并基于该连接图像和该第二时空自注意力块的K值的权重进行乘法运算，得到该第二时空自注意力块的K值。

示例性地，视频编辑装置对该第一图像和该第二时空自注意力块的Q值的权重进行乘法运算，得到该第二时空自注意力块的Q值；然后，对该第二图像进行变换处理得到处理图像；接着对该处理图像进行取整操作，并对该第一图像和对该处理图像进行取整操作后得到的图像进行连接，得到连接图像，并基于该连接图像和该第二时空自注意力块的K值的权重进行乘法运算，得到该第二时空自注意力块的K值。

示例性地，视频编辑装置对该第二图像进行变换包括但不限于放大，缩小以及旋转等操作。

示例性地，视频编辑装置可以对该第二图像中的部分区域进行变换处理得到处理图像。例如，视频编辑装置可以对该第二图像中的部分区域进行放大变换处理得到该处理图像。

示例性地，视频编辑装置可采用以下公式，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的Q值和K值：

。

其中，表示该第一图像，/>表示该第二时空自注意力块的Q值的权重，/>表示该第二时空自注意力块的K值的权重，/>表示对该处理图像进行取整操作后的图像，/>指的是连接操作。/>。round表示取整的操作。/>表示对该处理图像。

本实施例中，通过引入该第二图像，并基于对该第一图像和该处理图像进行连接得到的连接图像和该第二时空自注意力块的K值的权重进行乘法运算，得到该第二时空自注意力块的K值，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

在一些实施例中，视频编辑装置基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值，可包括：

基于该连接图像和该第二时空自注意力块的V值的权重进行乘法运算，得到该第二时空自注意力块的V值。

示例性地，视频编辑装置可采用以下公式，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值：

。

其中，表示该第一图像，/>表示该第二时空自注意力块的V值的权重，/>表示对该处理图像进行取整操作后的图像，/>指的是连接操作。/>。round表示取整的操作。/>表示对该处理图像。

本实施例中，通过引入该第二图像，并基于对该第一图像和该处理图像进行连接得到的连接图像和该第二时空自注意力块的V值的权重进行乘法运算，得到该第二时空自注意力块的V值，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

需要说明的是，将扩散过程和去噪声过程中的自注意力块（self-attentionblock）重构为空间-时序的时空自注意力块，可以保证编辑得到的图像之间的主体外观的一致性。上述的两个设计使得本申请提供的视频编辑的方法拥有很强的编辑性，同时保留了源图像序列中主体的动作的细节。然而，如果对源图像序列中的每一个图像单独的进行去噪声处理还是会导致生成的目标视频存在不连贯的现象，因此，本申请在传统的自注意力（self-attention）机制的基础上通过拼接关键帧，这种时间-空间的注意力机制同时保留了单个图像的结构和单个图像与对应的关键图像（也可称为关键帧）在时序上的关联性，能够保证可以保证生成的图像之间的稳定性。

在一些实施例中，视频编辑装置利用该第二时空自注意力块，以该第二时空自注意力块的输入序列作为Q值和K值进行自注意力计算，得到编辑自注意力图序列之前，该方法200还可包括：

以该动作特征图序列、该分割特征图序列、该目标主体的特征图为条件，对以该第一去噪声层的输入序列进行处理，得到该第二时空自注意力块的输入序列；将该第二时空自注意力块的输入序列输入该第二时空自注意力块。

当然，在其他可替代实施例中，该视频编辑装置也可以将该动作特征图序列、该分割特征图序列、该目标主体的特征图作为条件，对该第二交叉注意力块的输出序列进行处理，得到该第一去噪声层的输出序列，本申请对此不作具体限定。

值得注意的是，上文以目标描述作为条件为例，对视频编辑装置利用所述去噪声模块对所述噪声图像序列进行去噪声处理进行了说明，基于相同或类似的思路，也可以将以目标描述作为条件为例对视频编辑装置利用所述去噪声模块对所述噪声图像序列进行去噪声处理的技术方案，应用到视频编辑装置以该动作特征图序列（或该分割特征图序列或该目标主体的特征图）为条件对以该第一去噪声层的输入序列进行处理的方案，为避免重复，此处不再赘述。

综上可知，本申请实施例利用文本和视觉特征可以完成将源图像序列中图像的主体的动作迁移到参考图像中的目标主体上，即将目标动作迁移到目标主体上。在进行动图生成时，并没有直接使用噪声图像序列和目标描述直接指导目标视频的生成，而是在扩散过程中引入了源描述作为扩散过程的条件，且在去噪声过程中引入了动作特征图序列、分割特征图序列、目标主体的特征图以及目标描述作为去噪声过程的条件，提升生成视频的时序一致性，包含主体及背景位置/外观/动作等多个维度。

具体地，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频时，以该源描述为条件，视频编辑装置利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列，且以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，视频编辑装置利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

由于该动作特征图序列可以为该视频编辑模型提供源图像序列中图像的主体的动作特征，该分割特征图序列可以为该视频编辑模型提供源图像序列中图像的结构特征，以及该目标主体的特征图可以为该视频编辑模型提供目标主体的结构特征，因此，对于该视频编辑模型对该噪声图像序列进行去噪声处理得到的图像序列，以该动作特征图序列、该分割特征图序列以及该目标主体的特征图为条件，其不仅能够使得该目标视频保留有源视频序列的动作特征和结构特征，还能够使得该目标视频保留该目标主体的结构特征，即保证了该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

此外，利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理并得到噪声图像序列时，以该源描述为条件，可以为该视频编辑模型提供该源图像序列中图像的时序信息，进而保证该噪声图像序列中的图像保留有该源图像序列中图像的时序信息；类似的，利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频时，以该目标描述为条件，可以为该视频编辑模型提供该目标视频中图像的时序信息；相当于，在去噪声处理过程中，以该目标描述为条件，利用该视频编辑模型对结合有源描述的噪声图像序列进行去噪声处理，实现了对该源图像序列中图像的时序信息和该目标主体的时序信息的融合，保证了源图像序列中的主体和该目标主体在空间上的结构变化和动作变化的兼容性，进而避免该目标视频出现背景不流畅且闪烁严重的问题。

在此基础上，本申请提供的视频编辑方法进一步的可解决如下问题：

1. 如图5所示，利用多个模型（包括控制信息提取器、控制网络、主体提取模型、SAM、VOS模型以及视觉特征提取模型）去解析源视频（提供目标动作的视频）和目标主体，以及利用VOS模型输出的分割特征图序列和目标主体的特征图去指导视频编辑模型的去噪声过程，提升了针对源视频的视频编辑效果。

2. 如图7所示，视频编辑模型存储了每一次扩散过程中的源自注意力图序列和源交叉注意力图集合，用于更新相应的去噪声过程中的编辑自注意力图序列和编辑交叉注意力图集合。具体的，在每一次扩散过程中，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合，并得到更新后的自注意力图序列；此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新，并得到更新后的交叉注意力图集合。

由于源交叉注意力图提供了图片的语义布局，源自注意力图序列可以很好的保留动作信息，因此，视频编辑装置基于扩散过程中的交叉注意力图集合中的交叉注意力图，对扩散过程中的自注意力图序列以及相应的去噪声过程中的自注意力图序列进行融合时，源交叉注意力图集合可以作为阈值去辅助空间上的源自注意力图序列和编辑自注意力图序列的融合，这种自注意力图的融合策略使得更新后的自注意力图序列不仅可以保留部分原始结构，还能够融合目标主体的结构，进而，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。此外，视频编辑装置基于上述源交叉注意力图集合中的源交叉注意力图，对去噪声过程中的交叉注意力图集合进行更新时，可以使得更新后的交叉注意力图集合不仅可以保留源图像的部分的语义布局，还能够融合编辑后期望生成的图像的语义布局，进而，可以保证生成的图像之间的稳定性以及能够提升视频编辑的性能。。

3. 如图8所示，利用从源描述（prompt）提取的源交叉注意力图（cross-attentionmap），生成遮罩（mask）图像（即包括上文提到的背景遮蔽后的交叉注意力图和主体遮蔽后的交叉注意力图），使得更新后的自注意力图序列不仅可以保留部分原始结构，还能够融合目标主体的结构，进而，可以保证该目标主体在空间上的结构变化和动作变化的连续性，进而避免该目标视频出现动作不流畅且闪烁严重的问题。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上文涉及的实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上文涉及的具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上文涉及的各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

图12是本申请实施例提供的视频编辑装置300的示意性框图。

如图12所示，该视频编辑装置300可包括：

获取单元310，用于获取源视频，并对该源视频进行抽样得到源图像序列；

解耦单元320，用于对该源图像序列中图像的主体信息和动作信息进行解耦，得到该源图像序列的动作特征图序列和该源图像序列的分割特征图序列；该动作特征图序列为对该源图像序列中图像的主体的动作特征进行提取得到的特征图，该分割特征图序列为对该源图像序列中的主体进行分割得到的特征图；

该获取单元310还用于获取参考图像并对该参考图像中的目标主体进行特征提取得到该目标主体的特征图；

该获取单元310还用于获取源描述和目标描述；该源描述用于描述该源视频的画面内容，该目标描述用于描述该源视频经过视频编辑后期望生成的视频的画面内容；

扩散单元330，用于以该源描述为条件，利用预先训练的视频编辑模型对该源图像序列中的图像进行扩散处理，得到噪声图像序列；

去噪声单元340，用于以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，利用该视频编辑模型对该噪声图像序列进行去噪声处理并生成目标视频。

在一些实施例中，该视频编辑模型包括扩散模块和去噪声模块；

其中，该扩散单元330具体用于：

以该源描述为条件，利用该扩散模块对该源图像序列中的图像进行扩散处理，得到该噪声图像序列；

其中，该去噪声单元340具体用于：

以该动作特征图序列、该分割特征图序列、该目标主体的特征图以及该目标描述为条件，利用该去噪声模块对该噪声图像序列进行去噪声处理并生成该目标视频。

在一些实施例中，该扩散模块包括多个扩散时间步对应的多个扩散层，该多个扩散层中的第一扩散层为在该多个扩散时间步中的任意一个扩散时间步下的输入序列进行扩散处理的层，该第一扩散层包括第一时空自注意力块和与该第一时空自注意力块相连的第一交叉注意力块；

其中，该扩散单元330具体用于：

利用该第一时空自注意力块，基于该第一时空自注意力块的输入序列确定该第一时空自注意力块的Q值和K值，并基于该第一时空自注意力块的Q值和K值，确定源自注意力图序列；该源自注意力图序列包括该源图像序列中每一个图像的源自注意力图，该每一个图像的源自注意力图包含该每一个图像在该任意一个扩散时间步下的空间信息；

利用该第一时空自注意力块，基于该第一时空自注意力块的输入序列确定该第一时空自注意力块的V值，并基于该第一时空自注意力块的V值和该源自注意力图序列确定该第一时空自注意力块输出的图像序列；

利用该第一交叉注意力块，基于该第一时空自注意力块输出的图像序列确定该第一交叉注意力块的Q值，基于该源描述确定该第一交叉注意力块的K值，以及基于该第一交叉注意力块的Q值和该第一交叉注意力块的K值，确定源交叉注意力图集合；该源交叉注意力图集合包括该源描述中的每一个描述词对应的源交叉注意力图，该源交叉注意力图包含相应的描述词在该任意一个扩散时间步下的时序信息；

利用该第一交叉注意力块，基于该源描述确定该第一交叉注意力块的V值，基于该第一交叉注意力块的V值和该源交叉注意力图集合，确定该第一交叉注意力块输出的图像序列，并在该任意一个扩散时间步为最后一个扩散时间步的情况下，将该第一交叉注意力块输出的图像序列，确定为该噪声图像序列。

在一些实施例中，该去噪声模块包括多个去噪声时间步对应的多个去噪声层，该多个去噪声层中的第一去噪声层为在该多个去噪声时间步中的任意一个去噪声时间步下输入序列进行去噪声处理的层，该第一扩散层通过混合注意力块连接至该第一去噪声层，该第一去噪声层包括第二时空自注意力块和与该第二时空自注意力块相连的第二交叉注意力块；

其中，该去噪声单元340具体用于：

利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的Q值和K值，并基于该第二时空自注意力块的Q值和K值，确定编辑自注意力图序列；该编辑自注意力图序列包括该源图像序列中每一个图像的编辑自注意力图，该每一个图像的编辑自注意力图包含该每一个图像在该任意一个去噪声时间步下的空间信息；

利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值，并基于该第二时空自注意力块的V值和该编辑自注意力图序列确定该第二时空自注意力块输出的图像序列；

利用该第二交叉注意力块，基于该第二时空自注意力块输出的图像序列确定该第二交叉注意力块的Q值，基于该目标描述确定该第二交叉注意力块的K值，以及基于该第二交叉注意力块的Q值和该第二交叉注意力块的K值，确定编辑交叉注意力图集合；该编辑交叉注意力图集包括该目标描述中的每一个描述词对应的编辑交叉注意力图，该编辑交叉注意力图包含相应的描述词在该任意一个去噪声时间步下的时序信息；

利用该混合注意力块，基于该源自注意力图序列和该源交叉注意力图集合，对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合；

利用该第二时空自注意力块，基于该第二时空自注意力块的输入序列确定该第二时空自注意力块的V值，基于该第二时空自注意力块的V值和该更新后的自注意力图序列，确定该第二时空自注意力块输出的图像序列；

利用该第二交叉注意力块，基于该目标描述确定该第二交叉注意力块的V值，并基于该第二交叉注意力块的V值和该更新后的交叉注意力图集合，确定该第二交叉注意力块输出的图像序列，并在该任意一个时间步为最后一个去噪声时间步的情况下，将该第二交叉注意力块输出的图像序列，基于该第二交叉注意力块输出的图像序列生成该目标视频。

其中，该去噪声单元340具体用于：

对该第一描述词对应的源交叉注意力图中的背景进行遮蔽，得到背景遮蔽后的交叉注意力图，并对该第一描述词对应的源交叉注意力图中的主体进行遮蔽，得到主体遮蔽后的交叉注意力图；

对该源自注意力图序列和该背景遮蔽后的交叉注意力图进行乘法运算，得到第一中间注意力图序列，并对该编辑自注意力图序列和该主体遮蔽后的交叉注意力图进行乘法运算，得到第二中间注意力图；

对该第一中间注意力图和该第二中间注意力图进行加法运算，得到该更新后的自注意力图序列。

其中，该去噪声单元340具体用于：

在一些实施例中，该去噪声单元340对该编辑自注意力图序列和该编辑交叉注意力图集合进行更新之前，还用于：

在一些实施例中，该第二时空自注意力块的输入序列包括该源图像序列中第一图像和第二图像，该第二图像为该第一图像对应的关键帧；

其中，该去噪声单元340具体用于：

对该第一图像和该第二时空自注意力块的Q值的权重进行乘法运算，得到该第二时空自注意力块的Q值；

对该第二图像进行变换处理得到处理图像；

对该第一图像和该处理图像进行连接，得到连接图像，并基于该连接图像和该第二时空自注意力块的K值的权重进行乘法运算，得到该第二时空自注意力块的K值。

在一些实施例中，该去噪声单元340具体用于：

在一些实施例中，该去噪声单元340利用该第二时空自注意力块，以该第二时空自注意力块的输入序列作为Q值和K值进行自注意力计算，得到编辑自注意力图序列之前，还用于：

以该动作特征图序列、该分割特征图序列、该目标主体的特征图为条件，对以该第一去噪声层的输入序列进行处理，得到该第二时空自注意力块的输入序列；

将该第二时空自注意力块的输入序列输入该第二时空自注意力块。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，视频编辑装置300可以对应于执行本申请实施例的方法200中的相应主体，并且视频编辑装置300中的各个单元分别为了实现方法200中的相应流程，为了简洁，在此不再赘述。

还应理解，本申请实施例涉及的视频编辑装置300中的各个单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现，甚至，这些功能也可以由一个或多个其它单元协助实现。例如，视频编辑装置300中的部分或全部合并为一个或若干个另外的单元。再如，视频编辑装置300中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。再如，视频编辑装置300也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括例如中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造本申请实施例涉及的视频编辑装置300，以及来实现本申请实施例的方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上文涉及的方法实施例中的步骤。

图13是本申请实施例提供的电子设备400的示意结构图。

如图13所示，该电子设备400至少包括处理器410以及计算机可读存储介质420。其中，处理器410以及计算机可读存储介质420可通过总线或者其它方式连接。计算机可读存储介质420用于存储计算机程序421，计算机程序421包括计算机指令，处理器410用于执行计算机可读存储介质420存储的计算机指令。处理器410是电子设备400的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器410也可称为中央处理器（Central Processing Unit，CPU）。处理器410可以包括但不限于：通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立元件门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质420可以是高速RAM存储器，也可以是非不稳定的存储器（Non-VolatileMemory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器410的计算机可读存储介质。具体而言，计算机可读存储介质420包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

如图13所示，该电子设备400还可以包括收发器430。

其中，处理器410可以控制该收发器430与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器430可以包括发射机和接收机。收发器430还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备400中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。值得注意的是，该电子设备400可以是任一具有数据处理能力的电子设备；该计算机可读存储介质420中存储有第一计算机指令；由处理器410加载并执行计算机可读存储介质420中存放的第一计算机指令，以实现图1所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质420中的第一计算机指令由处理器410加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例提供了一种芯片。该芯片可以是一种集成电路芯片，具有信号的处理能力，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。该芯片还可以称为系统级芯片，系统芯片，芯片系统或片上系统芯片等。该芯片可应用到各种能够安装芯片的电子设备中，使得安装有该芯片的设备能够执行本申请实施例中的公开的各方法或逻辑框图中的相应步骤。例如，该芯片可以是适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

根据本申请的另一方面，本申请实施例提供了一种计算机可读存储介质（Memory）。该计算机可读存储介质是计算机的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机中的内置存储介质，当然，也可以包括计算机所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备的操作系统。该存储空间中存放了适于被处理器加载并执行的计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行本申请实施例中的公开的各方法或逻辑框图中的相应步骤。

根据本申请的另一方面，本申请实施例提供了一种计算机程序产品或计算机程序。该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的公开的各方法或逻辑框图中的相应步骤。换言之，当使用软件实现本申请提供的方案时，可以全部或部分地以计算机程序产品或计算机程序的形式实现。该计算机程序产品或计算机程序包括一个或多个计算机指令。在计算机上加载和执行这些计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。

值得注意的是，本申请涉及的计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。本申请涉及的计算机指令可以存储在计算机可读存储介质中，或者可以从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。换言之，专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请所保护的范围。

最后需要说明的是，以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的基本思想，其同样应当视为本申请所公开的内容。

Claims

1.一种视频编辑方法，其特征在于，包括：

获取源视频，并对所述源视频进行抽样得到源图像序列；

对所述源图像序列中图像的主体信息和动作信息进行解耦，得到所述源图像序列的动作特征图序列和所述源图像序列的分割特征图序列；所述动作特征图序列为对所述源图像序列中图像的主体的动作特征进行提取得到的特征图，所述分割特征图序列为对所述源图像序列中的主体进行分割得到的特征图；

获取参考图像并对所述参考图像中的目标主体进行特征提取得到所述目标主体的特征图；

获取源描述和目标描述；所述源描述用于描述所述源视频的画面内容，所述目标描述用于描述所述源视频经过视频编辑后期望生成的视频的画面内容；

以所述源描述为条件，利用预先训练的视频编辑模型对所述源图像序列中的图像进行扩散处理，得到噪声图像序列；

以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图以及所述目标描述为条件，利用所述视频编辑模型对所述噪声图像序列进行去噪声处理并生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述视频编辑模型包括扩散模块和去噪声模块；

其中，所述以所述源描述为条件，利用预先训练的视频编辑模型对所述源图像序列中的图像进行扩散处理，得到噪声图像序列，包括：

以所述源描述为条件，利用所述扩散模块对所述源图像序列中的图像进行扩散处理，得到所述噪声图像序列；

其中，所述以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图以及所述目标描述为条件，利用所述视频编辑模型对所述噪声图像序列进行去噪声处理并生成目标视频，包括：

以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图以及所述目标描述为条件，利用所述去噪声模块对所述噪声图像序列进行去噪声处理并生成所述目标视频。

3.根据权利要求2所述的方法，其特征在于，所述扩散模块包括多个扩散时间步对应的多个扩散层，所述多个扩散层中的第一扩散层为在所述多个扩散时间步中的任意一个扩散时间步下的输入序列进行扩散处理的层，所述第一扩散层包括第一时空自注意力块和与所述第一时空自注意力块相连的第一交叉注意力块；

其中，所述以所述源描述为条件，利用所述扩散模块对所述源图像序列中的图像进行扩散处理，得到所述噪声图像序列，包括：

利用所述第一时空自注意力块，基于所述第一时空自注意力块的输入序列确定所述第一时空自注意力块的Q值和K值，并基于所述第一时空自注意力块的Q值和K值，确定源自注意力图序列；所述源自注意力图序列包括所述源图像序列中每一个图像的源自注意力图，所述每一个图像的源自注意力图包含所述每一个图像在所述任意一个扩散时间步下的空间信息；

利用所述第一时空自注意力块，基于所述第一时空自注意力块的输入序列确定所述第一时空自注意力块的V值，并基于所述第一时空自注意力块的V值和所述源自注意力图序列确定所述第一时空自注意力块输出的图像序列；

利用所述第一交叉注意力块，基于所述第一时空自注意力块输出的图像序列确定所述第一交叉注意力块的Q值，基于所述源描述确定所述第一交叉注意力块的K值，以及基于所述第一交叉注意力块的Q值和所述第一交叉注意力块的K值，确定源交叉注意力图集合；所述源交叉注意力图集合包括所述源描述中的每一个描述词对应的源交叉注意力图，所述源交叉注意力图包含相应的描述词在所述任意一个扩散时间步下的时序信息；

利用所述第一交叉注意力块，基于所述源描述确定所述第一交叉注意力块的V值，基于所述第一交叉注意力块的V值和所述源交叉注意力图集合，确定所述第一交叉注意力块输出的图像序列，并在所述任意一个扩散时间步为最后一个扩散时间步的情况下，将所述第一交叉注意力块输出的图像序列，确定为所述噪声图像序列。

4.根据权利要求3所述的方法，其特征在于，所述去噪声模块包括多个去噪声时间步对应的多个去噪声层，所述多个去噪声层中的第一去噪声层为在所述多个去噪声时间步中的任意一个去噪声时间步下输入序列进行去噪声处理的层，所述第一扩散层通过混合注意力块连接至所述第一去噪声层，所述第一去噪声层包括第二时空自注意力块和与所述第二时空自注意力块相连的第二交叉注意力块；

其中，所述以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图以及所述目标描述为条件，利用所述去噪声模块对所述噪声图像序列进行去噪声处理并生成所述目标视频，包括：

利用所述第二时空自注意力块，基于所述第二时空自注意力块的输入序列确定所述第二时空自注意力块的Q值和K值，并基于所述第二时空自注意力块的Q值和K值，确定编辑自注意力图序列；所述编辑自注意力图序列包括所述源图像序列中每一个图像的编辑自注意力图，所述每一个图像的编辑自注意力图包含所述每一个图像在所述任意一个去噪声时间步下的空间信息；

利用所述第二时空自注意力块，基于所述第二时空自注意力块的输入序列确定所述第二时空自注意力块的V值，并基于所述第二时空自注意力块的V值和所述编辑自注意力图序列确定所述第二时空自注意力块输出的图像序列；

利用所述第二交叉注意力块，基于所述第二时空自注意力块输出的图像序列确定所述第二交叉注意力块的Q值，基于所述目标描述确定所述第二交叉注意力块的K值，以及基于所述第二交叉注意力块的Q值和所述第二交叉注意力块的K值，确定编辑交叉注意力图集合；所述编辑交叉注意力图集包括所述目标描述中的每一个描述词对应的编辑交叉注意力图，所述编辑交叉注意力图包含相应的描述词在所述任意一个去噪声时间步下的时序信息；

利用所述混合注意力块，基于所述源自注意力图序列和所述源交叉注意力图集合，对所述编辑自注意力图序列和所述编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合；

利用所述第二时空自注意力块，基于所述第二时空自注意力块的输入序列确定所述第二时空自注意力块的V值，基于所述第二时空自注意力块的V值和所述更新后的自注意力图序列，确定所述第二时空自注意力块输出的图像序列；

利用所述第二交叉注意力块，基于所述目标描述确定所述第二交叉注意力块的V值，并基于所述第二交叉注意力块的V值和所述更新后的交叉注意力图集合，确定所述第二交叉注意力块输出的图像序列，并在所述任意一个时间步为最后一个去噪声时间步的情况下，将所述第二交叉注意力块输出的图像序列，基于所述第二交叉注意力块输出的图像序列生成所述目标视频。

5.根据权利要求4所述的方法，其特征在于，所述基于所述源自注意力图序列和所述源交叉注意力图集合，对所述编辑自注意力图序列和所述编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合，包括：

基于所述源交叉注意力图集合中第一描述词对应的源交叉注意力图，对所述源自注意力图序列和所述编辑自注意力图序列进行融合，得到所述更新后的自注意力图序列；所述第一描述词为所述源描述中与所述目标描述中的描述词不同的描述词。

6.根据权利要求5所述的方法，其特征在于，所述基于所述源交叉注意力图集合中第一描述词对应的源交叉注意力图，对所述源自注意力图序列和所述编辑自注意力图序列进行融合，得到所述更新后的自注意力图序列，包括：

对所述第一描述词对应的源交叉注意力图中的背景进行遮蔽，得到背景遮蔽后的交叉注意力图，并对所述第一描述词对应的源交叉注意力图中的主体进行遮蔽，得到主体遮蔽后的交叉注意力图；

对所述源自注意力图序列和所述背景遮蔽后的交叉注意力图进行乘法运算，得到第一中间注意力图序列，并对所述编辑自注意力图序列和所述主体遮蔽后的交叉注意力图进行乘法运算，得到第二中间注意力图；

对所述第一中间注意力图和所述第二中间注意力图进行加法运算，得到所述更新后的自注意力图序列。

7.根据权利要求4所述的方法，其特征在于，所述基于所述源自注意力图序列和所述源交叉注意力图集合，对所述编辑自注意力图序列和所述编辑交叉注意力图集合进行更新，并得到更新后的自注意力图序列和更新后的交叉注意力图集合，包括：

基于所述源交叉注意力图集合中第二描述词对应的源交叉注意力图，替换所述编辑交叉注意力图集合中所述第二描述词对应的编辑交叉注意力图，得到替换后的交叉注意力图集合。

8.根据权利要求4所述的方法，其特征在于，所述对所述编辑自注意力图序列和所述编辑交叉注意力图集合进行更新之前，所述方法还包括：

将所述源自注意力图序列和所述源交叉注意力图集合存储至所述混合注意力块。

9.根据权利要求4所述的方法，其特征在于，所述第二时空自注意力块的输入序列包括所述源图像序列中第一图像和第二图像，所述第二图像为所述第一图像对应的关键帧；

其中，所述基于所述第二时空自注意力块的输入序列确定所述第二时空自注意力块的Q值和K值，包括：

对所述第一图像和所述第二时空自注意力块的Q值的权重进行乘法运算，得到所述第二时空自注意力块的Q值；

对所述第二图像进行变换处理得到处理图像；

对所述第一图像和所述处理图像进行连接，得到连接图像，并基于所述连接图像和所述第二时空自注意力块的K值的权重进行乘法运算，得到所述第二时空自注意力块的K值。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第二时空自注意力块的输入序列确定所述第二时空自注意力块的V值，包括：

基于所述连接图像和所述第二时空自注意力块的V值的权重进行乘法运算，得到所述第二时空自注意力块的V值。

11.根据权利要求4所述的方法，其特征在于，所述利用所述第二时空自注意力块，以所述第二时空自注意力块的输入序列作为Q值和K值进行自注意力计算，得到编辑自注意力图序列之前，所述方法还包括：

以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图为条件，对以所述第一去噪声层的输入序列进行处理，得到所述第二时空自注意力块的输入序列；

将所述第二时空自注意力块的输入序列输入所述第二时空自注意力块。

12.一种视频编辑装置，其特征在于，包括：

获取单元，用于获取源视频，并对所述源视频进行抽样得到源图像序列；

解耦单元，用于对所述源图像序列中图像的主体信息和动作信息进行解耦，得到所述源图像序列的动作特征图序列和所述源图像序列的分割特征图序列；所述动作特征图序列为对所述源图像序列中图像的主体的动作特征进行提取得到的特征图，所述分割特征图序列为对所述源图像序列中的主体进行分割得到的特征图；

所述获取单元还用于获取参考图像并对所述参考图像中的目标主体进行特征提取得到所述目标主体的特征图；

所述获取单元还用于获取源描述和目标描述；所述源描述用于描述所述源视频的画面内容，所述目标描述用于描述所述源视频经过视频编辑后期望生成的视频的画面内容；

扩散单元，用于以所述源描述为条件，利用预先训练的视频编辑模型对所述源图像序列中的图像进行扩散处理，得到噪声图像序列；

去噪声单元，用于以所述动作特征图序列、所述分割特征图序列、所述目标主体的特征图以及所述目标描述为条件，利用所述视频编辑模型对所述噪声图像序列进行去噪声处理并生成目标视频。

13.一种电子设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行权利要求1至11中任一项所述的方法。