CN116975357A

CN116975357A - 视频生成方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN116975357A
Application number: CN202310572402.8A
Authority: CN
Inventors: 何盈庆; 夏孟涵; 陈浩鑫; 寸晓东; 张勇; 王鑫涛; 单瀛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-10-31

Abstract

本申请提供了一种视频生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品；方法包括：对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到第一隐空间视频编码；对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频。通过本申请，能够在保证视频生成效果的同时提高视频生成速度。

Description

视频生成方法、装置、电子设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种视频生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

相比于传统的视频制作技术，基于AI的视频生成技术可以省去拍摄后期剪辑等诸多麻烦的流程，相关技术中基于AI的视频生成技术基于给定文本生成与给定文本的语义相符的视频，但是相关技术中基于AI的视频生成技术直接基于视频数据以及文本进行建模，导致视频生成模型的计算速度较慢。

发明内容

本申请实施例提供一种视频生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够在保证视频生成效果的同时提高视频生成速度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频生成方法，包括：

对第一文本进行文本编码处理，得到第一文本编码；

获取隐空间噪声编码，并对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到第一隐空间视频编码，其中，所述隐空间噪声编码是噪声视频在隐空间的编码，所述隐空间的编码维度小于维度阈值；

对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频。

本申请实施例提供一种视频生成装置，包括：

文本模块，用于对第一文本进行文本编码处理，得到第一文本编码；

去噪模块，用于获取隐空间噪声编码，并对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到第一隐空间视频编码，其中，所述隐空间噪声编码是噪声视频在隐空间的编码，所述隐空间的编码维度小于维度阈值；

解码模块，用于对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的视频生成方法或者视频生成方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的视频生成方法或者视频生成方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的视频生成方法或者视频生成方法。

本申请实施例具有以下有益效果：

通过本申请实施例对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。相比较于完全依赖去噪处理得到视频的方式而言，可以通过解码处理来对去噪效果进行分担，从而可以分担去噪处理的计算资源占用以及计算时间占用，提高视频生成的资源利用效率以及计算速度。

附图说明

图1是本申请实施例提供的视频生成系统的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-图3D是本申请实施例提供的视频生成方法的流程示意图；

图4是本申请实施例提供的模型组合框架示意图；

图5是本申请实施例提供的基础模型的应用示意图；

图6是本申请实施例提供的基础模型的训练流程示意图；

图7是本申请实施例提供的基础模型的应用流程示意图；

图8是本申请实施例提供的基础模型的注意力处理的流程示意图；

图9是本申请实施例提供的基础模型的注意力处理的特征示意图；

图10是本申请实施例提供的第一目标视频生成模型的训练示意图；

图11是本申请实施例提供的第二目标视频生成模型的应用示意图；

图12是本申请实施例提供的第二目标视频生成模型的应用流程示意图；

图13是本申请实施例提供的故事到视频的生成示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)U-Net：一种常用的基于卷积的深度学习网络架构，具有U型的特征连接方式，常用于图像分割。

2)隐式空间(Latent space)：通常比数据空间具有更低的维度。隐空间是压缩数据的表示。隐空间的作用是为了找到模式而学习数据特征并且简化数据表示。数据压缩指用比原来表示更少的比特对信息进行编码。比如将一个19维的数据降到9维。

3)LoRA：一种低秩的快速大模型微调的方法，由低秩的权重矩阵构成。

4)深度图(Depth)：深度图，图像的每一个像素值表示场景中某点与摄像机的距离。

5)Dreambooth：一种通过更新整个网络的参数来进行模型微调的方式。

6)Textural Inversion：一种通过更新文本表示向量来进行模型微调的方式。

7)Adapter：Adapter层的结构很简单，向下投射到一个较小维度，经过一层非线性激活函数，然后向上投射到原有的维度。

8)ControlNet：ControlNet通过控制神经网络中的输入条件来影响其行为。可以根据不同任务和条件进行调整和优化，从而使得神经网络更加灵活和适应性强。这对于一些复杂、多变的任务非常重要。

相关技术中基于文本生成视频的模型的方法通常是基于生成对抗网络的算法，它们通过在视频数据上训练一个生成器和一个判别器来实现新内容的生成。判别器会学习判断某个样本是真实的样本，还是生成器生成的假样本。而生成器会将文本信息(或者类别标签信息)来编码进网络来控制生成指定的内容，同时会努力的骗过判别器让判别器无法区别其真假。相关技术中还可以通过扩散模型进行视频生成，虽然通过扩散模型进行视频生成得到的视频生成效果优于基于生成对抗网络的算法，例如，扩散模型的训练比较稳定，而生成对抗网络的损失较为复杂，而且生成器和判别器的训练是对抗训练的过程，导致生成对抗网络的训练非常不稳定。扩散模型易于扩展到大规模参数量。受益于扩散模型的训练稳定的特性，使得扩散模型在增大模型容量和数据量的时候，能够稳步的提升性能。扩散模型的生成效果多样性和质量都很高，相比较与GAN通常来说只能生成人脸或者单一类别的物体，扩散模型可以生成任意类别或者概念的内容。

但是从模型的角度而言，目前基于扩散模型的视频生成技术通常存在着：高计算量且训练低效的问题。从应用的角度而言，目前基于扩散模型的视频生成技术一般只支持从文本到视频的生成。缺乏更多应用的探索，从而限制的技术的落地。视频的内容也缺乏一定的控制能力，仅仅通过文本的控制只能做到粗糙内容的控制，无法做到视频内容中具体结构的控制。

基于上述技术问题，本申请实施例首先利用了视频的隐式空间(latent spa ce)来建模去噪网络，而不是直接在原始的视频数据上建模去噪网络，从而实现更加高效和更节省资源的模型计算。另外这种方式也会使得生成视频的速度更快。另外，本申请实施例额外探索两种应用(VideoLoRA和VideoControl)，VideoLoRA是个性化的视频生成模型的微调，使得用户也可以训练属于他们的视频生成模型；VideoControl是加入除了文本之外的条件(深度信息depth)到视频生成模型中来，使得视频生成的结构信息也能够由用户来进行控制。

本申请实施例所提供的视频生成方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文的视频生成方法，或者，终端向服务器发送针对视频生成请求(携带有第一文本)，服务器根据接收的视频生成请求执行视频生成方法，对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频，服务器返回第一目标视频至终端。

本申请实施例提供的用于执行视频生成方法的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

参见图1，图1是本申请实施例提供的视频生成系统的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400(运行有剪辑客户端)可以被用来获取视频生成请求，例如，用户通过终端400的输入界面输入第一文本以生成视频生成请求，终端400将视频生成请求发送至服务器200，服务器200对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频，服务器200返回第一目标视频至终端400。

在一些实施例中，终端中运行的客户端中可以植入有视频生成插件，用以在客户端本地实现视频生成方法。例如，终端400获取视频生成请求后，调用模型训练插件，以实现视频生成方法，对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频生成装置可以采用软件方式实现，图2示出了存储在存储器450中的视频生成装置455，其可以是程序和插件等形式的软件，包括以下软件模块：文本模块4551、去噪模块4552、解码模块4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

如前，本申请实施例提供的视频生成方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的视频生成方法的流程示意图，结合图3A示出的步骤101至步骤103进行说明。

在步骤101中，对第一文本进行文本编码处理，得到第一文本编码。

作为示例，这里的第一文本是用于约束视频生成的文本，例如，参见图5，第一文本可以是“一个巨大的太空飞船在太阳高升时降落在火星上”，这里的文本编码处理可以通过自然语言处理技术实现，例如可以通过transformer模型对第一文本进行文本编码处理。

在步骤102中，获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码。

作为示例，首先获取噪声视频，噪声视频是高斯噪声的视频格式数据，为了实现隐空间的建模去噪，可以获取对应噪声视频的隐空间噪声编码，即噪声视频在隐空间的编码，将高斯噪声的原始视频格式数据进行降维压缩得到隐空间噪声编码。接下来详细介绍对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码的过程。第一隐空间视频编码是视频数据在隐空间的编码，隐空间比真实空间的维度更低(隐空间的编码维度小于维度阈值)，隐空间噪声编码的隐空间编码维度、以及第一隐空间视频编码的隐空间编码维度均低于维度阈值。

在一些实施例中，参见图3B，步骤102中对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码，可以通过图3B示出的步骤1021至步骤1022实现。

在步骤1021中，通过N个级联的去噪网络中第n去噪网络，对第n去噪网络的输入进行去噪处理，并将第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理，得到对应第n+1去噪网络的第n+1去噪结果。

作为示例，参见图7，图7示出了任意一个去噪网络701，图7中示出“x T”表征有T个去噪网络701级联，从而相当于执行了T次去噪处理，每次都是根据前一次去噪得到的噪声视频(即前一次去噪得到的去噪结果)进行去噪处理以及随机采样处理，再输入到下一个去噪网络中进行去噪处理以及随机采样处理，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，第n去噪网络的输入为隐空间噪声编码以及第一文本编码，当n取值为2≤n<N时，第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及第一文本编码。

作为示例，以N为3举例进行说明，通过第1去噪网络对隐空间噪声编码以及第一文本编码进行去噪处理，得到第1去噪结果，通过第2去噪网络对第1去噪结果以及第一文本编码进行去噪处理，得到第2去噪结果，通过第3去噪网络对第2去噪结果以及第一文本编码进行去噪处理，得到第3去噪结果，通过上述方式得到的每个去噪结果也均是隐空间编码，每个去噪网络所执行的去噪处理相当于是一个时间步的去噪处理。

在步骤1022中，基于对应第N去噪网络的第N去噪结果生成第一隐空间视频编码。

作为示例，这里是基于第N去噪结果生成随机分布，再从随机分布中进行采样得到第一隐空间视频编码。通过去噪网络701每次执行去噪处理之后，会将得到数据作为随机分布的均是，方差是设定数据，从而得到对应去噪结果的随机分布，再对随机分布进行采样得到去噪结果，以输入到下一个去噪网络。

通过本申请实施例可以对隐空间噪声编码逐步进行去噪处理，从而得到隐空间的去噪结果，因此可以在隐空间上实现去噪流程，降低数据处理量并提高去噪速度。

在一些实施例中，第n+1去噪网络包括级联的M下采样网络、M个上采样网络以及噪声移除网络，M的取值满足2≤M；上述将第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理，得到对应第n+1去噪网络的第n+1去噪结果，可以通过以下技术方案实现：通过M个级联的下采样网络对第n去噪结果以及第一文本编码进行下采样处理，得到第n+1去噪网络的下采样结果；通过M个级联的上采样网络对第n+1去噪网络的下采样结果进行上采样处理，得到第n+1去噪网络的上采样结果作为第n+1去噪网络的噪声估计结果；基于第n+1去噪网络的噪声估计结果对第n去噪结果进行噪声消除处理，得到对应第n+1去噪网络的第n+1去噪结果。通过本申请实施例可以在每步去噪过程中进行下采样以及上采样，从而可以在去噪过程中保留更多的细节信息。

承接上述示例，参见图7，图7示出某个去噪网络中的某个下采样网络702以及相同去噪网络中的某个上采样网络703，以第2去噪网络为例进行说明，去噪网络可以包括3个下采样网络以及3个上采样网络，通过3个级联的下采样网络对第1去噪结果以及第一文本编码进行下采样处理，得到第2去噪网络的下采样结果；通过3个级联的上采样网络对第2去噪网络的下采样结果进行上采样处理，得到第2去噪网络的上采样结果作为第2去噪网络的噪声估计结果；基于第2去噪网络的噪声估计结果对第1去噪结果进行噪声消除处理，得到对应第2去噪网络的第2去噪结果。

在一些实施例中，通过M个级联的下采样网络对第n去噪结果以及第一文本编码进行下采样处理，得到第n+1去噪网络的下采样结果，可以通过以下技术方案实现：通过M个级联的下采样网络中的第m下采样网络，对第m下采样网络的输入进行下采样处理，得到对应第m下采样网络的第m下采样结果，将对应第m下采样网络的第m下采样结果传输到第m+1下采样网络以继续进行下采样处理，得到对应第m+1下采样网络的第m+1下采样结果；将第M下采样网络输出的下采样结果作为第n+1去噪结果；其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，第m采样网络的输入为第n去噪结果以及第一文本编码，当m取值为2≤m<M时，第m下采样网络的输入为第m-1下采样网络输出的第m-1下采样结果以及第一文本编码。上采样网络的处理过程与下采样网络的处理过程相同。

承接上述示例，通过第1下采样网络，对第1下采样网络的输入进行下采样处理，得到对应第1下采样网络的下采样结果，将对应第1下采样网络的下采样结果传输到第2下采样网络以继续进行下采样处理，得到对应第2下采样网络的第2下采样结果；通过第2下采样网络，对第2下采样网络的输入进行下采样处理，得到对应第2下采样网络的下采样结果，将对应第2下采样网络的下采样结果传输到第3下采样网络以继续进行下采样处理，得到对应第3下采样网络的第3下采样结果，将第3下采样网络输出的第3下采样结果作为第2去噪结果，这里每个下采样网络的输入均包括第一文本编码。

在一些实施例中，第m下采样网络包括残差网络以及注意力网络；将对应第m下采样网络的下采样结果传输到第m+1下采样网络以继续进行下采样处理，得到对应第m+1下采样网络的第m+1下采样结果，可以通过以下技术方案实现：通过残差网络对对应第m下采样网络的第m下采样结果进行残差特征提取处理，得到对应第m+1下采样网络的第m+1残差特征；通过注意力网络对第m+1残差特征以及第一文本编码进行注意力处理，得到对应第m+1下采样网络的第m+1下采样结果。通过本申请实施例可以通过残差网络保留更多的有效信息，通过注意力网络可以基于文本编码对空间维度和时间维度进行建模，从而提高去噪效果。

作为示例，参见图7，每个下采样网络包括两个网络，分别是残差网络704以及注意力网705。残差网络的输入为x，残差网络的输出是f(x)+x，这里的f(x)表征残差网络中的特征提取处理。注意力网络的输入是残差网络的输出，残差网络的输入是上一个级联的下采样网络的输出(也即上一个级联的下采样网络中包括的注意力网络的输出)，如果残差网络属于第1下采样网络，则残差网络的输入是上一个去噪网络的输出。

作为示例，通过残差网络对对应第1下采样网络的第1下采样结果进行残差特征提取处理，得到对应第2下采样网络的第2残差特征；通过注意力网络对第2残差特征以及第一文本编码进行注意力处理，得到对应第2下采样网络的第2下采样结果。

在一些实施例中，注意力网络包括空间注意力层、第一时间注意力层、空间时间注意力层以及第二注意力层；通过注意力网络对第m+1残差特征以及第一文本编码进行注意力处理，得到对应第m+1下采样网络的第m+1下采样结果，可以通过以下技术方案实现：通过空间注意力层对第m+1残差特征进行空间注意力处理，得到第一注意结果；通过第一时间注意力层对第一注意结果进行第一时间注意力处理，得到第二注意力结果；通过空间时间注意力层对第二注意力结果以及第一文本编码进行交叉注意力处理，得到第三注意力结果；通过第二注意力层对第三注意力结果进行第二时间注意力处理，得到对应第m+1下采样网络的第m+1下采样结果。

作为示例，通过空间注意力层对第m+1残差特征进行空间注意力处理，得到第一注意结果，这里对第m+1残差特征进行映射处理，得到对应第m+1残差特征的Q、K、V，从而基于得到的Q、K、V执行注意力处理得到第一注意结果。

作为示例，通过第一时间注意力层对第一注意结果进行第一时间注意力处理，得到第二注意力结果，这里对第一注意结果进行数据维度变换处理，参见图9，图9是本申请实施例提供的基础模型的注意力处理的特征示意图，以时间注意力层为例进行说明，对时间注意力层输入的特征(特征的数据形式是[b,c,t,h,w])进行维度变换处理，每个时间维度的特征分割为4个子特征，最后进行flatten处理，得到多个子特征(子特征的数据形式是[b,l,c]，b是4倍的原始b数值，l＝t*0.5h*0.5w，c的数值不变)，将经过变换的特征输入至时间注意力层进行基于时间维度的注意力处理，将经过变换的第一注意结果进行映射处理，得到对应第一残差特征的Q、K、V，从而基于得到的Q、K、V执行注意力处理得到第二注意结果。

作为示例，通过空间时间注意力层对第二注意力结果以及第一文本编码进行交叉注意力处理，得到第三注意力结果，这里将第一文本编码进行映射处理，得到对应第一文本编码的K和V，再对第二注意力结果进行映射处理，得到对应第二注意力结果的Q，基于得到的Q、K、V执行注意力处理得到第三注意结果。

作为示例，通过第二注意力层对第三注意力结果进行第二时间注意力处理，得到对应第m+1下采样网络的第m+1下采样结果，这里参考图9所示的方式对第三注意力结果进行维度变换处理，对维度变换结果进行映射处理，得到对应第三注意力结果的Q、K、V，从而基于得到的Q、K、V执行注意力处理得到对应第m+1下采样网络的第m+1下采样结果。

在步骤103中，对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。

作为示例，这里的解码处理是通过解码器执行的，后续会介绍解码器的训练的方案，当第一文本可以是“一个巨大的太空飞船在太阳高升时降落在火星上”，第一目标视频可以展现“一个巨大的太空飞船在太阳高升时降落在火星上”的情景。

在一些实施例中，在对第一文本进行文本编码处理，得到第一文本编码之前，获取目标文本；对目标文本进行语义分解处理，得到多个第一文本；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频之后，对与多个第一文本一一对应的第一目标视频进行拼接处理，得到表征目标文本的视频。通过本申请实施例可以实现基于故事生成视频的效果，并且通过分散的文本提高视频生成效率。

作为示例，给定一个简单的故事描述作为目标文本，利用通用语言模型生成多个文本指令。利用基础模型将文本指令翻译生视频片段。一个输入文本对应着一段输出视频。将合成的视频片段合并为一个完整的视频。

在一些实施例中，参见图3C，图3C是本申请实施例提供的视频生成方法的流程示意图，在执行步骤103之前，可以执行图3C示出的步骤104至步骤109。

在步骤104中，获取包括解码器以及对应解码器的编码器的编解码网络。

作为示例，可以从服务器所存储的多个编解码网络中读取任意一个用于视频处理的编解码网络，作为后续训练的基础。

在步骤105中，通过编码器对样本视频进行编码处理，得到隐空间视频样本编码。

在步骤106中，通过解码器对隐空间视频样本编码进行解码处理，得到恢复视频样本。

作为示例，用编码器来把视频数据压缩到更低数据维度的隐式空间，然后再用解码器来根据视频的隐空间表征来恢复出原视频的内容。

在步骤107中，通过判别网络对恢复视频样本进行判断处理，得到将恢复视频样本判别为视频样本的第一概率。

作为示例，这里通过判别网络ψ(x)来对恢复视频样本x进行判断，得到将恢复视频样本判别为视频样本的第一概率。

在步骤108中，基于恢复视频样本、隐空间视频样本编码以及第一概率，确定编解码损失。

在一些实施例中，步骤108中基于恢复视频样本、隐空间视频样本编码以及第一概率，确定编解码损失，可以通过以下技术方案实现：获取恢复视频样本与视频样本之间的第一差异，并获取与第一差异正相关的视频重建损失；获取第一概率与数值一之间的第二差异，并获取与第二差异负相关的判别器损失；获取隐空间视频样本编码的概率分布与标准高斯分布之间的第三差异，并获取与第三差异正相关的散度损失；将视频重建损失、判别器损失以及散度损失进行融合处理，得到编解码损失。

作为示例，损失采用视频重建损失结合生成对抗网络中的判别器损失以及KL散度损失。视频重建损失目的是为了保证编码解码后的视频内容和原视频的内容一致；判别器损失/>是为了防止重建的视频结果中存在模糊的情况；KL散度损失/>是为了约束学习到的隐式空间逼近与标准高斯分布，从而方便后续的扩散模型的学习。参见公式(1)：

其中，L_AE是综合损失，是视频重建损失，x₀是视频数据，ε(x₀)是视频数据的编码结果，/>是视频重建结果，/>是判别器损失，/>是对视频重建结果的判别结果，/>是KL散度损失，/>的目标是让编码器ε输出的视频数据的概率分布接近高斯分布。

在步骤109中，基于编解码损失对编解码网络进行参数更新处理，得到更新后的编解码网络。

作为示例，更新后的编解码网络中的解码器用于对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。

通过本申请实施例提供的训练机制可以帮助视频去噪在隐空间中实施，由于隐空间的数据维度较低，可以有效提高视频去噪效率。

在一些实施例中，参见图3D，图3D是本申请实施例提供的视频生成方法的流程示意图，在执行步骤102之前，可以执行图3D示出的步骤110至步骤114。

在步骤110中，对隐空间视频样本编码依次添加噪声，得到每次添加得到的噪声视频编码。

作为示例，将干净视频样本经过编码器进行编码，得到隐空间视频样本(隐空间视频样本编码)，通过扩散的方式在每个时间步对隐空间视频编码进行累积方式的加噪，加噪的次数和应用阶段所使用的去噪网络的数目相同，参见公式(2)和公式(3)：

其中，q(z_1:T∣z₀)是指在时间步1至时间步T中每个时间步得到的带噪视频，q(z_t∣z_t-1)代表从t-1时间步的带噪视频进行加噪得到的t时间步的带噪视频的概率分布，是t时间步的带噪视频的概率分布，/>是均值，β_tI是方差。

在步骤111中，通过噪声估计网络对每个噪声视频编码进行噪声预测处理，得到每个噪声视频编码的预测噪声。

作为示例，这里噪声估计网络的结构可以是前述去噪网络中的下采样网络以及上采样网络构成的部分。这里的噪声预测处理的过程可以参考步骤102中下采样网络以及上采样网络的数据处理过程。

在步骤112中，基于预测噪声与每次添加的噪声之间的差异，确定对应每个噪声视频编码的噪声估计损失。

作为示例，参见公式(4)：

其中，是噪声估计损失，∈_θ(z_t,t)是t时间步从带噪视频z_t中估计的噪声，∈是真实噪声。

在步骤113中，基于噪声估计损失对噪声估计网络进行参数更新处理，得到更新后的噪声估计网络。

作为示例，这里采取的参数更新方式可以是基于梯度进行更新，例如通过梯度下降算法更新噪声估计网络的参数。

在步骤114中，将更新后的噪声估计网络以及噪声移除网络进行级联得到去噪网络，其中，去噪网络用于对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码。

在一些实施例中，解码处理是通过解码器实现的，去噪处理是通过去噪网络实现的，将多个去噪网络以及解码器进行级联处理，得到基础模型；在基础模型中每个线性层以及卷积层中加入初始化风格参数，得到第一初始基础模型；获取符合目标需求的视频样本，这里的目标需求可以是某个风格或者某个人物，符合目标需求的视频样本表征具有某个风格的视频样本或者包括某个人物的视频样本；保持第一初始基础模型中原始参数不变，基于视频样本对初始基础模型进行迁移学习，以更新初始基础模型的初始化风格参数，得到第一目标视频生成模型。通过本申请实施例可以在保证原始的通用视频的生成能力不受影响的情况下实现指定风格或者指定人物的视频生成。

作为示例，参见图10，图10是本申请实施例提供的第一目标视频生成模型的训练示意图，第一目标视频生成模型可以是VideoLoRA模型。为了让用户能够定制专属的视频生成模型，本申请实施例提出VideoLoRA模型。具体来说，用户需提供一组风格一致的视频片段或者图像，在VideoLoRA模型上进行微调来使得模型学习到指定的某种风格或者概念。VideoLoRA模型的结构是在文生视频的基础模型的基础上，在网络中的每个线性层和卷积层的参数W加入额外的具有低秩特性的LoRA层参数ΔW(W^′＝W+α*ΔW)，加入方式为权重值直接相加。在训练的时候只更新LoRA层的参数ΔW，固定主干网络参数不动W。这样通过加入新学习的参数，VideoLoRA模型就可以生成新的风格或者概念。把新学习的参数的权重α设置为0，VideoLoRA模型会退化为原始的视频生成模型，从而保证了原始的通用视频的生成能力不受影响。在应用阶段，输入文字描述给微调后的VideoLora模型(第一目标视频生成模型)，模型就会生成出符合训练风格的视频，例如图10所示的梵高风格。

在一些实施例中，步骤102中对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码，可以通过以下技术方案实现：通过第一目标视频生成模型对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；步骤103中对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频，可以通过以下技术方案实现：通过第一目标视频生成模型的解码器对第一隐空间视频编码进行解码处理，得到与第一文本以及目标需求匹配的第一目标视频。通过本申请实施例可以在保证原始的通用视频的生成能力不受影响的情况下实现指定风格或者指定人物的视频生成。

作为示例，通过第一目标视频生成模型对隐空间噪声编码进行基于第一文本编码的去噪处理的具体实施方式与通过步骤1021中涉及的多个去噪网络对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码的具体实施方式是相同的；通过第一目标视频生成模型的解码器对第一隐空间视频编码进行解码处理的具体实施方式与基础模型中执行的解码处理的具体实施方式是相同的；区别仅在于每个线性层和卷积层具有额外的参数ΔW，从而可以使得生成的第一目标视频与训练的视频样本相同，可以符合目标需求，例如，视频样本是梵高的图像，那么第一目标视频的风格也是梵高的风格，这里的目标需求除了具有某个特定风格，还可以是具有特定人物，可以学习生成特定人物的视频，保证合成的视频中的人物是一致的。第一目标视频生成模型可以是基于LoRA模型进行微调，还可以基于DreamBooth算法，文本逆转(Textural inversion)算法和超网络(hypernetwork)等方式来对基础模型进行微调。

在一些实施例中，解码处理是通过解码器实现的，去噪处理是通过去噪网络实现的，将深度编码器、多个去噪网络以及解码器进行级联处理，得到第二初始基础模型；获取指导视频样本的样本深度数据，并通过第二初始基础模型的深度编码器对样本深度数据进行深度编码处理，得到指导视频样本的样本深度编码；保持多个去噪网络以及解码器的参数不变，基于样本深度编码对第二初始基础模型进行迁移学习，以更新深度编码器的参数，得到第二目标视频生成模型。通过本申请实施例可以获得用户指定的结构信息，然后作为生成指导，从而能够生成相同结构，但是任意风格的多种视频。

作为示例，参见图11，图11是本申请实施例提供的第二目标视频生成模型的应用示意图。第二目标视频模型可以是VideoControl模型，在生成的时候，输入隐空间高斯噪声，真实空间的深度信息以及文本描述，videocontrol模型可以生成符合条件的视频内容。为了能够对生成视频提供更加精细化的控制，比如结构方面的控制，本申请实施例提出VideoControl模型，能够把更多的条件控制信息加入到基础的视频生成模型中来。深度信息能够在结构方面进行很好表征。参见图12，图12是本申请实施例提供的第二目标视频生成模型的应用流程示意图，本申请实施例利用视频和深度数据训练深度adapter网络，能够将深度信息转化为视频生成网络中特征的控制信号，第二目标视频生成模型与基础模型的区别在于增加了adapter网络，从而将深度信息编码与每个注意力网络的输出进行相加，以融入到3D Unet的数据处理中。第二目标视频模型的训练方式与基础模型的训练方式相同，区别仅在于基础模型中仅需要训练3D Unet网络时，而这里需要训练adapter网络，训练的目标函数和训练基础模型的目标函数相同。在推理的时候，通过对用户输入的视频提取深度信息，本申请实施例可以获得用户指定的结构信息，然后作为生成指导，从而能够生成相同结构，但是任意风格的多种视频。

在一些实施例中，获取指导视频的深度数据；通过第二目标视频生成模型中的深度编码器对深度数据进行深度编码处理，得到指导视频的深度编码；步骤102中对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码，可以通过以下技术方案实现：通过第二目标视频生成模型中的去噪网络对隐空间噪声编码进行基于第一文本编码以及深度编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频，可以通过以下技术方案实现：通过第二目标视频生成模型中的解码器对第一隐空间视频编码进行解码处理，得到与第一文本以及指导视频匹配的第一目标视频。

作为示例，通过第二目标视频生成模型的解码器对第一隐空间视频编码进行解码处理的具体实施方式与基础模型中执行的解码处理的具体实施方式是相同的。第二目标视频生成模型与基础模型的区别在于增加了adapter网络，从而将深度信息编码与每个注意力网络的输出进行相加，以融入到3D Unet的数据处理中。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

终端(运行有剪辑客户端)可以被用来获取视频生成请求，例如，用户通过终端的输入界面输入第一文本以生成视频生成请求，终端将视频生成请求发送至服务器，服务器对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频，服务器返回第一目标视频至终端。

本申请实施例提供的方案适用于视频编辑和制作，电影特效制作，游戏场景制作，动画制作等多种应用。利用基础的文本生成视频的模型(基础模型)可以通过用户输入文本来生成指定内容的视频素材，省去用户自己拍摄视频素材的时间。利用VideoLoRA模型(第一目标视频模型)可以让用户自己微调出想要风格的视频生成模型，从而能够生成类似于梵高风格、电影风格、或者游戏风格的视频，来辅助电影和游戏场景的制作。利用VideoControl模型(第二目标视频模型)可以让让用户输入一段视频作为结构的参考，然后通过VideoC ontrol模型来为其渲染出多样的视频风格，从而辅助视频编辑和动画制作等。

在一些实施例中，参见图4，图4是本申请实施例提供的模型组合框架示意图，本申请实施例提供一套新的基于文本的视频生成和编辑工具包，用于故事到视频的生成。首先，本申请实施例提供新的基于扩散模型的文本生成视频的基础模型。通过把视频数据投射到一个低纬度的隐式空间中，可以实现轻量化和更有效率的模型，使得输入任意的文本，能够生成指定内容的视频。接着，基于文本生成视频的基础模型，本申请实施例还提供个性化的视频生成模型，具体来说，基于用户指定的数个视频片段或者图片数据，对基础模型进行微调，可以获得特定风格或者概念的视频生成模型，比如一个具有梵高风格的视频生成模型，微调方式可以是加入LoRA层加入到网络中，然后固定主干网络的参数不变，更新LoRA层的参数，来实现特定风格或者概念的学习。为了对视频生成的内容施加更多的控制，本申请实施例还提供了VideoControl来实现根据输入视频的深度信息来指导视频的生成过程。具体来讲，通过训练针对深度信息的条件的Adapter来编码深度信息进入基础模型，从而实现生成视频的结构信息和输入视频保持一致，通过文本来控制不同纹理和风格的视频的生成。

下面首先介绍文本到视频生成的基础模型。

参见图5，图5是本申请实施例提供的基础模型的应用示意图，将第一文本作为基础模型的输入，基础模型的输出是符合第一文本的第一目标视频。

本申请实施例训练在隐式空间中的视频扩散模型作为基础模型。训练应用框架中包括编解码模型，在训练过程中会利用到编解码模型中的编码器，在应用过程中会利用到编解码模型的解码器，训练应用框架还包括视频扩散模型。

首先训练编码解码模型，用编码器来把视频数据压缩到更低数据维度的隐式空间，然后再用解码器来根据视频的隐空间表征来恢复出原视频的内容。损失采用视频重建损失结合生成对抗网络中的判别器损失以及KL散度损失。视频重建损失目的是为了保证编码解码后的视频内容和原视频的内容一致；判别器损失/>是为了防止重建的视频结果中存在模糊的情况；KL散度损失/>是为了约束学习到的隐式空间逼近与标准高斯分布，从而方便后续的扩散模型的学习。参见公式(5)：/>

编解码模型学习完毕后，接下来训练视频扩散模型。参见图6，图6是本申请实施例提供的基础模型的训练流程示意图。训练框架中使用的编码器是ε是经过训练的编解码模型中的编码器，将干净视频样本经过编码器进行编码，得到隐空间视频样本，通过扩散的方式对隐空间视频编码进行加噪。会根据预先定义好的每个时间步的噪声程度β1，...，βT来决定每个时间步要添加的噪声程度。然后根据噪声程度β_t给隐空间中的视频样本z₀加噪到z_t，加噪过程可以参见公式(6)和公式(7)：

将加噪到t时间步的隐空间视频样本z_t输入噪声估计网络3D U-Net∈_θ，通过∈_θ预测当前时间步t时刻的带噪视频中的噪声，噪声估计网络3D U-Net的训练损失为噪声估计损失，参见公式(8)：

后续再通过公式(9)至公式(11)根据t时间步的噪声视频进行随机采样获得t-1时间步的视频：

其中，p_θ(z_t-1∣z_t)是t-1时间步带噪视频z_t-1的概率分布，μ_θ(z_t,t)是带噪视频z_t-1的均值，Σ_θ(z_t,t)是带噪视频z_t-1的方差。∈_θ(z_t,t)是t时间步从带噪视频z_t中估计的噪声，β_t和α_t是时间步t的去噪参数。

参见图7，图7是本申请实施例提供的基础模型的应用流程示意图，将隐空间噪声编码(T时间步)输入至3D U-Net，通过3D U-Net预测从T-1时间步到T时间步增加的噪声，并对预测的噪声基于公式(4)进行去噪处理，再基于去噪处理结果通过3D U-Net预测从T-2时间步到T-1时间步增加的噪声，最后预测从0时间步到1时间步增加的噪声，并对预测的噪声基于公式(4)进行去噪处理，得到干净的隐空间视频编码，最后通过解码器对干净的隐空间视频编码进行解码处理，得到第一目标视频，在每次噪声估计过程中会输入第一文本，从而控制每个时间步的噪声估计以及去噪，使得最后得到的第一目标视频符合第一文本。

下面介绍噪声估计网络的结构，3D U-Net网络包括空间注意力和时序注意力机制来分别对时间和空间两个维度的特征进行建模。参见图8，图8是本申请实施例提供的基础模型的注意力处理的流程示意图，3D Unet网络包括多个级联的网络模块，每个网络模块包括残差网络以及注意力网络，注意力网络包括空间注意力层、时间注意力层、空间交叉注意力层以及时间注意力层。参见图9，图9是本申请实施例提供的基础模型的注意力处理的特征示意图，以时间注意力层为例进行说明，对时间注意力层输入的特征(特征的数据形式是[b,c,t,h,w])进行维度变换处理，每个时间维度的特征分割为4个子特征，最后进行flatten处理，得到多个子特征(子特征的数据形式是[b,l,c]，b是4倍的原始b数值，l＝t*0.5h*0.5w，c的数值不变)，将经过变换的特征输入至时间注意力层进行基于时间维度的注意力处理。

在基础模型训练结束之后，输入隐空间高斯噪声，就可以在每个时间步都应用3DUnet网络并结合上述公式(4)从而得到最终生成的目标视频。

在一些实施例中，参见图10，图10是本申请实施例提供的第一目标视频生成模型的训练示意图，第一目标视频生成模型可以是VideoLoRA模型。为了让用户能够定制专属的视频生成模型，本申请实施例提出VideoLoRA模型。具体来说，用户需提供一组风格一致的视频片段或者图像，在VideoLoRA模型上进行微调来使得模型学习到指定的某种风格或者概念。VideoLoRA模型的结构是在文生视频的基础模型的基础上，在网络中的每个线性层和卷积层的参数W加入额外的具有低秩特性的LoRA层参数ΔW(W^′＝W+α*ΔW)，加入方式为权重值直接相加。在训练的时候只更新LoRA层的参数ΔW，固定主干网络参数不动W。这样通过加入新学习的参数，VideoLoRA模型就可以生成新的风格或者概念。把新学习的参数的权重α设置为0，VideoLoRA模型会退化为原始的视频生成模型，从而保证了原始的通用视频的生成能力不受影响。在应用阶段，输入文字描述给微调后的VideoLora模型(第一目标视频生成模型)，模型就会生成出符合训练风格的视频，例如图10所示的梵高风格。

在一些实施例中，参见图11，图11是本申请实施例提供的第二目标视频生成模型的应用示意图。第二目标视频模型可以是VideoControl模型，在生成的时候，输入隐空间高斯噪声，真实空间的深度信息以及文本描述，videocont rol模型可以生成符合条件的视频内容。

为了能够对生成视频提供更加精细化的控制，比如结构方面的控制，本申请实施例提出VideoControl模型，能够把更多的条件控制信息加入到基础的视频生成模型中来。深度信息能够在结构方面进行很好表征。参见图12，图12是本申请实施例提供的第二目标视频生成模型的应用流程示意图，本申请实施例利用视频和深度数据训练深度adapter网络，能够将深度信息转化为视频生成网络中特征的控制信号，第二目标视频生成模型与基础模型的区别在于增加了adapter网络，从而将深度信息编码与每个注意力网络的输出进行相加，以融入到3D Unet的数据处理中。第二目标视频模型的训练方式与基础模型的训练方式相同，区别仅在于基础模型中仅需要训练3D Unet网络时，而这里需要训练adapter网络，训练的目标函数和训练基础模型的目标函数相同。在推理的时候，通过对用户输入的视频提取深度信息，本申请实施例可以获得用户指定的结构信息，然后作为生成指导，从而能够生成相同结构，但是任意风格的多种视频。用于深度信息控制的模块可以从adapter改为ControlNet方式。

在一些实施例中，参见图13，给定一个简单的故事描述，利用通用语言模型生成多个文本指令。利用图13示出的三个模型的组合中任意一个模型，将文本指令翻译生视频片段。一个输入文本对应着一段输出视频，将合成的视频片段合并为一个完整的视频。

本申请实施例设计了一个新的基于扩散模型的文本生成视频的基础模型。通过把视频数据投射到一个低纬度的隐式空间中，本申请实施例实现了轻量化和更有效率的视频扩散模型，使得输入任意的文本，能够生成制定内容的视频。基于文本生成视频的基础大模型，本申请实施例进一步设计了个性化的视频生成模型。具体来说，基于用户指定的数个视频片段或者图片数据，来对文生视频大模型进行微调，可以获得特定风格或者概念的视频生成模型，比如一个具有梵高风格的视频生成模型。微调方式本申请实施例通过把LoRA层加入到网络中，然后固定主干网络的参数不变，更新LoRA层的参数，来实现特定风格或者概念的学习。为了对视频生成的内容施加更多的控制，本申请实施例设计了VideoControl来实现根据输入视频的depth信息来指导视频的生成过程。具体来讲，本申请实施例训练了一个针对depth条件的adapter来编码depth信息进视频生成模型的主干网络，从而实现生成的视频和结构信息和输入视频保持一致，通过文本来控制不同纹理和风格的视频的生成。利用这几种模型，本申请实施例可以通过如下方式完成故事到视频的生成任务：获取基础模型、LoR A-ID模型(以特定人物作为指导训练得到的)、LoRA-style模型(以特定风格作为指导训练得到的)、VideoControl中任意一个模型将故事分成多个控制视频段的文本指令，在任意一个模型中输入指令，得到每个文本的视频段。最后，将视频片段合成一个完整的视频。

本申请实施例可以保证生成的视频具有更逼真的内容，更丰富的颜色和风格，更多样的控制。本申请实施例可以在20s内生成视频，说明计算处理高效。本申请实施例通过输入少量数据即可以得到定制化的视频模型，可以提高人机交互效率。本申请实施例通过加入深度信息来控制视频的结构，说明具定制化功能。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的视频生成装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的视频生成装置455中的软件模块可以包括：文本模块4551，用于对第一文本进行文本编码处理，得到第一文本编码；去噪模块4552，用于获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码，其中，隐空间噪声编码是噪声视频在隐空间的编码，隐空间的编码维度小于维度阈值；解码模块4553，用于对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。

在一些实施例中，去噪模块4552，还用于：通过N个级联的去噪网络中第n去噪网络，对第n去噪网络的输入进行去噪处理，并将第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理，得到对应第n+1去噪网络的第n+1去噪结果；其中，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，第n去噪网络的输入为隐空间噪声编码以及第一文本编码，当n取值为2≤n<N时，第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及第一文本编码。

在一些实施例中，第n+1去噪网络包括级联的M下采样网络以及M个上采样网络；去噪模块4552，还用于：通过M个级联的下采样网络对第n去噪结果以及第一文本编码进行下采样处理，得到第n+1去噪网络的下采样结果；通过M个级联的上采样网络对第n+1去噪网络的下采样结果进行上采样处理，得到第n+1去噪网络的上采样结果作为第n+1去噪网络的噪声估计结果；基于第n+1去噪网络的噪声估计结果对第n去噪结果进行噪声消除处理，得到对应第n+1去噪网络的第n+1去噪结果。

在一些实施例中，去噪模块4552，还用于：通过M个级联的下采样网络中的第m下采样网络，对第m下采样网络的输入进行下采样处理，得到对应第m下采样网络的下采样结果，将对应第m下采样网络的下采样结果传输到第m+1下采样网络以继续进行下采样处理，得到对应第m+1下采样网络的第m+1下采样结果；将第M下采样网络输出的下采样结果作为第n+1去噪结果；其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，第m采样网络的输入为第n去噪结果以及第一文本编码，当m取值为2≤m<M时，第m下采样网络的输入为第m-1下采样网络输出的第m-1下采样结果以及第一文本编码。

在一些实施例中，第m下采样网络包括残差网络以及注意力网络；去噪模块4552，还用于：通过残差网络对对应第m下采样网络的第m下采样结果进行残差特征提取处理，得到对应第m+1下采样网络的第m+1残差特征；通过注意力网络对第m+1残差特征以及第一文本编码进行注意力处理，得到对应第m+1下采样网络的第m+1下采样结果。

在一些实施例中，注意力网络包括空间注意力层、第一时间注意力层、空间时间注意力层以及第二注意力层；去噪模块4552，还用于：通过空间注意力层对第m+1残差特征进行空间注意力处理，得到第一注意结果；通过第一时间注意力层对第一注意结果进行第一时间注意力处理，得到第二注意力结果；通过空间时间注意力层对第二注意力结果以及第一文本编码进行交叉注意力处理，得到第三注意力结果；通过第二注意力层对第三注意力结果进行第二时间注意力处理，得到对应第m+1下采样网络的第m+1下采样结果。

在一些实施例中，在对第一文本进行文本编码处理，得到第一文本编码之前，文本模块4551，还用于：获取目标文本；对目标文本进行语义分解处理，得到多个第一文本；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频之后，文本模块4551，还用于：对与多个第一文本一一对应的第一目标视频进行拼接处理，得到表征目标文本的视频。

在一些实施例中，装置还包括：训练模块4554，用于获取包括解码器以及对应解码器的编码器的编解码网络；通过编码器对样本视频进行编码处理，得到隐空间视频样本编码；通过解码器对隐空间视频样本编码进行解码处理，得到恢复视频样本；通过判别网络对恢复视频样本进行判断处理，得到将恢复视频样本判别为视频样本的第一概率；基于恢复视频样本、隐空间视频样本编码以及第一概率，确定编解码损失；基于编解码损失对编解码网络进行参数更新处理，得到更新后的编解码网络；其中，更新后的编解码网络中的解码器用于对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。

在一些实施例中，训练模块4554，还用于：获取恢复视频样本与视频样本之间的第一差异，并获取与第一差异正相关的视频重建损失；获取第一概率与数值一之间的第二差异，并获取与第二差异负相关的判别器损失；获取隐空间视频样本编码的概率分布与标准高斯分布之间的第三差异，并获取与第三差异正相关的散度损失；将视频重建损失、判别器损失以及散度损失进行融合处理，得到编解码损失。

在一些实施例中，训练模块4554，还用于：对隐空间视频样本编码依次添加噪声，得到每次添加得到的噪声视频编码；针对每个噪声视频编码执行以下处理：通过噪声估计网络对每个噪声视频编码进行噪声预测处理，得到每个噪声视频编码的预测噪声；基于预测噪声与每次添加的噪声之间的差异，确定对应每个噪声视频编码的噪声估计损失；基于噪声估计损失对噪声估计网络进行参数更新处理，得到更新后的噪声估计网络；将噪声估计网络以及噪声移除网络进行级联得到去噪网络，其中，去噪网络用于对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码。

在一些实施例中，解码处理是通过解码器实现的，训练模块4554，还用于：将多个去噪网络以及解码器进行级联处理，得到基础模型；在基础模型中每个线性层以及卷积层中加入初始化风格参数，得到第一初始基础模型；获取符合目标需求的视频样本；保持第一初始基础模型中原始参数不变，基于视频样本对初始基础模型进行迁移学习，以更新初始基础模型的初始化风格参数，得到第一目标视频生成模型。

在一些实施例中，装置还包括：应用模块4555，用于获取第二文本，并对第二文本进行文本编码处理，得到第二文本编码；通过第一目标视频生成模型对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第二隐空间视频编码，并对第二隐空间视频编码进行解码处理，得到与第二文本以及目标需求匹配的第二目标视频。

在一些实施例中，解码处理是通过解码器实现的，训练模块4554，还用于：将深度编码器、多个去噪网络以及解码器进行级联处理，得到第二初始基础模型；获取指导视频样本的样本深度数据，并通过第二初始基础模型的深度编码器对样本深度数据进行深度编码处理，得到指导视频样本的样本深度编码；保持多个去噪网络以及解码器的参数不变，基于样本深度编码对第二初始基础模型进行迁移学习，以更新深度编码器的参数，得到第二目标视频生成模型。

在一些实施例中，训练模块4554，还用于：获取第三文本，并对第三文本进行文本编码处理，得到第三文本编码；获取指导视频的深度数据；通过第二目标视频生成模型中的深度编码器对深度数据进行深度编码处理，得到指导视频的深度编码；通过第二目标视频生成模型中的去噪网络对隐空间噪声编码进行基于第一文本编码以及深度编码的去噪处理，得到第三隐空间视频编码；通过第二目标视频生成模型中的解码器对第三隐空间视频编码进行解码处理，得到与第三文本以及指导视频匹配的第三目标视频。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或者计算机可执行指令，该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的视频生成方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将被处理器执行本申请实施例提供的视频生成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例对第一文本进行文本编码处理，得到第一文本编码；获取隐空间噪声编码，并对隐空间噪声编码进行基于第一文本编码的去噪处理，得到第一隐空间视频编码；对第一隐空间视频编码进行解码处理，得到与第一文本匹配的第一目标视频。相比较于完全依赖去噪处理得到视频的方式而言，可以通过解码处理来对去噪效果进行分担，从而可以分担去噪处理的计算资源占用以及计算时间占用，提高视频生成的资源利用效率以及计算速度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

对第一文本进行文本编码处理，得到第一文本编码；

2.根据权利要求1所述的方法，其特征在于，所述对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到第一隐空间视频编码，包括：

通过N个级联的去噪网络中第n去噪网络，对所述第n去噪网络的输入进行去噪处理，并将所述第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理，得到对应所述第n+1去噪网络的第n+1去噪结果；

基于对应第N去噪网络的第N去噪结果生成所述第一隐空间视频编码；

其中，n为取值从1开始递增的整数变量，n的取值范围为1≤n<N，当n取值为1时，所述第n去噪网络的输入为所述隐空间噪声编码以及所述第一文本编码，当n取值为2≤n<N时，所述第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及所述第一文本编码。

3.根据权利要求2所述的方法，其特征在于，所述第n+1去噪网络包括级联的M下采样网络、M个上采样网络以及噪声移除网络，M的取值满足2≤M；

所述将所述第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理，得到对应所述第n+1去噪网络的第n+1去噪结果，包括：

通过所述M个级联的下采样网络对所述第n去噪结果以及所述第一文本编码进行下采样处理，得到所述第n+1去噪网络的下采样结果；

通过所述M个级联的上采样网络对所述第n+1去噪网络的下采样结果进行上采样处理，得到所述第n+1去噪网络的上采样结果作为所述第n+1去噪网络的噪声估计结果；

基于所述第n+1去噪网络的噪声估计结果对所述第n去噪结果进行噪声消除处理，得到对应所述第n+1去噪网络的第n+1去噪结果。

4.根据权利要求3所述的方法，其特征在于，所述通过所述M个级联的下采样网络对所述第n去噪结果以及所述第一文本编码进行下采样处理，得到所述第n+1去噪网络的下采样结果，包括：

通过M个级联的下采样网络中的第m下采样网络，对所述第m下采样网络的输入进行下采样处理，得到对应所述第m下采样网络的下采样结果，将对应所述第m下采样网络的下采样结果传输到第m+1下采样网络以继续进行下采样处理，得到对应所述第m+1下采样网络的第m+1下采样结果；

将所述第M下采样网络输出的下采样结果作为所述第n+1去噪结果；

其中，m为取值从1开始递增的整数变量，m的取值范围为1≤m≤M-1，当m取值为1时，所述第m采样网络的输入为所述第n去噪结果以及所述第一文本编码，当m取值为2≤m<M时，所述第m下采样网络的输入为第m-1下采样网络输出的第m-1下采样结果以及所述第一文本编码。

5.根据权利要求4所述的方法，其特征在于，所述第m下采样网络包括残差网络以及注意力网络；

所述将对应所述第m下采样网络的下采样结果传输到第m+1下采样网络以继续进行下采样处理，得到对应所述第m+1下采样网络的第m+1下采样结果，包括：

通过所述残差网络对对应所述第m下采样网络的第m下采样结果进行残差特征提取处理，得到对应所述第m+1下采样网络的第m+1残差特征；

通过所述注意力网络对所述第m+1残差特征以及所述第一文本编码进行注意力处理，得到对应所述第m+1下采样网络的第m+1下采样结果。

6.根据权利要求5所述的方法，其特征在于，所述注意力网络包括空间注意力层、第一时间注意力层、空间时间注意力层以及第二注意力层；

所述通过所述注意力网络对所述第m+1残差特征以及所述第一文本编码进行注意力处理，得到对应所述第m+1下采样网络的第m+1下采样结果，包括：

通过所述空间注意力层对所述第m+1残差特征进行空间注意力处理，得到第一注意结果；

通过所述第一时间注意力层对所述第一注意结果进行第一时间注意力处理，得到第二注意力结果；

通过所述空间时间注意力层对所述第二注意力结果以及所述第一文本编码进行交叉注意力处理，得到第三注意力结果；

通过所述第二注意力层对所述第三注意力结果进行第二时间注意力处理，得到对应所述第m+1下采样网络的第m+1下采样结果。

7.根据权利要求1所述的方法，其特征在于，

在对第一文本进行文本编码处理，得到第一文本编码之前，所述方法还包括：

获取目标文本；

对所述目标文本进行语义分解处理，得到多个所述第一文本；

对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频之后，所述方法还包括：

对与所述多个第一文本一一对应的第一目标视频进行拼接处理，得到表征所述目标文本的视频。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取包括解码器以及对应所述解码器的编码器的编解码网络；

通过所述编码器对样本视频进行编码处理，得到隐空间视频样本编码；

通过所述解码器对所述隐空间视频样本编码进行解码处理，得到恢复视频样本；

通过判别网络对所述恢复视频样本进行判断处理，得到将所述恢复视频样本判别为所述视频样本的第一概率；

基于所述恢复视频样本、所述隐空间视频样本编码以及所述第一概率，确定编解码损失；

基于所述编解码损失对所述编解码网络进行参数更新处理，得到更新后的编解码网络；

其中，所述更新后的编解码网络中的解码器用于对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频。

9.根据权利要求8所述的方法，其特征在于，所述基于所述恢复视频样本、所述隐空间视频样本编码以及所述第一概率，确定编解码损失，包括：

获取所述恢复视频样本与所述视频样本之间的第一差异，并获取与所述第一差异正相关的视频重建损失；

获取所述第一概率与数值一之间的第二差异，并获取与所述第二差异负相关的判别器损失；

获取所述隐空间视频样本编码的概率分布与标准高斯分布之间的第三差异，并获取与所述第三差异正相关的散度损失；

将所述视频重建损失、所述判别器损失以及所述散度损失进行融合处理，得到所述编解码损失。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对隐空间视频样本编码依次添加噪声，得到每次添加得到的噪声视频编码；

针对每个所述噪声视频编码执行以下处理：

通过噪声估计网络对每个所述噪声视频编码进行噪声预测处理，得到每个所述噪声视频编码的预测噪声；

基于所述预测噪声与每次添加的噪声之间的差异，确定对应每个所述噪声视频编码的噪声估计损失；

基于所述噪声估计损失对所述噪声估计网络进行参数更新处理，得到更新后的噪声估计网络；

将所述更新后的噪声估计网络以及噪声移除网络进行级联得到去噪网络，其中，所述去噪网络用于对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到所述第一隐空间视频编码。

11.根据权利要求1至10中任意一项所述的方法，其特征在于，所述解码处理是通过解码器实现的，所述去噪处理是通过去噪网络实现的，所述方法还包括：

将多个所述去噪网络以及所述解码器进行级联处理，得到基础模型；

在所述基础模型中每个线性层以及卷积层中加入初始化风格参数，得到第一初始基础模型；

获取符合目标需求的视频样本；

保持所述第一初始基础模型中原始参数不变，基于所述视频样本对所述初始基础模型进行迁移学习，以更新所述初始基础模型的初始化风格参数，得到第一目标视频生成模型。

12.根据权利要求11所述的方法，其特征在于，

所述对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到第一隐空间视频编码，包括：

通过所述第一目标视频生成模型对所述隐空间噪声编码进行基于所述第一文本编码的去噪处理，得到所述第一隐空间视频编码；

所述对所述第一隐空间视频编码进行解码处理，得到与所述第一文本匹配的第一目标视频，包括：

通过所述第一目标视频生成模型的解码器对所述第一隐空间视频编码进行解码处理，得到与所述第一文本以及所述目标需求匹配的第一目标视频。

13.根据权利要求1至10中任意一项所述的方法，其特征在于，所述解码处理是通过解码器实现的，所述去噪处理是通过去噪网络实现的，所述方法还包括：

将深度编码器、多个所述去噪网络以及所述解码器进行级联处理，得到第二初始基础模型；

获取指导视频样本的样本深度数据，并通过所述第二初始基础模型的深度编码器对所述样本深度数据进行深度编码处理，得到所述指导视频样本的样本深度编码；

保持多个所述去噪网络以及所述解码器的参数不变，基于所述样本深度编码对所述第二初始基础模型进行迁移学习，以更新所述深度编码器的参数，得到第二目标视频生成模型。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

获取指导视频的深度数据；

通过所述第二目标视频生成模型中的深度编码器对所述深度数据进行深度编码处理，得到所述指导视频的深度编码；

通过所述第二目标视频生成模型中的去噪网络对所述隐空间噪声编码进行基于所述第一文本编码以及所述深度编码的去噪处理，得到所述第一隐空间视频编码；

通过所述第二目标视频生成模型中的解码器对所述第一隐空间视频编码进行解码处理，得到与所述第一文本以及所述指导视频匹配的第一目标视频。

15.一种视频生成装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至14任一项所述的视频生成方法。

17.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至14任一项所述的视频生成方法。

18.一种计算机程序产品，包括计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至14任一项所述的视频生成方法。