CN116939325A

CN116939325A - 视频生成方法

Info

Publication number: CN116939325A
Application number: CN202310660367.5A
Authority: CN
Inventors: 王九牛; 张迎亚; 陈大友
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-24

Abstract

本说明书实施例提供视频生成方法，包括：确定待处理文本，并生成初始噪声；将初始噪声和待处理文本输入视频生成模型，在视频生成模型中，利用时空处理单元在时序维度和空间维度对初始噪声和待处理文本进行处理，获得至少两个视频帧表征、以及至少两个视频帧表征的时序关系，其中，视频生成模型根据文本样本、文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，加噪视频帧表征样本根据样本噪声对视频帧表征样本进行加噪获得；根据至少两个视频帧表征、以及至少两个视频帧表征的时序关系，确定待处理文本对应的目标视频。能够实现单个视频帧的生成、以及单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性。

Description

视频生成方法

技术领域

本说明书实施例涉及计算机技术领域，特别涉及视频生成方法。

背景技术

随着互联网技术的发展，人工智能内容生成也受到广泛关注。目前，通常可以基于人工智能实现自动生成文本、文本生成图像等应用。然而，在人工智能内容生成领域中，根据文本生成视频的应用较少，这是由于视频生成在内容真实性、动作连贯性和语义丰富性等方面的需求较高。

目前通常可以通过图像拼接的方式生成视频，但是这种方式会导致视频的每一帧之间的流畅性和连贯性较差。因此，亟需一种有效的技术方案解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种视频生成方法。本说明书一个或者多个实施例同时涉及一种视频生成装置，另一种视频生成方法、另一种视频生成装置，一种视频生成模型的训练方法，一种视频生成模型的训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频生成方法，包括：

确定待处理文本，并生成初始噪声；

将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。

根据本说明书实施例的第二方面，提供了一种视频生成装置，包括：

生成模块，被配置为确定待处理文本，并生成初始噪声；

输入模块，被配置为将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

确定模块，被配置为根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。

根据本说明书实施例的第三方面，提供了一种视频生成方法，应用于云侧设备，包括：

接收端侧设备发送的视频生成请求，其中，所述视频生成请求携带有待处理文本；

生成初始噪声，并将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频；

将所述目标视频发送至所述端侧设备。

根据本说明书实施例的第四方面，提供了一种视频生成装置，应用于云侧设备，包括：

接收模块，被配置为接收端侧设备发送的视频生成请求，其中，所述视频生成请求携带有待处理文本；

生成模块，被配置为生成初始噪声，并将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

确定模块，被配置为根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频；

发送模块，被配置为将所述目标视频发送至所述端侧设备。

根据本说明书实施例的第五方面，提供了一种视频生成模型的训练方法，应用于云侧设备，包括：

确定训练样本对，其中，所述训练样本对包括文本样本、以及所述文本样本对应的视频样本；

根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的至少两个视频帧表征样本的时序关系；

根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本；

根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

根据本说明书实施例的第六方面，提供了一种视频生成模型的训练装置，应用于云侧设备，包括：

第一确定模块，被配置为确定训练样本对，其中，所述训练样本对包括文本样本、以及所述文本样本对应的视频样本；

第二确定模块，被配置为根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的至少两个视频帧表征样本的时序关系；

加噪模块，被配置为根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本；

训练模块，被配置为根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

根据本说明书实施例的第七方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

本说明书一个实施例提供了一种视频生成方法，确定待处理文本，并生成初始噪声；将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。

上述方法中，通过根据文本样本、视频帧表征样本和加噪视频帧表征样本对视频生成模型进行训练，使得视频生成模型具有根据噪声和文本生成目标视频的能力。基于此，在根据初始噪声和待处理文本生成对应的目标视频的过程中，利用视频生成模型中的时空处理单元分别在时序维度和空间维度对初始噪声和待处理文本进行处理，从而使在空间维度进行处理能够实现单个视频帧的生成，在时序维度进行处理能够实现单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性，从而能够获取到至少两个视频帧表征和该至少两个视频帧表征的时序关系，从而实现目标视频的生成，进一步提升目标视频的每一帧之间的流畅性和连贯性，提升目标视频生成的效率和真实性。

附图说明

图1是本说明书一个实施例提供的一种视频生成方法的应用场景示意图；

图2是本说明书一个实施例提供的一种视频生成方法的流程图；

图3是本说明书一个实施例提供的一种视频生成方法中、视频生成模型的训练过程示意图；

图4是本说明书一个实施例提供的视频生成方法中、对视频帧表征样本进行加噪和去噪的示意图；

图5是本说明书一个实施例提供的一种视频生成方法的处理过程流程图；

图6是本说明书一个实施例提供的一种视频生成装置的结构示意图；

图7是本说明书一个实施例提供的一种视频生成系统的架构图；

图8是本说明书一个实施例提供的另一种视频生成方法的流程图；

图9是本说明书一个实施例提供的另一种视频生成装置的结构示意图；

图10是本说明书一个实施例提供的一种视频生成模型的训练方法的流程图；

图11是本说明书一个实施例提供的一种视频生成模型的训练装置的结构示意图；

图12是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

视频帧：视频由静止的画面的组成，这些静止的画面被称为帧，视频帧可以理解为图像。

隐空间：原始数据编码后的表示(即表征)所在的空间。本说明书中，隐空间可以理解为视频生成模型的空间。

扩散模型：一种用于数据生成的模型。该模型通过对图像加噪构建训练数据，来训练降噪深度神经网络，最终可以实现从纯噪声中生成出满足条件的数据。

VQGAN：Vector Quantization GAN，矢量量化的GAN模型。

GAN：Generative Adversarial Network，生成对抗网络，是一种通过两个神经网络相互博弈的方式进行学习的生成模型。生成对抗网络由一个生成器和一个判别器组成，可以在不使用标注数据的情况下来进行生成任务的学习。生成器从潜在空间随机取样作为输入，其输出结果需要尽量模仿真实样本。判别器的输入则为真实样本或生成器的输出，其目的是将生成器的输出从真实样本中尽可能分别出来。生成器和判别器相互对抗、不断学习，最终目的使得判别器无法判断生成器的输出结果是否真实。

CLI P：Contrast ive Language-Image Pre-Tra in ing，一种用于匹配图像和文本的预训练神经网络模型。

UNet：UNet是一种基于卷积神经网络和跳跃连接的编码解码网络，一般用于生成与输入图像同尺寸的图像。

目前，在根据文本生成视频时，一种方案是根据文本编码向量到图像编码向量的映射，获得视觉信息，将该视觉信息作为条件引导去噪网络模型生成视频。但是，这种方法生成的视频中、视频动作的幅度较小，从而导致生成的视频不够流畅和真实。另一种方法是可以利用视频文本对训练视频生成模型，但是这种训练方式需要大量的训练数据，且视频生成的速度较慢。此外，还可以通过视频检索和拼接生成视频，但是这种方式生成的视频与文本之间的相关性较弱。基于此，亟需一种有效的技术方案解决上述问题。

在本说明书中，提供了一种视频生成方法，本说明书同时涉及一种视频生成装置，另一种视频生成方法、另一种视频生成装置，一种视频生成模型的训练方法，一种视频生成模型的训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种视频生成方法的应用场景示意图。

图1中包括端侧设备102和云侧设备104。其中，端侧设备102和云侧设备104通信连接。云侧设备104部署有视频生成模型，用于提供视频生成服务。

具体实施时，用户可以在端侧设备102的展示界面输入待处理文本，点击“确定”控件生成视频生成请求，并将该视频生成请求发送至云侧设备104。云侧设备104接收该视频生成请求之后，可以随机生成初始噪声，并将该初始噪声和待处理文本输入视频生成模型，获得视频生成模型输出的、至少两个视频帧表征、以及该至少两个视频帧表征的时序关系。根据该至少两个视频帧表征和该至少两个视频帧表征的时序关系，生成待处理文本对应的目标视频。并将该目标视频发送至端侧设备102。端侧设备102可以通过展示界面展示该目标视频。

如图1所示，用户在端侧设备102的展示界面输入待处理文本“狗在草地上奔跑”，端侧设备102响应于用户的点击指令，将携带有该待处理文本的视频生成请求发送至云侧设备102，云侧设备104基于训练好的视频生成模型生成该待处理文本对应的目标视频，并将该目标视频发送至端侧设备102。端侧设备102在展示界面上渲染并展示该目标视频。

上述方法能够为用户提供视频生成服务，通过训练的视频生成模型保证生成的目标视频的流畅性和连贯性。

参见图2，图2示出了根据本说明书一个实施例提供的一种视频生成方法的流程图，具体包括以下步骤。

步骤202：确定待处理文本，并生成初始噪声。

具体的，本说明书实施例提供的视频生成方法应用于视频生成领域，比如可以是电影视频生成领域、广告视频生成领域和用户创意视频生成领域等。比如在电影视频生成领域，待处理文本可以理解为电影剧本。具体实施时，可以根据电影剧本中的剧情内容，将电影剧本拆分成多个文本段，根据多个文本段，生成多个视频，再将多个视频进行拼接，从而生成电影剧本对应的电影视频。或者，在用户创意视频生成领域，随着视频平台的发展，大量个人用户通常会在视频平台上传自己制作拍摄的视频，为了减少个人用户的拍摄成本，可以利用该视频生成方法，根据用户编辑的视频剧本生成视频。

此外，本说明书实施例提供的视频生成方法还可以应用动图生成领域，以保证生成的动图(即动态图片)的连贯性。可以理解的，本说明书实施例提供的视频生成方法可以应用于任意一个具有生成动态对象的需求的场景，该动态对象包括但不限于动态图片、视频等，本说明书实施例对此不做限定。

其中，待处理文本可以理解为具有视频生成需求、且用于描述视频内容的文本，比如用户想要生成展示“狗在草地上奔跑”的视频，那么该待处理文本可以是“狗在草地上奔跑”。初始噪声可以理解为随机生成的噪声，比如可以是高斯噪声，高斯噪声可以理解为概率密度函数服从高斯分布(即正态分布)的噪声。

实际应用中，确定待处理文本的方式有很多种，具体可以根据实际情况进行选择，比如可以接收视频生成请求中携带的待处理文本，也可以获取待处理文本。本说明书一种可能的实现方式中，可以从其他数据获取设备或者数据库中读取待处理文本。本说明书另一种可能的实现方式中，可以接收用户输入的待处理文本。

基于此，可以获取具有视频生成需求、且用于描述视频内容的文本，并随机生成初始噪声。

步骤204：将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得。

具体的，在确定待处理文本并生成初始噪声之后，可以将初始噪声和待处理文本输入视频生成模型，利用视频生成模型对初始噪声和待处理文本进行处理，从而获得至少两个视频帧表征、以及至少两个视频帧表征之间的时序关系。

其中，视频生成模型可以理解为任意一个用于生成视频的模型。实际应用中，视频生成模型比如可以是UNet网络模型。视频生成模型包括时空处理单元，时空处理单元包括卷积子单元和注意力子单元，卷积子单元包括空间卷积子单元和时序卷积子单元，注意力子单元包括空间注意力子单元和时序注意力子单元。那么，在视频生成模型中，可以利用空间卷积子单元和空间注意力子单元在空间维度对初始噪声和待处理文本进行处理，利用时序卷积子单元和时序注意力子单元在时序维度对初始噪声和待处理文本进行处理。

本说明书一个实施例中，空间卷积子单元、时序卷积子单元、空间注意力子单元和时序注意力子单元可以级联设置，从而使视频生成模型具有时序生成能力。本说明书另一个实施例中，空间卷积子单元、时序卷积子单元、空间注意力子单元和时序注意力子单元可以交叉堆叠设置。

其中，视频帧表征可以理解为视频帧的编码矩阵。至少两个视频帧表征的时序关系，可以理解为至少两个视频帧表征对应的至少两个视频帧之间的时序关系。

基于此，在将初始噪声和待处理文本输入视频生成模型之后，在视频生成模型中，可以利用空间卷积子单元和空间注意力子单元在空间维度对初始噪声和待处理文本进行处理，并利用时序卷积子单元和时序注意力子单元在时序维度对初始噪声和待处理文本进行处理，从而获得视频生成模型输出的至少两个视频帧表征、以及至少两个视频帧表征的时序关系。

可以理解的，利用视频生成模型对初始噪声和待处理文本进行处理的过程，可以参见下述视频生成模型的训练过程。

实际应用中，为了使视频生成模型具有视频生成能力，并满足对生成的视频的连贯性和流畅性的需求，可以对视频生成模型进行训练，参见图3，图3示出了根据本说明书一个实施例提供的一种视频生成方法中、视频生成模型的训练过程示意图，具体训练步骤如下述步骤302至步骤308所示。具体的，所述将所述初始噪声和所述待处理文本输入视频生成模型之前，还包括：

步骤302：确定训练样本对，其中，所述训练样本对包括文本样本、以及所述文本样本对应的视频样本。

具体的，训练样本对可以从训练数据集中获得。为了提升视频生成模型的通用性，可以在大规模数据集中获取训练样本对。进一步地，在获得满足训练停止条件的视频生成模型之后，为了使该视频生成模型能够满足下游任务的需求，可以根据下游任务信息，确定该任务对应的任务数据集，并从该任务数据集中获取训练样本对，以保证视频生成模型针对下游任务领域的专用性。

实际应用中，视频样本为人眼的视觉空间中的视频数据，如公式(1)所示。

v＝[f1，...，f_N] (1)

其中，v为视频样本，f₁为从视频样本中提取的第一个视频帧样本，f_N为从视频样本中提取的第N个视频帧样本。

步骤304：根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的时序关系。

其中，视频帧表征样本可以理解为对视频帧样本进行编码处理获得的编码矩阵。至少两个视频帧表征样本的时序关系，可以理解为至少两个视频帧表征样本对应的至少两个视频帧样本的时序关系。

具体实施时，所述根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本，包括：

对所述视频样本进行视频帧提取处理，获得所述文本样本对应的至少两个视频帧样本；

将所述至少两个视频帧样本输入编码器，获得所述文本样本对应的至少两个视频帧表征样本。

具体的，在确定文本样本对应的至少两个视频帧表征样本时，可以对文本样本对应的视频样本进行视频帧提取处理，获得该视频样本对应的至少两个视频帧样本，即为文本样本对应的至少两个视频帧样本，并将该至少两个视频帧样本输入编码器，获得编码器输出的至少两个视频帧表征样本。

实际应用中，编码器可以是VQGAN模型。文本样本对应的至少两个视频帧表征样本如下述公式(2)所示。

其中，为在隐空间中的至少两个视频帧表征样本，ε(f₁)为第一个视频帧样本对应的视频帧表征样本，ε(f_N)为第N个视频帧样本对应的视频帧表征样本。

举例而言，文本样本为“狗在草地上奔跑”，那么文本样本对应的视频样本即为展示“狗在草地上奔跑”的视频，该视频由多个视频帧组成。可以提取该视频样本中的视频帧样本1和视频帧样本2，并将视频帧样本1输入编码器，获得视频帧表征样本1，将视频帧样本2输入编码器，获得视频帧表征样本2。

综上，通过提取视频样本中的视频帧样本，并利用编码器实现从视频帧样本到视频帧表征样本的转换，为后续模型训练提供丰富的训练数据，能够实现从人眼中的视觉空间到视频生成模型中的隐空间的转换。

进一步地，至少两个视频帧表征样本的时序关系，与至少两个视频帧样本的时序关系相同。基于此，可以根据对视频样本进行视频帧提取处理的提取顺序，确定提取的至少两个视频帧样本的时序关系，从而确定至少两个视频帧表征样本的时序关系。

步骤306：根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本。

具体的，在确定至少两个视频帧表征样本之后，可以根据样本噪声对至少两个视频帧表征样本进行加噪处理，从而获得至少两个加噪视频帧表征样本。

可以理解的，在视频生成过程中，可以利用随机生成的初始噪声实现目标视频的生成，那么在视频生成模型的训练过程中，为了训练该视频生成模型根据初始噪声生成目标视频的能力，可以对至少两个视频帧表征样本进行加噪处理，使得获得的至少两个加噪视频帧表征样本能够接近初始噪声，那么，后续在根据该至少两个加噪视频帧表征样本对视频生成模型进行训练时，即可以训练该模型的视频生成能力。

其中，样本噪声和初始噪声可以相同，也可以不同。

具体实施时，可以利用扩散模型实现对至少两个视频帧表征样本的加噪处理，具体实现方式如下：

所述根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本，包括：

将所述至少两个视频帧表征样本输入扩散模型，利用所述扩散模型根据样本噪声对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本。

具体的，在利用扩散模型根据样本噪声对至少两个视频帧表征样本进行加噪处理时，可以给定预设步长，根据预设步长对至少两个视频帧表征样本进行逐步加噪。

沿用上例，可以将视频帧表征样本1输入扩散模型，获得扩散模型输出的加噪视频帧表征样本1。将视频帧表征样本2输入扩散模型，获得扩散模型输出的加噪视频帧表征样本2。

综上，通过利用扩散模型对视频帧表征样本进行加噪处理，获得加噪视频帧表征样本，为后续模型训练提供训练数据，进而训练视频生成模型根据噪声生成视频的能力。

步骤308：根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

具体的，对视频生成模型的训练可以是有监督训练。可以以文本样本、至少两个加噪视频帧表征样本和至少两个视频帧表征样本的时序关系作为训练样本、至少两个视频帧表征样本作为训练标签，对视频生成模型进行训练。

可以理解的，至少两个视频帧表征样本的时序关系，即为至少两个加噪视频帧表征样本的时序关系。

实际应用中，可以根据多帧联合训练的方式对视频生成模型进行训练。具体的，可以利用图像文本对(即单个视频帧样本和文本样本)对视频生成模型进行训练。还可以对视频样本抽取2个视频帧、4个视频帧、8个视频帧和16个视频帧等进行同时训练。训练时可以采用多GPU训练，每个GPU上视频样本的帧数保持相同，不同的GPU可以设置不同的帧数。

具体实施时，所述根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型，包括：

对所述文本样本进行特征提取处理，获得文本特征样本；

将所述文本特征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本输入视频生成模型，获得所述视频生成模型输出的至少两个预测视频帧表征、以及所述至少两个预测视频帧表征的预测时序关系；

根据所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系、所述至少两个预测视频帧表征，和所述预测时序关系，对所述视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

其中，文本样本可以作为模型训练过程中的提示词。文本特征样本可以理解为对文本样本进行特征提取处理后得到的文本嵌入。实际应用中，可以利用CLI P模型提取文本样本的文本嵌入，并将该文本嵌入直接作为视频生成的条件，从而使得后续生成的目标视频的视频动作幅度较大。训练停止条件可以理解为训练次数达到预设次数阈值或者模型损失值达到预设损失值阈值。

可以理解的，至少两个视频帧表征样本、至少两个加噪视频帧表征样本和至少两个预测视频帧表征之间是一一对应的。那么，将文本特征样本、至少两个视频帧表征样本的时序关系和至少两个加噪视频帧表征样本输入视频生成模型，可以理解为，将文本特征样本作为条件输入视频生成模型、并按照至少两个视频帧表征样本的时序关系，依次将至少两个加噪视频帧表征样本输入视频生成模型。

基于此，可以对文本样本进行特征提取处理，获得文本嵌入。将该文本嵌入作为训练条件输入视频生成模型，并按照至少两个视频帧表征样本的时序关系，依次将至少两个加噪视频帧表征样本输入视频生成模型，获得视频生成模型输出的至少两个预测视频帧表征、以及至少两个预测视频帧表征的预测时序关系。并根据该至少两个视频帧表征样本、该至少两个视频帧表征样本的时序关系、至少两个预测视频帧表征和预测时序关系，对视频生成模型进行训练。

实际应用中，由于加噪视频帧表征样本是在扩散模型中根据预设步长逐步加噪得到的，那么在视频生成模型中，可以通过预测每一步的噪声，获得每一步得到的预测视频帧表征。文本特征样本如下述公式(3)所示。

c＝τ(p) (3)

其中，c为文本特征样本，p为文本样本，τ为文本编码器。

需要说明的是，视频生成模型输出的至少两个预测视频帧表征、以及至少两个预测视频帧表征的预测时序关系，可以通过按照至少两个预测视频帧表征的预测时序关系，依次输出至少两个预测视频帧表征的形式体现。

本说明书一个实施例中，在对至少两个视频帧表征样本进行加噪处理时，可以利用扩散模型，根据预设步长对每个视频帧表征样本进行逐步加噪，获得加噪视频帧表征样本。相应地，在视频生成模型中，对加噪视频帧表征样本进行处理时，可以进行逐步去噪，获得预测视频帧表征。具体参见图4，图4示出了根据本说明书一个实施例提供的视频生成方法中、对视频帧表征样本进行加噪和去噪的示意图。以对一个视频帧表征样本进行逐步加噪，获得加噪视频帧表征样本，和对一个加噪视频帧表征样本进行逐步去噪，获得预测视频帧表征为例进行说明。

参见图4，在对视频帧表征样本进行加噪的过程中，可以将视频帧表征样本输入扩散模型，在扩散模型中根据预设加噪次数对视频帧表征样本进行加噪，比如，对视频帧表征样本进行3次加噪，获得加噪视频帧表征样本。在视频生成模型的训练过程中，将加噪视频帧表征样本输入视频生成模型，利用时空处理单元对加噪视频帧表征样本在时序维度和空间维度进行处理(即对加噪视频帧表征样本进行去噪处理)，由于加噪次数为3次，那么利用时空处理单元处理的次数也为3次，获得预测视频帧表征，该预测视频帧表征可以用于预测添加的噪声，训练目标是使视频生成模型输出的预测视频帧表征接近于视频帧表征样本。

进一步地，还可以根据每一次加噪得到的加噪视频帧表征样本、和每一次去噪处理得到的预测视频帧表征计算模型损失值，并根据该模型损失值对视频生成模型进行训练。以上述3次加噪和3次去噪为例进一步说明，对视频帧表征样本0进行第1次加噪，获得加噪视频帧表征样本1，对加噪视频帧表征样本1进行第2次加噪，获得加噪视频帧表征样本2，对加噪视频帧表征样本2进行第3次加噪，获得加噪视频帧表征样本3。将加噪视频帧表征样本3输入视频生成模型，利用时空处理单元对加噪视频帧表征样本3进行第1次去噪处理，获得预测视频帧表征1，利用时空处理单元对预测视频帧表征1进行第2次去噪处理，获得预测视频帧表征2，利用时空处理单元对预测视频帧表征2进行第3次去噪处理，获得预测视频帧表征3。那么，可以根据预测视频帧表征3和视频帧表征样本0、根据预测视频帧表征1和加噪视频帧表征样本2、根据预测视频帧表征2和加噪视频帧表征样本1对视频生成模型进行训练。

综上，通过根据多帧联合训练的训练方式，对视频生成模型进行训练，使视频生成模型更易收敛，进一步提升视频生成模型的视频生成能力。

具体实施时，所述根据所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系、所述至少两个预测视频帧表征，和所述预测时序关系，对所述视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型，包括：

根据所述预测时序关系和所述至少两个视频帧表征样本的时序关系，在所述至少两个视频帧表征样本和所述至少两个预测视频帧表征中，确定第一视频帧表征样本、以及所述第一视频帧表征样本对应的第一预测视频帧表征；

根据所述第一视频帧表征样本和所述第一预测视频帧表征，计算模型损失值；

根据所述模型损失值，对所述视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

具体的，在对视频生成模型进行训练时，可以根据预测时序关系和至少两个视频帧表征样本的时序关系，确定同一时序对应的第一视频帧表征样本和第一预测视频帧表征，从而根据该第一视频帧表征样本和第一预测视频帧表征，计算模型损失值，并根据模型损失值对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

实际应用中，计算模型损失值的损失函数比如可以是交叉熵损失函数、L1范数损失函数、最大损失函数、平方误差损失函数、对数损失函数等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一个实施例中，视频生成模型输出的预测视频帧表征如下述公式(4)所示。

其中，∈_θ为视频生成模型，为/>时刻的加噪视频帧表征样本，/>为加噪次数(即加噪时刻)，/>为预测视频帧表征，该预测视频帧表征可以理解为预测第t次(即/>时刻)所加的噪声。

采用的损失函数如下述公式(5)所示。

其中，为对视频帧表征样本进行加噪过程中所增加的噪声。E为数学期望，可以理解为均值。/>可以用于表示/>服从均值为0、方差为1的高斯分布。

具体的，在对视频生成模型的训练过程中，预测在时刻的噪声为/>，而在对视频帧表征样本的加噪过程中，实际加入的噪声为/>因此，该视频生成模型的训练目标为使预测的噪声和实际加入的噪声更接近。

沿用上例，视频帧表征样本1和视频帧表征样本2中的1和2即表示视频帧表征样本之间的时序关系，这说明在视频样本中，视频帧表征样本1对应的视频帧样本的时序为1，视频帧表征样本2对应的视频帧样本的时序为2。相应地，视频生成模型输出的为预测视频帧表征1和预测视频帧表征2。基于此，可以根据预测时序关系和视频帧表征样本之间的时序关系，确定同一时序1对应的第一视频帧表征样本1和第一预测视频帧表征1，并根据该第一视频帧表征样本1和第一预测视频帧表征1，利用选定的损失函数计算模型损失值，根据模型损失值调整视频生成模型的模型参数，直至获得满足训练停止条件的视频生成模型。

综上，通过确定同一时序对应的视频帧表征样本和预测视频帧表征，能够使视频生成模型具有时序生成能力，进一步提升生成的目标视频的流畅性和连贯性。

实际应用中，所述视频生成模型包括时空处理单元，那么，在视频生成模型中，可以利用该时空处理单元对文本特征样本、至少两个视频帧表征样本的时序关系和至少两个加噪视频帧表征样本在时序维度和空间维度进行处理，获得至少两个预测视频帧表征以及至少两个预测视频帧表征的预测时序关系。

进一步地，所述时空处理单元包括卷积子单元和注意力子单元。

所述将所述文本特征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本输入视频生成模型之后，还包括：

在所述视频生成模型中，利用所述卷积子单元根据所述至少两个视频帧表征样本的时序关系，对所述至少两个加噪视频帧表征样本进行卷积处理，获得至少两个中间视频帧表征、以及所述至少两个中间视频帧表征的中间时序关系；

利用所述注意力子单元根据所述中间时序关系，对所述至少两个中间视频帧表征和所述文本特征样本进行注意力处理。

其中，中间时序关系和至少两个视频帧表征样本的时序关系可以相同，也可以不同。

基于此，在视频生成模型中，可以利用卷积子单元根据至少两个视频帧表征样本的时序关系，对输入该视频生成模型的至少两个加噪视频帧表征样本进行卷积处理，获得卷积子单元按照中间时序关系输出的、至少两个中间视频帧表征。之后，可以利用注意力子单元根据中间时序关系，对卷积子单元输出的至少两个中间视频帧表征和文本特征样本进行注意力处理，从而获得至少两个预测视频帧表征以及该至少两个预测视频帧表征的预测时序关系。

本说明书另一个实施例中，在视频生成模型中，还可以先利用注意力子单元，根据至少两个视频帧表征样本的时序关系，对输入该视频生成模型的至少两个加噪视频帧表征样本和文本特征样本进行注意力处理，获得至少两个中间视频帧表征、以及该至少两个中间视频帧表征的中间时序关系。之后，再利用卷积子单元根据该中间时序关系，对至少两个中间视频帧表征进行卷积处理，从而获得至少两个预测视频帧表征以及该至少两个预测视频帧表征的预测时序关系。

综上，通过利用卷积子单元和注意力子单元在空间维度和时序维度对模型输入进行处理，实现视频生成模型的单帧生成能力以及时序生成能力，使得后续基于该视频生成模型获得的目标视频具有帧间一致性，更加流畅和连贯，从而保证目标视频的真实性。

更进一步地，卷积子单元包括空间卷积子单元和时序卷积子单元，相应地，

所述利用所述卷积子单元根据所述至少两个视频帧表征样本的时序关系，对所述至少两个加噪视频帧表征样本进行卷积处理，获得至少两个中间视频帧表征、以及所述至少两个中间视频帧表征的中间时序关系，包括：

利用所述卷积子单元，对所述至少两个加噪视频帧表征样本中的、各加噪视频帧表征样本进行空间卷积处理，获得至少两个第一中间表征；

按照所述至少两个视频帧表征样本的时序关系，对所述至少两个第一中间表征进行时序卷积处理，获得至少两个中间视频帧表征、以及所述至少两个中间视频帧表征的中间时序关系。

具体的，在利用卷积子单元对至少两个加噪视频帧表征样本进行卷积处理的过程中，可以在时序维度和空间维度分别进行处理。那么，可以利用空间卷积子单元对至少两个加噪视频帧表征样本中、每个加噪视频帧表征样本进行空间卷积处理，获得空间卷积子单元输出的至少两个第一中间表征。之后，可以利用时序卷积子单元，按照至少两个视频帧表征样本的时序关系，对至少两个第一中间表征进行时序卷积处理，从而获得至少两个中间视频帧表征、以及该至少两个中间视频帧表征的中间时序关系。

实际应用中，空间卷积处理可以理解为二维卷积处理，时序卷积处理可以理解为一维卷积处理。在对加噪视频帧表征样本进行空间卷积处理时，可以对加噪视频帧表征样本进行归一化处理和激活处理，再对处理后得到的加噪视频帧表征样本进行二维卷积处理，从而获得第一中间表征。在对第一中间表征进行时序卷积处理时，相应地，可以对第一中间表征进行归一化处理和激活处理，再对处理后得到的第一中间表征进行一维卷积处理，最终获得中间视频帧表征。

具体实施时，在对加噪视频帧表征样本进行二维卷积处理时，可以从加噪视频帧表征样本的高度和宽度隐空间通道中提取特征。在对第一中间表征进行一维卷积处理时，可以从第一中间表征的F通道中提取特征，其中F为帧大小。

本说明书一个实施例中，按照至少两个视频帧表征样本的时序关系，对至少两个第一中间表征进行时序卷积处理时，由于至少两个视频帧表征样本的时序关系与至少两个第一中间表征的时序关系相同，那么，可以根据至少两个视频帧表征样本的时序关系，在至少两个第一中间表征中，确定具有相邻关系的两个第一中间表征，在具有相邻关系的两个第一中间表征之间进行信息交互学习。

综上，通过卷积子单元在空间维度和时序维度进行卷积处理，能够保证使视频生成模型关注生成的目标视频的视频帧之间的临近位置，从而保证目标视频在时序上的流畅性和帧间一致性。

相应地，所述利用所述注意力子单元根据所述中间时序关系，对所述至少两个中间视频帧表征和所述文本特征样本进行注意力处理，包括：

利用所述注意力子单元，对所述至少两个中间视频帧表征中的、各中间视频帧表征和所述文本特征样本进行空间注意力处理，获得至少两个第二中间表征；

按照所述至少两个视频帧表征样本的时序关系，对所述至少两个第二中间表征进行时序注意力处理。

具体的，在利用注意力子单元根据中间时序关系，对至少两个中间视频帧表征和文本特征样本进行注意力处理的过程中，可以在时序维度和空间维度分别处理。那么，可以利用空间注意力子单元，对至少两个中间视频帧表征中的、每个中间视频帧表征和文本特征样本进行空间注意力处理，从而获得至少两个第二中间表征。之后，可以利用时序注意力子单元，根据至少两个视频帧表征样本的时序关系，对至少两个第二中间表征进行时序注意力处理，从而获得至少两个预测视频帧表征、以及至少两个预测视频帧表征的预测时序关系。

实际应用中，空间注意力处理可以理解为二维注意力处理。时序注意力处理可以理解为一维注意力处理。在对每个中间视频帧表征和文本特征样本进行空间注意力处理时，可以以文本特征样本作为条件，对每个中间视频帧表征进行归一化处理和线性处理，并对处理后得到的中间视频帧表征进行二维注意力处理和线性处理，从而获得至少两个第二中间表征。在对每个第二中间表征进行时序注意力处理时，可以对每个第二中间表征进行归一化处理和线性处理，并对处理后得到的每个第二中间表征进行一维注意力处理和线性处理，从而获得至少两个预测视频帧表征。

具体实施时，对中间视频帧表征进行二维注意力处理时，可以将高度和宽度隐空间通道中的张量拉平。对第二中间表征进行一维注意力处理时，可以将F通道中的张量拉平。实际应用中，二维注意力处理和一维注意力处理可以根据变压器网络实现。

综上，通过利用注意力子单元在空间维度和时序维度进行注意力处理，使视频生成模型能够建模更远的数据关系，进一步提升视频生成模型的处理性能。

步骤206：根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。

具体的，在获得视频生成模型输出的至少两个视频帧表征、以及至少两个视频帧表征的时序关系之后，可以根据该至少两个视频帧表征和该至少两个视频帧表征的时序关系，生成待处理文本对应的目标视频。

具体实施时，所述根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频，包括：

根据所述至少两个视频帧表征的时序关系，将所述至少两个视频帧表征输入解码器，获得所述解码器输出的、具有所述时序关系的至少两个视频帧；

根据所述具有所述时序关系的至少两个视频帧，生成所述待处理文本对应的目标视频。

具体的，可以根据至少两个视频帧表征的时序关系，将至少两个视频帧表征依次输入解码器，利用解码器对每个视频帧表征进行解码处理，从而获得解码器按照时序关系输出的、至少两个视频帧(即具有时序关系的至少两个视频帧)，可以对该具有时序关系的至少两个视频帧进行拼接处理，生成待处理文本对应的目标视频。

实际应用中，解码器比如可以是VQGAN模型。生成的目标视频v如下述公式(6)所述。

其中，为解码器，z₁为视频生成模型输出的第一个视频帧表征，z_N为视频生成模型输出的第N个视频帧表征。/>为第1个视频帧，/>为第N个视频帧。

综上，通过解码器将视频帧表征转换为视频帧，从而生成目标视频，实现从隐空间中的视频帧表征、到视觉空间中的视频帧的转换，在隐空间中实现视频帧的生成，从而提升视频生成的速度。

综上所述，上述方法中，通过根据文本样本、视频帧表征样本和加噪视频帧表征样本对视频生成模型进行训练，使得视频生成模型具有根据噪声和文本生成目标视频的能力。基于此，在根据初始噪声和待处理文本生成对应的目标视频的过程中，利用视频生成模型中的时空处理单元分别在时序维度和空间维度对初始噪声和待处理文本进行处理，从而使在空间维度进行处理能够实现单个视频帧的生成，在时序维度进行处理能够实现单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性，从而能够获取到至少两个视频帧表征和该至少两个视频帧表征的时序关系，从而实现目标视频的生成，进一步提升目标视频的每一帧之间的流畅性和连贯性，提升目标视频生成的效率和真实性。

下述结合附图5，以本说明书提供的视频生成方法在视频生成平台的应用为例，对所述视频生成方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种视频生成方法的处理过程流程图，具体包括以下步骤。

步骤502：视频生成平台向服务提供平台发送视频生成服务提供需求。

其中，视频生成平台可以理解为为该平台的用户提供视频生成等服务的平台。比如视频生成平台可以是视频分享平台，用户在该视频分享平台上传的视频，可以是自己拍摄上传的视频，还可以是在该视频分享平台中输入文本，由视频分享平台根据该文本生成的视频。服务提供平台可以理解为提供模型训练服务以及训练的模型对应的服务的平台。

具体的，视频生成平台想要为平台用户提供视频生成服务，那么，该视频生成平台可以向提供模型训练服务的服务提供平台发送视频生成服务提供需求。

步骤504：服务提供平台根据视频生成服务提供需求，训练视频生成模型。

具体的，服务提供平台可以根据该视频生成服务提供需求，为视频生成平台训练该视频生成服务对应的视频生成模型。可以理解的，将视频生成模型训练好之后，服务提供平台可以向视频生成平台提供服务接口，视频生成平台可以基于该服务接口调用服务提供平台中的视频生成模型，以实现视频生成服务。或者，服务提供平台还可以直接将训练好的视频生成模型的模型参数发送至视频生成平台，视频生成平台可以根据该模型参数部署训练好的视频生成模型，直接利用视频生成模型为平台用户提供视频生成服务。

可以理解的，由于本说明书实施例提供的视频生成模型的输出结果为视频帧表征，在服务提供平台仅提供视频生成模型的模型参数的情况下，视频生成平台可以将视频生成模型输出的视频帧表征转换为视频帧从而生成目标视频，服务提供平台还可以将该视频生成模型和解码器共同发送至视频生成平台，以实现为视频生成平台提供完整的视频生成服务。

可以理解的，视频生成模型的训练过程可以参见前述内容，本说明书实施例在此不再重复赘述。

步骤506：用户通过端侧设备向视频生成平台发送视频生成请求，其中，所述视频生成请求携带有待处理文本。

具体的，视频生成平台的用户可以通过端侧设备向视频生成平台发送视频生成请求。

步骤508：视频生成平台将该视频生成请求发送至服务提供平台。

具体的，在服务提供平台向视频生成平台提供服务接口的情况下，视频生成平台可以通过该服务接口，将视频生成请求发送至服务提供平台，由服务提供平台调用训练好的视频生成模型，以实现目标视频的生成。

步骤510：服务提供平台根据该视频生成请求，生成初始噪声，并利用训练好的视频生成模型对待处理文本和初始噪声进行处理，获得待处理文本对应的目标视频。

可以理解的，利用视频生成模型对待处理文本和初始噪声进行处理的过程可以参见前述内容，本说明书实施例在此不再重复赘述。

步骤512：服务提供平台将目标视频发送至视频生成平台。

步骤514：视频生成平台将目标视频发送至端侧设备。

与上述方法实施例相对应，本说明书还提供了视频生成装置实施例，图6示出了本说明书一个实施例提供的一种视频生成装置的结构示意图。如图6所示，该装置包括：

生成模块602，被配置为确定待处理文本，并生成初始噪声；

输入模块604，被配置为将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

确定模块606，被配置为根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。

一个可选的实施例中，所述确定模块606，进一步被配置为：

一个可选的实施例中，所述装置还包括训练模块，被配置为：

根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的时序关系；

一个可选的实施例中，所述训练模块，进一步被配置为：

对所述文本样本进行特征提取处理，获得文本特征样本；

一个可选的实施例中，所述训练模块，进一步被配置为：

一个可选的实施例中，所述视频生成模型包括时空处理单元，所述时空处理单元包括卷积子单元和注意力子单元；所述训练模块，进一步被配置为：

一个可选的实施例中，所述训练模块，进一步被配置为：

综上所述，上述装置中，通过根据文本样本、视频帧表征样本和加噪视频帧表征样本对视频生成模型进行训练，使得视频生成模型具有根据噪声和文本生成目标视频的能力。基于此，在根据初始噪声和待处理文本生成对应的目标视频的过程中，利用视频生成模型中的时空处理单元分别在时序维度和空间维度对初始噪声和待处理文本进行处理，从而使在空间维度进行处理能够实现单个视频帧的生成，在时序维度进行处理能够实现单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性，从而能够获取到至少两个视频帧表征和该至少两个视频帧表征的时序关系，从而实现目标视频的生成，进一步提升目标视频的每一帧之间的流畅性和连贯性，提升目标视频生成的效率和真实性。

上述为本实施例的一种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思，视频生成装置的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

参见图7，图7示出了本说明书一个实施例提供的一种视频生成系统的架构图，视频生成系统700可以包括客户端702和服务端704；

客户端702，用于向服务端704发送待处理文本；

服务端704，将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频。向客户端702发送目标视频；

客户端702，还用于接收服务端704发送的目标视频。

上述系统中，通过根据文本样本、视频帧表征样本和加噪视频帧表征样本对视频生成模型进行训练，使得视频生成模型具有根据噪声和文本生成目标视频的能力。基于此，在根据初始噪声和待处理文本生成对应的目标视频的过程中，利用视频生成模型中的时空处理单元分别在时序维度和空间维度对初始噪声和待处理文本进行处理，从而使在空间维度进行处理能够实现单个视频帧的生成，在时序维度进行处理能够实现单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性，从而能够获取到至少两个视频帧表征和该至少两个视频帧表征的时序关系，从而实现目标视频的生成，进一步提升目标视频的每一帧之间的流畅性和连贯性，提升目标视频生成的效率和真实性。

实际应用中，视频生成系统可以包括多个客户端702以及服务端704。多个客户端702之间通过服务端704可以建立通信连接，在视频生成场景中，服务端704即用来在多个客户端702之间提供视频生成服务，多个客户端702可以分别作为发送端或接收端，通过服务端704实现通信。

用户通过客户端702可与服务端704进行交互以接收其它客户端702发送的数据，或将数据发送至其它客户端702等。在视频生成场景中，可以是用户通过客户端702向服务端704发布数据流，服务端704根据该数据流生成目标视频，并将目标视频推送至其他建立通信的客户端中。

其中，客户端702与服务端704之间通过网络建立连接。网络为客户端702与服务端704之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。客户端702所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端704。

客户端702可以为浏览器、APP(Application，应用程序)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，客户端702可以基于服务端704提供的相应服务的软件开发工具包(SDK，Software Development Kit)，如基于实时通信(RTC，Real TimeCommunication)SDK开发获得等。客户端702可以部署在电子设备中，需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等端侧设备。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端704可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。需要说明的是，服务端704可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器(云侧设备)，或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是，本说明书实施例中提供的视频生成方法一般由服务端执行，但是，在本说明书的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本说明书实施例所提供的视频生成方法。在其它实施例中，本说明书实施例所提供的视频生成方法还可以是由客户端与服务端共同执行。

参见图8，图8示出了根据本说明书一个实施例提供的另一种视频生成方法的流程图，应用于云侧设备，具体包括以下步骤。

步骤802：接收端侧设备发送的视频生成请求，其中，所述视频生成请求携带有待处理文本；

步骤804：生成初始噪声，并将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

步骤806：根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频；

步骤808：将所述目标视频发送至所述端侧设备。

其中，待处理文本可以是用于描述视频内容的文本内容，比如可以是电影剧本、广告剧本等。

具体的，用户可以在端侧设备的展示界面输入或选择待处理文本，并通过端侧设备向云侧设备发送视频生成请求。云侧设备接收视频生成请求之后，可以生成初始噪声，并利用训练好的视频生成模型，对初始噪声和待处理文本在空间维度和和时序维度进行处理，并获得视频生成模型输出的至少两个视频帧表征、以及该至少两个视频帧表征的时序关系。根据该至少两个视频帧表征、以及该至少两个视频帧表征的时序关系，生成带处理文本对应的目标视频，并将该目标视频发送至端侧设备。端侧设备可以渲染并通过展示界面展示该目标视频。

与上述方法实施例相对应，本说明书还提供了视频生成装置实施例，图9示出了本说明书一个实施例提供的另一种视频生成装置的结构示意图。如图9所示，该装置包括：

接收模块902，被配置为接收端侧设备发送的视频生成请求，其中，所述视频生成请求携带有待处理文本；

生成模块904，被配置为生成初始噪声，并将所述初始噪声和所述待处理文本输入视频生成模型，在所述视频生成模型中，利用时空处理单元在时序维度和空间维度对所述初始噪声和所述待处理文本进行处理，获得至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，其中，所述视频生成模型根据文本样本、所述文本样本对应的视频帧表征样本和加噪视频帧表征样本训练得到，所述加噪视频帧表征样本根据样本噪声对所述视频帧表征样本进行加噪获得；

确定模块906，被配置为根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频；

发送模块908，被配置为将所述目标视频发送至所述端侧设备。

上述装置中，通过根据文本样本、视频帧表征样本和加噪视频帧表征样本对视频生成模型进行训练，使得视频生成模型具有根据噪声和文本生成目标视频的能力。基于此，在根据初始噪声和待处理文本生成对应的目标视频的过程中，利用视频生成模型中的时空处理单元分别在时序维度和空间维度对初始噪声和待处理文本进行处理，从而使在空间维度进行处理能够实现单个视频帧的生成，在时序维度进行处理能够实现单个视频帧之间时序关系的生成，保证每个视频帧之间的帧间一致性，从而能够获取到至少两个视频帧表征和该至少两个视频帧表征的时序关系，从而实现目标视频的生成，进一步提升目标视频的每一帧之间的流畅性和连贯性，提升目标视频生成的效率和真实性。

参见图10，图10示出了根据本说明书一个实施例提供的一种视频生成模型的训练方法的流程图，应用于云侧设备，具体包括以下步骤。

步骤1002：确定训练样本对，其中，所述训练样本对包括文本样本、以及所述文本样本对应的视频样本；

步骤1004：根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的至少两个视频帧表征样本的时序关系；

步骤1006：根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本；

步骤1008：根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

需要说明的是，步骤1002至步骤1008与上述步骤302到步骤308的实现方式相同，在此不再重复赘述。

实际应用中，在获得满足训练停止条件的视频生成模型之后，云侧设备还可以将该视频生成模型的模型参数发送至端侧设备，端侧设备可以根据该视频生成模型的模型参数在本地构建视频生成模型，进一步利用视频生成模型生成目标视频。

与上述方法实施例相对应，本说明书还提供了视频生成模型的训练装置实施例，图11示出了本说明书一个实施例提供的一种视频生成模型的训练装置的结构示意图。如图11所示，该装置包括：

第一确定模块1102，被配置为确定训练样本对，其中，所述训练样本对包括文本样本、以及所述文本样本对应的视频样本；

第二确定模块1104，被配置为根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本、以及所述至少两个视频帧表征样本的至少两个视频帧表征样本的时序关系；

加噪模块1106，被配置为根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本；

训练模块1108，被配置为根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型。

图12示出了根据本说明书一个实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接，数据库1250用于保存数据。

计算设备1200还包括接入设备1240，接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本申请的一个实施例中，计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图12所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中，处理器1220用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频生成方法，包括：

确定待处理文本，并生成初始噪声；

2.根据权利要求1所述的方法，所述根据所述至少两个视频帧表征、以及所述至少两个视频帧表征的时序关系，确定所述待处理文本对应的目标视频，包括：

3.根据权利要求1所述的方法，所述将所述初始噪声和所述待处理文本输入视频生成模型之前，还包括：

4.根据权利要求3所述的方法，所述根据所述文本样本、所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系和所述至少两个加噪视频帧表征样本，对视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型，包括：

对所述文本样本进行特征提取处理，获得文本特征样本；

5.根据权利要求4所述的方法，所述根据所述至少两个视频帧表征样本、所述至少两个视频帧表征样本的时序关系、所述至少两个预测视频帧表征，和所述预测时序关系，对所述视频生成模型进行训练，直至获得满足训练停止条件的视频生成模型，包括：

6.根据权利要求4所述的方法，所述视频生成模型包括时空处理单元，所述时空处理单元包括卷积子单元和注意力子单元；

7.根据权利要求6所述的方法，所述利用所述卷积子单元根据所述至少两个视频帧表征样本的时序关系，对所述至少两个加噪视频帧表征样本进行卷积处理，获得至少两个中间视频帧表征、以及所述至少两个中间视频帧表征的中间时序关系，包括：

8.根据权利要求6所述的方法，所述利用所述注意力子单元根据所述中间时序关系，对所述至少两个中间视频帧表征和所述文本特征样本进行注意力处理，包括：

9.根据权利要求3所述的方法，所述根据样本噪声，对所述至少两个视频帧表征样本进行加噪处理，获得至少两个加噪视频帧表征样本，包括：

10.根据权利要求3所述的方法，所述根据所述视频样本，确定所述文本样本对应的至少两个视频帧表征样本，包括：

11.一种视频生成方法，应用于云侧设备，包括：

将所述目标视频发送至所述端侧设备。

12.一种视频生成模型的训练方法，应用于云侧设备，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。