CN116471427B

CN116471427B - 视频生成方法及装置、计算机可读存储介质、计算设备

Info

Publication number: CN116471427B
Application number: CN202211096271.2A
Authority: CN
Inventors: 贾皓文; 王成
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2024-03-29
Anticipated expiration: 2042-09-08
Also published as: CN116471427A

Abstract

一种视频生成方法及装置、计算机可读存储介质、计算设备，所述方法包括：确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围用于指示在目标视频的时间轴上的范围，所述位置信息用于指示在视频画面中的位置；获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；根据所述素材及其绑定的布局结构信息，生成所述目标视频。通过本申请提供的方案，能够提高视频的生成效率，优化用户的使用体验。

Description

视频生成方法及装置、计算机可读存储介质、计算设备

技术领域

本申请涉及视频技术领域，尤其涉及一种视频生成方法及装置、计算机可读存储介质、计算设备。

背景技术

传统的视频编辑系统中，在用户编辑、生成视频时，需要逐帧地进行编辑、处理视频所需的素材，如文字、图片等。例如，在一帧或多帧的视频画面中插入图片或文字用户的学习。采用这样的方案，视频生成的效率较低，用户耗时较长。

发明内容

本申请解决的技术问题是如何提高视频生成的效率。

为解决上述技术问题，本申请实施例提供一种视频生成方法，所述方法包括：确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围用于指示在目标视频的时间轴上的范围，所述位置信息用于指示在视频画面中的位置；获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；根据所述素材及其绑定的布局结构信息，生成所述目标视频。

可选的，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系包括：获取针对第一元素选择的第一素材，所述第一素材用于生成虚拟数字对象的视频，或者所述第一素材为所述虚拟数字对象的视频；建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系。

可选的，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系还包括：获取针对第二元素选择的第二素材，并建立所述第二素材和所述第二元素的布局结构信息之间的绑定关系，所述第二素材为在所述虚拟数字对象所在的虚拟场景中展示的视频。

可选的，所述第二元素和所述第一元素的布局结构信息之间具有预先配置的关联关系，所述第一元素的时间范围取决于所述第二元素的时间范围。

可选的，所述第一素材包括所述虚拟数字对象和用于驱动所述虚拟数字对象的驱动信息，建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之前，所述方法还包括：如果所述驱动信息和所述第二素材之间具有关联关系，则判断所述第二元素的时间范围的时长和所述第一元素的时间范围的时长之间的差异是否大于或等于第一预设值，若是，则将所述第二元素的时间范围作为所述第一元素的时间范围。

可选的，所述第一素材包括所述虚拟数字对象和用于驱动所述虚拟数字对象的驱动信息，建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之后，且在根据所述素材及其绑定的布局结构信息，生成所述目标视频之前，所述方法还包括：如果第一时长和第二时长之间的差异大于或等于第一预设值，则根据所述第二时长对所述驱动信息进行处理，以使得所述第一时长和所述第二时长之间的差异小于所述第一预设值；其中，所述第一时长为根据所述驱动信息确定的所述虚拟数字对象的视频的时长，所述第二时长为所述第一素材绑定的时间范围的时长。

可选的，建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之前，所述方法还包括：如果所述第一时长和所述第二时长之间的差异大于或等于第二预设值，则向用户发送提醒信息，所述提醒信息用于提醒用户调整所述第一元素的布局结构信息中的时间范围或者重新选择所述第一素材；其中，所述第二预设值大于所述第一预设值。

可选的，所述驱动信息包括驱动文本和语速，根据所述第二时长对所述驱动信息进行处理包括：根据所述第二时长调整所述语速；或者，所述驱动信息包括驱动音频，根据所述第二时长对所述驱动信息进行处理包括：如果所述驱动音频的时长小于所述第二时长，则延长所述驱动音频中至少一处停顿的时间；如果所述驱动音频的时长大于所述第二时长，则去除所述驱动音频中至少一处停顿。

可选的，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系还包括：获取针对第三元素选择的第三素材，所述第三素材为在所述虚拟数字对象所在的虚拟场景中展示的静态素材，所述静态素材为以下任意一项：文本、图片、表格；获取指示信息，所述指示信息选自所述驱动信息；根据所述指示信息在所述第一素材绑定的时间范围内对应的时刻，调整所述第三元素的时间范围，其中，调整后的所述第三元素的时间范围的起始时刻为所述指示信息在所述第一素材绑定的时间范围内对应的时刻。

可选的，获取用户针对每个元素选择的素材之前，所述方法还包括：获取用户期望的时长，所述目标视频的时间轴是根据所述期望的时长确定的。

可选的，所述目标视频是响应于用户终端发出的视频生成请求生成的，根据所述素材及其绑定的布局结构信息，生成所述目标视频包括：采用分布式锁机制对不同用户终端发出的视频生成请求进行响应。

为了解决上述技术特征，本申请实施例还提供一种视频生成装置，所述装置包括：选择模块，用于确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围是指在目标视频的时间轴上的范围，所述位置信息是指在视频画面中的位置；编排模块，用于获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；生成模块，用于根据所述素材及其绑定的布局结构信息，生成所述目标视频。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频生成方法的步骤。

本申请实施例还提供一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频生成方法的步骤。

与现有技术相比，本申请实施例的技术方案具有以下有益效果：

本申请实施例的方案中，首先确定用户选择的布局框架，布局框架包括多个元素，每个元素具有布局结构信息，进一步地，可以获取用户针对每个元素选择的素材，并建立素材和元素的布局结构信息之间的绑定关系。由于元素的布局结构包括时间范围、位置信息、尺寸信息和层级信息，因此通过将素材和布局结构信息进行绑定，可以确定每个素材在目标视频中的时间范围、在视频画面中的位置、尺寸和层级，由此可以直接根据素材和绑定的布局结构信息生成目标视频，与现有的逐帧处理的方案相比，视频生成的效率较高。

进一步，本申请实施例的方案中，获取的素材包括第一素材，第一素材用于生成虚拟数字对象的视频，或者所述第一素材为所述虚拟数字对象的视频。由此，采用这样的方案可以快速生成包含虚拟数字对象的目标视频。

进一步，本申请实施例的方案中，获取的素材还可以包括第二素材，第二素材为在虚拟数字对象所在的虚拟场景中展示的视频，在第一素材包括的驱动信息和第二素材具有关联关系的情况下，可以对第一元素的时间范围和第二元素的时间范围进行对齐，有利于生成的目标视频中虚拟数字对象的视频和背景视频在时间轴上更加对齐，当虚拟数字对象的视频和视频素材是对同一对象进行介绍或展示时，两个视频的同步性更好，有利于提高视频生成的效果。

进一步，本申请实施例的方案中，在建立第一素材和第一元素的布局建构信息之间的绑定关系之前，先判断根据驱动信息确定的第一时长和第一元素的时间范围的时长的差异是否较大，若是，则对驱动信息进行调整。采用这样的方案，有利于提高虚拟数字对象的视频和第一元素的时间范围的匹配性更好，有利于保证后续生成的目标视频的效果。

进一步，本申请实施例的方案中，考虑到第一时长和第二时长之间差异较大的情况下，如果根据第二时长对驱动信息进行调整可能会生成的虚拟数字对象的视频中节奏过快或过慢的情况。为此，在绑定布局结构信息之前，如果第一时长和第二时长之间的差异较大，则发送提醒信息，以提醒用户调整第一元素的布局结构信息中的时间范围或者重新选择第一素材。采用这样的方案，仅在第一时长和第二时长的差异较大的情况下提醒用户调整，在差异较小的情况下进行自动对驱动信息进行调整，相较于均由用户手动调整的方案，有利于简化用户操作，提高视频生成效率。另外，相较于均自动调整的方案，可以避免差异较大的情况下自动调整可能出现虚拟数字对象的视频过快或过慢导致播放效果较差的情况。因此，能够兼顾视频生成效率和视频生成效果。

进一步，本申请实施例的方案中，获取的素材还可以包括第三素材，第三素材为在虚拟数字对象所在的虚拟场景中展示的静态素材，还一并获取指示信息，由于指示信息选自驱动信息，因此可以将指示信息在第一素材绑定的时间范围对应的时刻设置为第三元素的时间范围的起始时刻。采用这样的方案，用户可以通过设置指示信息来设置第三素材在目标视频中显示的时间范围，相较于逐帧地设置第三素材的方案，有利于提高视频生成的效率。

附图说明

图1是本申请实施例中一种视频生成方法的流程示意图；

图2是本申请实施例中一种视频生成方法的领域模型示意图；

图3是本申请实施例中一种视频生成系统的架构示意图；

图4是图3中的视频生成系统在视频编排时的一种工作流程示意图；

图5是图3中的视频生成系统在视频生成时的一种工作流程示意图；

图6是本申请实施例中一种视频生成装置的结构示意图。

具体实施方式

如背景技术所述，亟需一种提高视频生成效率的方法。

为了解决上述技术问题，本申请实施例提供一种视频生成方法，在本申请实施例的方案中，首先确定用户选择的布局框架，布局框架包括多个元素，每个元素具有布局结构信息，进一步地，可以获取用户针对每个元素选择的素材，并建立素材和元素的布局结构信息之间的绑定关系。由于元素的布局结构包括时间范围、位置信息、尺寸信息和层级信息，因此通过将素材和布局结构信息进行绑定，可以确定每个素材在目标视频中的时间范围、在视频画面中的位置、尺寸和层级，由于可以直接根据素材和绑定的布局结构信息生成目标视频，与现有的逐帧处理的方案相比，视频生成的效率较高。

为使本申请的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本申请的具体实施例做详细的说明。

参照图1，图1是本申请实施例中一种视频生成方法的流程示意图。所述方法可以由计算设备执行，所述计算设备可以是现有的各种具有数据接收和数据处理能力的设备，例如，可以是服务器，还可以是手机、计算机等，但并不限于此。图1示出的视频生成方法可以包括以下步骤：

步骤S11：确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围用于指示在目标视频的时间轴上的范围，所述位置信息用于指示在视频画面中的位置；

步骤S12：获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；

步骤S13：根据所述素材及其绑定的布局结构信息，生成所述目标视频。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

在步骤S11的具体实施中，预设配置有视频布局列表，视频布局列表可以包括多个布局框架，每个布局框架可以包括多个元素，每个元素具有布局结构信息。该视频布局列表可以呈现给用户，以供用户在多个布局框架中作出选择。

具体而言，布局结构信息可以包括：时间范围、位置信息、尺寸信息和层级信息。其中，时间范围用于指示元素在生成的目标视频的时间轴上的范围，位置信息用于指示元素在视频画面中的位置，尺寸信息用于指示元素在视频画面中的大小，层级信息用于指示元素在视频画面中所处的层。其中，视频画面显示的内容可以划分为多个层，更上层的层可以对更下层的层形成遮挡效果。

在具体实施中，可以根据用户的选择确定用于生成目标视频的布局框架。

进一步地，还可以获取用户期望的时长，用户期望的时长可以用于确定目标视频的时间轴。具体而言，布局结构信息中的时间范围可以是比例范围，根据用户期望的时长和布局结构信息的时间范围，可以确定元素在时间轴上的起始时刻和结束时刻。

在步骤S12的具体实施中，可以获取用户针对每个元素选择的素材。素材可以是从素材管理模块中获取的，素材可以是预先配置在素材管理模块中的，也可以是由用户预先设置并上传至素材管理模块中的。

在具体实施中，步骤S12可以是视频编排阶段。在视频编排的过程中，用户可以选择素材。具体地，用户可以针对单个元素选择单个素材，也可以针对单个元素选择多个素材，本申请实施例对此并不进行限制。

在本申请的一实施例中，用户选择的布局框架包括第一元素，在步骤S12中，可以获取用户针对第一元素选择的第一素材。

在一个具体的例子中，第一素材可以为虚拟数字对象的视频。其中，虚拟数字对象可以是指具有数字化外形的虚拟对象。虚拟数字对象可以是虚拟数字人，更具体地，虚拟数字人存在于非物理世界中，是由计算机手段创造和使用，并具有多重人类特征(例如，外贸特征、表演能力和交互能力等)的综合产物。例如，虚拟数字人可以是虚拟主播、虚拟教师和虚拟主持人等，但并不限于此。

在另一个具体的例子中，第一素材可以包括虚拟数字对象和驱动信息，其中，驱动信息用于驱动虚拟数字对象，以生成虚拟数字对象的视频。根据驱动信息的不同可以至少有以下两种情况：

情况一：驱动信息可以包括驱动文本，虚拟数字对象的视频是由驱动文本驱动生成的。

进一步地，在驱动信息包括驱动文本的情况下，驱动信息还可以包括语速和音色等，其中，语速和音色可以是由用户设置的，也可以是默认的。本申请实施例对此并不进行限制。

情况二：驱动信息可以包括驱动音频，虚拟数字对象的视频是由驱动音频驱动生成的。

其中，虚拟数字对象的视频可以包括虚拟数字对象的音频和虚拟数字对象的姿态动画，所述姿态动画可以包括虚拟数字对象的脸部姿态和身体姿态。在驱动信息包括驱动文本的情况下，虚拟数字对象的音频可以是根据驱动文本生成的，姿态动画也可以是根据驱动文本生成的。在驱动信息包括驱动音频的情况下，虚拟数字对象的音频可以为驱动音频，姿态动画可以是根据驱动音频对应的语义信息生成的。

需要说明的是，根据驱动信息对虚拟数字对象进行驱动，以生成虚拟数字对象的视频的具体方法可以是现有的各种适当的方法，本申请实施例对此并不进行限制。

在具体实施中，用户针对第一元素选择第一素材之后，可以建立第一素材和第一元素的布局结构信息之间的绑定关系。通过建立绑定关系来确定第一素材对应的布局结构信息，从而确定第一素材在目标视频中的时间范围、在视频画面中的位置、尺寸和层级，以便后续执行步骤S13。

在一个非限制性的例子中，获取用户针对第一元素选择的第一素材之后，且在建立第一素材和第一元素的布局结构信息之间的绑定关系之前，可以先计算第一时长和第二时长之间的差异。其中，第一时长可以是根据驱动信息确定的虚拟数字对象的视频的时长，第二时长为第一元素的时间范围的时长。

在具体实施中，获取第一素材之后，可以根据驱动信息确定第一时长。更具体地，如果驱动信息为驱动文本，则可以根据驱动文本和语速计算得到第一时长。如果驱动信息为驱动音频，则可以将驱动音频的时长确定为第一时长。

进一步地，可以计算第一时长和第二时长之间的差异Δ，其中，

Δ＝|T1-T2|，T1为第一时长，T2为第二时长，||表示取绝对值。为便于描述，下文将第一时长和第二时长之间的差异记为第一差异。

进一步地，可以将第一差异与第二预设值进行比较，如果第一差异小于第二预设值，则可以继续建立第一素材和第一元素的布局结构信息之间的绑定关系。

如果第一差异大于或等于第二预设值，则可以向用户发送提醒信息，提醒信息可以用于提醒用户调整第一元素的布局结构信息中的时间范围，或者用于提醒用户重新选择第一素材。

由此可知，当第一时长和第二时长之间的差异较大时，表明虚拟数字对象的视频和第一元素的时间范围的匹配度较低，此时提醒用户对第一素材进行更新，或者对第一元素的布局结构信息进行调整，有利于提高虚拟数字对象的视频和第一元素的时间范围的匹配程度，从而保证后续生成的目标视频的效果。

在具体实施中，如果提醒信息用于提醒用户调整第一元素的布局结构信息，则提醒信息可以包括第一时长，以供用户进行参考。相应的，如果提醒信息用于提醒用户重新选择第一素材，则提醒信息可以包括第二时长。

在另一个非限制性的例子中，在第一素材包括驱动信息的情况下，在建立第一素材和第一元素的布局结构信息之间的绑定关系之后，可以根据第一时长和第二时长之间的差异，自动地对驱动信息进行微调，以提高虚拟数字对象的视频和第一元素的时间范围之间的匹配程度。

具体而言，如果第一差异小于第一预设值，则可以不对驱动信息进行调整，可以继续执行步骤S13。如果第一差异大于或等于第一预设值，则可以根据第二时长对驱动信息进行处理，以使得第一差异小于第一预设值。其中，第一预设值小于第二预设值。

在具体实施中，如果驱动信息包括驱动文本，则可以根据第二时长调整语速，以使得第一差异小于第一预设值。更具体地，如果第一时长大于第二时长，则可以增大语速；如果第一时长小于第二时长，则可以减小语速。

如果驱动信息包括驱动音频，在第一时长大于第二时长的情况下，可以去除驱动音频中至少一处的停顿；在第一时长小于第二时长的情况下，可以延长驱动音频中至少一处停顿的时间。

在具体实施中，可以对驱动音频进行识别，以确定驱动音频中至少一处停顿，然后再对该处停顿进行去除或延长处理。

更具体地，在第一时长大于第二时长的情况下，在识别停顿之前，可以先识别包含预设词的音频部分，预设词可以是指音频中无实际含义的词，例如，预设词可以是啊、呃等。进一步地，如果识别到包含预设词的音频部分，则可以去除包含预设词的音频部分。如果在驱动音频中未识别到包含预设词的音频部分，可以进一步识别驱动音频中的停顿。采用这样的方案，在第一时长大于第二时长的情况下，可以优先去除驱动音频中冗余的部分(也即，包含预设词的部分)，有利于避免不恰当地去除停顿可能导致对驱动音频的语气、语调等的影响。

需要说明的是，由于对驱动信息进行调整是在建立第一素材和第一元素的布局结构信息之间的绑定关系之后进行的，因此通过对驱动信息的调整来改变第一时长，以使得虚拟数字对象的视频长和第一元素的时间范围更加匹配，从而提高生成的目标视频的效果。

在一个非限制性的例子中，可以在建立绑定关系之前，先将第一差值与第二预设值进行比较，以检测第一时长和第二时长差异较大的情况，并提醒用户进行调整。在建立绑定关系之后，再将第一时长和第二时长的差值和第一预设值进行比较，以对驱动信息进行微调，以实现更好地匹配。采用这样的方案，仅在第一时长和第二时长的差异较大的情况下提醒用户调整，在差异较小的情况下进行自动调整，相较于均由用户手动调整的方案，有利于简化用户操作，提高视频生成效率。另外，相较于均自动调整的方案，可以避免差异较大的情况下自动调整可能出现虚拟数字对象的视频过快或过慢导致播放效果较差的情况。因此，采用这样的方案能够兼顾视频生成效率和视频生成效果。

由上，可以获取针对第一元素的第一素材，由于第一素材用于生成虚拟数字对象的视频，或者虚拟数字对象的视频，由此可以生成包含虚拟数字人的目标视频。

在本申请的另一个实施例中，用户选择的布局框架还可以包括第二元素，在步骤S12的实施中，还可以获取用户针对第二元素选择的第二素材。其中，第二素材可以是在虚拟数字对象所在的虚拟场景中展示的视频。在本申请实施例的方案中，第二素材也可以被称之为背景视频或者视频素材。

在获取第二素材之后，可以建立第二素材和第二元素的布局结构信息之间的绑定关系。

需要说明的是，本申请实施例对于获取第一素材和第二素材的顺序并不进行限制，对于建立第一素材、第二素材各自的绑定关系的顺序也不进行限制。

在一个具体的例子中，获取第一素材和第二素材之后，可以判断第一素材和第二素材之间是否有关联关系。其中，第一素材和第二素材之间的关联关系可以是指第一素材和第二素材之间在内容上是相关的。更具体地，第一素材和第二素材可以是对同一个对象进行介绍或显示，所述对象可以是物品，也可以是事件等。例如，虚拟数字对象可以是虚拟主播，第一素材可以是虚拟主播对某一商品进行介绍的视频，第二素材可以是对该商品进行展示的视频。又例如，虚拟数字对象可以是虚拟主持人，第一素材可以是虚拟主持人进行对某一事件进行播报的视频，第二素材可以是对该事件进行播放的视频。

在具体实施中，第一素材和第二素材之间的关联关系可以是由用户手动设置的(例如，用户手动配置将二者关联起来)，也可以是根据第一素材和第二素材自动识别确定的(例如，如果检测到第一素材和第二素材指向同一对象，则自动将二者关联起来)，本申请实施例对此并不进行限制。此外，作为一个变化例，还可以通过如下方式设置第一素材和第二素材之间的关联关系：在检测到第一素材包含虚拟数字对象时，可以发出提示信息，询问用户是否要将其关联至其他素材，之后根据用户的指令建立与第二素材之间的关联关系，或者，根据用户的指令忽略关联关系的建立步骤。

更具体地，在第一素材包括驱动信息的情况下，可以判断驱动信息和第二素材之间是否具有关联关系，如果驱动信息和第二素材之间具有关联关系，则可以确定第一素材和第二素材之间具有关联关系。

进一步地，如果确定第一素材和第二素材之间具有关联关系，则可以对第一元素的时间范围和第二元素的时间范围进行对齐处理。具体而言，可以判断第二元素的时间范围和第一元素的时间范围是否对齐，若否，则可以将第二元素的时间范围作为第一元素的时间范围，以更新第一元素的时间范围，从而对齐第一元素的时间范围与第二元素的时间范围。也即，更新后的第一元素的时间范围可以与第二元素的时间范围相同。

在另一个具体的例子中，第一元素和第二元素之间可以具有预先配置的关联关系。其中，第一元素和第二元素之间的关联关系可以是布局框架中预配置的。或者，第一元素和第二元素之间的关联关系也可以是由用户手动配置的。

更具体地，用户在选择布局框架之后，可以配置第一元素和第二元素之间的关联关系，其中，第一元素的时间范围和第二元素的时间范围可以是相同的。或者，在用户手动配置之前，第一元素的时间范围和第二元素的时间范围可以是不对齐的，在用户手动配置之后，可以根据第二元素的时间范围更新第一元素的时间范围，以使得第一元素的时间范围和第一元素的时间范围对齐。

在上述的更新第一元素的时间范围的情况下，如果在更新第一元素的时间范围之前，已建立第一素材和第一元素的时间范围之间的绑定关系，则重新建立第一素材和更新后的第一元素的时间范围之间的绑定关系。或者，如果在更新第一元素的时间范围之前，尚未建立第一素材和第一元素的时间范围之间的绑定关系，则建立第一素材和更新后的第一元素的时间范围之间的绑定关系。

采用上述的方案，可以使第一元素和第二元素的时间范围对齐，有利于生成的目标视频中虚拟数字对象的视频和背景视频在时间轴上更加对齐，当虚拟数字对象的视频和背景视频是对同一对象进行介绍或展示时，两个视频的同步性更好，有利于提高视频生成的效果。

在本申请的又一个实施例中，用户选择的布局框架还可以包括第三元素，在步骤S12的具体实施中，可以获取用户针对第三元素选择的第三素材。其中，第三素材可以是在虚拟数字对象所在的虚拟场景中展示的静态素材，所述静态素材可以包括以下一项或多项：文本、表格、图片。获取第三素材之后，可以建立第三素材和第三元素的布局结构信息之间的绑定关系。

需要说明的是，静态素材中的文本与上述的驱动文本是不同的，驱动文本是指用于驱动虚拟数字对象的文本，驱动文本本身并不在目标视频中直接显示，而静态素材的文本是在目标视频中直接显示的文本。

其中，第三素材和第一素材可以具有关联关系，也可以不具有关联关系。换言之，第三素材和第一素材在内容上可以是相关的，也可以是不相关的。

在一个非限制性的例子中，第三素材和第一素材具有关联关系，在建立第三素材和第三元素的布局结构信息之间的绑定关系之前，还可以获取指示信息，所述指示信息可以是选自驱动信息的。在具体实施中，指示信息可以是由用户手动输入的。

进一步地，可以根据指示信息在第一素材绑定的时间范围内对应的时刻，调整第三元素的时间范围，其中，调整后的第三元素的时间范围的起始时刻为指示信息在第一素材绑定的时间范围内对应的时刻。

具体而言，可以获取用户设置的指示信息，可以计算确定指示信息在第一素材绑定的时间范围内对应的时刻，然后将该时刻作为第三元素的时间范围的起始时刻。例如，驱动信息可以是对某一商品的介绍，第三素材可以是该商品的侧视图，用户可以设置指示信息为“商品的侧面”，相应的，当虚拟数字人的视频在介绍商品的侧面时，同步显示第三素材(也即，商品的侧视图)。

进一步地，用户设置指示信息时，还可以一并设置时长，并根据所述时长确定第三元素的时间范围的结束时刻。采用这样的方案，用户可以通过设置指示信息和时长来设置第三素材在目标视频中显示的时间范围，相较于逐帧地设置第三素材的方案，有利于提高视频生成的效率。

由上，可以获取针对布局框架中一个或多个元素选择的素材，并建立素材和布局结构信息之间的绑定关系。

在步骤S13的具体实施中，可以根据素材及其绑定的布局结构信息，生成目标视频。

具体而言，在第一素材包括驱动信息的情况下，可以先根据驱动信息和虚拟数字对象生成虚拟数字对象的视频，然后再根据第一素材绑定的布局结构信息和其他素材绑定的布局结构信息，对虚拟数字对象的视频和其他素材进行融合处理，以生成目标视频，生成的目标视频中可以包括虚拟数字对象的视频。其中，所述其他素材可以是指上文提到的第二素材、第三素材，但并不限于此。

其中，对虚拟数字对象的视频和其他素材进行融合处理可以包括，根据其他素材绑定的布局结构信息将其他素材拼接与虚拟数字对象的视频进行拼接，以得到目标视频。

在具体实施中，虚拟数字对象的视频和第二素材可能存在不对齐的情况。例如，在步骤S12中并未对第一元素和第二元素的时间范围进行对齐处理，或者并未根据第二时长调整驱动信息，容易出现上述不对齐的情况。

进一步地，如果虚拟数字对象的视频和第二素材不对齐，则在步骤S13中，如果虚拟数字对象的视频的结束时刻早于第二素材的结束时刻，可以将第二素材进行截断，从而使第二素材的结束时刻与虚拟数字对象的视频的结束时刻对齐。或者，如果虚拟数字对象的视频的结束时刻晚于第二素材的结束时刻，则可以在第二素材的结束时刻之后再重复拼接一个第二素材，并在虚拟数字对象的视频的结束时刻对重复拼接的第二素材进行截断。

需要说明的是，在本申请的其他实施例中，也可以不获取第一素材，也即，生成的目标视频中可以不包括虚拟数字对象的视频。

在具体实施中，步骤S13可以是响应于用户终端发出的视频生成请求执行的，可以采用分布式锁机制对不同用户终端发出的视频生成请求进行响应，以对多个视频生成请求执行步骤S13。通过分布式锁机制，可以在跨机器场景下隔离不同用户、不同视频生成请求的计算过程，防止出现用户生成视频请求重复执行、浪费处理器资源、视频生成异常等情况。

参照图2，图2是本申请实施例中一种视频生成方法的领域模型示意图。如图2所示，本申请实施例的方案中，可以获取目标视频所需的布局框架和背景，其中，目标视频和布局框架可以是一一对应的关系，目标视频和背景也可以是一一对应的关系，也即，针对每个目标视频，获取一个布局框架以及一个背景。需要说明的是，区别于上述的背景视频，本申请实施例中的背景对于目标视频而言是全局的，也即，无需为背景绑定布局结构信息。在目标视频包括虚拟数字对象的视频的情况下，背景可以用于呈现虚拟数字对象所在的虚拟场景。

其中，单个布局框架可以包括n₀个元素，每个元素可以具有布局结构信息。关于布局结构信息的更多内容可以参照上文的相关描述，在此不再赘述。n₀为正整数。

进一步地，用户可以针对每个元素选择素材。具体而言，元素可以包括上述的第一元素、第二元素和第三元素。针对第一元素，可以获取n₁个第一素材；针对第二元素，可以获取n₂个第二素材；针对第三元素，可以获取n₃个第三素材。n₁、n₂和n₃均为正整数。

在一个具体的例子中，n₁可以为4，第一元素可以包括：语速、音色、驱动文本和虚拟数字对象。n₂可以为1，也即，第二素材可以仅包括1个在虚拟场景中展示的视频。n₃可以为3，第三素材可以包括在虚拟场景中展示的单个文本、单个图片和单个表格。

由此可知，本申请实施例的方案，从用户编辑、生成视频时的效率、体验、上手难易程度出发，通过将视频拆解为文本、图片、视频、表格、虚拟数字对象等多种素材，通过布局结构信息这种数据结构来表达目标视频中各种素材的位置、层级关系和尺寸大小等信息。在视频生成过程中，可以基于各个素材预先绑定的布局结构信息，生成出最终的目标视频，减少用户类似逐帧处理的繁冗操作，有利于简化用户编辑操作、降低用户编辑难度、提高视频生成效率。

参照图3，图3是本申请实施例中一种视频生成系统的架构示意图。所述视频生成系统可以用于执行上述的视频生成方法。所述视频生成系统可以部署于服务器，所述视频生成系统可以用于生成的目标视频可以包含虚拟数字人(下文中将“虚拟数字人”简称为“数字人”)的视频。下面结合图3对本申请实施例提供的视频生成系统进行非限制性的描述。

如图3所述，视频生成系统3可以包括：页面可视化操作模块30、网关接口模块31、开放接口模块32、视频内容编排模块33、背景管理模块34、数字人管理模块35、布局管理模块36、素材管理模块37、数字人音频生成模块38、数字人视频生成模块39和视频素材融合模块40。

具体而言，页面可视化操作模块30可以用于在前端(例如，用户终端)实现页面可视化。

网关接口模块31可以对接业务系统，用于提供目标视频、各个类型的素材的获取能力与上传能力。

开放接口模块32可以通过约定的通讯协议，提供接口维度的素材、布局框架、数字人管理能力，以及目标视频的生成、获取能力。

视频内容编排模块33可以用于提供各个素材的编排能力，用户可以通过视频内容编码模块33来针对布局框架中的每个元素选择或设置素材。视频内容编排模块33还可以提供各个类型素材的实时编排预览能力，能够实时设置、实时调整，有利于提高视频内容编排的效率，减少返工修改的概率。

背景管理模块34可以提供完善的背景管理能力以及公共背景库，方便用户在编排视频时自主选择所需要的背景。

数字人管理模块35可以提供完善的数字人管理能力，如虚拟数字人的形象库，同时支持在线生成期望的数字人形象，方便用户在编排视频时自主选择所需要的数字人形象。

布局管理模块36可以提供完善的布局框架设计和管理能力，形成一套可随时使用的视频布局列表，方便用户在编排视频时按需选择所需要的布局框架，减少用户逐帧处理、设计素材的繁冗操作。

素材管理模块37可以提供文本、表格、图片、视频等素材管理能力，方便用户在视频编排时实时调整、查看各素材的内容、样式。同时，用户也可以直接复用历史素材。

素材管理模块37可以包括音色单元、语速单元、视频素材单元、图片素材单元、表格素材单元、文本内容单元、文本字体单元、文本字号单元、文本样式单元和数字人形象单元。采用这样的方案，实现各类型素材处理逻辑的隔离，有利于提高各类型素材管理的灵活性。

数字人音频生成模块38可以用于根据驱动文本、音色和语速生成数字人音频。

数字人视频生成模块39可以用于根据驱动文本或驱动音频生成数字人视频。

视频素材融合模块40可以通过规则引擎定义的视频素材融合规则，基于视频内容编排模块33输出的素材内容、样式等信息，结合背景管理模块34、素材管理模块37和布局管理模块36，将各个素材和数字人视频等融合成为最终的目标视频。

由上可知，在系统架构设计方面，图3示出的视频生成系统通过架构设计分离策略，拆分为图3示出的多个模块，保证各个模块间的低耦合，有利于各个模块间的升级改造互不影响。

参照图4，图4是图3中的视频生成系统在视频编排时的工作流程示意图。视频编排可以是指用户选择并设置布局框架和素材的过程。

如图4所示，在视频编排过程中，可以设置基础信息，所述基础信息可以包括上文中用户期望的时长，但并不限于此。

进一步地，可以设置视频布局，所述视频布局可以是指上文中的布局框架。其中，在设置视频布局的过程中，可以由布局管理模块加载视频布局列表，以供用户从视频布局列表中选择用于生成目标视频的布局框架。也即，设置视频布局可以对应于图1中的步骤S11。

进一步地，可以设置数字人，所述数字人可以是由用户选择的。在设置数字人的过程中，可以由素材管理模块加载数字人列表，以供用户从数字人列表中选择用于生成目标视频的数字人。

进一步地，可以依次设置数字人音色和数字人语速。其中，数字人音色和数字人语速可以是由用户输入的，也可以是默认的。

进一步地，可以设置背景。具体地，可以由背景管理模块加载视频背景列表，以供用户从视频背景列表中选择用于生成目标视频的背景。

进一步地，可以依次设置数字人讲稿、图片素材、视频素材、文本素材和表格素材。其中，数字人讲稿可以是指上文的驱动文本，视频素材可以是指上文的第二素材。图片素材、文本素材和表格素材可以为上文提到的第三素材。

进一步地，可以通过素材管理模块保存上述设置的素材，以及保存设置的基础信息。需要说明的是，在设置各个素材时，可以将素材和元素的布局结构信息进行绑定。由此，在保存素材时，也可以一并保存每个素材绑定的布局结构信息。

由此，可以完成视频素材的编排。

需要说明的是，图4仅示例性地给出各个素材的设置顺序，在实际应用中可以采用其他顺序设置素材，本申请实施例对此并不限制。

参照图5，图5是图3中的视频生成系统在视频生成时的工作流程示意图。更具体地，图5示出的步骤可以是在图4示出的步骤之后执行的。

如图5所示，在视频生成的过程中，可以先加载基础信息，所述基础信息可以是图4中保存的基础信息。

进一步地，可以获取视频布局。具体地，可以通过布局管理模块加载图4中设置的视频布局。

进一步地，可以获取素材。其中，获取的素材可以是图4中保存的素材，素材和布局框架中元素的布局结构信息之间具有绑定关系。

进一步地，可以获取背景信息。具体的，可以通过背景管理模块加载图4中保存的背景。

进一步地，可以生成视频生成请求，响应于视频生成请求，发起视频生成。

具体而言，可以先判断是否存在数字人，如果是，则可以进一步依次判断是否存在讲稿、音色和语速，如果讲稿、音色和语速均存在，则触发生成数字人音频。也即，调用数字人音频模块生成数字人音频。其中，如果讲稿、音色和语速中的其中任意一个不存在，则可以结束视频生成流程。

进一步地，数字人音频生成之后，可以触发生成数字人视频。具体地，可以调用数字人视频模块生成数字人视频。

进一步地，可以判断是否存在视频素材，如果是，则可以在数字人视频的基础上拼接视频素材。

进一步地，可以判断是否存在图片素材，如果是，则可以进一步拼接图片素材。

进一步地，可以判断是否存在文本素材，如果是，则可以进一步拼接文本素材。

进一步地，可以判断是否存在表格素材，如果是，则可以进一步拼接表格素材。

由此，可以生成目标视频，并保存生成的目标视频。

需要说明的是，图5仅示例性地给出视频生成过程中拼接素材的顺序，在实际应用中也可以采用其他顺序拼接素材。其中，拼接素材是指根据素材绑定的布局结构信息进行拼接。

关于图4和图5的更多内容可以参照上文关于图1的相关描述，在此不再赘述。

由上，本申请实施例的方案中，针对用户编辑、处理视频时需要逐帧处理所带来的繁冗操作，基于预先设置的布局框架，在视频编辑、生成时直接设置文本、图片、视频、图表等素材内容与样式，并设置视频背景，以及数字人形象、音色、语速等信息，通过讲稿驱动生成数字人视频后，将各个素材拼接融合为一段完整的视频，达到快速编辑、生成视频的目的。

参照图6，图6是本申请实施例中的一种视频生成装置的结构示意图，图6示出的装置可以包括：

选择模块61，用于确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围是指在目标视频的时间轴上的范围，所述位置信息是指在视频画面中的位置；

编排模块62，用于获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；

生成模块63，用于根据所述素材及其绑定的布局结构信息，生成所述目标视频。

关于本申请实施例中的视频生成装置的工作原理、工作方法和有益效果等更多内容，可以参照上文关于视频生成方法的相关描述，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频生成方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本申请实施例还提供一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频生成方法的步骤。所述计算设备可以是服务器，也可以是手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围用于指示在目标视频的时间轴上的范围，所述位置信息用于指示在视频画面中的位置；

获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；

根据所述素材及其绑定的布局结构信息，生成所述目标视频；

其中，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系包括：

获取针对第一元素选择的第一素材，所述第一素材包括虚拟数字对象和用于驱动所述虚拟数字对象的驱动信息；

建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系；

建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之后，且在根据所述素材及其绑定的布局结构信息，生成所述目标视频之前，所述方法还包括：

如果第一时长和第二时长之间的差异大于或等于第一预设值，则根据所述第二时长对所述驱动信息进行处理，以使得所述第一时长和所述第二时长之间的差异小于所述第一预设值；

其中，所述第一时长为根据所述驱动信息确定的所述虚拟数字对象的视频的时长，所述第二时长为所述第一素材绑定的时间范围的时长。

2.根据权利要求1所述的视频生成方法，其特征在于，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系还包括：

获取针对第二元素选择的第二素材，并建立所述第二素材和所述第二元素的布局结构信息之间的绑定关系，所述第二素材为在所述虚拟数字对象所在的虚拟场景中展示的视频。

3.根据权利要求2所述的视频生成方法，其特征在于，所述第二元素和所述第一元素的布局结构信息之间具有预先配置的关联关系，所述第一元素的时间范围取决于所述第二元素的时间范围。

4.根据权利要求2所述的视频生成方法，其特征在于，所述第一素材包括所述虚拟数字对象和用于驱动所述虚拟数字对象的驱动信息，建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之前，所述方法还包括：

如果所述驱动信息和所述第二素材之间具有关联关系，则判断所述第二元素的时间范围和所述第一元素的时间范围是否对齐，若否，则将所述第一元素的时间范围与所述第二元素的时间范围进行对齐。

5.根据权利要求1所述的视频生成方法，其特征在于，建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之前，所述方法还包括：

如果所述第一时长和所述第二时长之间的差异大于或等于第二预设值，则向用户发送提醒信息，所述提醒信息用于提醒用户调整所述第一元素的布局结构信息中的时间范围或者重新选择所述第一素材；

其中，所述第二预设值大于所述第一预设值。

6.根据权利要求1所述的视频生成方法，其特征在于，所述驱动信息包括驱动文本和语速，根据所述第二时长对所述驱动信息进行处理包括：根据所述第二时长调整所述语速；

或者，所述驱动信息包括驱动音频，根据所述第二时长对所述驱动信息进行处理包括：

如果所述驱动音频的时长小于所述第二时长，则延长所述驱动音频中至少一处停顿的时间；

如果所述驱动音频的时长大于所述第二时长，则去除所述驱动音频中至少一处停顿。

7.根据权利要求1所述的视频生成方法，其特征在于，获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系还包括：

获取针对第三元素选择的第三素材，所述第三素材为在所述虚拟数字对象所在的虚拟场景中展示的静态素材，所述静态素材为以下任意一项：文本、图片、表格；

获取指示信息，所述指示信息选自所述驱动信息；

根据所述指示信息在所述第一素材绑定的时间范围内对应的时刻，调整所述第三元素的时间范围，其中，调整后的所述第三元素的时间范围的起始时刻为所述指示信息在所述第一素材绑定的时间范围内对应的时刻。

8.根据权利要求1所述的视频生成方法，其特征在于，获取用户针对每个元素选择的素材之前，所述方法还包括：

获取用户期望的时长，所述目标视频的时间轴是根据所述期望的时长确定的。

9.根据权利要求1所述的视频生成方法，其特征在于，所述目标视频是响应于用户终端发出的视频生成请求生成的，根据所述素材及其绑定的布局结构信息，生成所述目标视频包括：

采用分布式锁机制对不同用户终端发出的视频生成请求进行响应。

10.一种视频生成装置，其特征在于，所述装置包括：

选择模块，用于确定用户选择的布局框架，所述布局框架包括多个元素，每个元素具有布局结构信息，其中，所述布局结构信息包括：时间范围、位置信息、尺寸信息和层级信息，所述时间范围是指在目标视频的时间轴上的范围，所述位置信息是指在视频画面中的位置；

编排模块，用于获取用户针对每个元素选择的素材，并建立所述素材和所述元素的布局结构信息之间的绑定关系；

生成模块，用于根据所述素材及其绑定的布局结构信息，生成所述目标视频；

所述编排模块包括：

用于获取针对第一元素选择的第一素材，所述第一素材包括虚拟数字对象和用于驱动所述虚拟数字对象的驱动信息；

用于建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系；

所述装置还包括：

用于在建立所述第一素材和所述第一元素的布局结构信息之间的绑定关系之后，且在根据所述素材及其绑定的布局结构信息，生成所述目标视频之前，如果第一时长和第二时长之间的差异大于或等于第一预设值，则根据所述第二时长对所述驱动信息进行处理，以使得所述第一时长和所述第二时长之间的差异小于所述第一预设值的模块；其中，所述第一时长为根据所述驱动信息确定的所述虚拟数字对象的视频的时长，所述第二时长为所述第一素材绑定的时间范围的时长。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至9中任一项所述的视频生成方法的步骤。

12.一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至9中任一项所述的视频生成方法的步骤。