CN117979122A

CN117979122A - 视频生成方法、装置、计算机设备及介质

Info

Publication number: CN117979122A
Application number: CN202410262899.8A
Authority: CN
Inventors: 胡炳然; 刘青松; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-03

Abstract

本发明涉及视频处理领域，具体涉及视频生成方法、装置、计算机设备及介质，该方法包括：对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合；确定画面帧集合对应的增强提示词；根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；根据各目标图像和目标音乐，确定卡点视频。本申请相比起现有技术中生成卡点视频的方法，不仅降低了生成卡点视频的素材要求，还降低了卡点视频的制作难度，而且提高了生成卡点视频的视频质量。

Description

视频生成方法、装置、计算机设备及介质

技术领域

本发明涉及视频处理领域，具体涉及视频生成方法、装置、计算机设备及介质。

背景技术

随着视频技术的不断发展，人们对应视频的质量也有了更高的要求，尤其针对音乐卡点视频的要求逐渐增高。

传统的卡点视频需要人工从多段视频和音频中进行匹配、剪辑和拼接，此过程充分考验视频制作人员的制作水平，难以保证生成卡点视频的视频质量。

发明内容

有鉴于此，本发明提供了一种视频生成方法、装置、计算机设备及介质，以解决难以保证生成卡点视频的视频质量的问题。

第一方面，本发明提供了一种视频生成方法，该方法包括：

对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合；

确定所述画面帧集合对应的增强提示词；

根据所述增强提示词进行目标图像生成，得到各所述视频帧数对应的目标图像；

根据各所述目标图像和所述目标音乐，确定卡点视频。

本发明提供的一种视频生成方法，具有如下优点：

本申请提供了一种视频生成方法，通过确定画面帧集合，以及画面帧集合对应的增强提示词，实现根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；进而，根据各所述目标图像和所述目标音乐，确定卡点视频。根据上述内容可知，本申请在针对生成卡点视频的过程中不需要从多段视频和音频中进行匹配、剪辑和拼接，而是根据画面帧集合对应的增强提示词进行目标图像生成，从而得到视频帧数对应的目标图像，并根据各所述目标图像和所述目标音乐，确定卡点视频，因此，本申请相比起现有技术中生成卡点视频的方法，不仅降低了生成卡点视频的素材要求，还降低了卡点视频的制作难度，而且提高了生成卡点视频的视频质量。

在一种可选的实施方式中，所述根据所述增强提示词进行目标图像生成，得到各所述视频帧数对应的目标图像，包括：

针对每一视频帧数，获取上一视频帧数对应的中间编码特征；

根据所述中间编码特征和所述视频帧数对应的增强提示词进行目标图像生成，得到所述视频帧数对应的目标图像。

在一种可选的实施方式中，在针对首个视频帧数进行目标图像生成的情况下，所述中间编码特征为空值。

在一种可选的实施方式中，所述根据各所述目标图像和所述目标音乐，确定卡点视频，包括：

对各所述目标图像进行视频合成，得到目标视频；

对所述目标视频和所述目标音乐进行融合，得到所述卡点视频。

在一种可选的实施方式中，所述确定所述画面帧集合对应的增强提示词，包括：

获取用户输入的文本提示词；

对所述文本提示词进行文本扩充，得到所述画面帧集合对应的增强提示词。

在一种可选的实施方式中所述对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合，包括：

根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，得到所述节拍时间点对应的画面帧集合。

在一种可选的实施方式中，所述方法还包括：

对所述目标音乐进行节拍分析，得到所述目标音乐对应的所述节拍时间点。

第二方面，本发明提供了一种视频生成装置，该装置包括：

划分模块，用于对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合；

第一确定模块，用于确定所述画面帧集合对应的增强提示词；

生成模块，用于根据所述增强提示词进行目标图像生成，得到各所述视频帧数对应的目标图像；

第二确定模块，用于根据各所述目标图像和所述目标音乐，确定卡点视频。

本发明提供的一种视频生成装置，具有如下优点：

本申请提供了一种视频生成装置，通过确定画面帧集合，以及画面帧集合对应的增强提示词，实现根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；进而，根据各所述目标图像和所述目标音乐，确定卡点视频。根据上述内容可知，本申请在针对生成卡点视频的过程中不需要从多段视频和音频中进行匹配、剪辑和拼接，而是根据画面帧集合对应的增强提示词进行目标图像生成，从而得到视频帧数对应的目标图像，并根据各所述目标图像和所述目标音乐，确定卡点视频，因此，本申请相比起现有技术中生成卡点视频的方法，不仅降低了生成卡点视频的素材要求，还降低了卡点视频的制作难度，而且提高了生成卡点视频的视频质量。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的视频生成方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的视频生成方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的第一种视频生成方法的步骤流程图；

图2为本申请实施例提供的确定目标图像的步骤流程图；

图3为本申请实施例提供的确定卡点视频的步骤流程图；

图4为本申请实施例提供的确定增强提示词的步骤流程图；

图5为本申请实施例提供的第二种视频生成方法的步骤流程图；

图6为本申请实施例提供的一种视频生成方法的结构框图；

图7是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。在本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在一个实施例中，如图1所示，提供了一种视频生成方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

步骤S101，对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合。

需要说明的是，当需要对用户配置的至少一个视频帧数进行帧数划分时，可获取预先设定的帧数划分规则，进而，根据帧数划分规则进行帧数划分，得到画面帧集合。

其中，帧数划分规则可根据实际情况和用户的实际需求进行设定和调整，在此不对帧数划分规则的内容进行限定。

在本申请的一种实施例中，帧数划分规则内可规定有每一画面帧集合中包含的视频帧数上限，进而，在根据帧数划分规则对用户配置的至少一个视频帧数进行帧数划分时，可实现按照视频帧数的先后顺序，将视频帧数上限对应的视频帧数依次存入不同画面帧集合，以保证每一画面帧集合中包含的视频帧数不超过视频帧数上限。

进一步说明，当需要对用户配置的至少一个视频帧数进行帧数划分时，可包括：根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，得到节拍时间点对应的画面帧集合。

其中，节拍时间点的确定过程包括：对目标音乐进行节拍分析，得到目标音乐对应的节拍时间点。

在本申请的另一种实施例中，当需要对用户配置的至少一个视频帧数进行帧数划分时，为保证后续根据目标音乐生成卡点视频的视频质量，可根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合，以保证后续在根据画面帧集合和目标音乐生成卡点视频时，画面帧集合能够与目标音乐的节拍时间点对应。

举例说明，若目标音乐共包括k个节拍时间点，则k个节拍时间点分别为{t₁，t₂，t₃，……，t_k}，其中，目标音乐的总时长为T，并且，用户配置的视频帧数共包含N个，其中，N＝fps*T，fps用于表征一秒钟内包含的帧数；因此，根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，可得到k+1个画面帧集合P_j，其中，j属于{1，2，3，……，k+1}。

步骤S102，确定画面帧集合对应的增强提示词。

其中，增强提示词用于表征该画面帧集合对应的图像信息，具体的，增强提示词可用于表征画面帧集合的背景、灯光、颜色、气氛、视角、镜头和构图等。

在本申请的一种实施例中，可预先获取用户输入的视频文本描述，进而，对视频文本描述进行拆分整理，得到画面帧集合对应的增强提示词，进一步的，可根据预先训练的语言模型实现对视频文本描述进行拆分整理。

步骤S103，根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像。

需要说明的是，当需要根据增强提示词进行目标图像生成时，为保证生成每一个目标图像的关联性与连续性，因此，在生成每一视频帧数对应的目标图像时，需要获取该视频帧数对应的中间编码特征，以保证在对每一视频帧数进行目标图像生成时能够结合上一视频帧数的中间编码特征，以及当前视频帧数的增强提示词，保证生成每一个目标图像的关联性与连续性。

进一步说明，在针对首个视频帧数进行目标图像生成的情况下，中间编码特征为空值。

步骤S104，根据各目标图像和目标音乐，确定卡点视频。

需要说明的是，为保证能够顺利获取卡点视频，需要先将各目标图像进行视频合成，以得到目标视频，再将目标视频和目标音乐进行融合，从而得到卡点视频。

进一步说明，在将目标视频和目标音乐进行融合时，可采用ffmpeg(视频处理程序)等视频音频融合工具实现上述操作，在此不对视频音频融合工具的工具种类和名称进行限定。

本申请提供了一种视频生成方法，通过确定画面帧集合，以及画面帧集合对应的增强提示词，实现根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；进而，根据各目标图像和目标音乐，确定卡点视频。根据上述内容可知，本申请在针对生成卡点视频的过程中不需要从多段视频和音频中进行匹配、剪辑和拼接，而是根据画面帧集合对应的增强提示词进行目标图像生成，从而得到视频帧数对应的目标图像，并根据各目标图像和目标音乐，确定卡点视频，因此，本申请相比起现有技术中生成卡点视频的方法，不仅降低了生成卡点视频的素材要求，还降低了卡点视频的制作难度，而且提高了生成卡点视频的视频质量。

在一种实施例中，由于传统的卡点视频需要人工从多段视频和音频中进行匹配、剪辑和拼接，此过程充分考验视频制作人员的制作水平，因此，难以保证生成卡点视频的视频质量，为解决上述技术问题，可如图2所示，根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像，具体可包括以下内容：

步骤S201，针对每一视频帧数，获取上一视频帧数对应的中间编码特征。

步骤S202，根据中间编码特征和视频帧数对应的增强提示词进行目标图像生成，得到视频帧数对应的目标图像。

需要说明的是，在针对首个视频帧数进行目标图像生成的情况下，中间编码特征为空值。

在本申请的一种实施例中，若共包含三个视频帧数，三个视频帧数分别为第一视频帧数、第二视频帧数和第三视频帧数，在生成第一视频帧数对应的目标图像时，将中间编码特征设置为空值，并将第一视频帧数对应的增强提示词和中间编码特征，输入至预先训练的图像生成模型，得到第一视频帧数对应的目标图像，以及第二视频帧数对应的中间编码特征；在生成第二视频帧数对应的目标图像时，将第二视频帧数对应的增强提示词和中间编码特征，输入至预先训练的图像生成模型，得到第二视频帧数对应的目标图像，以及第三视频帧数对应的中间编码特征；在生成第三视频帧数对应的目标图像时，将第三视频帧数对应的增强提示词和中间编码特征，输入至预先训练的图像生成模型，得到第三视频帧数对应的目标图像，综上实现三个视频帧数的目标图像的获取操作。

本申请提供了一种视频生成方法，通过获取上一视频帧数对应的中间编码特征，根据中间编码特征和视频帧数对应的增强提示词进行目标图像生成，得到视频帧数对应的目标图像，保证了在生成每一个视频帧数对应的目标图像时，能够结合上一视频帧数的中间编码特征，保证了每一个视频帧数对应的目标图像之间的连续性，进一步提高了视频质量。

在一种实施例中，如图3所示，当需要根据各目标图像和目标音乐，确定卡点视频时，具体可包括以下内容：

步骤S301，对各目标图像进行视频合成，得到目标视频。

需要说明的是，在对各目标图像进行视频合成时，可根据各目标图像对应的视频帧数，按照各视频帧数的先后顺序对各目标图像进行依次排序，从实现对各目标图像进行视频合成，得到目标视频。

步骤S302，对目标视频和目标音乐进行融合，得到卡点视频。

在本申请的一种实施例中，当需要获取卡点视频时，可将目标视频和目标音乐输入ffmpeg视频音频融合工具，实现通过ffmpeg视频音频融合工具对目标视频和目标音乐进行融合，得到卡点视频。

本申请提供了一种视频生成方法，通过合成目标视频，并将目标视频和目标音乐进行融合，实现获取卡点视频的操作。

在一种实施例中，如图4所示，当需要确定画面帧集合对应的增强提示词时，具体可包括以下内容：

步骤S401，获取用户输入的文本提示词。

其中，文本提示词指的是由用户提供的多种形式的文本描述；相比起增强提示词，文本提示词的文本格式较为口语化，因此，之际根据文本提示词进行后续的目标图像生成操作时，容易造成目标图像生成质量较低。

步骤S402，对文本提示词进行文本扩充，得到画面帧集合对应的增强提示词。

在本申请的一种实施例中，当需要对文本提示词进行文本扩充时，可预先设定至少一个模板文本，模板文本可表示为：preset_text1，preset_text2，...，preset_textk，通过将用户输入的文本提示词与各模板文本进行融合，得到画面帧集合对应的增强提示词，例如，若文本提示词表示为input_text，则将文本提示词与各模板文本进行融合时，得到增强提示词p1＝input_text+preset_text1，以此类推。

在本申请的另一种实施例中，当需要对文本提示词进行文本扩充时，可预先训练文本扩充模型，进而，可将文本提示词输入至文本扩充模型中，并获取文本扩充模型的输出结果，该输出结果即为画面帧集合对应的增强提示词。

其中，文本扩充模型的训练过程包括，预先获取样本提示词，并通过人工对样本提示词进行人工扩充，得到扩充后的样本增强提示词，进而，根据样本提示词和样本增强提示词对初始扩充模型进行模型训练，得到训练后的文本扩充模型。

本申请提供了一种视频生成方法，通过对用户输入的文本提示词进行文本扩充，保证了后续在根据画面帧集合对应的增强提示词进行目标图像生成时，能够生成质量更改，更加符合用户输入的文本提示词。

在本申请的一种实施例中，如图5所示，当需要获取卡点视频时，具体可包括以下内容：

步骤S501，对目标音乐进行节拍分析，得到目标音乐对应的节拍时间点。

步骤S502，根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，得到节拍时间点对应的画面帧集合。

步骤S503，获取用户输入的文本提示词。

步骤S504，对文本提示词进行文本扩充，得到画面帧集合对应的增强提示词。

步骤S505，针对每一视频帧数，获取上一视频帧数对应的中间编码特征。

步骤S506，根据中间编码特征和视频帧数对应的增强提示词进行目标图像生成，得到视频帧数对应的目标图像。

步骤S507，对各目标图像进行视频合成，得到目标视频。

步骤S508，对目标视频和目标音乐进行融合，得到卡点视频。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频生成方法的视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频生成装置实施例中的具体限定可以参见上文中对于视频生成方法的限定，在此不再赘述。

本实施例提供一种视频生成装置，如图6示，包括：划分模块601、第一确定模块602、生成模块603和第二确定模块604。

划分模块601，用于对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合；

第一确定模块602，用于确定画面帧集合对应的增强提示词。

生成模块603，用于根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像。

第二确定模块604，用于根据各目标图像和目标音乐，确定卡点视频。

本申请提供了一种视频生成装置，通过确定画面帧集合，以及画面帧集合对应的增强提示词，实现根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；进而，根据各目标图像和目标音乐，确定卡点视频。根据上述内容可知，本申请在针对生成卡点视频的过程中不需要从多段视频和音频中进行匹配、剪辑和拼接，而是根据画面帧集合对应的增强提示词进行目标图像生成，从而得到视频帧数对应的目标图像，并根据各目标图像和目标音乐，确定卡点视频，因此，本申请相比起现有技术中生成卡点视频的方法，不仅降低了生成卡点视频的素材要求，还降低了卡点视频的制作难度，而且提高了生成卡点视频的视频质量。

本实施例中的视频生成装置是以功能模块的形式来呈现，这里的模块是指专用集成电路(Application Specific Integrated Circuit，简称ASIC)，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

确定画面帧集合对应的增强提示词；

根据增强提示词进行目标图像生成，得到各视频帧数对应的目标图像；

根据各目标图像和目标音乐，确定卡点视频。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据中间编码特征和视频帧数对应的增强提示词进行目标图像生成，得到视频帧数对应的目标图像。

在针对首个视频帧数进行目标图像生成的情况下，中间编码特征为空值。

对各目标图像进行视频合成，得到目标视频；

对目标视频和目标音乐进行融合，得到卡点视频。

获取用户输入的文本提示词；

对文本提示词进行文本扩充，得到画面帧集合对应的增强提示词。

根据目标音乐对应的节拍时间点对用户配置的至少一个视频帧数进行帧数划分，得到节拍时间点对应的画面帧集合。

对目标音乐进行节拍分析，得到目标音乐对应的节拍时间点。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

确定画面帧集合对应的增强提示词；

根据各目标图像和目标音乐，确定卡点视频。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对各目标图像进行视频合成，得到目标视频；

对目标视频和目标音乐进行融合，得到卡点视频。

获取用户输入的文本提示词；

请参阅图7，图7是本发明可选实施例提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

确定所述画面帧集合对应的增强提示词；

根据各所述目标图像和目标音乐，确定卡点视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述增强提示词进行目标图像生成，得到各所述视频帧数对应的目标图像，包括：

3.根据权利要求2所述的方法，其特征在于，在针对首个视频帧数进行目标图像生成的情况下，所述中间编码特征为空值。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据各所述目标图像和所述目标音乐，确定卡点视频，包括：

对各所述目标图像进行视频合成，得到目标视频；

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述确定所述画面帧集合对应的增强提示词，包括：

获取用户输入的文本提示词；

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述对用户配置的至少一个视频帧数进行帧数划分，得到画面帧集合，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种视频生成装置，其特征在于，所述装置包括：

第二确定模块，用于根据各所述目标图像和目标音乐，确定卡点视频。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的视频生成方法。