CN117729296A

CN117729296A - 视频生成方法、装置、计算机设备、存储介质和程序产品

Info

Publication number: CN117729296A
Application number: CN202311469699.1A
Authority: CN
Inventors: 龙良曲; 任宁啸
Original assignee: Insta360 Innovation Technology Co Ltd
Current assignee: Insta360 Innovation Technology Co Ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-03-19

Abstract

本申请涉及一种视频生成方法、装置、计算机设备、存储介质和程序产品。所述方法包括：获取待处理视频中的至少一个高光片段对应的风格描述词；根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段；各所述目标视频片段中包括各所述目标视频片段的风格描述词对应的展示元素；根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频。采用本方法能够提高对视频添加展示元素的效率。

Description

视频生成方法、装置、计算机设备、存储介质和程序产品

技术领域

本申请涉及多媒体技术领域，特别是涉及一种视频生成方法、装置、计算机设备、存储介质和程序产品。

背景技术

随着多媒体技术的发展，用户对于拍摄视频的展示效果的要求越来越高，希望能够对拍摄的视频添加更加丰富的展示元素。

传统技术中，是通过人工根据视频内容手动选择相应展示元素的描述词，从而基于描述词在视频内容中添加相应的展示元素。

然而，传统技术中存在对视频添加展示元素的效率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高对视频添加展示元素的效率的视频生成方法、装置、计算机设备、存储介质和程序产品。

第一方面，本申请提供了一种视频生成方法，应用于拍摄设备，所述方法包括：

获取待处理视频中的至少一个高光片段对应的风格描述词；

根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段；各所述目标视频片段中包括各所述目标视频片段的风格描述词对应的展示元素；

根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频。

在其中一个实施例中，所述根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段，包括：

对各所述高光片段分别进行采样处理，得到各所述高光片段对应的视频帧；

根据各所述高光片段对应的视频帧、各所述高光片段的风格描述词和所述视频编辑模型，获取各所述高光片段对应的初始视频片段；

根据各所述高光片段对应的初始视频片段和各所述高光片段的采样信息，获取各所述高光片段对应的目标视频片段。

在其中一个实施例中，所述根据各所述高光片段对应的初始视频片段和各所述高光片段的采样信息，获取各所述高光片段对应的目标视频片段，包括：

根据各所述高光片段的采样信息，确定各所述高光片段的初始视频片段中的待插入视频帧；

根据各所述高光片段的初始视频片段的展示元素，对各所述高光片段的待插入视频帧进行转换处理，得到各所述高光片段对应的转换后的待插入视频帧；

根据各所述高光片段的初始视频片段和各所述高光片段对应的转换后的待插入视频帧，得到各所述高光片段对应的目标视频片段。

在其中一个实施例中，所述根据各所述高光片段对应的视频帧、各所述高光片段的风格描述词和所述视频编辑模型，获取各所述高光片段对应的初始视频片段，包括：

根据各所述高光片段对应的视频帧的序列信息，对各所述高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，得到各所述高光片段对应的多个拼接帧；

对于每一个高光片段，将各所述拼接帧和所述风格描述词输入所述视频编辑模型，得到各所述高光片段对应的初始视频片段。

在其中一个实施例中，所述获取待处理视频中的至少一个高光片段对应的风格描述词，包括：

将各所述高光片段分别输入预设的识别模型，得到各所述高光片段对应的场景类别；

根据各所述高光片段对应的场景类别和预设的对应关系表，获取各所述高光片段对应的风格描述词；所述对应关系表中包括场景类别和风格描述词之间的对应关系。

在其中一个实施例中，所述方法还包括：

根据预设的剪辑算法，获取所述待处理视频中的各所述高光片段。

在其中一个实施例中，所述根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频，包括：

对各所述目标视频片段进行拼接处理，得到所述待处理视频对应的转换后的视频。

第二方面，本申请还提供了一种视频生成方法，其特征在于，应用于与拍摄设备通信连接的视频生成设备，所述方法包括：

获取待处理视频中的至少一个高光片段对应的风格描述词；

第三方面，本申请还提供了一种视频生成装置，应用于拍摄设备，所述装置包括：

第一获取模块，用于获取待处理视频中的至少一个高光片段对应的风格描述词；

第二获取模块，用于根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段；各所述目标视频片段中包括各所述目标视频片段的风格描述词对应的展示元素；

第三获取模块，用于根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频。

第四方面，本申请还提供了一种视频生成装置，应用于与拍摄设备通信连接的视频生成设备，所述装置包括：

第五获取模块，用于获取待处理视频中的至少一个高光片段对应的风格描述词；

第六获取模块，用于根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段；各所述目标视频片段中包括各所述目标视频片段的风格描述词对应的展示元素；

第七获取模块，用于根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。

上述视频生成方法、装置、计算机设备、存储介质和程序产品，通过获取待处理视频中的至少一个高光片段对应的风格描述词，从而能够根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，快速地获取各高光片段对应的包括各目标视频片段的风格描述词对应的展示元素的目标视频片段，相比于传统技术，在快速获得风格描述词的基础上，利用视频编辑模型能够快速的对各高光片段进行转换处理，提高得到目标视频片段的效率，进而能够根据各目标视频片段，快速地得到待处理视频对应的转换后的视频，提高对待处理视频添加展示元素的效率；另外，由于本申请的视频生成方法是对待处理视频中的高光片段进行的转换处理，并将转换后得到的目标视频片段确定为转换后的视频，能够提高转换后的视频的丰富度和精彩度，能够提高对待处理视频添加展示元素的展示效果。

附图说明

图1为一个实施例中视频生成方法的应用环境图；

图2为一个实施例中视频生成方法的流程示意图；

图3为另一个实施例中视频生成方法的流程示意图；

图4为另一个实施例中视频生成方法的流程示意图；

图5为另一个实施例中视频生成方法的流程示意图；

图6为一个实施例中对视频帧进行拼接得到拼接帧的示意图；

图7为另一个实施例中视频生成方法的流程示意图；

图8为另一个实施例中视频生成方法的流程示意图；

图9为一个实施例中视频生成装置的结构框图；

图10为另一个实施例中视频生成装置的结构框图；

图11为另一个实施例中视频生成装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频生成方法，可以应用于如图1所示的应用环境中。图1提供了一种计算机设备，该计算机设备可以是拍摄设备，也可以是与拍摄设备通信连接的视频生成设备，其内部结构图可以如图1所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种视频生成方法，以该方法应用于拍摄设备为例进行说明，包括以下步骤：

S201，获取待处理视频中的至少一个高光片段对应的风格描述词。

其中，高光片段指的是待处理视频中包含用户感兴趣信息的视频片段，高光片段可以为用户指定的视频片段，例如，高光片段可以为待处理视频中场景比较丰富的视频片段，或者，高光片段也可以为待处理视频中色彩比较丰富的视频片段。可选的，视频中的高光片段的数量可以为一个，或者，高光片段的数量也可以为多个，本实施例对此不做限制。可以理解的是，每个高光片段可以包含不同的信息，对应地，每个高光片段可以展示不同的视频风格。

可选的，在本实施例中，可以预先根据不同视频对应的类别信息确定对应的风格描述词，将待处理视频的高光片段输入预设的识别模型中，通过识别模型根据预先得到的类别信息，确定高光片段对应的类别信息，从而可以根据确定的类别信息输出表示该类别信息的展示风格的风格描述词，从而得到高光片段对应的风格描述词；或者，还可以根据待处理视频的高光片段的展示风格确定对应的风格描述词。需要说明的是，若高光片段为多个，则识别模型可以输出多个高光片段对应的风格描述词。

S202，根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段；各目标视频片段中包括各目标视频片段的风格描述词对应的展示元素。

其中，视频编辑模型是根据预先选择的编辑信息对待处理视频进行相应的转换处理的神经网络模型，通过视频编辑模型可以根据风格描述词确定各高光片段对应的展示元素，从而根据展示元素对各高光片段进行转换处理，将转换处理后的视频片段确定为各高光片段对应的目标视频片段。

可选的，在本实施例中，视频编辑模型可以为扩散（Diffusion）模型，例如，该扩散模型可以为通过参考图像对生成结果的风格和构图进行控制的控制网（ControlNet）模型，控制网模型中可以包括编码子网络、融合子网络、生成子网络和编码器，编码子网络用于将视频包含的图片转换为对应的图片向量，以及将表示编辑信息的文本转换为对应的文本向量，融合子网络用于将图片向量和文本向量进行融合得到融合向量，生成子网络用于根据融合向量和预设的噪声得到转换处理后的图片，编码器用于将转换后的图片进行合成处理得到视频片段。

可以理解的是，在本实施例中，可以利用已标注的样本视频对初始的视频编辑模型进行训练得到视频编辑模型，在训练过程中，可以利用大预言模型的低阶适应（Low-RankAdaptation of Large Language Models，LoRA）模型对控制网模型的参数进行调整，从而加快训练过程，提高得到视频编辑模型的效率。

在本实施例中，可以将各高光片段和各高光片段的风格描述词输入预设的视频编辑模型中的编码子网络，编码子网络可以将各高光片段中的每一帧图片转换为对应的图片向量，以及将各高光片段的风格描述词转换为对应的文本向量，从而将图片向量和文本向量输入融合子网络中，得到融合向量，进而将融合向量输入生成子网络，生成子网络可以根据预设的噪声和各高光片段生成初始转换图片，并根据融合向量对初始转换图片的构图和风格的生成参数进行控制和微调处理，得到转换图片，最终将转换图片输入编码器中进行合成处理，得到各高光片段对应的目标视频片段。

S203，根据各目标视频片段，得到待处理视频对应的转换后的视频。

其中，待处理视频对应的转换后的视频指的是由目标视频片段组成的视频。可选的，在本实施例中，若高光片段为一个，则对应一个目标视频，可以将该目标视频片段确定为待处理视频对应的转换后的视频；若高光片段包括多个，则对应多个目标视频片段，可以对多个高光片段进行融合处理，将融合处理后的视频确定为待处理视频对应的转换后的视频。

上述视频生成方法中，根据预设的识别模型，通过获取待处理视频中的至少一个高光片段对应的风格描述词，从而能够根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，快速地获取各高光片段对应的包括各目标视频片段的风格描述词对应的展示元素的目标视频片段，相比于传统技术，在快速获得风格描述词的基础上，利用视频编辑模型能够快速的对各高光片段进行转换处理，提高得到目标视频片段的效率，进而能够根据各目标视频片段，快速地得到待处理视频对应的转换后的视频，提高对待处理视频添加展示元素的效率；另外，由于本申请的视频生成方法是对待处理视频中的高光片段进行的转换处理，并将转换后得到的目标视频片段确定为转换后的视频，能够提高转换后的视频的丰富度和精彩度，能够提高对待处理视频添加展示元素的展示效果。

在上述根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段的场景中，可以对各高光片段进行采样处理，根据采样处理后的各高光片段获取对应的目标视频片段。在一个实施例中，如图3所示，上述S202，包括：

S301，对各高光片段分别进行采样处理，得到各高光片段对应的视频帧。

需要说明的是，为了降低视频编辑模型的计算量，并且使得高光片段中的每帧画面呈现卡顿凝滞感，可以对各高光片段进行采样处理，其中，采样处理指的是根据预设的采样频率对原始信号进行采样处理，得到采样处理后的信号的数据处理方法。在本实施例中，可以对各高光片段进行采样处理，将采样得到的视频帧确定为各高光片段对应的视频帧，每个高光片段中可以包含多个视频帧。

可选的，在本实施例中，可以根据预设的采样帧数对各高光片段进行采样处理，从而得到每个高光片段对应的采样后的视频片段，将采样的视频帧确定为各高光片段对应的视频帧，例如，预设的采样帧数可以为5帧，或者，预设的采样帧数也可以为10帧，又或者，预设的采样帧数还可以为15帧，本实施例对此不做限制；或者，也可以根据预设的采样频率分别对每个高光片段进行采样处理，从而得到每个高光片段对应的采样后的视频片段，将采样后的视频片段确定为各高光片段对应的视频帧。示例性地，高光片段为30帧，帧的序列为1，2，3，4，5，...，28，29，30，若预设的采样后的视频的目标帧数15帧，则采样后的视频帧的序列为1，3，5，...，29。

可以理解的是，为了使得输入视频编辑模型中的视频保持相同的帧率，可以采用统一的采样频率或者目标帧数对各高光片段进行采样处理。

S302，根据各高光片段对应的视频帧、各高光片段的风格描述词和视频编辑模型，获取各高光片段对应的初始视频片段。

在本实施例中，可以将各高光片段对应的视频帧和对应的各高光片段的风格描述词输入视频编辑模型中的的编码子网络中，编码子网络可以将各高光片段的视频帧转换为对应的图片向量，以及将各高光片段的风格描述词转换为对应的文本向量，从而将图片向量和文本向量输入融合子网络中，得到融合向量，进而将融合向量输入生成子网络，生成子网络可以根据预设的噪声和各高光片段对应的视频帧生成初始转换视频帧，并根据融合向量对初始转换视频帧的构图和风格的生成参数进行控制和微调，得到转换视频帧，最终将转换视频帧输入编码器中进行合成处理，得到各高光片段对应的初始视频片段。

S303，根据各高光片段对应的初始视频片段和各高光片段的采样信息，获取各高光片段对应的目标视频片段。

可以理解的是，由于对各高光片段进行了采样处理，使得初始视频片段与高光片段的帧数不同，因此，为了获得与高光片段的帧数相同的视频片段，需要对各初始视频片段进行补帧处理，使得补帧处理后的初始视频片段的帧数与高光片段的帧数相同。

其中，各高光片段的采样信息指的是对各高光片段进行采样的采样频率，或者是预设的对高光片段采样后的目标帧数。在本实施例中，可以根据各高光片段的采样信息确定各高光片段的空缺的帧信息，从而根据空缺的帧信息对初始视频片段进行补帧处理，将补帧处理后的初始视频片段确定为目标视频片段。

本实施例中，通过对各高光片段分别进行采样处理，得到各高光片段对应的视频帧，由于采样处理降低了各高光片段的数据量，从而能够降低根据各高光片段对应的视频帧、各高光片段的风格描述词和视频编辑模型，得到各高光片段对应的目标视频片段的计算量，提高了得到初始视频片段的效率，进而能够根据各高光片段对应的初始视频片段和各高光片段的采样信息，快速的获取各高光片段对应的目标视频片段，提高了得到目标视频片段的效率。

下面对根据各高光片段对应的初始视频片段和各高光片段的采样信息，获取各高光片段对应的目标视频片段的具体内容进行详细描述。在一个实施例中，如图4所示，上述S303，包括：

S401，根据各高光片段的采样信息，确定各高光片段的初始视频片段中的待插入视频帧。

其中，待插入视频帧指的是在初始视频片段的视频帧序列中插入的视频帧，在本实施例中，可以根据各高光片段的采样信息确定待插入视频帧的插入位置信息，以及根据各高光片段的初始视频片段的展示风格确定待插入视频帧的展示风格的转换处理。

在本实施例中，可以根据各高光片段的采样信息确定初始视频片段中空缺的视频帧的数量和序列信息，根据空缺帧的序列信息确定待插入视频帧的插入位置信息，并根据每个空缺帧的序列信息从初始视频片段中确定出相邻的两个视频帧，根据相邻的两个视频帧的展示内容确定待插入视频帧的展示内容，以及根据相邻的两个视频帧的展示风格确定待插入视频帧的展示风格，从而根据确定的待插入视频帧的数量、插入位置信息、展示内容和展示风格确定各高光片段的初始视频片段中的待插入视频帧。

S402，根据各高光片段的初始视频片段的展示元素，对各高光片段的待插入视频帧进行转换处理，得到各高光片段对应的转换后的待插入视频帧。

其中，初始视频片段的展示元素是根据高光片段的风格描述词确定的，可选的，展示元素可以包括光线、色彩、特效、音频、图片等，不同风格描述词可以对应不同的展示元素，对待插入视频帧进行的转换处理指的是将展示元素添加至待插入视频帧中，并进行视频融合处理。

在本实施例中，可以根据高光片段的初始视频片段对应的风格描述词确定展示元素，从而将展示元素添加在待插入视频帧中，并对添加展示元素之后的待插入视频帧进行视频融合处理，从而将融合处理之后的待插入视频帧确定为转换后的待插入视频帧。

S403，根据各高光片段的初始视频片段和各高光片段对应的转换后的待插入视频帧，得到各高光片段对应的目标视频片段。

在本实施例中，可以根据确定的各待插入视频帧的插入位置信息，将各转换后的待插入视频帧插入各初始视频片段中相应的位置，形成与各高光片段的帧数统一的初始视频片段，将插帧处理之后的初始视频片段确定为各高光片段对应的目标视频片段。可选的，在本实施例中，将各转换后的待插入视频帧插入各初始视频片段中的插帧处理的方法可以为帧采样处理，或者，也可以为帧混合处理，又或者，还可以为光流法，本实施例对此不做限制。

本实施例中，根据各高光片段的采样信息，能够确定各高光片段的初始视频片段中的待插入视频帧，由于是通过采样信息确定的待插入视频帧，保证了待插入视频帧的数量和插入位置的准确性，从而能够根据各高光片段的初始视频片段的展示元素，对各高光片段的待插入视频帧进行转换处理，得到各高光片段对应的转换后的待插入视频帧，保证了待插入视频帧与初始视频片段的展示风格能够保持一致，进而能够根据各高光片段的初始视频片段和各高光片段对应的转换后的待插入视频帧，得到各高光片段对应的目标视频片段，使得插帧处理后的目标视频片段能够与高光片段的帧数相同，而且能够提高目标视频片段的转换风格的一致性。

在上述根据各高光片段对应的视频帧、各高光片段的风格描述词和视频编辑模型，得到各高光片段对应的初始视频片段的场景中，可以对各高光片段对应的视频帧进行拼接，根据拼接后的各高光片段对应的拼接帧得到各高光片段对应的初始视频片段。在一个实施例中，如图5所示，上述S302，包括：

S501，根据各高光片段对应的视频帧的序列信息，对各高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，得到各高光片段对应的多个拼接帧。

其中，视频帧的序列信息指的是视频帧中每一帧的顺序，例如，若视频帧中包括T个帧，则视频帧的序列信息为：1，2，...，T，需要说明的是，为了给每帧视频提供下文图像特征，可以对视频帧进行帧拼接处理，从而利用视频编辑模型对拼接处理后的视频帧进行转换处理。

在本实施例中，可以根据各高光片段对应的视频帧的序列信息确定每一帧的顺序，从而将每个视频帧与相邻的视频帧进行帧拼接处理，得到拼接处理后的拼接帧，可选的，可以将视频帧以2*2的形式进行拼接，或者，也可以将视频帧以1*2的形式进行拼接。示例性地，对视频帧进行拼接处理得到拼接帧的过程可以如图6所示，其中，视频帧的序列信息为：1，2，...，T，将视频帧以2*2进行拼接，得到多个拼接帧。

S502，对于每一个高光片段，将各拼接帧和风格描述词输入视频编辑模型，得到各高光片段对应的初始视频片段。

可以理解的是，每个高光片段中可以包括多个拼接帧。在本实施例中，可以将每一个高光片段对应的各拼接帧和风格描述词输入视频编辑模型中的的编码子网络中，编码子网络可以将各高光片段的各拼接帧转换为对应的图片向量，以及将各高光片段的风格描述词转换为对应的文本向量，从而将图片向量和文本向量输入融合子网络中，得到融合向量，进而将融合向量输入生成子网络，生成子网络可以根据预设的噪声和各高光片段对应的拼接帧生成初始转换拼接帧，并根据融合向量对初始转换拼接帧的构图和风格的生成参数进行控制和微调处理，得到转换拼接帧，最终将转换拼接帧输入编码器中进行合成处理，得到各高光片段对应的初始视频片段。

可选的，在本实施例中，可以分别将每个高光片段对应的多个拼接帧和风格描述词输入视频编辑模型进行转换处理，得到每个高光片段对应的初始视频片段；或者，也可以将每个高光片段对应的多个拼接帧和各高光片段对应的风格描述词同时输入视频编辑模型进行转换处理，得到各高光片段对应的初始视频片段。

需要说明的是，由于每个拼接帧是将每个单个的视频帧和相邻视频帧进行拼接得到的，使得转换处理后的拼接帧中与高光片段中的视频帧的尺寸大小不同，因此，需要对转换处理后的拼接帧进行裁剪处理。作为一种可选的实施方式，可以对每个拼接帧分别进行裁剪处理，保留每个拼接帧中的第一个视频帧，删除其他视频帧，从而可以根据裁剪处理后的各单个视频帧的时间信息，对各单个视频帧进行拼接处理，将拼接处理后的多个视频帧确定为初始视频片段。

本实施例中，通过根据各高光片段对应的视频帧的序列信息对各高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，能够得到各高光片段对应的多个拼接帧，由于对相邻视频帧进行了帧拼接处理，使得每个拼接帧中能够包括更多的图像特征，从而对于每一个高光片段，将各拼接帧和风格描述词输入视频编辑模型，能够得到展示风格更加相似的各高光片段对应的初始视频片段，进而能够提高根据初始视频片段确定的目标视频片段的展示风格的相似度，增强根据目标视频片换得到的转换处理后的视频的连贯性。

在上述根据预设的识别模型，获取待处理视频中的至少一个高光片段对应的风格描述词的场景中，可以根据识别模型输出的场景类别和预设的对应关系表获取各高光片段对应的风格描述词。在一个实施例中，如图7所示，上述S201，包括：

S601，将各高光片段分别输入预设的识别模型，得到各高光片段对应的场景类别。

其中，预设的识别模型用于识别各高光片段中包含的信息的类型，例如，识别模型可以为场景识别模型，用于识别高光片段中的场景信息，例如，滑雪、骑行、做饭等；或者，识别模型也可以为物体识别模型，用于识别高光片段中的物体信息，例如，人物、动物、植物等。

在本实施例中，可以将各高光片段分别输入识别模型中，识别模型可以对高光片段中的每一帧图片上的感兴趣区域进行识别，确定每一帧图片上的感兴趣区域对应的场景信息，从而根据各场景信息确定高光片段的场景信息，并将概率最高的场景信息对应的类别确定为高光片段的场景类别。

可以理解的是，通过对待处理视频进行剪辑可以得到高光片段，从而可以每个高光片段对应的场景类别。作为一种可选的实施方式，可以根据预设的剪辑算法，获取待处理视频中的各高光片段。

其中，预设的剪辑算法可以根据实际的剪辑需求对待处理视频进行剪辑，得到与剪辑需求对应的视频片段，从而将剪辑的视频片段确定为待处理视频中的各高光片段。示例性地，若剪辑需求为获取待处理视频中元素丰富的视频片段，则可以根据剪辑算法剪辑待处理视频中元素丰富的视频片段，从而得到高光片段。

S602，根据各高光片段对应的场景类别和预设的对应关系表，获取各高光片段对应的风格描述词；对应关系表中包括场景类别和风格描述词之间的对应关系。

其中，预设的对应关系表用于表示不同的场景类别和对应的风格描述词之间的对应关系，在本实施例中，可以利用Places365的数据集中的样本视频段对初始识别模型进行训练，根据初始识别模型的输出结果和标准结果对初始识别模型的参数进行调整，直至得到训练好的识别模型，并根据大量样本的标准场景识别结果生成对应关系表。

在本实施例中，可以将各高光片段对应的场景类别与对应关系表中的每个场景类别进行对比，若对应关系表中存在与各高光片段对应的场景类别一致的场景类别，则根据对应关系表确定该场景类别对应的风格描述词，得到各高光片段对应的风格描述词。

本实施例中，通过将各高光片段分别输入识别模型，能够快速的得到各高光片段对应的场景类别，从而根据各高光片段对应的场景类别和预设的包括场景类别和风格描述词之间的对应关系的对应关系表，能够快速的获取各高光片段对应的风格描述词，提高了获取风格描述词的效率，进而能够提高根据风格描述词对高光片段进行转换处理的效率。

可以理解的是，若待处理视频中包含多个高光片段，在得到各高光片段对应的目标视频片段之后，可以对多个目标视频片段进行拼接处理，将拼接处理后的多个目标视频片段确定为目标视频。在一个实施例中，上述S203，包括：对各目标视频片段进行拼接处理，得到待处理视频对应的转换后的视频。

可以理解的是，由于各目标视频片段是根据风格描述词对待处理视频中的高光片段进行转换处理后得到的多个独立的视频片段，需要对各目标视频片段进行拼接处理得到一个完整的视频。其中，拼接处理指的是将不同的视频片段进行帧拼接的处理，在本实施例中，可以根据每个目标视频段中的第一个视频帧的时间信息对各目标视频段进行顺序排列，从而利用拼接算法将顺序排列的各目标视频片段进行拼接，将拼接后的视频确定为待处理视频对应的转换后的视频。

本实施例中，通过对各目标视频片段进行拼接处理，能够得到待处理视频对应的转换后的视频，从而能够将完整的转换后的视频展示给用户，提高转换后的视频的展示效果的完整度。

在一个实施例中，如图8所示，提供了一种视频编辑方法，以该方法应用于与拍摄设备通信连接的视频生成设备为例进行说明，包括以下步骤：

S801，获取待处理视频中的至少一个高光片段对应的风格描述词。

S802，根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段；各目标视频片段中包括各目标视频片段的风格描述词对应的展示元素。

S803，根据各目标视频片段，得到待处理视频对应的转换后的视频。

本实施例中，通过获取待处理视频中的至少一个高光片段对应的风格描述词，从而能够根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，快速地获取各高光片段对应的包括各目标视频片段的风格描述词对应的展示元素的目标视频片段，相比于传统技术，在快速获得风格描述词的基础上，利用视频编辑模型能够快速的对各高光片段进行转换处理，提高得到目标视频片段的效率，进而能够根据各目标视频片段，快速地得到待处理视频对应的转换后的视频，提高对待处理视频添加展示元素的效率；另外，由于本申请的视频编辑方法是对待处理视频中的高光片段进行的转换处理，并将转换后得到的目标视频片段确定为转换后的视频，能够提高转换后的视频的丰富度和精彩度，能够提高对待处理视频添加展示元素的展示效果。

为了便于本领域技术人员的理解，下边对本申请提供的视频生成方法进行详细介绍，该方法可以包括：

S1，根据预设的剪辑算法，获取待处理视频中的各高光片段。

S2，将各高光片段分别输入识别模型，得到各高光片段对应的场景类别。

S3，根据各高光片段对应的场景类别和预设的对应关系表，获取各高光片段对应的风格描述词；对应关系表中包括场景类别和风格描述词之间的对应关系。

S4，对各高光片段分别进行采样处理，得到各高光片段对应的视频帧。

S5，根据各高光片段对应的视频帧的序列信息，对各高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，得到各高光片段对应的多个拼接帧。

S6，对于每一个高光片段，将各拼接帧和风格描述词输入视频编辑模型，得到各高光片段对应的初始视频片段。

S7，根据各高光片段的采样信息，确定各高光片段的初始视频片段中的待插入视频帧。

S8，根据各高光片段的初始视频片段的展示元素，对各高光片段的待插入视频帧进行转换处理，得到各高光片段对应的转换后的待插入视频帧。

S9，根据各高光片段的初始视频片段和各高光片段对应的转换后的待插入视频帧，得到各高光片段对应的目标视频片段。

S10，对各目标视频片段进行拼接处理，得到待处理视频对应的转换后的视频。

需要说明的是，针对上述S1-S10中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频生成方法的视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频生成装置实施例中的具体限定可以参见上文中对于视频生成方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种视频生成装置，包括：第一获取模块10、第二获取模块11和第三获取模块12，其中：

第一获取模块10，用于获取待处理视频中的至少一个高光片段对应的风格描述词。

第二获取模块11，用于根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段；各目标视频片段中包括各目标视频片段的风格描述词对应的展示元素。

第三获取模块12，用于根据各目标视频片段，得到待处理视频对应的转换后的视频。

本实施例提供的视频生成装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在一个实施例中，如图10所示，上述第二获取模块11，包括：第一获取单元111、第二获取单元112和第三获取单元113，其中：

第一获取单元111，用于对各高光片段分别进行采样处理，得到各高光片段对应的视频帧。

第二获取单元112，用于根据各高光片段对应的视频帧、各高光片段的风格描述词和视频编辑模型，获取各高光片段对应的初始视频片段。

第三获取单元113，用于根据各高光片段对应的初始视频片段和各高光片段的采样信息，获取各高光片段对应的目标视频片段。

在一个实施例中，请继续参照图10，上述第三获取单元113，具体用于：根据各高光片段的采样信息，确定各高光片段的初始视频片段中的待插入视频帧；根据各高光片段的初始视频片段的展示元素，对各高光片段的待插入视频帧进行转换处理，得到各高光片段对应的转换后的待插入视频帧；根据各高光片段的初始视频片段和各高光片段对应的转换后的待插入视频帧，得到各高光片段对应的目标视频片段。

在一个实施例中，请继续参照图10，上述第二获取单元112，具体用于：根据各高光片段对应的视频帧的序列信息，对各高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，得到各高光片段对应的多个拼接帧；对于每一个高光片段，将各拼接帧和风格描述词输入视频编辑模型，得到各高光片段对应的初始视频片段。

在一个实施例中，请继续参照图10，上述第一获取模块10，包括：第四获取单元101和第五获取单元102，其中：

第四获取单元101，用于将各高光片段分别输入预设的识别模型，得到各高光片段对应的场景类别。

第五获取单元102，用于根据各高光片段对应的场景类别和预设的对应关系表，获取各高光片段对应的风格描述词；对应关系表中包括场景类别和风格描述词之间的对应关系。

在一个实施例中，请继续参照图10，上述装置还包括：第四获取模块13，其中：

第四获取模块13，用于根据预设的剪辑算法，获取待处理视频中的各高光片段。

在一个实施例中，请继续参照图10，上述第三获取模块12，包括：第六获取单元121，其中：

第六获取单元121，用于对各目标视频片段进行拼接处理，得到待处理视频对应的转换后的视频。

在一个实施例中，如图11所示，提供了一种视频生成装置，包括：第五获取模块14、第六获取模块15和第七获取模块16，其中：

第五获取模块14，用于获取待处理视频中的至少一个高光片段对应的风格描述词。

第六获取模块15，用于根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段；各目标视频片段中包括各目标视频片段的风格描述词对应的展示元素。

第七获取模块16，用于根据各目标视频片段，得到待处理视频对应的转换后的视频。

上述视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理视频中的至少一个高光片段对应的风格描述词；

根据各高光片段、各高光片段的风格描述词和预设的视频编辑模型，获取各高光片段对应的目标视频片段；各目标视频片段中包括各目标视频片段的风格描述词对应的展示元素；

根据各目标视频片段，得到待处理视频对应的转换后的视频。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对各高光片段分别进行采样处理，得到各高光片段对应的视频帧；

根据各高光片段对应的视频帧、各高光片段的风格描述词和视频编辑模型，获取各高光片段对应的初始视频片段；

根据各高光片段对应的初始视频片段和各高光片段的采样信息，获取各高光片段对应的目标视频片段。

根据各高光片段的采样信息，确定各高光片段的初始视频片段中的待插入视频帧；

根据各高光片段的初始视频片段的展示元素，对各高光片段的待插入视频帧进行转换处理，得到各高光片段对应的转换后的待插入视频帧；

根据各高光片段的初始视频片段和各高光片段对应的转换后的待插入视频帧，得到各高光片段对应的目标视频片段。

根据各高光片段对应的视频帧的序列信息，对各高光片段对应的视频帧中的相邻视频帧进行帧拼接处理，得到各高光片段对应的多个拼接帧；

对于每一个高光片段，将各拼接帧和风格描述词输入视频编辑模型，得到各高光片段对应的初始视频片段。

将各高光片段分别输入预设的识别模型，得到各高光片段对应的场景类别；

根据各高光片段对应的场景类别和预设的对应关系表，获取各高光片段对应的风格描述词；对应关系表中包括场景类别和风格描述词之间的对应关系。

根据预设的剪辑算法，获取待处理视频中的各高光片段。

对各目标视频片段进行拼接处理，得到待处理视频对应的转换后的视频。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待处理视频中的至少一个高光片段对应的风格描述词；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据预设的剪辑算法，获取待处理视频中的各高光片段。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待处理视频中的至少一个高光片段对应的风格描述词；

根据预设的剪辑算法，获取待处理视频中的各高光片段。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频生成方法，其特征在于，应用于拍摄设备，所述方法包括：

获取待处理视频中的至少一个高光片段对应的风格描述词；

2.根据权利要求1所述的方法，其特征在于，所述根据各所述高光片段、各所述高光片段的风格描述词和预设的视频编辑模型，获取各所述高光片段对应的目标视频片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各所述高光片段对应的初始视频片段和各所述高光片段的采样信息，获取各所述高光片段对应的目标视频片段，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据各所述高光片段对应的视频帧、各所述高光片段的风格描述词和所述视频编辑模型，获取各所述高光片段对应的初始视频片段，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据预设的识别模型，获取待处理视频中的至少一个高光片段对应的风格描述词，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据各所述目标视频片段，得到所述待处理视频对应的转换后的视频，包括：

8.一种视频生成方法，其特征在于，应用于与拍摄设备通信连接的视频生成设备，所述方法包括：

获取待处理视频中的至少一个高光片段对应的风格描述词；

9.一种视频生成装置，其特征在于，所述装置包括：

10.一种视频生成装置，其特征在于，应用于与拍摄设备通信连接的视频生成设备，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。