CN115222838A

CN115222838A - 视频生成方法、装置、电子设备及介质

Info

Publication number: CN115222838A
Application number: CN202210834501.4A
Authority: CN
Inventors: 李宇
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-21
Also published as: WO2024012289A1

Abstract

本申请公开了一种视频生成方法、装置、电子设备及介质，属于人工智能技术领域。该视频生成方法包括：获取第一图像集合，将该第一图像集合输入多分类模型进行分类，输出该第一图像集合对应的M个分类结果；从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。

Description

视频生成方法、装置、电子设备及介质

技术领域

本申请属于人工智能技术领域，具体涉及一种视频生成方法、装置、电子设备及介质。

背景技术

随着网络带宽的大量普及，互联网视频的发展势头也逐渐火热，而互联网视频是否受用户欢迎，最重要的影响因素就是视频自身的质量。

在相关技术中，制作视频所运用的视频分类网络，通常是将一段视频分成多个单帧图像后，分别对每帧图像进行分类，然后统计每帧图像对应的分类结果，然后，基于最终的统计结果来生成用户所需要的视频。

然而，由于上述方案所运用的视频分类网络，需要依次对每帧图像分别进行分类处理，从而导致视频分类网络的延迟较高，分类所需要的时间较长，进而导致视频生成效率过低。

发明内容

本申请实施例的目的是提供一种视频生成方法、装置、电子设备及介质，能够解决视频生成效率低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频生成方法，该方法包括：获取第一图像集合，将该第一图像集合输入多分类模型进行分类，输出该第一图像集合对应的M个分类结果；从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。

第二方面，本申请实施例提供了一种视频生成装置，该装置包括：获取单元、分类单元、确定单元和生成单元；其中，获取单元，用于获取第一图像集合；分类单元，用于将获取单元获取到的上述第一图像集合输入多分类模型进行分类，输出上述第一图像集合对应的M个分类结果；确定单元，用于从分类单元得到的上述M个分类结果对应的至少一个视频模板中，确定目标视频模板；生成单元，用于基于获取单元获取到的上述第一图像集合与确定单元确定的上述目标视频模板，生成目标视频；其中，M为大于1的整数。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，在制作视频时，电子设备可以先获取第一图像集合，然后将该第一图像集合输入多分类模型进行分类，以输出该第一图像集合对应的M个分类结果；再从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；最后，基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。如此，由于本申请在对图像进行分类时，是对整个第一图像集合整体进行分类处理，使得上述多分类模型只进行一次前向处理，就可以得到该第一图像集合整体的M个分类结果，因此，提高了多分类模型的分类能力，从而提高了整体的视频生成效率。

附图说明

图1是本申请实施例提供的一种视频生成方法的流程示意图之一；

图2是本申请实施例提供的一种多分类模型的处理流程图之一；

图3是本申请实施例提供的一种多分类模型的处理流程图之二；

图4是本申请实施例提供的一种Token的下采样模块的示意图；

图5是本申请实施例提供的一种视频生成方法的流程示意图之二；

图6是本申请实施例提供的一种视频生成方法的流程示意图之三；

图7是本申请实施例提供的一种视频生成装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图；

图9是本申请实施例提供的一种电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频生成方法、装置、电子设备及介质进行详细地说明。

在相关技术中，当用户需要制作视频时，所运用的移动端视频分类网络主要还是通过对视频中的每帧图像都进行分类，得到每帧图像的分类结果，然后基于该分类结果，获得一个综合的视频分类结果。而这种分类方案需要进行多次前向处理，会导致该方案在运用到嵌入式平台后的处理时间较长；此外，在同一移动设备上运行该方案时，逐帧处理会导致该移动设备的运行压力较大，最终导致生成视频的质量较低。

在本申请实施例提供的视频生成方法、装置、电子设备及介质中，通过提供一种全新的视频分类模型，可以在用户需要制作视频时，可以先对将用户输入的图像或视频帧作为一个整体一次性输入视频分类模型，使得该视频分类模型只需进行一次前向过程，降低了该视频分类模型的延迟，提高了视频分类模型的分类效率。如此，可以在减少计算代价的同时提高了该视频分类模型的分类能力，并且可以通过该视频分类模型给出的分类结果，结合推荐算法和视频模板为用户一键生成视频，从而提高了视频生成效率。

本实施例提供的视频生成方法的执行主体可以为视频生成装置，该视频生成装置可以为电子设备，也可以为该电子设备中的控制模块或处理模块等。一下电子设备为例来对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种视频生成方法，如图1所示，该视频生成方法可以包括如下步骤201至步骤204：

步骤201：电子设备获取第一图像集合。

在本申请实施例中，上述第一图像集合包括N帧图像。其中，N为大于1的整数。

在一种可能的实施例中，上述第一图像集合中的N帧图像可以为N张图像。

示例性地，电子设备在获取到用户输入的或电子设备预存的至少一张图像时，可以在该至少一张图像中的每张图像前后填充预定帧数的黑色图像，形成第一图像集合。

示例性地，步骤201中“电子设备获取第一图像集合”可以包括步骤201a：

步骤201a：电子设备获取用户输入的N张图像，以获取第一图像集合。

示例性地，上述N张图像可以包括电子设备预先存储的图像和/或用户输入的图像。

在另一种可能的实施例中，上述第一图像集合中的N帧图像可以为第一视频中的N帧视频帧。

需要说明的是，在相关技术中，由于相关技术中的视频分类模型在进行视频分类时，对时间顺序的建模能力偏弱，因此，对于具有较强时间顺序的视频来说，一帧帧处理会导致无法兼顾每帧图像之间的时间顺序，从而使得分类精度降低，无法满足用户需要。

对此，电子设备可以在获取到第一视频中的N帧视频帧后，可以按照N帧视频帧中的每帧视频帧对应的时间顺序，对该N帧视频帧进行排序，从而生成第一图像集合。

如此，当用户需要制作视频时，通过按照获取的N帧视频帧的时间顺序对该N帧视频帧进行排序，再将排序之后的所有视频帧作为一个整体一次性输入本申请提供的多分类模型，从而提高该多分类模型的分类准确率，进而提升了最终生成视频的质量。

示例性地，步骤201中“电子设备获取第一图像集合”可以包括步骤201b：

步骤201b：电子设备从第一视频中抽取N帧视频帧，以获取第一图像集合。

示例性地，上述N帧视频帧可以为第一视频中的关键帧。进一步地，上述关键帧是指第一视频中存在关键信息的视频帧。例如，第一视频中能够表现物体运动或变化中的关键动作的那一帧图像，或者，其他可以起到决定性作用的视频帧。

示例性地，电子设备在从第一视频中抽取N帧视频帧时，可以按照第一视频的时长，从第一视频中均匀抽取N帧视频帧。从而保证最终抽取的N帧视频帧能够体现第一视频中的多种视频特征。

步骤202：电子设备将第一图像集合输入多分类模型进行分类，输出第一图像集合对应的M个分类结果。

在本申请实施例中，上述多分类模型可以为：多类视频分类模型(MulticlassVideo-classification Model，MVM)。进一步地，上述MVM是指能够针对多帧图像进行综合分析的分类模型。

在本申请实施例中，上述M个分类结果可以包括：该第一图像集合对应的分类类别，该第一图像集合对应分类类别的名称。示例性地，上述分类类别可以为：动作类别、场景类别、物体类别和情绪类别等。

步骤203：电子设备从M个分类结果对应的至少一个视频模板中，确定目标视频模板。

其中，M为大于1的整数。

在本申请实施例中，上述至少一个视频模板为电子设备的视频模板库中的一个或多个视频模板。其中，上述视频模板库中预存有多个视频模板，每个视频模板对应至少一种模板类别。示例性地，上述视频模板是指一段已经编辑好的、可重复使用的固定格式的视频。一般的，视频模板中可以包括：视频版式、视频配色、视频背景、视频配乐和视频字体等。

在本申请实施例中，一个分类结果可以对应一个或多个视频模板，不同的分类结果可以对应同一个视频模板，也可以对应不同的视频模板。

步骤204：电子设备基于第一图像集合与目标视频模板，生成目标视频。

在本申请实施例中，电子设备在确定出目标视频模板后，可以将该第一图像集合中的N帧图像与该目标视频模板进行融合，从而生成目标视频。

可选地，在本申请实施例中，在上述第一图像集合中的N帧图像为第一视频中的N帧视频帧的情况下，上述步骤204中“电子设备基于第一图像集合与目标视频模板，生成目标视频”可以包括步骤204b：

步骤204b：电子设备将第一视频与目标视频模板融合，生成目标视频。

在本申请实施例中，电子设备在将第一视频与目标视频模板融合时，可以按照第一视频的时间轴与目标视频模板的时间轴，将两者的时间轴的起始时间点重叠，然后进行融合，从而生成目标视频。

需要说明的是，在目标视频模板的时间轴长度小于第一视频的时间轴长度时，可以在目标视频模板的时间轴到达结束时间点后，重复使用目标视频模板继续进行融合，直至第一视频全部融合完成。

在本申请实施例提供的视频生成方法中，在制作视频时，电子设备可以先获取第一图像集合，然后将该第一图像集合输入多分类模型进行分类，以输出该第一图像集合对应的M个分类结果；再从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；最后，基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。如此，由于本申请在对图像进行分类时，是对整个第一图像集合整体进行分类处理，使得上述多分类模型只进行一次前向处理，就可以得到该第一图像集合整体的M个分类结果，因此，提高了多分类模型的分类能力，从而提高了整体的视频生成效率。

可选地，在本申请实施例中，上述步骤202中“电子设备将第一图像集合输入多分类模型进行分类，输出第一图像集合对应的M个分类结果”可以包括如下步骤A1至A4：

步骤A1：电子设备将第一图像集合输入多分类模型后，基于多分类模型将第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息。

其中，X为大于1的整数。

在本申请实施例中，上述的图像块的第一图像特征信息可以包括图像块的第一图像特征向量。例如，图像块对应的token。

在本申请实施例中，电子设备可以将第一图像集合输入图像特征信息转化模块(如，Token化模块)，输出N帧图像对应的X个图像块对应的token。

进一步可选地，在本申请实施例中，上述步骤A1中“基于多分类模型将第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息”可以包括如下步骤A11和步骤A12：

步骤A11：基于多分类模型中的图像特征信息转化模块，将第一图像集合中的N帧图像进行拆分，得到X个图像块。

在本申请实施例中，上述第一图像集合中的任一帧图像均可对应多个图像块。

步骤A12：通过卷积神经网络对X个图像块进行特征信息提取，得到X个图像块的第一图像特征信息。

在本申请实施例中，电子设备可以将第一图像集合中的每帧图像先切成一个个的图像块，然后通过卷积神经网络(Convolutional Neural Networks，CNN)单独提取每个图像块的图像特征，从而得到每个图像块的第一图像特征信息。

步骤A2：从X个图像块的第一图像特征信息中，确定出第一关键图像特征信息。

在本申请实施例中，上述第一关键图像特征信息可以为：第一图像特征信息中像素特征满足预定条件的第一图像特征信息，也可以为第一图像特征信息中空间特征满足预定条件的第一图像特征信息。

进一步可选地，在本申请实施例中，上述步骤A2中“从X个图像块的第一图像特征信息中，确定出第一关键图像特征信息”可以包括如下步骤A21和步骤A22：

步骤A21：电子设备基于多分类模型中的图像特征信息选择模块，从X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息。

在本申请实施例中，上述变换排列方式是指，将上述X个图像块的第一图像特征信息的排列位置进行调整。

需要说明的是，上述变换排列方式并不改变X个图像块的第一图像特征信息的具体内容信息。

步骤A22：将第二关键图像特征信息和第二图像特征信息进行融合，得到第一关键图像特征信息。

在本申请实施例中，上述图像特征信息选择模块可以为Token选择模块(如，TokenSelect模块)。

在本申请实施例中，电子设备可以通过Token选择模块从X个图像块的图像特征信息中，选择最重要的几个关键图像特征信息，来减少图像块的图像特征信息的数量，从而减少多分类模型的计算量。

在本申请实施例中，电子设备可以从X个图像块的图像特征信息中选择包含关键信息的图像块的图像特征信息。

步骤A3：提取至少一个关键图像特征信息对应的高层语义信息。

在本申请实施例中，上述高层语义信息是指图像中的抽象特征信息，例如，图像中人物的表情，人物的年龄等。

进一步可选地，在本申请实施例中，上述步骤A3中“提取至少一个关键图像特征信息对应的高层语义信息”可以包括如下步骤A31至步骤A34：

步骤A31：电子设备基于多分类模型中的基础特征模块，对第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息。

步骤A32：提取第三关键图像特征信息中的基础图像特征信息。

步骤A33：将第一关键图像特征信息与基础图像特征信息融合，得到目标关键图像特征信息。

步骤A34：提取目标关键图像特征信息对应的高层语义信息。

在本申请实施例中，上述基础特征模块用于对Token选择模块确定出的第一关键图像特征信息进行特征提取，以获得该第一关键图像特征信息对应的高层语义信息。

步骤A4：基于第一关键图像特征信息对应的高层语义信息，得到第一图像集合对应的M个分类结果。

在本申请实施例中，电子设备可以将得到的高层语义信息输入多分类模型的全连接层，以得到第一图像集合对应的M个分类结果。

在本申请实施例中，上述全连接层用于将输入的高层语义信息，转化为多个分类结果输出。

示例1：

举例说明，以第一图像集合为16帧视频帧组成的图像集合为例。来对多分类模型的分类过程进行示例性说明。

示例性地，以多分类模型为MVM模型为例，MVM模型的分类过程如下：首先对输入的视频按照时间均匀抽取16帧(该参数可变)，按照在原来视频中的顺序排列成多维矩阵(如，[bs*16,3,224,224])，记为input(假设输入一个视频，则样本数量(batch size，bs)为1)。之后，通过CNN卷积来将input转换成输入的tokens(tokens是指将图片或则视频分成一个个的图像块，每个图像块通过CNN单独提取信息，成为一个1*1*embedding的特征向量，其中，embedding是指token化之后的特征向量的维度)。接着，将输入的token化之后的tokens通过TokenSelect模块来选择最重要的几个token，从而减少模型的计算量。其次，通过基础特征模块来提取token的高层语义信息，最后通过一个全连接层来获得视频的多个标签的分类结果。

具体地，上述MVM模型的分类过程包括如下步骤S1至步骤S2：

步骤S1(Token化模块的处理过程)：首先，先将该16帧图像集合排列成多维矩阵1，如[bs*16，3，224，224]的，记为输入(input)。然后，通过若干个CNN的卷积操作，将多维矩阵1变换成多维矩阵2，如[bs*16，embedding，224/16，224/16]，其中，embedding用于表示token的特征向量维度参数，其可选512，768，1024等；224/16是指在通过一个卷积核大小为16*16(卷积核大小为16*16用于指示，将每帧图像按照大小为16*16的像素分成一个个图像块来提取token)，步长为16的CNN卷积的时候，输入的长宽(224*224)会减少到原来的[224/16,224/16]＝[14,14]这么多。例如，将大小为[3,224,224]的输入，经过步长为16，卷积核大小为16*16的CNN卷积之后，该输入的大小会变成[512，224/16，224/16]，这里取embedding＝512为例。

步骤S2(Token选择模块的处理过程)：在通过若干个CCN的卷积操作，得到上述多维矩阵2(如[bs*16，512，224/16，224/16])后，则代表有bs*16*14*14个token。如图2所示，将上述多维矩阵2，通过两路变换：

其中一路，先通过一个2d的卷积conv1(卷积核3*3,输出通道数512，通道数可以调整)，以及激活函数(relu)进行处理，然后，再通过另一个2d卷积conv2(卷积核3*3，输出通道数128，这里的128为Token选择模块最终需要选择的token数(即上述至少一个关键图像特征信息))，从多维矩阵2中选择出多维矩阵3，如[bs*128，14*14]，最后，通过一个激活函数(sigmoid)来调整需要选择的token的置信度，并通过解压缩(unsqueeze)操作来扩展输出的维度，将将多维矩阵3扩展为的多维矩阵4，如[bs*128，14*14，1]。

另一路则是先进行重塑(reshape)操作，将上述多维矩阵2[bs*512，14，14]转变成为多维矩阵5，如[bs*1，512，14*14]，再通过转置(transpose)操作，将多维矩阵5转换为多维矩阵6，如[bs*1，14*14，512]，以改变多维矩阵的形状。

最后，将上述两路得到的结果按多维矩阵的元素相乘，获得一个[bs*128，14*14，512]的输出，此时，再对该输出的倒数第二维(14*14所在的维度)取平均，即可获得最后Token选择模块的输出，即[bs*128，512]，其中128为要选择的token数量，512为token的特征向量维度。

如此，电子设备在通过多分类模型对整个第一图像集合整体进行分类处理时，通过将每帧图像转换为多个图像块的图像特征信息，然后从该多个图像块的图像特征信息中，选择一些重要的关键图像特征信息，并对该重要的关键图像特征信息提取高层语义信息，最后基于该高层语义信息，得到上述第一图像集合的M个分类结果。因此，可以减少上述多分类模型的计算量，进一步提高了分类效率。

示例2：

针对上述步骤A31中多分类模型中的基础特征模块：

举例说明，如图3所示，该基础特征模块主要组成部件为：Token的归一化层、Token的池化层、Token的随即丢弃层、和Token的残差链接层，以及Token的下采样模块。

针对该基础特征模块中的Token的归一化层：

示例性地，上述Token的归一化层，用于限制token的范围。例如将其范围限制到(0，1)。

示例性地，上述Token的归一化层：使用归一化模块(torch.nn.LayerNorm)对输入的token进行层归一化操作，该层归一化操作的主要作用是为了对每个token进行归一化，计算公式如下：

其中，期望(Expectation，E)[x]为输入x的均值，变量(Variable，Var)[x]为输入x的方差，∈＝1e-6防止分母为0，其他的参数为可学习的偏置量。

针对该基础特征模块中的Token的池化层：

示例性地，上述Token的池化层，用于学习不同token之间的关联关系。

示例性地，结合示例1，上述Token的池化层：主要是通过3*1的池化层来对128个token进行池化操作。比如说针对[128,512]的图像输入，按照每行3个像素，每列1个像素移动池化核，来生成新的池化结果。该池化层主要是为了融合不同的token之间的信息。

针对该基础特征模块中的Token的随机丢弃层：

示例性地，上述Token的随机丢弃层，用于提高多分类模型的识别能力。

示例性地，结合示例1，上述Token的随机丢弃层：选取一个丢弃随机数t(0<＝t<1)，使得输入的128个token中，有t*100％的token数随机被置为0，从而丢弃原先的值，使得在后续处理视频分类时，所能处理的token范围更广。

针对该基础特征模块中的Token的残差连接层：

示例性地，上述Token的残差连接层，用于提升多分类模型的处理深度。

示例性地，结合上文的示例，上述Token的残差连接层：主要是将输入的128个token数与上述token的随机丢弃层输出的(1-t)*100％的token数相加，从而保留原始信息。

针对该基础特征模块中的Token的下采样模块：

示例性地，上述下采样模块，用于进一步减少输出的token数量和调整输出的维度。

示例性地，如图4所示，上述下采样模块包括：线性变换层(Fully Connected，FC)层、激活函数层(如Relu激活函数)和随机失活(dropout)层。具体的，先通过FC层，改变输出的token的维度，再通过激活函数层，然后通过dropout层，随机使得输出结果中的一部分token变成0。

如此，电子设备通过将Token选择模块选择出的关键图像特征信息输入基础特征模块，以得到该关键图像特征信息对应的高层语义信息。从而，使得本申请的多分类模型得到更为精准的分类结果。

可选地，在本申请实施例中，上述M个分类结果包括：每种分类对应的分类评分；上述步骤203中“电子设备从M个分类结果对应的至少一个视频模板中，确定目标视频模板”可以包括如下步骤203a和步骤203b：

步骤203a：电子设备从第一图像集合对应的M个分类结果中确定目标分类结果。

在本申请实施例中，上述目标分类结果为上述M个分类结果中分类评分最高的分类结果。

在本申请实施例中，电子设备在得到M个分类结果后，可以根据分类结果中包括的每种分类的分类评分，对M个分类结果进行排序，将评分最高的分类结果确定为目标分类结果。

示例3，以第一图像集合包括视频A中的N帧视频帧为例，电子设备可以对多分类模型输出的该视频A对应的M个分类结果进行评分排序，得到排名前三的分类结果，记为A:[Aclass1，Ascore1；Aclass2，Ascore2；Aclass3，Ascore3]，然后按照类别的评分值进行排序，获得一个经过排序之后的类别序列AS：[Aclass1，Aclass2，Aclass3]，然后选取评分最高的分类结果Aclass1，作为视频A的目标分类结果。

示例4，如图5所示，以第一图像集合包括视频A和视频B中的N帧视频帧为例，电子设备可以分别对多分类模型输出的该视频A和视频B各自对应的M个分类结果进行评分排序，得到排名前三的分类结果，分别记为：A：[Aclass1，Ascore1；Aclass2，Ascore2；Aclass3，Ascore3]，B：[Bclass1，Bscore1；Bclass2，Bscore2；Bclass3，Bscore3]。再将A和B组成一个匹配链，即AB：[Aclass1，Ascore1，Aclass2，Ascore2，Aclass3，Ascore3；Bclass1，Bscore1，Bclass2，Bscore2，Bclass3，Bscore3]，此时对AB按照类别的评分值进行排序，获得一个经过排序之后的类别序列ABS：[Aclass1，Aclass2，Aclass3，Bclass1，Bclass2，Bclass3]，然后分别选取评分最高的分类结果Aclass1，Bclass1，分别作为视频A和视频B的目标分类结果。

步骤203b：从与目标分类结果匹配的视频模板中，确定出目标视频模板。

在本申请实施例中，电子设备可以从视频模板库中先选出与目标分类结果匹配的至少一个视频模板，然后再从该至少一个视频模板中，确定出最符合目标分类结果的目标视频模板。

如此，电子设备通过对多分类模型得到的多个分类结果，按照每个分类结果对应的分类评分进行排序，以将评分最高的分类结果作为最终确定的目标分类结果，然后再从与该目标分类结果匹配的多个视频模板中，确定出最终的目标视频模板。从而，使得电子设备确定的目标视频模板与第一视频更为匹配，提升了最终生成的视频的视频质量。

可选地，在本申请实施例中，上述分类结果还包括：分类类型名称。在上述步骤203b之前，本申请实施例提供的视频生成方法还可以包括如下步骤203b1和步骤203b2：

步骤203b1：计算目标分类结果中的分类类型名称与视频模板库中的每个视频模板的名称间的相似度值。

在本申请实施例中，电子设备可以将目标分类结果的分类类型名称的文本信息和视频模板库中的每个视频模板的名称的文本信息均转化为向量值，然后通过计算向量值，得到每个视频模板的分数，以此来得到目标分类结果与每个视频模板的相似度。

步骤203b2：将相似度值满足第一条件的视频模板，确定为与目标分类结果匹配的视频模板。

在本申请实施例中，上述第一条件可以为：与目标分类结果中的分类类型名称间的相似度值最高的视频模板。

在本申请实施例中，电子设备还可以将按照相似度值的高低对视频模板进行排序，将排名靠前的视频模板推送给用户，以供用户可以手动选择所要融合的视频模板，提高了视频生成的灵活性。

示例5，结合上述示例3，在得到上述类别序列AS之后，电子设备可以使用相同的方法，对视频模板库中的视频模板进行类别序列生成操作，视频模板的类别按照模板中的视频出现的类别的先后顺序排列，记为DataSetSi，i∈[0，DataSet]，通过遍历DataSet中的每个元素的类别，计算与AS的相似度，获得与视频A相似度最高的视频模板，然后将视频A与该视频模板进行融合，生成目标视频。

示例6，结合上述示例4，如图5所示，在得到上述类别序列ABS之后，电子设备可以使用相同的方法，对视频模板库中的视频模板进行类别序列生成操作，视频模板的类别按照模板中的视频出现的类别的先后顺序排列，记为DataSetSi，i∈[0，DataSet]，通过遍历DataSet中的每个元素的类别，计算与ABS的相似度，分别获得与视频A、视频B相似度最高的两个视频模板，然后将视频A与自己相似度最高的视频模板融合、将视频B与自己相似度最高的模板融合，分别得到目标视频A*和目标视频B*，最后再将目标视频A*和目标视频B*进行简单拼接，生成目标视频。

如此，电子设备通过对视频模板库中的视频模板进行类别序列生成操作，计算确定出的目标分类结果的分类类型名称与视频模板库中的每个视频模板的名称间的相似度值。以获得与目标分类结果相似度最高的视频模板。从而，可以使电子设备更为精准地确定出视频模板。

以下将对本申请实施例提供的视频生成方法进行示例性说明：

示例性地，以第一图像集合包含视频A的N帧视频帧为例，如图6所示，本申请提供的视频生成方法可以包括如下步骤P1至步骤P5：

步骤P1：用户输入视频A时，对视频A进行抽取视频帧操作。具体的，可以按照视频A的时长，均匀抽取N帧视频帧。

步骤P2：将抽取的N帧视频帧按照视频A的时间顺序进行排序，组成第一个图像集合，用于输入MVM模型。

步骤P3：将上述第一图像集合输入MVM模型后，通过推理获得视频A的M个分类结果。具体的，通过CNN卷积将上述N帧视频帧均转换为token，然后通过Token选择模块，从上述N帧视频帧转换为的token中，选择一些重要的token，再通过基础特征块对这些重要的token提取高层语义信息，最后将提取到的高层语义信息通过一个全连接层，来得到视频A的M个分类结果。

步骤P4：通过视频A的M个分类结果，从视频模板库中匹配视频模板。具体的，可以将M个分类结果按照各自对应的评分进行排序，得到评分最高的分类结果。然后将该评分最高的分类结果的分类类型名称的文本信息转化为向量值，并将视频库中的每个视频模板的名称的文本信息也转化为向量值，分别计算每个视频模板与上述评分最高的分类结果的相似度，将相似度最高的视频模板，作为最匹配的视频模板。

步骤P5：将用户输入的视频A，与步骤S4匹配出的视频模板进行融合，生成最终的目标视频。

如此，先通过对从视频中抽取的视频帧按照时间顺序进行排序，兼顾了视频帧之间的时序，提高了MVM模型的分类准确率，再将排序后的视频帧作为一个整体输入MVM模型进行处理，得到上述视频的多个分类结果，提升了MVM模型的分类速度，然后，从视频模板库中匹配与该多个分类结果中评分最高的分类结果最相似的视频模板，最后将上述视频与该视频模板融合，得到最终视频。因此，不仅提高了该MVM模型的分类能力，还保证了最终生成视频的质量。

本申请实施例提供的视频生成方法，执行主体可以为视频生成装置。本申请实施例中以视频生成装置执行视频生成方法为例，说明本申请实施例提供的视频生成装置。

本申请实施例提供一种视频生成装置，如图7所示，该视频生成装置400包括：获取单元401、分类单元402、确定单元403和生成单元404，其中：上述获取单元401，用于获取第一图像集合；上述分类单元402，用于将获取单元401获取到的上述第一图像集合输入多分类模型进行分类，输出上述第一图像集合对应的M个分类结果；上述确定单元403，用于从分类单元402得到的上述M个分类结果对应的至少一个视频模板中，确定目标视频模板；上述生成单元404，用于基于获取单元401获取到的上述第一图像集合与确定单元403确定的上述目标视频模板，生成目标视频；其中，M为大于1的整数。

可选地，在本申请实施例中，上述分类单元402，具体用于：将获取单元401获取到的上述第一图像集合输入多分类模型后，基于该多分类模型将上述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；从该X个图像块的第一图像特征信息中，确定出第一关键图像特征信息；提取该第一关键图像特征信息对应的高层语义信息；基于该高层语义信息，得到上述第一图像集合对应的M个分类结果；其中，N、X为大于1的整数。

可选地，在本申请实施例中，上述分类单元402，具体用于：基于上述多分类模型中的图像特征信息转化模块，将上述第一图像集合中的N帧图像进行拆分，得到X个图像块；通过卷积神经网络对该X个图像块进行特征信息提取，得到上述X个图像块的第一图像特征信息。

可选地，在本申请实施例中，上述分类单元402，具体用于：基于上述多分类模型中的图像特征信息选择模块，从上述X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将上述X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息；将上述第二关键图像特征信息和上述第二图像特征信息进行融合，得到上述第一关键图像特征信息。

可选地，在本申请实施例中，上述分类单元402，具体用于：基于上述多分类模型中的基础特征模块，对上述第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息；提取该第三关键图像特征信息中的基础图像特征信息；将上述第一关键图像特征信息与上述基础图像特征信息融合，得到目标关键图像特征信息；提取该目标关键图像特征信息对应的高层语义信息。

可选地，在本申请实施例中，上述获取单元401，具体用于从第一视频中抽取N帧视频帧，以获取第一图像集合；上述生成单元404，具体用于将上述第一视频与上述目标视频模板融合，生成目标视频。

本申请实施例提供的视频生成装置中，在制作视频时，该视频生成装置可以先获取第一图像集合，然后将该第一图像集合输入多分类模型进行分类，以输出该第一图像集合对应的M个分类结果；再从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；最后，基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。如此，由于本申请在对图像进行分类时，是对整个第一图像集合整体进行分类处理，使得上述多分类模型只进行一次前向处理，就可以得到该第一图像集合整体的M个分类结果，因此，提高了多分类模型的分类能力，从而提高了整体的视频生成效率。

本申请实施例中的视频生成装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频生成装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述视频生成方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，上述处理器110，用于获取第一图像集合；将获取到的上述第一图像集合输入多分类模型进行分类，输出上述第一图像集合对应的M个分类结果；从上述M个分类结果对应的至少一个视频模板中，确定目标视频模板；基于上述第一图像集合与上述目标视频模板，生成目标视频；其中，M为大于1的整数。

可选地，在本申请实施例中，上述处理器110，具体用于：将获取到的上述第一图像集合输入多分类模型后，基于该多分类模型对上述第一图像集合将上述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；从该X个图像块的第一图像特征信息中，确定出第一关键图像特征信息；提取该第一关键图像特征信息对应的高层语义信息；基于该高层语义信息，得到上述第一图像集合对应的M个分类结果；其中，N、X为大于1的整数。

可选地，在本申请实施例中，上述处理器110，具体用于：基于上述多分类模型中的图像特征信息转化模块，将上述第一图像集合中的N帧图像进行拆分，得到X个图像块；通过卷积神经网络对该X个图像块进行特征信息提取，得到上述X个图像块的第一图像特征信息。

可选地，在本申请实施例中，上述处理器110，具体用于：基于上述多分类模型中的图像特征信息选择模块，从上述X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将上述X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息；将上述第二关键图像特征信息和上述第二图像特征信息进行融合，得到上述第一关键图像特征信息。

可选地，在本申请实施例中，上述处理器110，具体用于：基于上述多分类模型中的基础特征模块，对上述第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息；提取该第三关键图像特征信息中的基础图像特征信息；将上述第一关键图像特征信息与上述基础图像特征信息融合，得到目标关键图像特征信息；提取该目标关键图像特征信息对应的高层语义信息。

可选地，在本申请实施例中，上述处理器110，具体用于：从第一视频中抽取N帧视频帧，以获取第一图像集合；将上述第一视频与上述目标视频模板融合，生成目标视频。

在本申请实施例提供电子设备中，在制作视频时，电子设备可以先获取第一图像集合，然后将该第一图像集合输入多分类模型进行分类，以输出该第一图像集合对应的M个分类结果；再从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；最后，基于上述第一图像集合与该目标视频模板，生成目标视频；其中，M为大于1的整数。如此，由于本申请在对图像进行分类时，是对整个第一图像集合整体进行分类处理，使得上述多分类模型只进行一次前向处理，就可以得到该第一图像集合整体的M个分类结果，因此，提高了多分类模型的分类能力，从而提高了整体的视频生成效率。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取第一图像集合；

将所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果；

从所述M个分类结果对应的至少一个视频模板中，确定目标视频模板；

基于所述第一图像集合与所述目标视频模板，生成目标视频；

其中，M为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果，包括：

将所述第一图像集合输入多分类模型后，基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；

从所述X个图像块的第一图像特征信息中，确定出第一关键图像特征信息；

提取所述第一关键图像特征信息对应的高层语义信息；

基于所述高层语义信息，得到所述第一图像集合对应的M个分类结果；

其中，N、X为大于1的整数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息，包括：

基于所述多分类模型中的图像特征信息转化模块，将所述第一图像集合中的N帧图像进行拆分，得到X个图像块；

通过卷积神经网络对所述X个图像块进行特征信息提取，得到所述X个图像块的第一图像特征信息。

4.根据权利要求2所述的方法，其特征在于，所述从所述X个图像块的第一图像特征信息中，确定出第一关键图像特征信息，包括：

基于所述多分类模型中的图像特征信息选择模块，从所述X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将所述X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息；

将所述第二关键图像特征信息和所述第二图像特征信息进行融合，得到所述第一关键图像特征信息。

5.根据权利要求2所述的方法，其特征在于，所述提取所述第一关键图像特征信息对应的高层语义信息，包括：

基于所述多分类模型中的基础特征模块，对所述第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息；

提取所述第三关键图像特征信息中的基础图像特征信息；

将所述第一关键图像特征信息与所述基础图像特征信息融合，得到目标关键图像特征信息；

提取所述目标关键图像特征信息对应的高层语义信息。

6.根据权利要求1所述的方法，其特征在于，所述获取第一图像集合，包括：

从第一视频中抽取N帧视频帧，以获取第一图像集合；

所述基于所述第一图像集合与所述目标视频模板，生成目标视频，包括：

将所述第一视频与所述目标视频模板融合，生成目标视频。

7.一种视频生成装置，其特征在于，所述装置包括：获取单元、分类单元、确定单元和生成单元，其中：

所述获取单元，用于获取第一图像集合；

所述分类单元，用于将所述获取单元获取到的所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果；

所述确定单元，用于从所述分类单元得到的所述M个分类结果对应的至少一个视频模板中，确定目标视频模板；

所述生成单元，用于基于所述获取单元获取到的所述第一图像集合与所述确定单元确定的所述目标视频模板，生成目标视频；

其中，M为大于1的整数。

8.根据权利要求7所述的装置，其特征在于，所述分类单元，具体用于：

将所述获取单元获取到的所述第一图像集合输入多分类模型后，基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；

提取所述第一关键图像特征信息对应的高层语义信息；

其中，N、X为大于1的整数。

9.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：

提取所述第三关键图像特征信息中的基础图像特征信息；

提取所述目标关键图像特征信息对应的高层语义信息。

12.根据权利要求7所述的装置，其特征在于，

所述获取单元，具体用于从第一视频中抽取N帧视频帧，以获取第一图像集合；

所述生成单元，具体用于将所述第一视频与所述目标视频模板融合，生成目标视频。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6任一项所述的视频生成方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的视频生成方法的步骤。