CN117376634A

CN117376634A - 一种短视频配乐方法、装置、电子设备和存储介质

Info

Publication number: CN117376634A
Application number: CN202311676881.4A
Authority: CN
Inventors: 陈智聪; 尹恒鑫; 郑孝直; 杨杰; 王心莹; 宋施恩
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-01-09
Anticipated expiration: 2043-12-08
Also published as: CN117376634B

Abstract

本申请公开了一种短视频配乐方法、装置、电子设备和存储介质，该方法和装置应用于电子设备，具体为获取待添加背景音乐的视频材料；提取视频材料的视频特征向量序列；基于音乐生成模型对特征向量序列进行处理，得到音频材料；将视频材料和音频材料进行合成处理，得到包含背景音乐的短视频。本方案中为短视频所配的背景音乐来源于对视频材料的处理，而非现有的音乐素材，其不会有版权存在，也就不会出现版权纠纷。

Description

一种短视频配乐方法、装置、电子设备和存储介质

技术领域

本申请涉及视频制作技术领域，更具体地说，涉及一种短视频配乐方法、装置、电子设备和存储介质。

背景技术

短视频是一种较为流行的媒体形式，它能够在短时间内传递丰富多样的信息和情感，满足用户的碎片化阅读和娱乐需求，为短视频添加背景音乐可以引导观众的情绪，提升观看体验感。然而，普通用户一般不具有音乐制作能力，导致所配的背景音乐一般来源于现有的音乐素材，而现有的音乐素材一般都会有版权存在，导致出现侵权行为。

发明内容

有鉴于此，本申请提供一种短视频配乐方法、装置、电子设备和存储介质，用于为短视频添加背景音乐，使其成为完整的视频作品，并避免其出现侵权行为。

为了实现上述目的，现提出的方案如下：

一种短视频配乐方法，应用于电子设备，所述短视频配乐方法包括步骤：

获取待添加背景音乐的视频材料；

提取所述视频材料的视频特征向量序列；

基于音乐生成模型对所述视频特征向量序列进行处理，得到音频材料；

将所述视频材料和所述音频材料进行合成处理，得到包含所述背景音乐的短视频。

可选的，所述提取所述视频材料的特征向量序列，包括步骤：

将所述视频材料解析为按时间顺序排序的图像帧序列；

提取所述图像帧序列的图像特征向量序列；

提取所述图像帧序列的文本特征向量序列；

对所述图像特征向量序列和所述文本特征向量序列进行融合处理，得到所述视频特征向量序列。

可选的，所述提取所述图像帧序列的文本特征向量序列，包括步骤：

提取所述图像帧序列的文字表述序列；

从所述文字表述序列中进行特征提取，得到所述文本特征向量序列。

可选的，所述短视频配乐方法还包括步骤：

获取多个带有背景音乐的短视频样本；

基于所述短视频样本构建训练样本集，所述训练样本集包括每个所述短视频样本的背景音乐数据和视频特征向量样本序列；

基于所述训练样本集执行模型训练，得到所述音乐生成模型。

可选的，所述基于所述短视频样本构建训练样本集，包括步骤：

从每个所述短视频样本中提取出背景音乐数据和视频数据；

从每个所述视频数据中提取视频特征向量样本序列，所述视频特征向量序列包括图像特征向量序列和文本特征向量序列；

执行样本集构建，得到所述训练样本集。

可选的，所述音乐生成模型包括编码器模块、量化模块、解码器模块和解量化模块。

一种短视频配乐装置，应用于电子设备，所述短视频配乐装置包括：

视频获取模块，被配置为获取待添加背景音乐的视频材料；

特征提取模块，被配置为提取所述视频材料的视频特征向量序列；

音频生成模块，被配置为基于音乐生成模型对所述视频特征向量序列进行处理，得到音频材料；

配乐执行模块，被配置为将所述视频材料和所述音频材料进行合成处理，得到包含所述背景音乐的短视频。

可选的，所述特征提取模块包括：

视频解析单元，被配置为将所述视频材料解析为按时间顺序排序的图像帧序列；

第一提取单元，被配置为提取所述图像帧序列的图像特征向量序列；

第二提取单元，被配置为提取所述图像帧序列的文本特征向量序列；

合成处理单元，被配置为对所述图像特征向量序列和所述文本特征向量序列进行融合处理，得到所述视频特征向量序列。

可选的，所述短视频配乐装置还包括：

样本获取模块，被配置为获取多个带有背景音乐的短视频样本；

样本集构建模块，被配置为基于所述短视频样本构建训练样本集，所述训练样本集包括每个所述短视频样本的背景音乐数据和视频特征向量样本序列；

模型训练模块，被配置为基于所述训练样本集执行模型训练，得到所述音乐生成模型。

一种电子设备，所述电子设备包括至少一个处理器和与所述处理器连接的存储器，其中：

所述存储器用于存储计算机程序或指令；

所述处理器用于执行所述计算机程序或指令，以使所述电子设备实现如上所述的短视频配乐方法。

一种存储介质，应用于电子设备，所述存储介质承载有一个或多个计算机程序，所述一个或多个计算机程序能够被所述电子设备执行，从而使所述电子设备实现如上所述的短视频配乐方法。

从上述的技术方案可以看出，本申请公开了一种短视频配乐方法、装置、电子设备和存储介质，该方法和装置应用于电子设备，具体为获取待添加背景音乐的视频材料；提取视频材料的视频特征向量序列；基于音乐生成模型对特征向量序列进行处理，得到音频材料；将视频材料和音频材料进行合成处理，得到包含背景音乐的短视频。本方案中为短视频所配的背景音乐来源于对视频材料的处理，而非现有的音乐素材，其不会有版权存在，也就不会出现版权纠纷。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种短视频配乐方法的流程图；

图2为本申请实施例的一种视频特征向量序列的提取方法的流程图；

图3为本申请实施例的音频生成模型的训练方法的流程图；

图4为本申请实施例的音频生成模型的示意图；

图5为本申请实施例的一种短视频配乐装置的框图；

图6为本申请实施例的另一种短视频配乐装置的框图；

图7为本申请实施例的又一种短视频配乐装置的框图；

图8为本申请实施例的一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例的一种短视频配乐方法的流程图。

如图1所示，本实施例提供的短视频配乐方法应用于电子设备，该电子设备可以理解为具有数据计算和信息处理能力的计算机、服务器或者云平台，该短视频配乐方法包括如下步骤：

S1、获取待添加背景音乐的视频材料。

这里的视频材料是指没有被配乐的原始视频，所谓获取是指将该视频材料输入到上述的电子设备中，以使该电子设备将视频材料存储到相应的存储设备内，如硬盘、磁带或者内存中。

S2、提取视频材料的视频特征向量序列。

所谓序列是指排序的多个元素，因此这里的视频特征向量序列是指从该视频材料中提取的一系列的视频特征向量，如图2所示，本实施例中具体的提取过程如下所述：

S201、将视频材料解析进行解析处理，得到图像帧序列。

即将该视频材料进行解析处理，得到按一定时间顺序排列的多个图像帧，即图像帧序列。

S202、基于图像帧序列提取图像特征向量序列。

即基于每个图像帧进行特征向量提取，得到该视频材料的图像特征向量序列，即按时间排序的多个图像特征向量，每个图像特征向量对应于与其位置对应的图像帧。具体方法为：

将所述图像帧序列输入到图像预训练模型转换为图像特征向量序列：

其中，表示第L帧视频特征向量，L表示图像特征向量序列的长度，由短视频的时长和切分的帧率决定, dv表示图像特征向量的维度。图像预训练模型，例如VGG、ResNet、CLIP等，通过在大规模数据集上进行训练，能够提取图像中有价值的信息，将其转换为图像特征向量。

S203、基于图像帧序列提取文本特征向量序列。

即基于该图像帧序列进行特征提取，得到该视频材料的文本特征向量序列，即按时间排序的多组文本特征向量，每组文本特征向量对应于与其位置对应的图像帧。具体来说通过如下方案实现文本特征向量序列的提取：

首先，从图像帧序列中进行特征文字表述提取，得到文字表述序列。具体方法为：将图像帧序列输入到预先训练的自举多模态模型，它通过在大规模数据上联合学习视觉和语言知识，能有效地将图像帧序列中的每个图像帧转换为对应的文字表述，从而得到该文字表述序列。文字表述序列能反映图像帧序列中的内容或者发生的行为。

然后，从文字表述序列进行特征提取，得到该文本特征向量序列。具体方法为：

将所提取的文字表述序列输入到预先训练的BERT模型，从中提取文本特征向量序列：

该文本特征向量序列需保持和图像特征向量序列相同的序列长度，其中，表示第L帧文本特征向量，L表示文本特征向量的长度，由短视频的时长和切分的帧率决定，dt表示文本特征向量的维度。BERT模型在大规模数据集上充分学习了自然语言文本中的语义信息，能有效地将句子编码为文本特征向量。

S204、将图像特征向量序列和文本特征向量序列进行融合处理。

将所提取的文本特征向量序列和图像特征向量序列在特征维度上进行拼接，得到视频特征向量序列：

其中，表示第L帧视频特征向量，视频特征向量序列长度为L，特征维度dg为图像特征向量的维度dv与文本特征向量的维度dt之和。

S3、对视频特征向量序列进行处理，得到音频材料。

即基于预先训练的音乐生成模型对特征向量序列进行处理，得到与该视频特征向量相匹配的音频材料。

S4、将视频材料和音频材料进行合成得到短视频。

将得到的音频材料和所获取到的视频材料进行合成处理，从而得到包括背景音乐的短视频。

从上述技术方案可以看出，本实施例提供了一种短视频配乐方法，该方法应用于电子设备，具体为获取待添加背景音乐的视频材料；提取视频材料的视频特征向量序列；基于音乐生成模型对特征向量序列进行处理，得到音频材料；将视频材料和音频材料进行合成处理，得到包含背景音乐的短视频。本方案中为短视频所配的背景音乐来源于对视频材料的处理，而非现有的音乐素材，其不会有版权存在，也就不会出现版权纠纷。

另外，本申请还包括如下技术内容，用于生成上述的音乐生成模型，如图3所示，其具体流程如下所述：

S301、获取多个带有背景音乐的短视频样本。

S302、基于短视频样本构建训练样本集。

这里的样本集包括每个短视频样本的背景音乐数据和视频特征向量样本序列。构建的具体方法如下所述：

首先，将每个短视频样本进行背景音乐分离，得到对应于每个短视频样本的背景音乐和其视频数据。

然后，从视频数据中进行特征提取，得到视频数据的视频特征向量样本序列，该视频特征向量样本序列包括相应视频数据的图像特征向量序列和文本特征向量序列。该视频特征向量样本序列的提取过程与本申请中的视频特征向量序列的提取方法相同，这里不再赘述。

最后，执行样本构建，从而得到该训练样本集。

S303、基于训练样本集训练音乐生成模型。

基于上述的训练样本集执行模型训练，从而得到该音乐生成模型。该音乐生成模型由非自回归的编码器模块、量化模块、解码器模块和解量化模块组成，如图4所示。

编码器模块用于对视频特征向量序列Fg进行建模，得到高级的视频语义特征向量序列：

其中，示第L帧视频语义特征向量，视频语义特征向量长度为L，视频语义特征向量的维度为/>。量化模块用于对一维音频信号（即背景音乐）进行初步变换生成音频量化特征向量序列，其由卷积神经网络以及多个码本矩阵组成。其中，卷积神经网络负责将一维音频信号（即背景音乐）转为二维的音频特征向量序列；码本矩阵用于进一步将其转换为量化特征向量序列。通过量化可以减少音频信号中的冗余信息，使音频信号更易于建模。

假设仅维护一个码本矩阵，记为，该矩阵包含N个维度为dc的音频量化特征向量（码本向量）。将卷积神经网络模块输出的音频特征向量序列记为/>,特征向量维度与码本向量维度相同：

其中, 表示第T帧音频特征向量，T代表音频特征向量序列的帧数，由卷积步移和步长所决定。用/>表示第i帧音频特征向量，量化操作会计算码本矩阵中与之最接近的码本向量并进行替换，码本向量索引由下式计算:

其中，ED表示欧式距离，表示第j个码本向量。本申请通过维护多个码本矩阵，采用多级量化的方法，可以进一步降低量化误差。具体而言，对于每一个码本矩阵，计算当前码本输出的码本向量与量化前的音频特征向量之间的误差，用下一个码本来量化该误差，以此类推；

解码器模块用于对量化特征向量序列进行建模，在训练过程中，在音频量化特征向量序列的首尾分别添加了网络可学习的起始帧向量和结束帧向量，然后对添加后的序列进行解码处理，采用并行化推理，以加快训练速度，为了避免音乐生成模型在预测当前帧时使用未来帧的信息，该模型利用掩蔽矩阵屏蔽掉未来帧的信息，从而保证了自回归性质，在训练后的模型推理中可以仅依赖历史信息进行音乐生成。

另外，本申请的音乐生成模型引入了交叉注意力机制将视频的高级语义特征Fu融入到解码过程中，从而生成与视频内容匹配的音乐。本申请将音频量化特征序列通过一个全连接层映射为查询矩阵Q，将Fu分别通过两个全连接层映射为键矩阵K和值矩阵V，接着计算交叉注意力分数矩阵：

其中，T表示矩阵转置操作，表示键矩阵的特征维度，注意力分数矩阵的第i行第j列表示第i帧音频量化特征对第j帧视频高级语义特征的关注度。接着将注意力权重矩阵A与值矩阵/>相乘，得到输出结果。这样，每一帧音频量化特征的生成都充分考虑了视频信息的影响，使得音乐生成模型能够更好地理解视频内容，从而生成更合理的量化特征向量序列。

在音乐生成模型的训练过程中，该模型的解码器输出的每一帧结果都被全连接层映射成n维的概率分布向量，用于预测下一个时刻的音频量化特征对应的码本索引值。

模型训练采用交叉熵损失，单条样本的损失计算公式如下：

其中，T为量化特征向量序列长度，S为码本矩阵数量，N为每个矩阵包含的码本向量的数量，为模型预测第i时刻第s个码本索引值的概率分布向量。/>的取值为0或者1，当第/>时刻第s个码本的真实索引值为n时，/>为1，否则为0；

本申请的解量化模块由反卷积神经网络模块组成，负责将解码器生成的码本索引序列还原为音频信号，即背景音乐。音乐生成模型的量化和解量化模块由预训练的音频压缩模型进行参数初始化，例如Encodec、SoundStream，它们可以有效地从连续的音频采样点中提取有效信息并进行压缩编码。在训练过程中不对这两个模块的参数进行更新，即上述损失仅用于更新编码器模块和解码器的模型参数。

在本申请中生成音频数据的时候，将提取的视频特征向量序列送入训练好的音乐生成模型中的编码器模块，同时，将起始帧向量送入模型的音乐生成模型的解码器模块，接着该模块以自回归形式逐帧生成码本索引序列。最后，将码本索引序列转换为音频量化表征序列，由解量化模块进一步还原为音频信号，即背景音乐。在生成过程中，本申请基于采样的方式为每一步生成下一步的码本索引值。具体而言，根据模型当前步预测的下一个时刻码本索引的概率分布向量，采样一个具体索引作为输出。相较于贪婪解码（每一步都选择最大概率值对应的码本索引），该方法可以有效增加生成结果的多样性和自然性，避免陷入局部最优解和重复性生成的问题。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机。

图5为本申请实施例的一种短视频配乐装置的框图、

如图5所示，本实施例提供的短视频配乐装置应用于电子设备，该电子设备可以理解为具有数据计算和信息处理能力的计算机、服务器或者云平台，该短视频配乐装置具体包括视频获取模块10、特征提取模块20、音频生成模块30和配乐执行模块40。

视频获取模块用于获取待添加背景音乐的视频材料。

特征提取模块用于提取视频材料的视频特征向量序列。

所谓序列是指排序的多个元素，因此这里的视频特征向量序列是指从该视频材料中提取的一系列的视频特征向量，如图6所示，该特征提取模块包括视频解析单元21、第一提取单元22、第二提取单元23和合成处理单元24。

视频解析单元用于将视频材料解析进行解析处理，得到图像帧序列。

第一提取单元用于基于图像帧序列提取图像特征向量序列。

将所述图像帧序列输入到图像预训练模型转换为图像特征向量序列:

其中，表示第L帧视频特征向量，L表示图像特征向量序列的长度，由短视频的时长和切分的帧率决定, />表示图像特征向量的维度。图像预训练模型，例如VGG、ResNet、CLIP等，通过在大规模数据集上进行训练，能够提取图像中有价值的信息，将其转换为图像特征向量。

第二提取单元用于基于图像帧序列提取文本特征向量序列。

合成处理单元用于将图像特征向量序列和文本特征向量序列进行融合处理。

其中，表示第L帧视频特征向量，视频特征向量序列长度为L，特征向量维度/>为图像特征向量的维度/>与文本特征向量的维度dt之和。

音频生成模块用于对视频特征向量序列进行处理，得到音频材料。

配乐执行模块用于将视频材料和音频材料进行合成得到短视频。

从上述技术方案可以看出，本实施例提供了一种短视频配乐装置，该方法应用于电子设备，具体为获取待添加背景音乐的视频材料；提取视频材料的视频特征向量序列；基于音乐生成模型对特征向量序列进行处理，得到音频材料；将视频材料和音频材料进行合成处理，得到包含背景音乐的短视频。本方案中为短视频所配的背景音乐来源于对视频材料的处理，而非现有的音乐素材，其不会有版权存在，也就不会出现版权纠纷。

另外，本申请的短视频配乐装置还包括样本获取模块31、样本集构建模块32和模型训练模块33，用于生成上述的音乐生成模型，如图7所示。

样本获取模块用于获取多个带有背景音乐的短视频样本。

样本集构建模块用于基于短视频样本构建训练样本集。

最后，执行样本构建，从而得到该训练样本集。

模型训练模块用于基于训练样本集训练音乐生成模型。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

图8为本申请实施例的一种电子设备的框图。

下面参考图8所示，其示出了适于用来实现本公开实施例中的电子设备的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。该电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备可以包括处理装置（例如中央处理器、图形处理器等）801，其可以根据存储在只读存储器ROM802中的程序或者从输入装置806加载到随机访问存储器RAM803中的程序而执行各种适当的动作和处理。在RAM中，还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

通常，以下装置可以连接至I/O接口：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

本实施例提供了一种计算机可读的存储介质的实施例，该存储介质应用于电子设备，并承载有一个或者多个计算机程序，当上述一个或者多个接收接收程序被该电子设备执行时，使得该电子设备获取待添加背景音乐的视频材料；提取视频材料的视频特征向量序列；基于音乐生成模型对特征向量序列进行处理，得到音频材料；将视频材料和音频材料进行合成处理，得到包含背景音乐的短视频。本方案中为短视频所配的背景音乐来源于对视频材料的处理，而非现有的音乐素材，其不会有版权存在，也就不会出现版权纠纷。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种短视频配乐方法，应用于电子设备，其特征在于，所述短视频配乐方法包括步骤：

获取待添加背景音乐的视频材料；

提取所述视频材料的视频特征向量序列，所述视频特征向量序列包括图像特征向量序列和文本特征向量序列；

2.如权利要求1所述的短视频配乐方法，其特征在于，所述提取所述视频材料的视频特征向量序列，包括步骤：

将所述视频材料解析为按时间顺序排序的图像帧序列；

提取所述图像帧序列的图像特征向量序列；

提取所述图像帧序列的文本特征向量序列；

3.如权利要求2所述的短视频配乐方法，其特征在于，所述提取所述图像帧序列的文本特征向量序列，包括步骤：

提取所述图像帧序列的文字表述序列；

4.如权利要求1~3任一项所述的短视频配乐方法，其特征在于，所述短视频配乐方法还包括步骤：

获取多个带有背景音乐的短视频样本；

5.如权利要求4所述的短视频配乐方法，其特征在于，所述基于所述短视频样本构建训练样本集，包括步骤：

从每个所述短视频样本中提取出背景音乐数据和视频数据；

执行样本集构建，得到所述训练样本集。

6.如权利要求4所述的短视频配乐方法，其特征在于，所述音乐生成模型包括编码器模块、量化模块、解码器模块和解量化模块。

7.一种短视频配乐装置，应用于电子设备，其特征在于，所述短视频配乐装置包括：

视频获取模块，被配置为获取待添加背景音乐的视频材料；

特征提取模块，被配置为提取所述视频材料的视频特征向量序列，所述视频特征向量序列包括图像特征向量序列和文本特征向量序列；

8.如权利要求7所述的短视频配乐装置，其特征在于，所述短视频配乐装置还包括：

9.一种电子设备，其特征在于，所述电子设备包括至少一个处理器和与所述处理器连接的存储器，其中：

所述存储器用于存储计算机程序或指令；

所述处理器用于执行所述计算机程序或指令，以使所述电子设备实现如权利要求1~6任一项所述的短视频配乐方法。

10.一种存储介质，应用于电子设备，其特征在于，所述存储介质承载有一个或多个计算机程序，所述一个或多个计算机程序能够被所述电子设备执行，从而使所述电子设备实现如权利要求1~6任一项所述的短视频配乐方法。