CN113889059A

CN113889059A - 一种基于音视频节奏关系的视频背景音乐自动生成方法

Info

Publication number: CN113889059A
Application number: CN202111121236.7A
Authority: CN
Inventors: 刘偲; 狄尚哲
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-01-04

Abstract

本发明提供了一种基于音视频节奏关系的视频背景音乐自动生成方法，提取输入视频的视觉节奏特征，包括视觉运动速度特征、视觉运动显著性特征和相应的视频帧数；根据预设的视频与音乐间的节奏关系，将输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，包括音符组密度和音符组强度；将转换后的音乐节奏特征，连同用户输入的音乐风与乐器类型输入到深度学习模型中，生成视频背景音乐。本发明可快速为视频自动生成背景音乐，所生成的音乐能够在节奏上与视频配合，能够便利视频剪辑工作者或普通人的视频制作，且获得个性化的视频背景音乐。

Description

一种基于音视频节奏关系的视频背景音乐自动生成方法

技术领域

本发明涉及音乐生成和跨模态技术领域，具体涉及一种基于音视频节奏关系的视频背景音乐自动生成方法。

背景技术

视频背景音乐生成指根据一段视频自动生成背景音乐，现有的相关技术，无法自动为视频生成配乐，只能在音乐库中检索，检索量大且过程繁杂，检索结果无法与视频完美契合，且无法满足用户的个性化需求，且存在侵犯版权的可能性。

因此，如何提供一种基于音视频节奏关系能够自动为视频生成个性化背景音乐的视频背景音乐自动生成方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于音视频节奏关系的视频背景音乐自动生成方法，本发明建立了视频与音乐在节奏上的三种关联关系，并提出一种新的音乐表示形式，根据视频的节奏生成背景音乐。

为了实现上述目的，本发明采用如下技术方案：

一种基于音视频节奏关系的视频背景音乐自动生成方法，包括如下步骤：

获取视频与音乐数据库中的视频节奏特征和音乐节奏特征的统计信息，建立视频节奏特征与音乐节奏特征之间的节奏关系，所述视频节奏特征包括视觉运动速度特征、视觉运动显著性特征和相应的视频帧数，所述音乐节奏特征包括音符组密度、音符组强度，以及相应的音乐小节和节拍数；

根据预设的视频与音乐间的节奏关系，将所述输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，与用户指定的音乐风格和乐器类型一起输入到音乐生成模型中，生成视频背景音乐。

优选的，所述视觉运动速度特征包括若干视频帧的平均光流大小；所述视觉运动显著性特征包括相邻两视频帧的光流在不同方向上的变化量。

优选的，所述音符组强度为音符组所含音符的个数，所述音乐小节的音符组密度为该音乐小节所包含的音符组个数。

优选的，所述视频与音乐间的节奏关系为：

视频第t帧对应音乐的拍数，即

和/或音乐第i拍对应的视频帧数，即

其中，Tempo为每分钟的拍数，FPS为每秒的视频所包含的视频帧数。

所述视频与音乐数据库中视频节奏特征和音乐节奏特征的的统计信息还包括视频节奏特征和音乐节奏特征的分位数。

优选的，将所述输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，具体包括：

建立所述视觉运动速度特征与所述音符组密度关联关系；

建立所述视觉运动显著性特征与所述音符组强度关联关系；

建立输入视频帧数与音乐小节和节拍的分位数转换关系。

优选的，还包括如下步骤：

将音乐小节的音符属性和节奏属性转换为嵌入向量，p_k＝Embedding_k(w_k),k＝1,...,K，其中w_k是第k个属性，Embedding是嵌入向量转换函数，p_k是转换后的第k个嵌入向量，音符属性包括持续时间、音高和乐器类型；节奏属性包括小节开始/拍开始时间、音符组密度和音符组强度；

将嵌入向量联接组合起来，再经过线性变换后，就得到最终的词向量，即

其中W_in为线性变换矩阵，

为维度拼接操作。

优选的，音乐生成模型生成视频背景音乐的步骤包括：

训练音乐生成模型：将音乐中的音符和提取出的音乐节奏特征编码为词向量，将前N-1个词向量作为深度学习模型的输入，预测学习第N个词向量，并进行重复训练，直至符合精度要求；

视频背景音乐生成：将从输入视频中提取的视频节奏特征，根据视频节奏特征与音乐节奏特征之间的节奏关系，转换为音乐节奏特征，然后利用训练好的音乐生成模型生成背景音乐。

经由上述的技术方案可知，与现有技术相比，本发明的有益效果包括：

本发明可以降低视频制作难度，能够为十几秒至几分钟之内的视频自动生成背景音乐，所生成的音乐能够在节奏上与视频配合，包括以下三个方面：

1)音乐激烈程度与视觉运动速度快慢与配合；

2)音乐重音与视觉运动显著性配合；

3)音乐开始与结束与视频开始与结束配合。

本发明能够便利视频剪辑工作者或普通人的视频制作，规避了音乐版权问题，可以广泛应用于影视剪辑、网络直播、社交媒体等行业中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图；

图1为本发明实施例提供的一种基于音视频节奏关系的视频背景音乐自动生成方法的流程图；

图2为本发明实施例提供的一种基于音视频节奏关系的视频背景音乐自动生成方法中音乐小节示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本实施例公开的一种基于音视频节奏关系的视频背景音乐自动生成方法。从输入视频中提取节奏特征，包括视觉运动速度、视觉运动显著性、和相应的关键帧数，将其与用户指定的音乐属性输入到可控音乐生成模块，就能自动为输入的视频生成一段背景音乐。

可控音乐生成模块为存储有本实施例方法的计算机程序指令的非易失性计算机可读存储介质。

用户根据需求输入的音乐属性包括音乐风格属性和乐器类型属性。

本实施例的具体执行过程如下：

S1、获取视频与音乐数据库中的视频节奏特征和音乐节奏特征的统计信息，建立视频节奏特征与音乐节奏特征之间的节奏关系，所述视频节奏特征包括视觉运动速度特征、视觉运动显著性特征和相应的视频帧数，所述音乐节奏特征包括音符组密度、音符组强度，以及相应的音乐小节和节拍数；

S2、根据预设的视频与音乐间的节奏关系，将输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，与用户指定的音乐风格和乐器类型一起输入到音乐生成模型中，生成视频背景音乐。

需要说明的是，节奏指的是事件在时间上的分布，因此首先建立音乐与视频在时间单位上的转换关系。

视频由帧构成，每秒的视频所包含的帧数称为FPS(frame per second)。音乐通常被划分为小节，而小节又被继续等分成拍(如一小节四拍)，每分钟的拍数称为Tempo，控制了音乐的节奏快慢。

在一个实施例中，视频与音乐间的节奏关系为：

视频第t帧对应音乐的拍数，即

和/或音乐第i拍对应的视频帧数，即

其中，Tempo为每分钟的拍数，FPS为每秒的视频所包含的视频帧数。根据上述公式，得到视频帧数对应的音乐小节数和拍数，在音乐生成过程中，将某一帧的视频节奏特征转换为对应小节和拍的音乐节奏特征，控制音乐生成的过程。

音乐和视频在节奏上存在对应关系，当物体快速运动时，我们会期待密集的音符；当画面发生显著变化，如转场时，我们会期待重音出现。音乐与视觉上的节奏统一，能够加强感官上的冲击，并让人获得愉悦感。

基于以上情况，本发明实施例提出了视觉运动速度与音符组密度，视觉运动显著性与音符组强度的关联关系。

在一个实施例中，视觉运动可以用光流描述，它衡量了相邻两帧(f与其后一帧)之间的像素运动

视觉运动速度，为某一段视频的平均光流大小：

视觉运动显著性，为相邻两帧的光流，在不同方向上的综合变化。

在一个实施例中，音乐由音符(用n表示)组成，简单来说，每个音符有开始时间、持续时间、音高、乐器类型和强度五种属性。如图2所示，一个音符组为同时开始发音的一组音符的集合，即N＝{n₁,n₂,...}。音符组的强度为该音符组所含音符的个数，即S_N＝|N|。将音乐按照小节划分，一个小节可能包含多个音符组，即B＝{N₁,N₂,...}，一个小节的音符组密度为该小节所包含的音符组个数，即D_B＝|B|。

在一个实施例中，将输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，具体包括：

建立视觉运动速度特征与音符组密度关联关系；

建立视觉运动显著性特征与音符组强度关联关系；

建立输入视频帧数与音乐小节和节拍的分位数转换关系。

在一个实施例中，将音乐用类似自然语言的方式表示，包含音符属性、节奏属性两种词向量。还包括如下步骤：

其中W_in为线性变换矩阵，

为维度拼接操作。

嵌入向量的连接组合形式可以为串联，如一个音符有持续时间、音高和乐器类型三个属性，把这三个属性转换为嵌入向量后“串联起来”，得到该音符的词向量。

本实施例中，将词向量顺序排列，并加上节拍位置编码，就得到最终的词向量，即深度学习模型的输入。其中，节拍位置编码是指将整首音乐分成100份，即一首音乐有100个音乐小节，按照时间分成100份，每份一个音乐小节。一个音乐小节由多个词向量构成，相同音乐小节内每一份词向量使用相同的位置编码，不同的音乐小节使用不同的节拍位置编码。模型在训练时学习到位置与音乐的关联，在生成时实现音乐的开始/结束与视频的开始/结束的同步，并更好地掌握音乐的结构性。

本领域技术人员可以理解的是，词向量记录了每个音符的属性，利用Muspy软件转换为MIDI文件或音频文件。

本实施例第一步提取音乐库和视频库的节奏特征，然后根据统计信息(分位数)建立音乐与视频的节奏对应关系，分位数为当前视频节奏特征和音乐节奏特征按照各自特征值大小的排序位置，比如视觉运动速度100应该对应于音符组密度10。需要说明的是，输入视频每一帧运动速度排序的前10％，为100，音乐的音符组密度排序的前10％为10，那么当前视觉运动速度是100的视频帧对应于音符组密度是10的音符组。

第二步训练音乐生成模型，将音乐中的音符和提取出的音乐节奏特征编码为词向量，将前N-1个词向量到深度学习模型中，让模型学习准确预测第N个词向量。

第三步视频背景音乐生成，将从输入视频中提取的视频节奏特征，根据第一步得到的音视频节奏关系，转换为音乐节奏特征。然后利用第二步训练好的音乐生成模型生成背景音乐。

以上对本发明所提供的基于音视频节奏关系的视频背景音乐自动生成方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，包括如下步骤：

根据预设的视频与音乐间的节奏关系，将输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，与用户指定的音乐风格和乐器类型一起输入到音乐生成模型中，生成视频背景音乐。

2.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，所述视觉运动速度特征包括若干视频帧的平均光流大小；所述视觉运动显著性特征包括相邻两视频帧的光流在不同方向上的变化量。

3.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，所述音符组强度为音符组所含音符的个数，所述音乐小节的音符组密度为该音乐小节所包含的音符组个数。

4.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，所述视频与音乐间的节奏关系为：

视频第t帧对应音乐的拍数，即

和/或音乐第i拍对应的视频帧数，即

5.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，所述视频与音乐数据库中视频节奏特征和音乐节奏特征的统计信息包括视频节奏特征和音乐节奏特征的分位数；将所述输入视频的视觉节奏特征所在节奏位置自动替换为相应节奏位置的音乐节奏特征，具体包括：

建立所述视觉运动速度特征与所述音符组密度关联关系；

建立所述视觉运动显著性特征与所述音符组强度关联关系；

建立输入视频帧数与音乐小节和节拍的转换关系。

6.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，还包括如下步骤：

其中W_in为线性变换矩阵，

为维度拼接操作。

7.根据权利要求1所述的基于音视频节奏关系的视频背景音乐自动生成方法，其特征在于，所述音乐生成模型生成视频背景音乐的步骤包括：