CN113190709B

CN113190709B - 一种基于短视频关键帧的背景音乐推荐方法和装置

Info

Publication number: CN113190709B
Application number: CN202110348611.5A
Authority: CN
Inventors: 叶雨晴; 张克俊; 唐睿源; 武秋凝
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-12-06
Anticipated expiration: 2041-03-31
Also published as: CN113190709A

Abstract

本发明公开一种基于短视频关键帧的背景音乐推荐方法和装置，包括：获取带有配乐的视频，对视频进行视听分离，并构建视听素材对；利用图像情感分类器和音乐情感分类器筛选视听素材对，以构建用于训练视听关联匹配模型的样本集；基于神经网络构建视听关联匹配模型，采用样本集优化视听关联匹配模型的模型参数；通过优化的关联匹配模型的模型筛选对短视频帧进行背景音乐推荐。本发明公开的方法能够高效、精确的对短视频帧进行背景音乐推荐。

Description

一种基于短视频关键帧的背景音乐推荐方法和装置

技术领域

本发明涉及计算机自动推荐音乐领域，具体涉及一种基于短视频关键帧的背景音乐推荐方法和装置。

背景技术

音乐推荐技术逐渐成为当前音乐信息智能处理领域的热点，而面向视频进行视听关联的音乐推荐，也随着短视频等形式成为行业界和学术界关注的风口。对于当前的短视频平台来说，如何借助人工智能，帮助用户快速地选择视频配乐，使得用户能够完成短视频的高效剪辑，能够较好地改善用户的使用体验。

在学术领域，面向视频的音乐推荐算法正在不断发展。通过从不同的维度进行视觉、听觉上的关联映射，从而实现视听层面的智能匹配，是当前技术发展的主要方向，很多研究者使用统一的语义映射方法，即通过情感、风格等语义标签构建音画两种模态信息之间的桥梁，使两种模态具有在语义上可统一的映射关系。

D.Zeng等人研究了基于情感相似性的多模态音乐视频检索，基于监督深度规范相关分析(S-DCCA)的视听嵌入算法，该算法将音乐和视频投影到共享空间中，以弥补音乐和视频之间的语义鸿沟；Pandeya.Y等人从预训练的神经网络中提取了音乐(2D CNN)和视频特征(C3D)，通过LSTM网络保留时间变化，并使用机器学习算法评估情感；Zhang等人构建了25万对图片-音乐的数据库，通过提取多维图像和音乐特征，构建了一个图像-音乐情感特征数据库，基于情感相似度计算方法实现图像-音乐的自动检索。也有一些研究者使用统一空间映射的方法，即通过神经网络模型，提取画面与音乐特征并嵌入映射到同一个高维特征空间，将画面与音乐特征翻译成相同维度的、可被计算的高级特征，以便于比较两种素材的相对匹配距离：Hong.S等人使用软内模态约束算法，计算音乐和视频在视听空间下的差异距离，并使具有相似语义的视频和音乐最终在嵌入空间中紧密靠近。此外，还有一些研究者希望通过视听的运动情况构建节奏维度的音乐推荐，即为视频选择合适行进节奏的背景音乐：Lin.J等人基于多任务深度神经网络(MDNN)，利用深度连接成本(PDCC)指标实现智能剪辑；Sato.H等人通过替换和级联音乐片段，匹配视频高潮与音乐高能选段等。

以上研究都为本发明提供了技术基础。然而，目前的推荐方案还存在视频无效内容干扰、关联维度少等问题，使得推荐精度较低，仍未达到较好的推荐效果。

发明内容

本发明提供一种基于视频关键帧的背景音乐推荐方法和装置，所述方法和装置能够减少无效视频内容干扰的，高效、精确的为短视频关键帧提供背景音乐。

一种基于短视频关键帧的背景音乐推荐方法，包括：

S1：获取带有配乐的视频，并对所述视频视听分离得到纯视频帧和纯音乐，构建由纯视频帧和纯音乐组成的视听素材对；

S2：基于神经网络构建图像情感分类器和音乐情感分类器，利用图像情感分类器和音乐情感分类器对视听素材对进行情感预测，并根据预测结果筛选视听素材对后，依据情感是否一致构建包含图像和视频的正向对和负向对，以构建用于训练视听关联匹配模型的样本集；

S3:基于神经网络构建视听关联匹配模型，采用样本集优化视听关联匹配模型的模型参数；

S4：针对待推荐背景音乐的短视频帧，选择多段音乐与短视频帧组成多个视听素材对后，分别输入至参数优化后的视听关联匹配模型，经计算获得匹配预测结果，依据匹配预测结果筛选对短视频帧进行背景音乐推荐。

对原始短视频进行视听分离，得到纯视频帧与纯音乐，构建视听素材对，然后利用分类器的情感标签进行筛选，将情感标签不一致的视听素材对剔除，减少无效视频内容的干扰，并且使用这些视听素材构建正负向视听素材对，为神经网络学习提供优质样本；

将构建好的视听素材对输入到所述的神经网络中，构建所述的视听关联匹配模型，通过所述的视听关联匹配模型，能够自动获得视听素材对中的音乐与待推荐背景音乐的短视频帧的匹配分值，精准的提供与所述短视频帧情感匹配的音乐。

步骤S2中，所述的基于神经网络构建图像情感分类器和音乐情感分类器的具体步骤如下：

以音乐情感数据库和图像情感数据库作为样本数据，分别对神经网络进行训练，以优化网络参数，得到用于识别输入音乐和图像为积极情感或消极情感的音乐情感分类器和图像情感分类器。

步骤S2中，所述根据预测结果筛选视听素材对，具体步骤如下：

分别利用所述的图像情感分类器和音乐情感分类器对输入视听素材对进行识别，获得图像的情感分类结果和音乐的情感分类结果后，剔除情感分类结果不一致的视听素材对，并保证视听素材对中积极情感、消极情感数量相当。

通过所述的分类器进一步对视听素材对进行优化，更为准确的获得与情感标签一致的视听素材对，为步骤S3中构建视听关联匹配模型提供更为优质的样本。

步骤S2中，所述的依据情感是否一致构建包含图像和视频的正向对和负向对，具体步骤如下：

依据筛选后的视听素材对构建图像集和音乐集；

利用主成分分析算法，提取图像集中的纯视频帧的特征参数，基于所述特征参数，利用K-均值聚类模型，构建图像组分类簇；

对音乐集中的纯音乐进行短时傅立叶变换，获得频谱信息，基于频谱信息和所述的情感状态，利用主成分分析算法，提取纯音乐的特征参数，基于特征参数，利用K-均值聚类模型，构建音乐分类簇；

基于图像组分类簇和音乐分类簇，所述的纯音乐和纯视频帧根据情感是否一致进行同类匹配或异类匹配，并根据匹配结果，得到由纯视频帧和纯音乐组成的根据分为正向对和负向对。

将筛选后剩余视听素材对中的所有图像作为图像集，将筛选后剩余视听素材对中的所有音乐作为音乐集。

所述的正向对为第一正向对、第二正向对或第三正向对，所述第一正向对为同一视频来源的视听素材对，所述第二正向对为纯音乐M₁与同类纯音乐的纯视频帧P₁组成的视听素材对，所述第三正向对为纯视频帧P₂与同类纯视频帧的纯音乐M₂组成的视听素材对；

所述的负向对为第一负向对或第二负向对，所述第一负向对为纯音乐M₃与异类纯音乐的纯视频帧P₃组成的视听素材对，所述第二负向对为纯视频帧P₄与异类纯视频帧的纯音乐M₄组成的视听素材对。

所述的正向对为音乐和图像在情感上是匹配的，负向对为音乐和图像在情感上是不匹配的，利用上述纯音乐和纯视频帧的正、负向对的匹配方法，较为准确的获得音乐和图像的正、负向匹配关系，较为准确的识别视听素材对中的音乐和图像的情感匹配。

步骤S3中，所述的基于神经网络构建视听关联匹配模型，采用样本集优化视听关联匹配模型的模型参数，具体步骤如下：

以筛选剩下的视听素材对作为样本集输入至视听关联匹配模型，使视听素材对中的图像和音乐学习映射到视听空间的映射关系，得到表示在视听空间中匹配距离的匹配结果，根据该匹配结果与视听素材对的标签值构建损失函数来优化视听关联匹配模型的网络参数。

所述的匹配距离为纯视频帧和纯音乐的正、负向匹配程度，并通过分值来表示，分值越低说明匹配距离越近，纯视频帧和纯音乐正向匹配程度越高；分值越高说明匹配距离越远，纯视频和纯音乐负向匹配程度越高。

通过所述的视听关联模型，能够将所述的纯音乐和所述的纯视频帧的情感远近关系通过匹配分值自动展现出来，为纯视频帧准确提供情感相近的纯音乐，并提高筛选纯音乐的效率。

所述的经计算获得匹配预测结果，依据匹配预测结果筛选对短视频帧进行背景音乐推荐，具体步骤如下：

利用所述的视听关联匹配模型，对所述的待推荐背景音乐的短视频帧与所述的视听素材对中的纯音乐的匹配距离进行匹配，并得出相应分值，按照分值从小到大的顺序，推荐背景音乐。

一种基于短视频关键帧的背景音乐推荐装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中还存储有参数优化后的视听关联匹配模型，所述视听关联匹配模型通过上述基于短视频关键帧的背景音乐推荐方法构建，所述计算机处理器执行计算机程序时实现以下步骤：

获取待推荐背景音乐的短视频帧，选择多段音乐与短视频帧组成多个视听素材对后，分别输入至参数优化后的视听关联匹配模型，经计算获得匹配预测结果，依据匹配预测结果筛选对短视频帧进行背景音乐推荐。

与现有技术相比，本发明的有益效果为：

(1)基于情感状态，通过PCA算法和Kmeans聚类结合，通过分类器筛选，能够高效获得的正、负对，剔除无效的视频内容，并且通过优化视听素材对，为视听关联模型构建提供优质样本，从而能够精准的为用户提供与视频帧情感匹配的背景音乐。

(2)通过所述的视听关联模型，能够针对不同的视频内容推荐相应的背景音乐。所述的关联模型减少短视频创作者手动试听、挑选背景音乐的时间，甚至实现短视频的批量化配乐，从而降低短视频创作过程中配乐选择的时间成本，提高创作者的剪辑效率。

附图说明

图1为本发明方法的整体框架示意图；

图2为本发明方法中视听素材对数据库的实现框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者步骤涵盖出现在该词后面列举的元件或者步骤及其等同，而不排除其他元件或者步骤。

本实施例基于短视频关键帧的背景音乐推荐方法，构建视听关联匹配的神经网络模型，以实现面向短视频的背景音乐自动推荐。该方法可以替代人工配乐，用于推荐配乐列表生成，并可进一步应用于短视频剪辑、图像配乐等。其具体流程如图1所示，基于网络视听数据，建立视频数据库，通过PCA算法和Kmeans聚类算法，分类器筛选，获得正、负向匹配素材对，然后通过神经网络学习，构建视听关联匹配模型；针对待推荐背景音乐的短视频帧，选择多段音乐与短视频帧组成多个视听素材，分别输入至参数优化后的视听关联匹配模型，经计算获得匹配预测结果，依据匹配预测结果筛选对短视频帧进行背景音乐推荐，具体步骤如下：

S1：收集并处理网络中公开、免费的音乐视频数据，得到干净、无干扰的音乐视频，分离得到纯音乐和纯视频帧，基于纯音乐和纯视频帧，获得视听素材对，图2为视听素材对数据库的实现框架图，具体如步骤S2和步骤S3所示；

S2：获得视频计算相邻帧之间画面的亮度变化速率，识别视频的转场点，通过转场点，将纯视频帧分割为各场景，基于各场景的最大差异帧和情感状态分析，得到关键帧，对关键帧进行PCA主成分分析，计算二维主成分特征参数，并使用Kmeans聚类算法，根据肘部法则，得到各个分类簇群。对背景音乐做短时傅立叶变换，得到频谱信息，并进行PCA主成分分析，计算二维主成分特征参数，并使用Kmeans聚类算法，根据肘部发布，得到各个分类簇群。将来自于同一个视频的纯音乐和纯视频帧视为正向对，并根据上述的分类簇群聚类结果，正向对还为纯音乐M₁与同类纯音乐的纯视频帧P₁组成的视听素材对、纯视频帧P₂与同类纯视频帧的纯音乐M₂组成的视听素材对；负向对为纯音乐M₃与异类纯音乐的纯视频帧P₃组成的视听素材对、纯视频帧P₄与异类纯视频帧的纯音乐M₄组成的视听素材对，上述的正向对和负相对构成了视听素材对；

S3：基于公开的图像情感数据库和音乐情感数据库，构建神经网络模型，训练能够识别图像和音乐情感的两个分类器。用两个分类器分别识别视听素材对，剔除情感标签不匹配的视听素材对，并保证视听素材对中积极情感、消极情感数量相当，构建相等数量的正、负向视听素材对，最终组成视听素材对的数据库；

S4：基于视听数据库，构建神经网络模型，训练能够识别纯视频帧和纯音乐匹配度的模型。在此模型的推测结果中，所给出的分值为纯视频帧和纯音乐在同一视听空间下的匹配距离。当纯视频帧和和纯音乐正向匹配时，模型将给出较低分值，代表匹配距离较短；反之，则代表匹配距离较远；

S5：利用视听关联匹配模型，计算用户输入视频关键帧图像与配乐素材库中背景音乐的匹配分值，从而得到分值从小到大排序的背景音乐名称序列，并反馈给用户。

实施例还提供了一种基于短视频关键帧的背景音乐推荐装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中还存储有参数优化后的视听关联匹配模型，所述视听关联匹配模型通过上述基于短视频关键帧的背景音乐推荐方法构建，所述计算机处理器执行计算机程序时实现以下步骤：

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于短视频关键帧的背景音乐推荐方法步骤。

Claims

1.一种基于短视频关键帧的背景音乐推荐方法，包括：

S1：获取带有配乐的视频，并对所述视频视听分离得到纯视频帧和纯音乐，构建由纯视频帧和纯音乐组成的视听素材对；具体步骤为：

（1）：获得视频计算相邻帧之间画面的亮度变化速率，识别视频的转场点，通过转场点，将纯视频帧分割为各场景，基于各场景的最大差异帧和情感状态分析，得到关键帧，对关键帧进行PCA主成分分析，计算二维主成分特征参数，并使用Kmeans聚类算法，根据肘部法则，得到各个分类簇群，对背景音乐做短时傅立叶变换，得到频谱信息，并进行PCA主成分分析，计算二维主成分特征参数，并使用Kmeans聚类算法，根据肘部发布，得到各个分类簇群，将来自于同一个视频的纯音乐和纯视频帧视为正向对，并根据上述的分类簇群聚类结果，正向对还为纯音乐M₁与同类纯音乐的纯视频帧P₁组成的视听素材对、纯视频帧P₂与同类纯视频帧的纯音乐M₂组成的视听素材对；负向对为纯音乐M₃与异类纯音乐的纯视频帧P₃组成的视听素材对、纯视频帧P₄与异类纯视频帧的纯音乐M₄组成的视听素材对，上述的正向对和负相对构成了视听素材对；

（2）：基于公开的图像情感数据库和音乐情感数据库，构建神经网络模型，训练能够识别图像和音乐情感的两个分类器，用两个分类器分别识别视听素材对，剔除情感标签不匹配的视听素材对，并保证视听素材对中积极情感、消极情感数量相当，构建相等数量的正、负向视听素材对，最终组成视听素材对的数据库；S2：基于神经网络构建图像情感分类器和音乐情感分类器，利用图像情感分类器和音乐情感分类器对视听素材对进行情感预测，并根据预测结果筛选视听素材对后，依据情感是否一致构建包含图像和视频的正向对和负向对，以构建用于训练视听关联匹配模型的样本集；S3：基于神经网络构建视听关联匹配模型，采用样本集优化视听关联匹配模型的模型参数；

具体步骤为：

基于视听数据库，构建神经网络模型，训练能够识别纯视频帧和纯音乐匹配度的模型，在此模型的推测结果中，所给出的分值为纯视频帧和纯音乐在同一视听空间下的匹配距离，当纯视频帧和纯音乐正向匹配时，模型将给出较低分值，代表匹配距离较短；反之，则代表匹配距离较远；

2.根据权利要求1所述的基于短视频关键帧的背景音乐推荐方法，其特征在于，步骤S2中，所述的基于神经网络构建图像情感分类器和音乐情感分类器的具体步骤如下：

3.根据权利要求1所述的基于短视频关键帧的背景音乐推荐方法，其特征在于，步骤S3中，所述的基于神经网络构建视听关联匹配模型，采用样本集优化视听关联匹配模型的模型参数，具体步骤如下：

4.根据权利要求1所述的基于短视频关键帧的背景音乐推荐方法，其特征在于，所述依据匹配预测结果筛选对短视频帧进行背景音乐推荐，具体步骤如下：

利用所述的视听关联匹配模型，对所述的待推荐背景音乐的短视频帧与所述的视听素材对中的纯音乐的进行匹配，得出匹配距离及相应分值，按照分值从小到大的顺序，推荐背景音乐。

5.一种基于短视频关键帧的背景音乐推荐装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中还存储有参数优化后的视听关联匹配模型，所述视听关联匹配模型通过权利要求1~4任一项所述的基于短视频关键帧的背景音乐推荐方法构建，所述计算机处理器执行计算机程序时实现以下步骤：