CN110427518A

CN110427518A - 一种短视频音乐推荐方法

Info

Publication number: CN110427518A
Application number: CN201910737570.1A
Authority: CN
Inventors: 孙伟芳
Original assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Current assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-08

Abstract

本发明是短视频音乐推荐方法，包括：一：训练视频分类模型；二：转换音乐为同一个格式，并选择音乐特征组合提取音乐特征，得到音乐库特征集；三：获取音乐的V‑A真值，并根据视频集内容标签为音乐贴标签；四：输入多标签分类算法和情感回归算法进行训练，将待分析音频预处理并提取特征之后，输入上面两个模型中，预测出内容标签和V‑A值；五：模型、内容标签和V‑A值成为短视频音乐推荐系统的后台数据。本发明的优点：集合了待配乐视频类别及用户对音乐的情感需求等多方位功能，可满足多方需求；适用范围广，适用于不同视频和音乐类型，可自行添加音乐库，满足不同用户的性化使用；后台数据和模型可实时训练更新，满足不同时期的流行需求。

Description

一种短视频音乐推荐方法

技术领域

本发明涉及的是一种短视频音乐推荐方法，属于电子信息技术领域。

背景技术

随着通信技术的不断升级，智能设备的不断更新换代，当今世界是短视频横行的世界，人们随处可拍，即时编辑制作，快速上传传播。面对这一现象，也会有更多新的视频制作需求涌现，在视频制作过程中，为视频选择合适的配乐对视频最终的效果以及传播范围影响很大，因此，音乐的选择和推荐是不可缺少的一环。

由于现在的音乐种类繁多，类型也多样，现有技术中的短视频app、短视频制作个人或工作室，在视频配乐方面基本都是依赖于制作者本身的音乐素养和视频制作经验。配乐对于短视频最终的效果影响很大，但专业方面的人才往往很少，且对于大众而言，难度很大，门槛比较高。

发明内容

本发明提出的是一种短视频音乐推荐方法，其目的旨在克服现有技术存在的上述不足，实现有效且简单的根据短视频的内容推荐不同类型的音乐，并且可让用户自由选择不同情绪的音乐。

本发明的技术解决方案：一种短视频音乐推荐方法，该方法包括以下步骤：

第一步：用带内容标签的视频集，训练视频分类模型；

第二步：转换用以训练模型的音乐库中的音乐文件格式为同一个所需要的格式，并选择合适的音乐特征组合，提取出音乐的特征，得到音乐库中每首音乐的特征集；

第三步：获取音乐的V-A真值，并根据第一步中视频集的内容标签为音乐贴标签，得到贴好内容标签的音乐集；

第四步：根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型，将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型，保存这两个模型；将待分析音频库按照第二步预处理并提取特征之后，将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中，预测出内容标签和V-A值，结果表示为(songid、label、Valence、Arousal)。

第五步：由第一～四步所计算出来的模型和第四步预测出的内容标签和V-A值，成为短视频音乐推荐系统的后台和数据，以便用户根据视频内容推荐合适的配乐。

优选的，所述的第一步中带内容标签的视频集由志愿者打分或从网上下载。

优选的，所述的第二步中转换音乐库中的音乐文件格式为22050Hz,16bits,andmono channel PCM WAV，利用Marsyas、MIRToolbox for Matlab、PsySound或openSMILE方法选择合适的音乐特征组合，音乐的特征包括：音乐的音色特征，即MFCC梅尔频率倒谱系数、DWCHs小波系数直方图、SC光谱对比度和SSDs统计频谱描述特征；韵律特征，即节拍、旋律和频率；强度特征，即音高、响度和子带能量。

优选的，所述的第三步中音乐的V-A真值由MTurk网站或者个人组织志愿者进行打分得到，V、A值域为(-1,1)。

优选的，所述的第五步中，短视频音乐推荐系统根据视频内容推荐合适的配乐的方法，包括以下步骤：

1)首先根据V-A值的在Arousal-Valence情感维度空间模型的坐标轴中的分布确定音乐的情感情绪，当Valence>0时，音乐情绪为积极，当Valence<0时，音乐情绪为消极；

2)然后输入待分析短视频到视频分类算法，并进行分析输出得到视频内容标签，内容标签输入短视频音乐推荐系统，选择所需要的音乐情绪，从音乐库输出相应的音乐集。

3)再根据Arousal值对取出的音乐集进行排序，先推荐中间N首音乐，再根据用户自己选择“节奏增强”或者“节奏减弱”推荐所需不同节奏的音乐。

优选的，所述的短视频音乐推荐系统根据视频内容推荐合适的配乐的方法中，用户根据需要导入音乐库，导入的音乐库经过多标签分类算法和情感回归算法预测出对应的V-A值和对应的内容标签，补充短视频音乐推荐系统的后台数据。

本发明的优点：1)此方法集合了待配乐的视频类别以及用户对音乐的情感需求等多方位的功能，可满足用户多方位的需求；

2)此方法适用范围广，适用于不同的视频类型和音乐类型，可通过用户自行添加音乐库，满足不同用户的个性化使用；

3)此方法的后台数据和模型可实时训练更新，可满足不同时期的流行需求；

4)此方法为用户提供了不同层次的情感选择，可满足更多用户的要求。

附图说明

图1是Valence-Arousal的情感维度空间模型示意图。

图2是本发明短视频音乐推荐方法的流程图。

具体实施方式

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

本发明的短视频音乐推荐方法，涉及短视频分类、音乐情感分析和多标签分类三部分理论。

短视频分类是指识别视频内容并进行多类别分类，现有技术中有的通过视频内容识别，有的通过识别视频标题等文字识别进行分类。很多视频的自动分类方法首先对每个视频提取一系列和视频或者文本标题相关的特征，然后通过机器学习算法训练出分类器，在特征和视频类型之间建立对应关系。现有技术中可用的视频自动分类算法有：决策树、支持向量机(SVM)或者神经网络等。

音乐情感分析，基于罗素的情感环，Thayer提出一个Valence-Arousal的情感维度空间模型(图1)。基于此模型，通过回归方法训练识别音乐情感基因模型，得出音乐的情感基因(Valence、Arousal),其中Valence代表了音乐情感的积极与否，Arousal代表了音乐情感的节奏高低。由回归算法得出V-A值，回归算法有SVR、MLR、PLSR、MAPLR、GPR等，识别性能较高的有多元线性回归模型MLR和支持向量回归SVR。

多标签分类：该算法基本上分为两种，一种是将问题转化为传统的分类问题，将多标签多分类问题转化为多个单标签二分类(-1，+1)的子模型,将这些子模的结果进行合并。另一种是调整现有的算法来适应多标签的分类，比如通过调整boost、kNN、SVM等实现多分类，这些调整通常也会用到上面的转换，其中调整kNN实现的多标签分类可以加入先验概率，并能对输出标签排序。常用算法有：ML-kNN等。

实施例

如图2所示，一种短视频音乐推荐方法，包括以下步骤：

第一步：用由志愿者打分或者从网上下载的带内容标签(体育、美食、美妆、搞笑等)的视频集，训练视频分类模型。

第二步：转换用以训练模型的音乐库中的音乐文件格式为所需要的格式(.wav)，转换为同一个音乐格式(22050Hz,16bits,and mono channel PCM WAV)，并利用Marsyas、MIRToolbox for Matlab、PsySound、openSMILE等方法选择合适的音乐特征组合，提取出音乐的特征，得到音乐库中每首音乐的特征集。音乐的特征包括：音乐的音色特征，即MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)、DWCHs(Daubechies小波系数直方图)、SC(光谱对比度)、SSDs(统计频谱描述特征)等；韵律特征，即节拍、旋律、频率等；强度特征，即音高、响度、子带能量等。

第三步：由MTurk网站或者个人组织志愿者进行打分，获取音乐的V-A真值，V、A值域在(-1,1)，并根据第一步中视频集的内容标签(体育、美食、美妆、搞笑等)为音乐贴标签。

第四步：根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型，将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型，保存这两个模型；将待分析音频库按照第二步预处理并提取特征之后，将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中，预测出内容标签和V-A值，结果表示为(songid、label、Valence、Arousal)；

第五步：由第一步、第二步、第三步所计算出来的模型和第四步预测出的音乐集的内容标签和V-A值，成为短视频音乐推荐系统(软件)的后台和数据。

短视频音乐推荐系统根据视频内容推荐音乐的方法，包括以下步骤：

1)首先根据V-A值的在Arousal-Valence的坐标轴中的分布确定音乐的情感情绪(积极与消极)。当Valence>0时，音乐情绪为积极，当Valence<0时，音乐情绪为消极。

2)然后输入待分析短视频到视频分类算法，并进行分析输出视频内容标签，内容标签输入短视频音乐推荐系统，选择所需要的音乐情绪，从音乐库输出相应的音乐集。

另一方面，用户还可以根据需要导入自己喜欢的音乐库，导入的音乐库将经过多标签分类算法和情感回归算法预测出对应的内容标签和V-A值，补充短视频音乐推荐系统的后台数据。

以上所述各部件均为现有技术，本领域技术人员可使用任意可实现其对应功能的型号和现有设计。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种短视频音乐推荐方法，其特征是该方法包括以下步骤：

第一步：用带内容标签的视频集，训练视频分类模型；

第四步：根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型，将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型，保存这两个模型；将待分析音频库按照第二步预处理并提取特征之后，将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中，预测出内容标签和V-A值，结果表示为songid、label、Valence、Arousal；

2.如权利要求1所述的一种短视频音乐推荐方法，其特征是所述的第一步中带内容标签的视频集由志愿者打分或从网上下载。

3.如权利要求1所述的一种短视频音乐推荐方法，其特征是所述的第二步中转换音乐库中的音乐文件格式为22050Hz,16bits,and mono channel PCM WAV，利用Marsyas、MIRToolbox for Matlab、PsySound或openSMILE方法选择合适的音乐特征组合，音乐的特征包括：音乐的音色特征，即MFCC梅尔频率倒谱系数、DWCHs小波系数直方图、SC光谱对比度和SSDs统计频谱描述特征；韵律特征，即节拍、旋律和频率；强度特征，即音高、响度和子带能量。

4.如权利要求1所述的一种短视频音乐推荐方法，其特征是所述的第三步中音乐的V-A真值由MTurk网站或者个人组织志愿者进行打分得到，V、A值域为(-1,1)。

5.如权利要求1-4任一项所述的一种短视频音乐推荐方法，其特征是所述的第五步中，短视频音乐推荐系统根据视频内容推荐合适的配乐的方法，包括以下步骤：

2)然后输入待分析短视频到视频分类算法，并进行分析输出视频内容标签，内容标签输入短视频音乐推荐系统，选择所需要的音乐情绪，从音乐库输出相应的音乐集；

6.如权利要求5所述的一种短视频音乐推荐方法，其特征是所述的短视频音乐推荐系统根据视频内容推荐合适的配乐的方法中，用户根据需要导入音乐库，导入的音乐库经过多标签分类算法和情感回归算法预测出对应的V-A值和对应的内容标签，补充短视频音乐推荐系统的后台数据。