CN110427518A - 一种短视频音乐推荐方法 - Google Patents

一种短视频音乐推荐方法 Download PDF

Info

Publication number
CN110427518A
CN110427518A CN201910737570.1A CN201910737570A CN110427518A CN 110427518 A CN110427518 A CN 110427518A CN 201910737570 A CN201910737570 A CN 201910737570A CN 110427518 A CN110427518 A CN 110427518A
Authority
CN
China
Prior art keywords
music
video
short video
short
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910737570.1A
Other languages
English (en)
Inventor
孙伟芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Original Assignee
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCTV INTERNATIONAL NETWORKS WUXI Co Ltd filed Critical CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority to CN201910737570.1A priority Critical patent/CN110427518A/zh
Publication of CN110427518A publication Critical patent/CN110427518A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明是短视频音乐推荐方法,包括:一:训练视频分类模型;二:转换音乐为同一个格式,并选择音乐特征组合提取音乐特征,得到音乐库特征集;三:获取音乐的V‑A真值,并根据视频集内容标签为音乐贴标签;四:输入多标签分类算法和情感回归算法进行训练,将待分析音频预处理并提取特征之后,输入上面两个模型中,预测出内容标签和V‑A值;五:模型、内容标签和V‑A值成为短视频音乐推荐系统的后台数据。本发明的优点:集合了待配乐视频类别及用户对音乐的情感需求等多方位功能,可满足多方需求;适用范围广,适用于不同视频和音乐类型,可自行添加音乐库,满足不同用户的性化使用;后台数据和模型可实时训练更新,满足不同时期的流行需求。

Description

一种短视频音乐推荐方法
技术领域
本发明涉及的是一种短视频音乐推荐方法,属于电子信息技术领域。
背景技术
随着通信技术的不断升级,智能设备的不断更新换代,当今世界是短视频横行的世界,人们随处可拍,即时编辑制作,快速上传传播。面对这一现象,也会有更多新的视频制作需求涌现,在视频制作过程中,为视频选择合适的配乐对视频最终的效果以及传播范围影响很大,因此,音乐的选择和推荐是不可缺少的一环。
由于现在的音乐种类繁多,类型也多样,现有技术中的短视频app、短视频制作个人或工作室,在视频配乐方面基本都是依赖于制作者本身的音乐素养和视频制作经验。配乐对于短视频最终的效果影响很大,但专业方面的人才往往很少,且对于大众而言,难度很大,门槛比较高。
发明内容
本发明提出的是一种短视频音乐推荐方法,其目的旨在克服现有技术存在的上述不足,实现有效且简单的根据短视频的内容推荐不同类型的音乐,并且可让用户自由选择不同情绪的音乐。
本发明的技术解决方案:一种短视频音乐推荐方法,该方法包括以下步骤:
第一步:用带内容标签的视频集,训练视频分类模型;
第二步:转换用以训练模型的音乐库中的音乐文件格式为同一个所需要的格式,并选择合适的音乐特征组合,提取出音乐的特征,得到音乐库中每首音乐的特征集;
第三步:获取音乐的V-A真值,并根据第一步中视频集的内容标签为音乐贴标签,得到贴好内容标签的音乐集;
第四步:根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型,将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型,保存这两个模型;将待分析音频库按照第二步预处理并提取特征之后,将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中,预测出内容标签和V-A值,结果表示为(songid、label、Valence、Arousal)。
第五步:由第一~四步所计算出来的模型和第四步预测出的内容标签和V-A值,成为短视频音乐推荐系统的后台和数据,以便用户根据视频内容推荐合适的配乐。
优选的,所述的第一步中带内容标签的视频集由志愿者打分或从网上下载。
优选的,所述的第二步中转换音乐库中的音乐文件格式为22050Hz,16bits,andmono channel PCM WAV,利用Marsyas、MIRToolbox for Matlab、PsySound或openSMILE方法选择合适的音乐特征组合,音乐的特征包括:音乐的音色特征,即MFCC梅尔频率倒谱系数、DWCHs小波系数直方图、SC光谱对比度和SSDs统计频谱描述特征;韵律特征,即节拍、旋律和频率;强度特征,即音高、响度和子带能量。
优选的,所述的第三步中音乐的V-A真值由MTurk网站或者个人组织志愿者进行打分得到,V、A值域为(-1,1)。
优选的,所述的第五步中,短视频音乐推荐系统根据视频内容推荐合适的配乐的方法,包括以下步骤:
1)首先根据V-A值的在Arousal-Valence情感维度空间模型的坐标轴中的分布确定音乐的情感情绪,当Valence>0时,音乐情绪为积极,当Valence<0时,音乐情绪为消极;
2)然后输入待分析短视频到视频分类算法,并进行分析输出得到视频内容标签,内容标签输入短视频音乐推荐系统,选择所需要的音乐情绪,从音乐库输出相应的音乐集。
3)再根据Arousal值对取出的音乐集进行排序,先推荐中间N首音乐,再根据用户自己选择“节奏增强”或者“节奏减弱”推荐所需不同节奏的音乐。
优选的,所述的短视频音乐推荐系统根据视频内容推荐合适的配乐的方法中,用户根据需要导入音乐库,导入的音乐库经过多标签分类算法和情感回归算法预测出对应的V-A值和对应的内容标签,补充短视频音乐推荐系统的后台数据。
本发明的优点:1)此方法集合了待配乐的视频类别以及用户对音乐的情感需求等多方位的功能,可满足用户多方位的需求;
2)此方法适用范围广,适用于不同的视频类型和音乐类型,可通过用户自行添加音乐库,满足不同用户的个性化使用;
3)此方法的后台数据和模型可实时训练更新,可满足不同时期的流行需求;
4)此方法为用户提供了不同层次的情感选择,可满足更多用户的要求。
附图说明
图1是Valence-Arousal的情感维度空间模型示意图。
图2是本发明短视频音乐推荐方法的流程图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
本发明的短视频音乐推荐方法,涉及短视频分类、音乐情感分析和多标签分类三部分理论。
短视频分类是指识别视频内容并进行多类别分类,现有技术中有的通过视频内容识别,有的通过识别视频标题等文字识别进行分类。很多视频的自动分类方法首先对每个视频提取一系列和视频或者文本标题相关的特征,然后通过机器学习算法训练出分类器,在特征和视频类型之间建立对应关系。现有技术中可用的视频自动分类算法有:决策树、支持向量机(SVM)或者神经网络等。
音乐情感分析,基于罗素的情感环,Thayer提出一个Valence-Arousal的情感维度空间模型(图1)。基于此模型,通过回归方法训练识别音乐情感基因模型,得出音乐的情感基因(Valence、Arousal),其中Valence代表了音乐情感的积极与否,Arousal代表了音乐情感的节奏高低。由回归算法得出V-A值,回归算法有SVR、MLR、PLSR、MAPLR、GPR等,识别性能较高的有多元线性回归模型MLR和支持向量回归SVR。
多标签分类:该算法基本上分为两种,一种是将问题转化为传统的分类问题,将多标签多分类问题转化为多个单标签二分类(-1,+1)的子模型,将这些子模的结果进行合并。另一种是调整现有的算法来适应多标签的分类,比如通过调整boost、kNN、SVM等实现多分类,这些调整通常也会用到上面的转换,其中调整kNN实现的多标签分类可以加入先验概率,并能对输出标签排序。常用算法有:ML-kNN等。
实施例
如图2所示,一种短视频音乐推荐方法,包括以下步骤:
第一步:用由志愿者打分或者从网上下载的带内容标签(体育、美食、美妆、搞笑等)的视频集,训练视频分类模型。
第二步:转换用以训练模型的音乐库中的音乐文件格式为所需要的格式(.wav),转换为同一个音乐格式(22050Hz,16bits,and mono channel PCM WAV),并利用Marsyas、MIRToolbox for Matlab、PsySound、openSMILE等方法选择合适的音乐特征组合,提取出音乐的特征,得到音乐库中每首音乐的特征集。音乐的特征包括:音乐的音色特征,即MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)、DWCHs(Daubechies小波系数直方图)、SC(光谱对比度)、SSDs(统计频谱描述特征)等;韵律特征,即节拍、旋律、频率等;强度特征,即音高、响度、子带能量等。
第三步:由MTurk网站或者个人组织志愿者进行打分,获取音乐的V-A真值,V、A值域在(-1,1),并根据第一步中视频集的内容标签(体育、美食、美妆、搞笑等)为音乐贴标签。
第四步:根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型,将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型,保存这两个模型;将待分析音频库按照第二步预处理并提取特征之后,将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中,预测出内容标签和V-A值,结果表示为(songid、label、Valence、Arousal);
第五步:由第一步、第二步、第三步所计算出来的模型和第四步预测出的音乐集的内容标签和V-A值,成为短视频音乐推荐系统(软件)的后台和数据。
短视频音乐推荐系统根据视频内容推荐音乐的方法,包括以下步骤:
1)首先根据V-A值的在Arousal-Valence的坐标轴中的分布确定音乐的情感情绪(积极与消极)。当Valence>0时,音乐情绪为积极,当Valence<0时,音乐情绪为消极。
2)然后输入待分析短视频到视频分类算法,并进行分析输出视频内容标签,内容标签输入短视频音乐推荐系统,选择所需要的音乐情绪,从音乐库输出相应的音乐集。
3)再根据Arousal值对取出的音乐集进行排序,先推荐中间N首音乐,再根据用户自己选择“节奏增强”或者“节奏减弱”推荐所需不同节奏的音乐。
另一方面,用户还可以根据需要导入自己喜欢的音乐库,导入的音乐库将经过多标签分类算法和情感回归算法预测出对应的内容标签和V-A值,补充短视频音乐推荐系统的后台数据。
以上所述各部件均为现有技术,本领域技术人员可使用任意可实现其对应功能的型号和现有设计。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种短视频音乐推荐方法,其特征是该方法包括以下步骤:
第一步:用带内容标签的视频集,训练视频分类模型;
第二步:转换用以训练模型的音乐库中的音乐文件格式为同一个所需要的格式,并选择合适的音乐特征组合,提取出音乐的特征,得到音乐库中每首音乐的特征集;
第三步:获取音乐的V-A真值,并根据第一步中视频集的内容标签为音乐贴标签,得到贴好内容标签的音乐集;
第四步:根据第二步中得到的音乐库特征集和第三步中得到的V-A真值输入情感回归算法训练得到音乐情感预测模型,将第三步中贴好内容标签的音乐集和V-A真值输入多标签分类算法训练得到基于V-A预测内容的模型,保存这两个模型;将待分析音频库按照第二步预处理并提取特征之后,将待分析音频库中每一个音乐文件的特征依次输入上面训练出来的两个模型中,预测出内容标签和V-A值,结果表示为songid、label、Valence、Arousal;
第五步:由第一~四步所计算出来的模型和第四步预测出的内容标签和V-A值,成为短视频音乐推荐系统的后台和数据,以便用户根据视频内容推荐合适的配乐。
2.如权利要求1所述的一种短视频音乐推荐方法,其特征是所述的第一步中带内容标签的视频集由志愿者打分或从网上下载。
3.如权利要求1所述的一种短视频音乐推荐方法,其特征是所述的第二步中转换音乐库中的音乐文件格式为22050Hz,16bits,and mono channel PCM WAV,利用Marsyas、MIRToolbox for Matlab、PsySound或openSMILE方法选择合适的音乐特征组合,音乐的特征包括:音乐的音色特征,即MFCC梅尔频率倒谱系数、DWCHs小波系数直方图、SC光谱对比度和SSDs统计频谱描述特征;韵律特征,即节拍、旋律和频率;强度特征,即音高、响度和子带能量。
4.如权利要求1所述的一种短视频音乐推荐方法,其特征是所述的第三步中音乐的V-A真值由MTurk网站或者个人组织志愿者进行打分得到,V、A值域为(-1,1)。
5.如权利要求1-4任一项所述的一种短视频音乐推荐方法,其特征是所述的第五步中,短视频音乐推荐系统根据视频内容推荐合适的配乐的方法,包括以下步骤:
1)首先根据V-A值的在Arousal-Valence情感维度空间模型的坐标轴中的分布确定音乐的情感情绪,当Valence>0时,音乐情绪为积极,当Valence<0时,音乐情绪为消极;
2)然后输入待分析短视频到视频分类算法,并进行分析输出视频内容标签,内容标签输入短视频音乐推荐系统,选择所需要的音乐情绪,从音乐库输出相应的音乐集;
3)再根据Arousal值对取出的音乐集进行排序,先推荐中间N首音乐,再根据用户自己选择“节奏增强”或者“节奏减弱”推荐所需不同节奏的音乐。
6.如权利要求5所述的一种短视频音乐推荐方法,其特征是所述的短视频音乐推荐系统根据视频内容推荐合适的配乐的方法中,用户根据需要导入音乐库,导入的音乐库经过多标签分类算法和情感回归算法预测出对应的V-A值和对应的内容标签,补充短视频音乐推荐系统的后台数据。
CN201910737570.1A 2019-08-12 2019-08-12 一种短视频音乐推荐方法 Pending CN110427518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910737570.1A CN110427518A (zh) 2019-08-12 2019-08-12 一种短视频音乐推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910737570.1A CN110427518A (zh) 2019-08-12 2019-08-12 一种短视频音乐推荐方法

Publications (1)

Publication Number Publication Date
CN110427518A true CN110427518A (zh) 2019-11-08

Family

ID=68414031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910737570.1A Pending CN110427518A (zh) 2019-08-12 2019-08-12 一种短视频音乐推荐方法

Country Status (1)

Country Link
CN (1) CN110427518A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008287A (zh) * 2019-12-19 2020-04-14 Oppo(重庆)智能科技有限公司 音视频处理方法、装置、服务器及存储介质
CN111314771A (zh) * 2020-03-13 2020-06-19 腾讯科技(深圳)有限公司 一种视频播放方法及相关设备
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
CN112825244A (zh) * 2019-11-21 2021-05-21 阿里巴巴集团控股有限公司 配乐音频生成方法和装置
CN113190709A (zh) * 2021-03-31 2021-07-30 浙江大学 一种基于短视频关键帧的背景音乐推荐方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060122842A1 (en) * 2004-12-03 2006-06-08 Magix Ag System and method of automatically creating an emotional controlled soundtrack
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN109408660A (zh) * 2018-08-31 2019-03-01 安徽四创电子股份有限公司 一种基于音频特征的音乐自动分类的方法
CN109587554A (zh) * 2018-10-29 2019-04-05 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
CN109992677A (zh) * 2019-03-14 2019-07-09 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060122842A1 (en) * 2004-12-03 2006-06-08 Magix Ag System and method of automatically creating an emotional controlled soundtrack
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN107578785A (zh) * 2017-09-05 2018-01-12 哈尔滨工业大学 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN109408660A (zh) * 2018-08-31 2019-03-01 安徽四创电子股份有限公司 一种基于音频特征的音乐自动分类的方法
CN109587554A (zh) * 2018-10-29 2019-04-05 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
CN109992677A (zh) * 2019-03-14 2019-07-09 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112825244A (zh) * 2019-11-21 2021-05-21 阿里巴巴集团控股有限公司 配乐音频生成方法和装置
CN112825244B (zh) * 2019-11-21 2024-04-12 阿里巴巴集团控股有限公司 配乐音频生成方法和装置
CN111008287A (zh) * 2019-12-19 2020-04-14 Oppo(重庆)智能科技有限公司 音视频处理方法、装置、服务器及存储介质
CN111008287B (zh) * 2019-12-19 2023-08-04 Oppo(重庆)智能科技有限公司 音视频处理方法、装置、服务器及存储介质
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
CN111314771A (zh) * 2020-03-13 2020-06-19 腾讯科技(深圳)有限公司 一种视频播放方法及相关设备
CN111314771B (zh) * 2020-03-13 2021-08-27 腾讯科技(深圳)有限公司 一种视频播放方法及相关设备
CN113190709A (zh) * 2021-03-31 2021-07-30 浙江大学 一种基于短视频关键帧的背景音乐推荐方法和装置

Similar Documents

Publication Publication Date Title
CN110427518A (zh) 一种短视频音乐推荐方法
Nam et al. Deep learning for audio-based music classification and tagging: Teaching computers to distinguish rock from bach
Murthy et al. Content-based music information retrieval (cb-mir) and its applications toward the music industry: A review
Kaminskas et al. Location-aware music recommendation using auto-tagging and hybrid matching
Schuller et al. Determination of nonprototypical valence and arousal in popular music: features and performances
CN108806656A (zh) 歌曲的自动生成
US11669296B2 (en) Computerized systems and methods for hosting and dynamically generating and providing customized media and media experiences
CN108806655A (zh) 歌曲的自动生成
CN111611431A (zh) 一种基于深度学习的音乐分类方法
CN101409070A (zh) 基于运动图像解析的音乐重构方法
Nakano et al. Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity
Liebman et al. Artificial musical intelligence: A survey
CN113813609A (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
Sarin et al. SentiSpotMusic: a music recommendation system based on sentiment analysis
Lee et al. Korean traditional music genre classification using sample and MIDI phrases
Juthi et al. Music emotion recognition with the extraction of audio features using machine learning approaches
Schindler Multi-modal music information retrieval: augmenting audio-analysis with visual computing for improved music video analysis
CN110134823B (zh) 基于归一化音符显马尔可夫模型的midi音乐流派分类方法
Zhang Research on music classification technology based on deep learning
EP3996085A1 (en) Relations between music items
Widmer et al. From sound to” sense” via feature extraction and machine learning: Deriving high-level descriptors for characterising music
Chen Design of deep learning network model for personalized music emotional recommendation
Luo Machine Learning Approach for Genre Prediction on Spotify Top Ranking Songs
CN114756734B (zh) 基于机器学习的乐曲分段情感标注系统及方法
Roopa et al. Customized Music Classification and Recommendation System Based on Classifiers of Neural Networks and Sensor Embedded on Smart Devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108