CN113220929B - 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 - Google Patents
一种基于时间驻留与状态驻留混合模型的音乐推荐方法 Download PDFInfo
- Publication number
- CN113220929B CN113220929B CN202110368942.5A CN202110368942A CN113220929B CN 113220929 B CN113220929 B CN 113220929B CN 202110368942 A CN202110368942 A CN 202110368942A CN 113220929 B CN113220929 B CN 113220929B
- Authority
- CN
- China
- Prior art keywords
- music
- user
- model
- list
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 230000006399 behavior Effects 0.000 claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 3
- 238000000354 decomposition reaction Methods 0.000 abstract description 2
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时间驻留与状态驻留混合模型的音乐推荐方法,将传统隐马尔可夫模型的五元素扩展为七元素,在用户与音乐交互的行为信息中计算并预测下一时刻用户可能感兴趣的音乐,构成用户偏好列表。利用SVD矩阵分解算法从用户评分矩阵中提取用户偏好向量,同时利用卷积神经网络挖掘歌曲音频信号的潜在特征结合embedding层融入长短期记忆人工神经网络LSTM提取出歌曲标签特征,得到的音乐潜在特征向量与用户偏好向量进行训练,将二者一同训练得到候选列表。最后利用评级函数将两个列表重新排序,得到多样化最优推荐列表。本发明不仅提高了推荐的准确性,有效地解决信息过载,同时缓解了推荐系统中存在的冷启动等问题,提高了推荐的多样性与鲁棒性。
Description
技术领域
本发明属于音乐推荐的技术领域,尤其涉及一种基于时间驻留与状态驻留混合模型的音乐推荐方法。
背景技术
传统推荐方法的主要任务就是提高推荐的准确性,却忽略了对推荐效果的多样性与鲁棒性的考量,而音乐推荐系统大部分的研究与扩展,主要关注于提高推荐的准确性,解决用户数据稀疏与冷启动问题。推荐系统的准确性是判断单首音乐是否预测准确,随着时间的推移,用户可能会对推荐的音乐列表失去兴趣,推荐多样化可以提升用户对推荐列表的满意度。近些年也有很多对推荐多样性进行研究的文章,例如Max Chevalier等人在2016年发表的文章中考虑到用户的浏览信息,提出了一个基于推荐多样性的模型,由此产生推荐多样性列表。Anupriya Gogna等人在2017年发表的文章中设计了两段式方法来提升系统的多样性,第一阶段预测用户矩阵评分,第二阶段在协同过滤的矩阵分解模型中加入多样性约束,对推荐结果进行排序。Ranran Wang等人在2020年发表的文章中利用与环境因素关联的文本数据生成多样化推荐列表。Cai Nicolas Ziegler等人在2005年发表的国际会议中提出主题多样化,用来平衡多样化与准确性。由于推荐系统自身数据的开放性,使其容易受到恶意攻击,如何有效识别并防御攻击成为了推荐系统研究的一个重要环节。MobasherB等人在2007年发表的文章中提到他们研究了一种新的基于分类的方法帮助推荐系统检测攻击并评估防御效果。Bhaskar Mehta等人在2007年发表的文章中提出了一个基于鲁棒性的协同过滤模型,无需任何检测就可以保护推荐系统免受外界攻击。Zunping Cheng等人在2010年发表的文章中提出了基于最小二乘的LTSMF模型来帮助提高推荐系统的鲁棒性。但是近些年没有出现研究的推荐系统既能提高推荐多样性有能提高推荐系统鲁棒性。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于时间驻留与状态驻留混合模型的音乐推荐方法,考虑到音乐播放时间与播放次数得到用户偏好列表,使推荐更加准确,能得到多样化最优推荐列表,提高推荐的多样性,提高了推荐系统的防御攻击能力,增强了鲁棒性。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明提供的基于时间驻留与状态驻留混合模型的音乐推荐方法,包括以下步骤:
步骤一、收集音乐音频、用户的历史收听记录、评分信息、歌曲的标签集合、音乐的播放次数和播放时间。将音频信号进行降噪、预加重、分帧加窗处理,将音乐资源文件进行预处理,得到规整数据格式的csv数据集;
步骤二、搭建卷积神经网络模型,对卷积网络模型结构及调优训练相关的参数进行对比选择,利用音频提取方法提取出能够代表音乐音频特征的梅尔频谱图;
步骤三、利用embedding层结合LSTM网络模型对音乐标签进行处理;
步骤四、在全连接层融合音频特征向量与歌曲标签特征向量,将最后得到的音乐特征向量作为模型的输出,获得能够预测出音乐潜在因子特征的CNN回归模型;
步骤五、从不断地训练与学习的用户评分矩阵中提取用户偏好向量与已获得的音乐的潜在特征做内积得出候选列表;
步骤六、基于用户行为的显性反馈,融入用户对音乐交互的历史行为信息,基于改进的隐马尔可夫模型加入历史收听歌曲的播放时间、播放次数根据统一的量化标准计算并预测下一时刻用户可能感兴趣的音乐,组成用户偏好列表;
步骤七、将候选列表进行排序与用户偏好列表进行重新排序,衡量歌曲的相似性,最终得出多样化最优列表。将强关联性的音乐推荐给相关用户,满足用户的个性化需求。
优选的,步骤一中收集音乐资源文件以及音乐资源文件的预处理为:
首先从last.fm音乐数据库提取的音乐音频信息、歌曲标签信息、用户评分信息以及音乐其他信息。对从音乐数据库中提取的音乐进行相应的数据预处理。清洗掉所有未对歌曲评分的用户和没有用户评分的歌曲,同时过滤重复的歌曲标签,这些标签描述了音乐的不同特征以及用户对于每个音乐的情绪,不同的标签所能表示的音乐内容不同。利用数据处理软件DataCrack对数据库进行信息统计。
进一步的,步骤二中搭建卷积神经网络模型,利用音频提取方法提取出能够代表音乐音频特征的梅尔频谱图为:
短时傅里叶变换通过对非平稳音信号wav格式的音频转换处理,以时间窗内的特征表示某一时刻信号的特征,将做傅里叶变换的每一帧音频,不断堆叠起来得到一幅二维信号图--线性声谱图。由于声谱图包含信息较为庞大,需要通过一组梅尔滤波器进行降维。本文中梅尔滤波器组设置m个滤波器,引入Mel刻度,使音频频率与和Mel频率进行转换。对于傅里叶变换(FFT)得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在该滤波器对应频段的能量值,得到了128维的梅尔频谱向量,最后得到梅尔频谱图;
进一步的,步骤三中利用embedding层结合LSTM网络模型对音乐标签进行处理为:
首先提取音乐标签中所有的单词,按其出现的次数降序,把音乐标签中的单词使用词向量来表示,为其设置编号,每个编号ID使用one-hot表示,每一个单词都会被替换为用于查找嵌入矩阵中向量的索引。即将分类变量表示为二进制词向量,最后产生一个嵌入矩阵M,将它进行初始化;将标签特征向量通过LSTM进行学习,LSTM使用了三个门,分别是输入门(intput gate)、遗忘门(forget gate)和输出门(output gate),它们的作用是控制LSTM单元的记忆状态,将上述得到的初始化嵌入矩阵用神经网络LSTM来训练,利用矩阵乘法的原理进行降维。
进一步的,步骤四中将音频特征提取部分和Embedding部分得到的标签特征通过两个全连接层进行特征融合与选择,输出模型回归预测的音乐潜在信息。
进一步的,步骤五中从不断地训练与学习的用户评分矩阵中提取用户偏好向量与已获得的音乐的潜在特征做内积得出候选列表为:
利用卷积神经网络模型为用户推荐其可能感兴趣的音乐,预测出音乐的潜在因子向量vec,将其与用户偏好向量做内积训练拟合得出用户对音乐的兴趣得分,然后将其降序排序,选排名靠前的音乐组成候选列表L={l1,l2,...lm}。
进一步的,步骤六中基于改进的隐马尔可夫模型加入历史收听歌曲的播放时间、播放次数根据统一的量化标准计算并预测下一时刻用户可能感兴趣的音乐,组成用户偏好列表为:
改进的隐马尔可夫模型在原有的5个元素的基础上,加入用户收听歌曲的时间驻留与状态驻留元素。系统对于用户的兴趣是未知的,将用户对歌曲的操作行为设定为可观测的,操作行为分为:收听、评论、收藏。被操作的音乐ID即为观测值,它的权重暂时不被考虑。对于每一个用户的历史收听歌曲ID,找到它的所有候选序列也就是观测序列,,针对每个候选序列计算观测概率、估算状态转移概率,重复上述过程,最后利用维特比算法求解概率最大序列。
将改进的HMM模型参数表示为λ=[R,U,A,B,π,d,f],根据目标用户在T时刻进行过操作的长度为j的音乐观测序列U={u1,u2,...uj}将状态序列R={r1,r2,...rj}看做是不可观测到的隐藏数据,Q是所有可能的操作状态变量集合,V是所有可能的观测变量的集合,每个状态生成一个观测,而由此产生观测序列。状态序列R看做是不可观测到的隐藏数据,是用户对歌曲操作的序列集合;观测序列U表示用户对歌曲有过操作行为的歌曲ID集合即用户可能感兴趣的歌曲;序列的每个位置又可以看作是一个时刻。A为状态转移概率,表示用户从一个状态转移到另一个状态的概率;B为观测概率,π表示初始的概率状态分布,在初始时刻各个状态出现的概率;d表示一个用户对某个歌曲进行收听行为的持续时间,用户在前一首歌曲的驻留时间dt-1;f表示用户播放歌曲的概率,上一首歌曲的驻留频率表示为ft-1;随着用户收听歌曲的ID发生变化,驻留时间d重新置0。针对每个候选序列计算观测概率;估算状态转移概率;利用维特比算法求解概率最大序列;估计HMM模型的参数,利用这些潜在状态预测用户将下一时刻收听的歌曲。主要步骤如下:
t+1时刻,t∈[1,T],处于隐藏状态j的联合前向概率:
计算联合概率:
求解P(v|λ):
在t时刻用户对歌曲ut不可观测的操作行为为rt及在此状态的歌曲播放时间为d,播放次数为f并且在t+1时刻对歌曲的隐操作行为为rt+1的条件概率为γt(i,j,d,f),求最大状态序列R。
假设用户在t时刻对歌曲ut的操作行为为rt及驻留在此状态的时间为d,播放次数为f的概率公式如下:
改进的隐马尔可夫模型参数重组如下:
初始概率分布:
π^=ξ1(i,1,1)i=1,2,...,N (6)
改进的状态转移矩阵:
改进的观测矩阵:
通过上述可以得到改进的隐马尔可夫模型,基于用户行为的显性反馈,融入用户对音乐交互的历史收听信息,计算下一时刻用户可能要收听的音乐vt+1和用户对音乐所进行的操作ri,使P(U|λ^)最大。对于改进的隐马尔可夫模型,利用评级函数ri计算并预测下一时刻用户可能感兴趣的音乐,最后生成用户偏好列表η={η1,η2,...ηn},n表示歌曲数目。
进一步的,步骤七中将候选列表进行排序与用户偏好列表进行重新排序,衡量歌曲的相似性,最终得出多样化最优列表为:
利用卷积神经网络模型为用户推荐其可能感兴趣的音乐,预测出音乐的潜在因子向量,将其与用户偏好向量逐个元素做内积训练拟合,然后将向量映射到输出层得出用户对音乐的兴趣得分,然后将其降序排序,选排名靠前的15首音乐组成候选列表L={l1,l2,...lm},m=15表示歌曲数目。利用两个排名函数DENSE_RANK()对所得出的两个列表的元素进行重新排序,即把两个列表中的某些音乐根据既定的标准排列其兴趣得分,根据用户反馈的音乐数据进行训练,出现相同ID的音乐只在最后列表中保留一个且不留空格。出现在不同列表中的音乐受到用户的喜爱,因为满足多个青睐,所以更容易被用户感兴趣。最后将其结果进行汇总,得出音乐列表D={d1,d2,d3,...dp},p为音乐列表长度。将强关联性的音乐推荐给相关用户,满足用户的个性化需求,大幅度提高用户的满意程度。
由上,本发明设计了一种融合改进的隐马尔可夫与卷积神经网络的混合推荐模型(DF-HMMCNN),将传统隐马尔可夫模型的五元素扩展为七元素,在用户与音乐交互的行为信息中计算并预测下一时刻用户可能感兴趣的音乐,构成用户偏好列表。利用SVD矩阵分解算法从用户评分矩阵中提取用户偏好向量,同时利用卷积神经网络挖掘歌曲音频信号的潜在特征结合embedding层融入长短期记忆人工神经网络LSTM提取出歌曲标签特征,得到的音乐潜在特征向量与用户偏好向量进行训练,将二者一同训练得到候选列表。最后利用评级函数将两个列表重新排序,得到多样化最优推荐列表,提高推荐效果的多样性与鲁棒性。
本发明的基于时间驻留与状态驻留混合模型的音乐推荐方法至少具有如下有益效果:
1、在隐马尔可夫模型原有的五大元素基础上加入时间驻留与状态驻留元素,考虑到音乐播放时间与播放次数得到用户偏好列表,使推荐更加准确。
2、提出一种融合改进的隐马尔可夫与卷积神经网络的混合推荐模型,深入挖掘歌曲音频信号、歌曲标签的潜在特征,将其与从用户评分矩阵中提取用户偏好向量一同训练得到候选列表,最后利用评级函数将两个列表重新排序,得到多样化最优推荐列表,提高推荐的多样性
3、本发明的推荐模型提高了推荐系统的防御攻击能力,增强了鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的个性化音乐模型结构图;
图2为本发明的个性化音乐推荐流程图;
图3为卷积神经网络提取特征结构图;
图4为卷积神经网络音频提取结构示意图;
图5为Embedding层提取音乐标签结构图;
图6为LSTM神经网络图;
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1至图6所示,本发明的基于时间驻留与状态驻留混合模型的音乐推荐方法,包括以下步骤:
步骤一、收集音乐音频、用户的历史收听记录、评分信息、歌曲的标签集合、音乐的播放次数和播放时间,将音频信号进行降噪、预加重、分帧加窗处理,将音乐资源文件进行预处理,得到规整数据格式的csv数据集;
步骤二、搭建卷积神经网络模型,对卷积网络模型结构及调优训练相关的参数进行对比选择,利用音频提取方法提取出能够代表音乐音频特征的梅尔频谱图;
步骤三、利用embedding层结合LSTM网络模型对音乐标签进行处理;
步骤四、在全连接层融合音频特征向量与歌曲标签特征向量,将最后得到的音乐特征向量作为模型的输出,获得能够预测出音乐潜在因子特征的CNN回归模型;
步骤五、从不断地训练与学习的用户评分矩阵中提取用户偏好向量与已获得的音乐的潜在特征做内积得出候选列表;
步骤六、基于用户行为的显性反馈,融入用户对音乐交互的历史行为信息,基于改进的隐马尔可夫模型加入历史收听歌曲的播放时间、播放次数根据统一的量化标准计算并预测下一时刻用户可能感兴趣的音乐,组成用户偏好列表;
步骤七、将候选列表进行排序与用户偏好列表进行重新排序,衡量歌曲的相似性,最终得出多样化最优列表,将强关联性的音乐推荐给相关用户,满足用户的个性化需求。
数据预处理:
本发明使用的数据集是从last.fm音乐数据库提取的音乐音频信息、歌曲标签信息、用户评分信息以及音乐其他信息。对从音乐数据库中提取的音乐进行相应的数据预处理。清洗掉所有未对歌曲评分的用户和没有用户评分的歌曲,同时过滤重复的歌曲标签,这些标签描述了音乐的不同特征以及用户对于每个音乐的情绪,不同的标签所能表示的音乐内容不同。利用数据处理软件DataCrack对数据库进行信息统计。为了能够更好的评估模型的性能,减小实验对结果的误差,尽可能保证覆盖多数歌曲的种类,必须选取足够大的音乐数据库,而且基于隐马尔可夫模型中用户下一时刻的行为操作只与上一时刻的用为操作有关这一特性,last.fm音乐数据库是很好的选择。
融合改进的隐马尔科夫与卷积神经网络混合模型
改进的隐马尔可夫模型在原有的5个元素的基础上,加入用户收听歌曲的时间驻留与状态驻留元素。系统对于用户的兴趣是未知的,将用户对歌曲的操作行为设定为可观测的,操作行为分为:收听、评论、收藏。被操作的音乐ID即为观测值,它的权重暂时不被考虑。对于每一个用户的历史收听歌曲ID,找到它的所有候选序列也就是观测序列,针对每个候选序列计算观测概率、估算状态转移概率,重复上述过程,最后利用维特比算法求解概率最大序列。
将改进的HMM模型参数表示为λ=[R,U,A,B,π,d,f],根据目标用户在T时刻进行过操作的长度为j的音乐观测序列U={u1,u2,...uj}将状态序列R={r1,r2,...rj}看做是不可观测到的隐藏数据,Q是所有可能的操作状态变量集合,V是所有可能的观测变量的集合,每个状态生成一个观测,而由此产生观测序列。状态序列R看做是不可观测到的隐藏数据,是用户对歌曲操作的序列集合;观测序列U表示用户对歌曲有过操作行为的歌曲ID集合即用户可能感兴趣的歌曲;序列的每个位置又可以看作是一个时刻。A为状态转移概率,表示用户从一个状态转移到另一个状态的概率;B为观测概率,π表示初始的概率状态分布,在初始时刻各个状态出现的概率;d表示一个用户对某个歌曲进行收听行为的持续时间,用户在前一首歌曲的驻留时间dt-1;f表示用户播放歌曲的概率,上一首歌曲的驻留频率表示为ft-1;随着用户收听歌曲的ID发生变化,驻留时间d重新置0。
针对每个候选序列计算观测概率;估算状态转移概率;利用维特比算法求解概率最大序列;估计HMM模型的参数,利用这些潜在状态预测用户将下一时刻收听的歌曲。主要步骤如下:
1)t+1时刻,t∈[1,T],处于隐藏状态j的联合前向概率:
2)计算联合概率:
3)求解P(v|λ):
在t时刻用户对歌曲ut不可观测的操作行为为rt及在此状态的歌曲播放时间为d,播放次数为f并且在t+1时刻对歌曲的隐操作行为为rt+1的条件概率为γt(i,j,d,f),求最大状态序列R。
假设用户在t时刻对歌曲ut的操作行为为rt及驻留在此状态的时间为d,播放次数为f的概率公式如下:
改进的隐马尔可夫模型参数重组如下:
初始概率分布:
π^=ξ1(i,1,1)i=1,2,...,N
改进的状态转移矩阵:
改进的观测矩阵:
通过上述可以得到最优隐马尔可夫模型根据模型结合用户对音乐的历史收听信息,计算下一时刻用户可能要收听的音乐vt+1和用户对音乐所进行的操作ri,使P(U|λ^)最大,最后生成推荐列表η。
本发明所介绍的CNN网络结构捕获更高层的音频特征,利用embedding层结合LSTM网络模型对音乐标签进行处理,在全连接层实现在音频声学信号与歌曲标签中学习到的音乐潜在特征的融合,最后将获得的音乐特征向量作为模型的输出,获得能够预测出音乐潜在因子特征的CNN回归模型。
从音频帧入手进行时频分析,对非平稳音信号wav格式的音频数据通过短时傅里叶进行时频转换处理,得到线性声谱图,再经由梅尔滤波器组对声谱图降维得到梅尔能量谱,进一步处理得到MFCC。短时傅里叶变换通过对非平稳音信号时频转换处理,以时间窗内的特征表示某一时刻信号的特征,将做傅里叶变换的每一帧音频,不断堆叠起来得到一幅二维信号图--声谱图。由于声谱图包含信息较为庞大,需要通过一组梅尔滤波器进行降维,本发明中梅尔滤波器组设置m个滤波器,下面引入Mel刻度,它的目的是模拟人耳对声音的非线性感知,在较低的频率下更具辨别力,之后进行音频频率与和Mel频率之间的转换。对于傅里叶变换得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在该滤波器对应频段的能量值,得到了梅尔频谱向量,最后得到梅尔频谱图。
首先提取音乐标签中所有的单词,按其出现的次数降序,把音乐标签中的单词使用词向量来表示,为其设置编号,每个编号ID使用one-hot表示,每一个单词都会被替换为用于查找嵌入矩阵中向量的索引。即将分类变量表示为二进制词向量,最后产生一个嵌入矩阵M,我们将它进行初始化,然后使用神经网络来训练这个权重矩阵,利用矩阵乘法的原理进行降维。
多样性最优推荐列表
利用卷积神经网络模型为用户推荐其可能感兴趣的音乐,预测出音乐的潜在因子向量vec,将其与用户偏好向量做内积训练拟合得出用户对音乐的兴趣得分,然后将其降序排序,选排名靠前的音乐组成候选列表L={l1,l2,...lm},m表示歌曲数目。利用两个排名函数DENSE_RANK()对所得出的两个列表的元素进行重新排序,出现相同ID的音乐只在最后列表中保留一个且不留空格。出现在不同列表中的音乐受到用户的喜爱,因为满足多个青睐,所以更容易被用户感兴趣。最后将其结果进行汇总,得出音乐列表D={d1,d2,d3,...dp},p为音乐列表长度。最后得出多样化最优列表,将强关联性的音乐推荐给相关用户,满足用户的个性化需求,大幅度提高用户的满意程度。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (7)
1.一种基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,包括以下步骤:
步骤一、收集音乐音频、用户的历史收听记录、评分信息、歌曲的标签集合、音乐的播放次数和播放时间,将音频信号进行降噪、预加重、分帧加窗处理,将音乐资源文件进行预处理,得到规整数据格式的csv数据集;
步骤二、搭建卷积神经网络模型,对卷积网络模型结构及调优训练相关的参数进行对比选择,利用音频提取方法提取出能够代表音乐音频特征的梅尔频谱图;
步骤三、利用embedding层结合LSTM网络模型对音乐标签进行处理;
步骤四、在全连接层融合音频特征向量与歌曲标签特征向量,将最后得到的音乐特征向量作为模型的输出,获得能够预测出音乐潜在因子特征的CNN回归模型;
步骤五、从不断地训练与学习的用户评分矩阵中提取用户偏好向量与已获得的音乐的潜在特征做内积得出候选列表;
步骤六、基于用户行为的显性反馈,融入用户对音乐交互的历史行为信息,基于改进的隐马尔可夫模型加入历史收听歌曲的播放时间、播放次数根据统一的量化标准计算并预测下一时刻用户可能感兴趣的音乐,组成用户偏好列表;
步骤七、将候选列表进行排序与用户偏好列表进行重新排序,衡量歌曲的相似性,最终得出多样化最优列表,将强关联性的音乐推荐给相关用户,满足用户的个性化需求;
改进的隐马尔可夫模型参数重组如下:
初始概率分布:
π^=ξ1(i,1,1)i=1,2,...,N
改进的状态转移矩阵:
改进的观测矩阵:
通过上述得到改进的隐马尔可夫模型。
2.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤一中收集音乐资源文件以及音乐资源文件的预处理为:
首先从last.fm音乐数据库提取的音乐音频信息、歌曲标签信息、用户评分信息以及音乐其他信息,对从音乐数据库中提取的音乐进行相应的数据预处理,清洗掉所有未对歌曲评分的用户和没有用户评分的歌曲,同时过滤重复的歌曲标签,这些标签描述了音乐的不同特征以及用户对于每个音乐的情绪,不同的标签所能表示的音乐内容不同,利用数据处理软件DataCrack对数据库进行信息统计。
3.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤二中搭建卷积神经网络模型,利用音频提取方法提取出能够代表音乐音频特征的梅尔频谱图为:
短时傅里叶变换通过对非平稳音信号wav格式的音频转换处理,以时间窗内的特征表示某一时刻信号的特征,将做傅里叶变换的每一帧音频,不断堆叠起来得到一幅二维信号图--线性声谱图。
4.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤三中利用embedding层结合LSTM网络模型对音乐标签进行处理为:
首先提取音乐标签中所有的单词,按其出现的次数降序,把音乐标签中的单词使用词向量来表示,为其设置编号,每个编号ID使用one-hot表示,每一个单词都会被替换为用于查找嵌入矩阵中向量的索引;即将分类变量表示为二进制词向量,最后产生一个嵌入矩阵M,将它进行初始化;将标签特征向量通过LSTM进行学习,LSTM使用了三个门,分别是输入门、遗忘门和输出门,将上述得到的初始化嵌入矩阵用神经网络LSTM来训练,利用矩阵乘法的原理进行降维。
5.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤四中将音频特征提取部分和Embedding部分得到的标签特征通过两个全连接层进行特征融合与选择,输出模型回归预测的音乐潜在信息。
6.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤五中从不断地训练与学习的用户评分矩阵中提取用户偏好向量与已获得的音乐的潜在特征做内积得出候选列表为:
利用卷积神经网络模型为用户推荐其可能感兴趣的音乐,预测出音乐的潜在因子向量vec,将其与用户偏好向量做内积训练拟合得出用户对音乐的兴趣得分,然后将其降序排序,选排名靠前的音乐组成候选列表L={l1,l2,...lm}。
7.如权利要求1所述的基于时间驻留与状态驻留混合模型的音乐推荐方法,其特征在于,步骤七中将候选列表进行排序与用户偏好列表进行重新排序,衡量歌曲的相似性,最终得出多样化最优列表为:
利用卷积神经网络模型为用户推荐其可能感兴趣的音乐,预测出音乐的潜在因子向量,将其与用户偏好向量逐个元素做内积训练拟合,然后将向量映射到输出层得出用户对音乐的兴趣得分,然后将其降序排序,选排名靠前的15首音乐组成候选列表L={l1,l2,...lm},m=15表示歌曲数目;
利用两个排名函数DENSE_RANK()对所得出的两个列表的元素进行重新排序,即把两个列表中的某些音乐根据既定的标准排列其兴趣得分,根据用户反馈的音乐数据进行训练,出现相同ID的音乐只在最后列表中保留一个且不留空格;出现在不同列表中的音乐受到用户的喜爱,因为满足多个青睐,所以更容易被用户感兴趣;
最后将其结果进行汇总,得出音乐列表D={d1,d2,d3,...dp},p为音乐列表长度,将强关联性的音乐推荐给相关用户,满足用户的个性化需求,大幅度提高用户的满意程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368942.5A CN113220929B (zh) | 2021-04-06 | 2021-04-06 | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368942.5A CN113220929B (zh) | 2021-04-06 | 2021-04-06 | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220929A CN113220929A (zh) | 2021-08-06 |
CN113220929B true CN113220929B (zh) | 2023-12-05 |
Family
ID=77086384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368942.5A Active CN113220929B (zh) | 2021-04-06 | 2021-04-06 | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220929B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564611B (zh) * | 2022-02-28 | 2024-05-10 | 华南师范大学 | 一种用于音乐治疗的音乐播放方法、装置及系统 |
CN116361445B (zh) * | 2023-05-12 | 2023-08-08 | 北京网智天元大数据科技有限公司 | 藏汉双语用户兴趣标签的预测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140028160A (ko) * | 2011-10-24 | 2014-03-10 | 건국대학교 산학협력단 | 감성 및 상황 정보 융합 기반의 확장된 협업 필터링을 이용한 음악추천 시스템 |
CN105677850A (zh) * | 2016-01-07 | 2016-06-15 | 浙江大学 | 一种基于神经网络模型的上下文感知音乐推荐方法 |
WO2016102738A1 (en) * | 2014-12-22 | 2016-06-30 | Nokia Technologies Oy | Similarity determination and selection of music |
CN109165302A (zh) * | 2018-07-27 | 2019-01-08 | 腾讯科技(深圳)有限公司 | 多媒体文件推荐方法及装置 |
CN111027675A (zh) * | 2019-11-22 | 2020-04-17 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481652B2 (en) * | 2015-06-23 | 2022-10-25 | Gregory Knox | System and method for recommendations in ubiquituous computing environments |
-
2021
- 2021-04-06 CN CN202110368942.5A patent/CN113220929B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140028160A (ko) * | 2011-10-24 | 2014-03-10 | 건국대학교 산학협력단 | 감성 및 상황 정보 융합 기반의 확장된 협업 필터링을 이용한 음악추천 시스템 |
WO2016102738A1 (en) * | 2014-12-22 | 2016-06-30 | Nokia Technologies Oy | Similarity determination and selection of music |
CN105677850A (zh) * | 2016-01-07 | 2016-06-15 | 浙江大学 | 一种基于神经网络模型的上下文感知音乐推荐方法 |
CN109165302A (zh) * | 2018-07-27 | 2019-01-08 | 腾讯科技(深圳)有限公司 | 多媒体文件推荐方法及装置 |
CN111027675A (zh) * | 2019-11-22 | 2020-04-17 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113220929A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Multi-level and multi-scale feature aggregation using pretrained convolutional neural networks for music auto-tagging | |
CN111611431B (zh) | 一种基于深度学习的音乐分类方法 | |
CN111444967B (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN110807156A (zh) | 一种基于用户序列点击行为的兴趣推荐方法及系统 | |
CN113220929B (zh) | 一种基于时间驻留与状态驻留混合模型的音乐推荐方法 | |
Davis et al. | Environmental sound classification using deep convolutional neural networks and data augmentation | |
Liu et al. | Music emotion recognition using a variant of recurrent neural network | |
CN111400543B (zh) | 音频片段的匹配方法、装置、设备及存储介质 | |
Foleis et al. | Texture selection for automatic music genre classification | |
Hussain et al. | Swishnet: A fast convolutional neural network for speech, music and noise classification and segmentation | |
He et al. | Multi-view neural networks for raw audio-based music emotion recognition | |
CN111651678A (zh) | 一种基于知识图谱的个性化推荐方法 | |
Dang et al. | Deep learning for DCASE2017 challenge | |
CN111583957B (zh) | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 | |
CN112364184A (zh) | 多媒体数据的排序方法、装置、服务器及存储介质 | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
Yang | [Retracted] Research on Music Content Recognition and Recommendation Technology Based on Deep Learning | |
Wang et al. | A method of music autotagging based on audio and lyrics | |
Galety et al. | Personalized music recommendation model based on Machine Learning | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
Rao et al. | Automatic music genre classification based on linguistic frequencies using machine learning | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
CN111026908A (zh) | 歌曲标签确定方法、装置、计算机设备以及存储介质 | |
Zeng et al. | Spatio-temporal representation learning enhanced source cell-phone recognition from speech recordings | |
Yu | Research on music emotion classification based on CNN-LSTM network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |