CN114254205B - 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 - Google Patents
一种基于音乐多模态数据的用户长短期偏好推荐预测方法 Download PDFInfo
- Publication number
- CN114254205B CN114254205B CN202111658449.3A CN202111658449A CN114254205B CN 114254205 B CN114254205 B CN 114254205B CN 202111658449 A CN202111658449 A CN 202111658449A CN 114254205 B CN114254205 B CN 114254205B
- Authority
- CN
- China
- Prior art keywords
- music
- emotion
- user
- sequence
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008451 emotion Effects 0.000 claims abstract description 100
- 230000007774 longterm Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 4
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 3
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000015654 memory Effects 0.000 abstract description 14
- 238000011160 research Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000002355 dual-layer Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 101000709114 Homo sapiens SAFB-like transcription modulator Proteins 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 102100032664 SAFB-like transcription modulator Human genes 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于音乐多模态数据的用户长短期偏好推荐预测方法,实现了针对音乐应用程序、商店和社区,为用户提供一种精准发现用户喜好的推荐预测方法,通过处理音乐的多模态数据,研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响,采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模,最后提出一个新的混合推荐预测方法,在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好,增强音乐了推荐预测性能。
Description
技术领域
本发明涉及大数据分析方法相关领域,具体是一种基于音乐多模态数据的用户长短期偏好推荐预测方法。
背景技术
随着信息化的快速发展,互联网已成为检索多媒体信息的主要来源,音乐作为一种重要的交流和表达方式,已经被人们作为日常生活中的一种常见活动所消费,虽然人们可以访问大量的数字音乐,音乐平台中海量的音乐数据远远超出了用户的承受能力和选择能力,极容易引起用户的信息疲劳,普通音乐用户在茫茫乐库中查找适合自己的音乐是很耗费时间成本的,我国有巨大的网络音乐市场,音乐平台仅仅通过检索功能远远不能满足用户的需求,用户和音乐之间的不对称问题一直困扰着我们,虽然也可以通过查看好友歌单来获取音乐信息,但是这种方式很难满足用户的个性化需求,在音乐场景中,用户可能只有一个模糊的需求,通过这种需求在大量物品中进行选择可能性是极低的。
在音乐推荐领域,我们可以利用个性化推荐的方式来为用户在庞大的音乐数据库中选择出最符合用户口味的音乐,最常见的方法是协同过滤(CF)和基于内容的方法(CBM),具体来说,CF通过类似用户的选择推荐物品,而CBM则利用声学信号和音轨元数据。除了音轨,用户特征及听歌序列在音乐推荐中也扮演着重要的角色,在长期和短期对其音乐偏好有很大的影响;另一方面,由于音乐是一种承载情感的内容类型,因此音乐的情感表达也会影响音乐偏好,一些研究也致力于以用户为中心或以音乐为中心的音乐推荐,虽然取得了一定的进展,但这些工作仅采用片面的信息进行片面的用户偏好建模,缺乏针对音乐推荐的系统分析,因此,在音乐推荐中考虑音乐情感和用户听歌序列因素,对用户长期和短期偏好进行建模也很有意义,现有基于用户长短期偏好的音乐推荐是采用一个双向LSTM(长短期记忆网络)对用户听歌序列进行解码,将解码结果输入到Softmax函数,生成推荐结果。
但现有的音乐推荐预测方法只针对声学特征情感分析、歌词情感分析、评论情感分析和听歌序列分析的一种或几种,没有同时融合多种情感分析和听歌序列分析进行深度推荐,单个分析的以及传统推荐方法的推荐性能往往较低,并不能很好地兼顾到音乐的情感性、用户听歌的时序性等等。
发明内容
本发明的目的在于提供一种基于音乐多模态数据的用户长短期偏好推荐预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于音乐多模态数据的用户长短期偏好推荐预测方法,包含以下步骤:
获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征;
构建情感词汇库,并获取所述音乐的文本信息,根据所述情感词汇库对所述文本信息进行分析,以提取音乐情感特征,所述文本信息包括歌词文本信息以及评论文本信息,所述音乐情感特征包括歌词情感特征以及评论情感特征;
使用双层注意力网络分别对声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出;
获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好;
对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作,生成用户长期偏好;
利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好,获得音乐的概率分布,并生成推荐。
作为本发明的进一步方案:所述获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征的步骤具体包括:
获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理,生成声学物理特征,所述声学物理特征包括节奏、强度、响度、MFCC、高音以及相对应的泛函,所述泛函包括范围、均值、偏度以及峰度;
使用预设的逻辑回归分析器对所述声学物理特征进行运算分类,生成声学情感特征。
作为本发明的再进一步方案:所述逻辑回归分析的模型为
其中,所述wT为权重矩阵,所述x为声学物理特征,b系常数。
作为本发明的再进一步方案:所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇,每首音乐对应多个情感类别,所述提取音乐情感特征对步骤执行后,还包括步骤:
使用平均频率公式计算音乐每个所述情感类别的所述情感词汇的平均频率,所述平均频率公式为
其中,所述PEi,j表示情感类别ti在文本信息dj中的出现频率,表示情感类别ti中第k个情感词汇在所述文本信息dj中出现的次数,N*j表示所述文本信息dj的总词汇数。
作为本发明的再进一步方案:还包括用户特征、音乐特征以及时间特征,所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出的步骤具体包括:
将所述声学情感特征、歌词情感特征、评论情感特征、用户特征、音乐特征以及时间特征输入至嵌入层中,以降低输入维数,分别获得d维embedding特征向量ev、el、ec、u、m、f;
通过所述双层注意力网络分别计算各个输入特征的注意力权重,得到双层注意力机制输出,计算获得注意力机制输出的公式如下
zatt=γvev+γlel+γcec+γuu+γmm+γff;
其中,所述γv、γl、γc、γu、γm、γf分别为各输入特征的注意力权重。
作为本发明的再进一步方案:所述获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中,给定用户u,使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码:
ht=LSTM(xt,ht-1),t∈{1,2,…,|Sh|};
设多个历史听歌序列数据为{m1,m2,…,mk}、{m1,m2,…,mn},当前听歌序列为{m1,m2,…,mt-1},其中ht为LSTM的隐藏状态,为序列Sh中第t首音乐的d维嵌入向量,通过运算,在序列Sh里的音乐/>的编码为/>当前听歌序列的最终隐藏状态ht-1为所述用户短期偏好的表示。
作为本发明的再进一步方案:所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括:
将一周映射为48个时间段,计算两两时间段之间的时间相似性系数
其中,Hi为时间段i内所有用户听过的音乐集合,当两个时间段重合的音乐数量越多,其相似性越高;
对于一个历史轨迹Sh,由用户当前时间段c,生成历史序列表示,公式为
其中,τc,qj为sh中当前时间段c与第j个音乐的时间段之间的时间相似性;
对于当前隐藏状态序列,进行平均池化操作,得到当前序列表示,公式为
将各个历史序列表示与当前序列表示进行加权均值化,得到用户长期偏好因子Sl,公式为
其中,Wl为可训练的权重矩阵。
作为本发明的再进一步方案:所述Softmax函数对公式为
最终向用户推荐top-N个喜欢的音乐。
与现有技术相比,本发明的有益效果是:实现了针对音乐应用程序、商店和社区,为用户提供一种精准发现用户喜好的推荐预测方法,通过处理音乐的多模态数据,研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响,采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模,最后提出一个新的混合推荐预测方法,在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好,增强音乐了推荐预测性能。
附图说明
图1为一种基于音乐多模态数据的用户长短期偏好推荐预测方法的流程图。
图2为一种基于音乐多模态数据的用户长短期偏好推荐预测方法对模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现方式进行详细描述。
如图1和图2所述,为本发明一个实施例提供的一种基于音乐多模态数据的用户长短期偏好推荐预测方法,包括以下步骤:
获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征。
构建情感词汇库,并获取所述音乐的文本信息,根据所述情感词汇库对所述文本信息进行分析,以提取音乐情感特征,所述文本信息包括歌词文本信息以及评论文本信息,所述音乐情感特征包括歌词情感特征以及评论情感特征。
使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出。
获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好。
对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作,生成用户长期偏好。
利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好,获得音乐的概率分布,并生成推荐。
作为本发明另一个优选的实施例,所述获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征的步骤具体包括:
获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理,生成声学物理特征,所述声学物理特征包括节奏、强度、响度、MFCC、高音以及相对应的泛函,所述泛函包括范围、均值、偏度以及峰度。
使用预设的逻辑回归分析器对所述声学物理特征进行运算分类,生成声学情感特征。
作为本发明另一个优选的实施例,所述逻辑回归分析的模型为
其中,所述wT为权重矩阵,所述x为声学物理特征,b系常数。
作为本发明另一个优选的实施例,所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇,每首音乐对应多个情感类别,所述提取音乐情感特征对步骤执行后,还包括步骤:
使用平均频率公式计算音乐每个所述情感类别的所述情感词汇的平均频率,所述平均频率公式为
其中,所述PEi,j表示情感类别ti在文本信息dj中的出现频率,表示情感类别ti中第k个情感词汇在所述文本信息dj中出现的次数,N*j表示所述文本信息dj的总词汇数。
作为本发明另一个优选的实施例,还包括用户特征、音乐特征以及时间特征,所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出的步骤具体包括:
将所述声学情感特征、歌词情感特征、评论情感特征、用户特征、音乐特征以及时间特征输入至嵌入层中,以降低输入维数,分别获得d维embedding特征向量ev、el、ec、u、m、f;
通过所述双层注意力网络分别计算各个输入特征的注意力权重,得到双层注意力机制输出,计算获得注意力机制输出的公式如下
zatt=γvev+γlel+γcec+γuu+γmm+γff;
其中,所述γv、γl、γc、γu、γm、γf分别为各输入特征的注意力权重。
作为本发明另一个优选的实施例,所述获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中,给定用户u,使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码:
ht=SLTM(xt,ht-1),t∈{1,2,…,|Sh|};
设多个历史听歌序列数据为{m1,m2,…,mk}、{m1,m2,…,mn},当前听歌序列为{m1,m2,…,mt-1},其中ht为LSTM的隐藏状态,为序列Sh中第t首音乐的d维嵌入向量,通过运算,在序列Sh里的音乐/>的编码为/>当前听歌序列的最终隐藏状态ht-1为所述用户短期偏好的表示。
作为本发明另一个优选的实施例,所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括:
将一周映射为48个时间段,计算两两时间段之间的时间相似性系数
其中,Hi为时间段i内所有用户听过的音乐集合,当两个时间段重合的音乐数量越多,其相似性越高。
对于一个历史轨迹Sh,由用户当前时间段c,生成历史序列表示,公式为
其中, 为Sh中当前时间段c与第j个音乐的时间段之间的时间相似性。
对于当前隐藏状态序列,进行平均池化操作,得到当前序列表示,公式为
将各个历史序列表示与当前序列表示进行加权均值化,得到用户长期偏好因子Sl,公式为
其中,Wl为可训练的权重矩阵。
作为本发明另一个优选的实施例,所述Softmax函数对公式为
最终向用户推荐top-N个喜欢的音乐。
本实施例中,相较于现有技术,具有以下优点:从复杂的歌曲音频信号数据和歌词与评论等文本数据中,提取出歌曲的情感特征,通过双层注意力构建融合音乐情感的模型,捕捉各属性对音乐推荐的重要程度,并对用户听歌序列数据采用多个长短期记忆网络进行解码,可以得到用户长期和短期的偏好表示,最后通过融合音乐情感分析和用户长短期偏好分析,能够更准确地对用户进行音乐推荐预测。
本发明提供了一种基于音乐多模态数据的用户长短期偏好推荐预测方法,实现了针对音乐应用程序、商店和社区,为用户提供一种精准发现用户喜好的推荐预测方法,通过处理音乐的多模态数据,研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响,采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模,最后提出一个新的混合推荐预测方法,在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好,增强音乐了推荐预测性能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (1)
1.一种基于音乐多模态数据的用户长短期偏好推荐预测方法,其特征在于,包含以下步骤:
获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征;
构建情感词汇库,并获取所述音乐的文本信息,根据所述情感词汇库对所述文本信息进行分析,以提取音乐情感特征,所述文本信息包括歌词文本信息以及评论文本信息,所述音乐情感特征包括歌词情感特征以及评论情感特征;
使用双层注意力网络分别对声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出;
获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好;
对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作,生成用户长期偏好;
利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好,获得音乐的概率分布,并生成推荐;
所述获取音乐的音频数据信号,并使用预设的逻辑回归分配器对所述音频数据信号进行处理,生成声学感情特征的步骤具体包括:
获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理,生成声学物理特征,所述声学物理特征包括节奏、强度、响度、MFCC、高音以及相对应的泛函,所述泛函包括范围、均值、偏度以及峰度;
使用预设的逻辑回归分析器对所述声学物理特征进行运算分类,生成声学情感特征;
所述逻辑回归分析的模型为
其中,所述wT为权重矩阵,所述x为声学物理特征,b系常数;
所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇,每首音乐对应多个情感类别,所述提取音乐情感特征对步骤执行后,还包括步骤:
使用平均频率公式计算音乐每个所述情感类别的所述情感词汇的平均频率,所述平均频率公式为
其中,所述PEi,j表示情感类别ti在文本信息dj中的出现频率,表示情感类别ti中第k个情感词汇在所述文本信息dj中出现的次数,N*j表示所述文本信息dj的总词汇数;
还包括用户特征、音乐特征以及时间特征,所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理,得到双层注意力机制输出的步骤具体包括:
将所述声学情感特征、歌词情感特征、评论情感特征、用户特征、音乐特征以及时间特征输入至嵌入层中,以降低输入维数,分别获得d维embedding特征向量ev、el、ec、u、m、f;
通过所述双层注意力网络分别计算各个输入特征的注意力权重,得到双层注意力机制输出,计算获得注意力机制输出的公式如下
zatt=γvev+γlel+γcec+γuu+γmm+γff;
其中,所述γv、γl、γc、γu、γm、γf分别为各输入特征的注意力权重;
所述获取用户的历史听歌数据,并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中,给定用户u,使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码:
ht=LSTM(xt,ht-1),t∈{1,2,…,|Sh|};
设多个历史听歌序列数据为{m1,m2,…,mk}、{m1,m2,…,mn},当前听歌序列为{m1,m2,…,mt-1},其中ht为LSTM的隐藏状态,为序列Sh中第t首音乐的d维嵌入向量,通过运算,在序列Sh里的音乐/>的编码为/>当前听歌序列的最终隐藏状态ht-1为所述用户短期偏好的表示;
所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括:
将一周映射为48个时间段,计算两两时间段之间的时间相似性系数
其中,Hi为时间段i内所有用户听过的音乐集合,当两个时间段重合的音乐数量越多,其相似性越高;
对于一个历史轨迹Sh,由用户当前时间段c,生成历史序列表示,公式为
其中, 为Sh中当前时间段c与第j个音乐的时间段之间的时间相似性;
对于当前隐藏状态序列,进行平均池化操作,得到当前序列表示,公式为
将各个历史序列表示与当前序列表示进行加权均值化,得到用户长期偏好因子Sl,公式为
其中,Wl为可训练的权重矩阵;
所述Softmax函数对公式为
最终向用户推荐top-N个喜欢的音乐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658449.3A CN114254205B (zh) | 2021-12-30 | 2021-12-30 | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658449.3A CN114254205B (zh) | 2021-12-30 | 2021-12-30 | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114254205A CN114254205A (zh) | 2022-03-29 |
CN114254205B true CN114254205B (zh) | 2023-08-04 |
Family
ID=80798951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111658449.3A Active CN114254205B (zh) | 2021-12-30 | 2021-12-30 | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254205B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658936B (zh) * | 2022-12-29 | 2023-03-31 | 中国传媒大学 | 基于双层注意力模型的个性化节目推荐方法、系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650094B2 (en) * | 2008-05-07 | 2014-02-11 | Microsoft Corporation | Music recommendation using emotional allocation modeling |
CN110377840B (zh) * | 2019-07-29 | 2020-04-17 | 电子科技大学 | 一种基于用户长短期偏好的音乐列表推荐方法及系统 |
CN110674339B (zh) * | 2019-09-18 | 2021-04-16 | 北京工业大学 | 一种基于多模态融合的中文歌曲情感分类方法 |
CN111242729A (zh) * | 2020-01-07 | 2020-06-05 | 西北工业大学 | 一种基于长短期兴趣的序列化推荐方法 |
-
2021
- 2021-12-30 CN CN202111658449.3A patent/CN114254205B/zh active Active
Non-Patent Citations (1)
Title |
---|
SeqRec:基于长期偏好和即时兴趣的序列推荐模型;张岩;郭斌;王倩茹;张靖;於志文;;浙江大学学报(工学版)(06);134-141 * |
Also Published As
Publication number | Publication date |
---|---|
CN114254205A (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7206288B2 (ja) | 音楽推薦方法、装置、コンピューティング機器及び媒体 | |
WO2020211566A1 (zh) | 一种用户推荐方法和装置以及计算设备和存储介质 | |
TWI612488B (zh) | 用於預測商品的市場需求的計算機裝置與方法 | |
Lin et al. | Heterogeneous knowledge-based attentive neural networks for short-term music recommendations | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
Chang et al. | Music recommender using deep embedding-based features and behavior-based reinforcement learning | |
CN111414513B (zh) | 音乐流派的分类方法、装置及存储介质 | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113590970A (zh) | 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质 | |
CN113742572B (zh) | 一种数据的推荐方法、装置、电子设备及存储介质 | |
CN117591663B (zh) | 一种基于知识图谱的大模型prompt生成方法 | |
CN112528010A (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
CN114943034B (zh) | 基于细粒度方面特征的智能新闻推荐方法和系统 | |
CN110069713A (zh) | 一种基于用户上下文感知的个性化推荐方法 | |
CN114254205B (zh) | 一种基于音乐多模态数据的用户长短期偏好推荐预测方法 | |
Yang | [Retracted] Research on Music Content Recognition and Recommendation Technology Based on Deep Learning | |
CN115203434A (zh) | 融合bert网络与位置特征信息的实体关系抽取方法及其应用 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
Niu | Music Emotion Recognition Model Using Gated Recurrent Unit Networks and Multi‐Feature Extraction | |
Jin et al. | A music recommendation algorithm based on clustering and latent factor model | |
CN114969554B (zh) | 用户情绪调节方法、装置、电子设备和存储介质 | |
Gao | Automatic recommendation of online music tracks based on deep learning | |
CN116340641A (zh) | 基于显式和隐式兴趣特征的智能新闻推荐方法和系统 | |
CN116167371A (zh) | 产品的推荐方法及装置、处理器和电子设备 | |
CN115310004A (zh) | 融合项目时序关系的图神经协同过滤推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |