CN114254205B

CN114254205B - 一种基于音乐多模态数据的用户长短期偏好推荐预测方法

Info

Publication number: CN114254205B
Application number: CN202111658449.3A
Authority: CN
Inventors: 吴亚迪; 陈平华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-08-04
Anticipated expiration: 2041-12-30
Also published as: CN114254205A

Abstract

本发明公开了一种基于音乐多模态数据的用户长短期偏好推荐预测方法，实现了针对音乐应用程序、商店和社区，为用户提供一种精准发现用户喜好的推荐预测方法，通过处理音乐的多模态数据，研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响，采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模，最后提出一个新的混合推荐预测方法，在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好，增强音乐了推荐预测性能。

Description

一种基于音乐多模态数据的用户长短期偏好推荐预测方法

技术领域

本发明涉及大数据分析方法相关领域，具体是一种基于音乐多模态数据的用户长短期偏好推荐预测方法。

背景技术

随着信息化的快速发展，互联网已成为检索多媒体信息的主要来源，音乐作为一种重要的交流和表达方式，已经被人们作为日常生活中的一种常见活动所消费，虽然人们可以访问大量的数字音乐，音乐平台中海量的音乐数据远远超出了用户的承受能力和选择能力，极容易引起用户的信息疲劳，普通音乐用户在茫茫乐库中查找适合自己的音乐是很耗费时间成本的，我国有巨大的网络音乐市场，音乐平台仅仅通过检索功能远远不能满足用户的需求，用户和音乐之间的不对称问题一直困扰着我们，虽然也可以通过查看好友歌单来获取音乐信息，但是这种方式很难满足用户的个性化需求，在音乐场景中，用户可能只有一个模糊的需求，通过这种需求在大量物品中进行选择可能性是极低的。

在音乐推荐领域，我们可以利用个性化推荐的方式来为用户在庞大的音乐数据库中选择出最符合用户口味的音乐，最常见的方法是协同过滤(CF)和基于内容的方法(CBM)，具体来说，CF通过类似用户的选择推荐物品，而CBM则利用声学信号和音轨元数据。除了音轨，用户特征及听歌序列在音乐推荐中也扮演着重要的角色，在长期和短期对其音乐偏好有很大的影响；另一方面，由于音乐是一种承载情感的内容类型，因此音乐的情感表达也会影响音乐偏好，一些研究也致力于以用户为中心或以音乐为中心的音乐推荐，虽然取得了一定的进展，但这些工作仅采用片面的信息进行片面的用户偏好建模，缺乏针对音乐推荐的系统分析，因此，在音乐推荐中考虑音乐情感和用户听歌序列因素，对用户长期和短期偏好进行建模也很有意义，现有基于用户长短期偏好的音乐推荐是采用一个双向LSTM(长短期记忆网络)对用户听歌序列进行解码，将解码结果输入到Softmax函数，生成推荐结果。

但现有的音乐推荐预测方法只针对声学特征情感分析、歌词情感分析、评论情感分析和听歌序列分析的一种或几种，没有同时融合多种情感分析和听歌序列分析进行深度推荐，单个分析的以及传统推荐方法的推荐性能往往较低，并不能很好地兼顾到音乐的情感性、用户听歌的时序性等等。

发明内容

本发明的目的在于提供一种基于音乐多模态数据的用户长短期偏好推荐预测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于音乐多模态数据的用户长短期偏好推荐预测方法，包含以下步骤：

获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征；

构建情感词汇库，并获取所述音乐的文本信息，根据所述情感词汇库对所述文本信息进行分析，以提取音乐情感特征，所述文本信息包括歌词文本信息以及评论文本信息，所述音乐情感特征包括歌词情感特征以及评论情感特征；

使用双层注意力网络分别对声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出；

获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好；

对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作，生成用户长期偏好；

利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好，获得音乐的概率分布，并生成推荐。

作为本发明的进一步方案：所述获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征的步骤具体包括：

获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理，生成声学物理特征，所述声学物理特征包括节奏、强度、响度、MFCC、高音以及相对应的泛函，所述泛函包括范围、均值、偏度以及峰度；

使用预设的逻辑回归分析器对所述声学物理特征进行运算分类，生成声学情感特征。

作为本发明的再进一步方案：所述逻辑回归分析的模型为

其中，所述w^T为权重矩阵，所述x为声学物理特征，b系常数。

作为本发明的再进一步方案：所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇，每首音乐对应多个情感类别，所述提取音乐情感特征对步骤执行后，还包括步骤：

使用平均频率公式计算音乐每个所述情感类别的所述情感词汇的平均频率，所述平均频率公式为

其中，所述PE_i,j表示情感类别t_i在文本信息d_j中的出现频率，表示情感类别t_i中第k个情感词汇在所述文本信息d_j中出现的次数，N_*j表示所述文本信息d_j的总词汇数。

作为本发明的再进一步方案：还包括用户特征、音乐特征以及时间特征，所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出的步骤具体包括：

将所述声学情感特征、歌词情感特征、评论情感特征、用户特征、音乐特征以及时间特征输入至嵌入层中，以降低输入维数，分别获得d维embedding特征向量e_v、e_l、e_c、u、m、f；

通过所述双层注意力网络分别计算各个输入特征的注意力权重，得到双层注意力机制输出，计算获得注意力机制输出的公式如下

z_att＝γ_ve_v+γ_le_l+γ_ce_c+γ_uu+γ_mm+γ_ff；

其中，所述γ_v、γ_l、γ_c、γ_u、γ_m、γ_f分别为各输入特征的注意力权重。

作为本发明的再进一步方案：所述获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中，给定用户u，使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码：

h_t＝LSTM(x_t,h_t-1),t∈{1,2,…,|S_h|}；

设多个历史听歌序列数据为{m₁,m₂,…,m_k}、{m₁,m₂,…,m_n}，当前听歌序列为{m₁,m₂,…,m_t-1}，其中h_t为LSTM的隐藏状态，为序列S_h中第t首音乐的d维嵌入向量，通过运算，在序列S_h里的音乐/>的编码为/>当前听歌序列的最终隐藏状态h_t-1为所述用户短期偏好的表示。

作为本发明的再进一步方案：所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括：

将一周映射为48个时间段，计算两两时间段之间的时间相似性系数

其中，H_i为时间段i内所有用户听过的音乐集合，当两个时间段重合的音乐数量越多，其相似性越高；

对于一个历史轨迹S_h，由用户当前时间段c，生成历史序列表示，公式为

其中，τ_c,qj为s_h中当前时间段c与第j个音乐的时间段之间的时间相似性；

对于当前隐藏状态序列，进行平均池化操作，得到当前序列表示，公式为

将各个历史序列表示与当前序列表示进行加权均值化，得到用户长期偏好因子S_l，公式为

其中，W_l为可训练的权重矩阵。

作为本发明的再进一步方案：所述Softmax函数对公式为

最终向用户推荐top-N个喜欢的音乐。

与现有技术相比，本发明的有益效果是：实现了针对音乐应用程序、商店和社区，为用户提供一种精准发现用户喜好的推荐预测方法，通过处理音乐的多模态数据，研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响，采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模，最后提出一个新的混合推荐预测方法，在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好，增强音乐了推荐预测性能。

附图说明

图1为一种基于音乐多模态数据的用户长短期偏好推荐预测方法的流程图。

图2为一种基于音乐多模态数据的用户长短期偏好推荐预测方法对模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现方式进行详细描述。

如图1和图2所述，为本发明一个实施例提供的一种基于音乐多模态数据的用户长短期偏好推荐预测方法，包括以下步骤：

获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征。

构建情感词汇库，并获取所述音乐的文本信息，根据所述情感词汇库对所述文本信息进行分析，以提取音乐情感特征，所述文本信息包括歌词文本信息以及评论文本信息，所述音乐情感特征包括歌词情感特征以及评论情感特征。

使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出。

获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好。

对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作，生成用户长期偏好。

作为本发明另一个优选的实施例，所述获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征的步骤具体包括：

获取并通过开元提取器对所述音乐的音频信号数据进行提取预处理，生成声学物理特征，所述声学物理特征包括节奏、强度、响度、MFCC、高音以及相对应的泛函，所述泛函包括范围、均值、偏度以及峰度。

作为本发明另一个优选的实施例，所述逻辑回归分析的模型为

作为本发明另一个优选的实施例，所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇，每首音乐对应多个情感类别，所述提取音乐情感特征对步骤执行后，还包括步骤：

作为本发明另一个优选的实施例，还包括用户特征、音乐特征以及时间特征，所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出的步骤具体包括：

z_att＝γ_ve_v+γ_le_l+γ_ce_c+γ_uu+γ_mm+γ_ff；

作为本发明另一个优选的实施例，所述获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中，给定用户u，使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码：

h_t＝SLTM(x_t,h_t-1),t∈{1,2,…,|S_h|}；

设多个历史听歌序列数据为{m₁,m₂,…,m_k}、{m₁,m₂,…,m_n}，当前听歌序列为{m₁,m₂,…,mt_-1}，其中h_t为LSTM的隐藏状态，为序列S_h中第t首音乐的d维嵌入向量，通过运算，在序列S_h里的音乐/>的编码为/>当前听歌序列的最终隐藏状态h_t-1为所述用户短期偏好的表示。

作为本发明另一个优选的实施例，所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括：

其中，H_i为时间段i内所有用户听过的音乐集合，当两个时间段重合的音乐数量越多，其相似性越高。

其中，为S_h中当前时间段c与第j个音乐的时间段之间的时间相似性。

其中，W_l为可训练的权重矩阵。

作为本发明另一个优选的实施例，所述Softmax函数对公式为

最终向用户推荐top-N个喜欢的音乐。

本实施例中，相较于现有技术，具有以下优点：从复杂的歌曲音频信号数据和歌词与评论等文本数据中，提取出歌曲的情感特征，通过双层注意力构建融合音乐情感的模型，捕捉各属性对音乐推荐的重要程度，并对用户听歌序列数据采用多个长短期记忆网络进行解码，可以得到用户长期和短期的偏好表示，最后通过融合音乐情感分析和用户长短期偏好分析，能够更准确地对用户进行音乐推荐预测。

本发明提供了一种基于音乐多模态数据的用户长短期偏好推荐预测方法，实现了针对音乐应用程序、商店和社区，为用户提供一种精准发现用户喜好的推荐预测方法，通过处理音乐的多模态数据，研究歌曲的隐含情感信息、用户的听歌序列对音乐推荐的不同影响，采用注意力机制和多个LSTM(长短期记忆)网络分别对歌曲情感和用户长短期偏好进行建模，最后提出一个新的混合推荐预测方法，在一定程度上探索到用户和歌曲的情感相关性及用户的长短期偏好，增强音乐了推荐预测性能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于音乐多模态数据的用户长短期偏好推荐预测方法，其特征在于，包含以下步骤：

利用Softmax函数融合所述双层注意力机制输出、用户长期偏好以及用户短期偏好，获得音乐的概率分布，并生成推荐；

所述获取音乐的音频数据信号，并使用预设的逻辑回归分配器对所述音频数据信号进行处理，生成声学感情特征的步骤具体包括：

使用预设的逻辑回归分析器对所述声学物理特征进行运算分类，生成声学情感特征；

所述逻辑回归分析的模型为

其中，所述w^T为权重矩阵，所述x为声学物理特征，b系常数；

所述情感词汇库包括数个表情符号以及多个常见的用于表征情感的情感词汇，每首音乐对应多个情感类别，所述提取音乐情感特征对步骤执行后，还包括步骤：

其中，所述PE_i,j表示情感类别t_i在文本信息d_j中的出现频率，表示情感类别t_i中第k个情感词汇在所述文本信息d_j中出现的次数，N_*j表示所述文本信息d_j的总词汇数；

还包括用户特征、音乐特征以及时间特征，所述使用双层注意力网络分别对所述声学情感特征以及所述评论情感特征进行处理，得到双层注意力机制输出的步骤具体包括：

z_att＝γ_ve_v+γ_le_l+γ_ce_c+γ_uu+γ_mm+γ_ff；

其中，所述γ_v、γ_l、γ_c、γ_u、γ_m、γ_f分别为各输入特征的注意力权重；

所述获取用户的历史听歌数据，并根据多个LSTM网络生成隐藏状态序列以及用户短期偏好的步骤中，给定用户u，使用多个LSTM网络分别对多个历史听歌序列数据和当前听歌序列进行编码：

h_t＝LSTM(x_t,h_t-1),t∈{1,2,…,|S_h|}；

设多个历史听歌序列数据为{m₁,m₂,…,m_k}、{m₁,m₂,…,m_n}，当前听歌序列为{m₁,m₂,…,m_t-1}，其中h_t为LSTM的隐藏状态，为序列S_h中第t首音乐的d维嵌入向量，通过运算，在序列S_h里的音乐/>的编码为/>当前听歌序列的最终隐藏状态h_t-1为所述用户短期偏好的表示；

所述对所述隐藏状态序列使用时间加权操作和平均池化及加权均值化操作的步骤包括：

其中，为S_h中当前时间段c与第j个音乐的时间段之间的时间相似性；

其中，W_l为可训练的权重矩阵；

所述Softmax函数对公式为

最终向用户推荐top-N个喜欢的音乐。