CN113094544A

CN113094544A - 一种基于dcnn联合特征表示的音乐推荐方法

Info

Publication number: CN113094544A
Application number: CN202110338511.4A
Authority: CN
Inventors: 陈湘涛; 柳玉洋; 王莎莎
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-09
Anticipated expiration: 2041-03-26
Also published as: CN113094544B

Abstract

本发明涉及一种基于DCNN联合特征表示的音乐推荐方法，其发明内容主要包括音乐预处理和增强、音乐特征的提取和推荐方法的建模，首先将Log梅尔谱图输入到第一通道的DCNN进行训练，即得基于Log梅尔谱图的DCNN模型，同时将MFCC等特征输入到CNN中训练，即得基于MFCC的CNN模型，然后将第一通道和第二通道的结果进行组合拼接，输入到全连接层和softmax层，进行音乐特征向量的进一步降维，由于采用了不同模态的数据，训练的结果更加准确，更具有扩展性，最后计算用户偏好并对其推荐音乐。

Description

一种基于DCNN联合特征表示的音乐推荐方法

技术领域

本发明属于个性化音乐推荐领域，涵盖了音频处理、图像处理、推荐系统以及深度学习等领域知识和相关技术，是一种基于DCNN联合特征表示的音乐推荐方法。

背景技术

21世纪是信息科技飞速发展的时代，伴随着科技的飞速猛进和互联网的欣欣向荣，人类已然进入信息化和大数据时代。当前，以互联网为主体的数字音乐逐渐地走入人们的视线和每日生活，在互联网高效、快速的传播方式下，在线数字音乐的需求与供应不断增大。与此同时也带来了诸多问题，例如信息过载、信息不对称等问题。为了克服这些问题，个性化音乐推荐系统就此诞生。

现有的音乐推荐系统大多数采用的是比较传统的推荐方法，例如基于领域推荐、基于标签推荐和基于知识领域推荐以及混合推荐等，虽然在一定程度上解决了上述问题，以及人们越来越个性化音乐的追求，但在推荐效果上却不太理想，例如推荐的音乐大多相似，不具备多样性，推荐的结果可解释性较差，无法让用户信服或满意，以及推荐需要用户具备很高的领域知识，没能从音乐本体考虑，关注较多的用户行为数据，忽略了音乐的音频携带大量的有效信息，从而导致音乐推荐无法适应当前人们对音乐的个性化追求。

为了能够缓解或解决上述音乐推荐系统存在的问题和难点，以及给用户提供一个更加智能化、个性化的音乐推荐系统，来满足当下人们对音乐的需求。随着深度学习在多数领域大放异彩，且取得了骄人的成绩，因此本发明在传统推荐算法的基础上结合卷积神经网络等诸多人工智能技术，进一步探索一个新颖的个性化音乐推荐，即提出了一种基于DCNN联合特征表示的音乐推荐方法。

发明内容

本发明的目的：为了解决现有音乐推荐技术的缺点，进一步提高音乐推荐的准确率和多样性，本发明提出了一种基于DCNN联合特征表示的音乐推荐方法，该方法利用不同形式的数据进行多角度挖掘分析，能够为用户提供符合个人偏好的音乐推荐。

为了实现符合要求的个性化音乐推荐，本发明提出的基于DCNN联合特征表示的音乐推荐方法，主要包括以下步骤：

S1、对原始音乐数据集进行格式转换，统一为MP3格式，并对其进行标识。

S2、音乐音频的增强：对音频的增强主要包括降噪(ANC)、回声消除(AEC)和调整采样率等，这一步是数据增强的重要一步，直接影响接下来音频谱图能否包含准确且有效的潜在特征。

S3、音频的声谱图

S3.1、首先将步骤1、2得到的音频进行预加重(Pre-Emphasis，PE)，使得音频喜好保持频谱平稳，增强高频段，即H(Z)＝1-μZ^-1，其中，μ∈[0.9,1.0)；

S3.2、在步骤3.1基础上进行分帧加窗，利用汉宁窗来减少频谱泄漏，以及消除吉布斯效应，窗函数为

N代表窗口长度；

S3.3、紧接上一步，通过快速傅里叶变换(Fast Fourier Transform，FFT)，再将每帧的频谱图顺时针翻转90度，再按顺序堆叠起来就得到声谱图，实际上这就是短时傅里叶变换(Short-Time Fourier Transform，STFT)，即

w(t)代表窗函数，S(ω,τ)代表STFT，每一列代表不同位置的加窗信号；

S3.4、将步骤3.3的结果输入到滤波组中，利用滤波器将其转化为Mel频率，即

f代表频率，单位为Hz，log代表以10为底的对数，m代表Mel频率，然后在做对数运算就得到了音乐音频信号的Log梅尔谱图。

S4、为了充分挖掘和利用音乐音频信号的信息，将从另一个维度提取音乐的潜在特征，形成文本数据，即通过librosa库对音乐片段进行梅尔频率倒谱系数(MayerFrequency Cepstrum Coefficient，MFCC)、频谱质心、过零率和色度频率等特征的提取，形成音乐元数据，保存在文件中。

S5、利用DCNN对音乐的Log梅尔谱图进行卷积、池化等操作

S5.1、每一次经过卷积之后，使用归一化操作和Relu激活函数对其增强非线性表达能力，此外为了学习捕获边界信息，在第一通道DCNN中进行padding，设置方式为same计算公式为：

n代表输入尺寸大小，s代表步幅大小，

代表向上取整；

S5.2、经过步骤4.1之后，得到参数较多，维度较高的数据，再对其进行最大池化操作得到低维特征向量；

S5.3、步骤4.2得到的特征向量会依次经过后面3个卷积层和池化层，然后进入全连接层进一步降维，得到第一通道的DCNN训练的特征向量，称为X₁，该输出接下来会与第二通道的DCNN的输出进行合并，作为新的特征，进行整个网络的下一步训练。

S6、将步骤4提取的音乐元数据经过处理后，输入到CNN中进行特征训练，经过卷积层、池化层以及全连接层后输出一个具有标识的低维特征向量，称为X₂，连接来自两个通道输出的X₁和X₂，将作为下一个隐层的输入，并投射它们到联合的特征空间中，然后将联合特征代表传递到softmax层进行分类，最后结合CB算法对音乐进行推荐。

S7、训练优化DCNN模型

S7.1、利用训练集和验证集对DCNN联合特征表示模型进行训练，采用Adam梯度下降法对模型中的参数进行优化，选择交叉熵误差作为模型的损失函数，当模型训练超过设定的阈值时，如果模型没有提升，就提前结束训练；

S7.2、将上述整理好的两个数据集保存起来，在每次训练时，只需加载处理好的数据，从而提高模型的效率。

本发明采用的DCNN联合特征表示模型参数较少，训练更加稳定、效率更高，解决了训练时间与高效率之间的矛盾。由于利用不同的音乐特征数据和不同的训练通道，不仅有效地解决了训练数据的多模态，使训练结果更可靠，增加了其扩展性和适应性，而且保证了推荐结果更加满足用户的偏好，增强了音乐推荐的准确性和多样性。

附图说明

图1：本发明的一种基于DCNN联合特征表示的音乐推荐方法的流程图。

图2：本发明的DCNN联合特征表示模型框架图。

具体实施方式

本发明的具体实施方式具体内容如下：

(1)音乐格式转换

如图1所示，首先对音乐数据按照音乐类别进行归类，然后对每一类进行重新命名，例如electronic__1482.mp3、hip_hop__005.mp3、instrumental__10230.mp3等，其中electronic、hip_hop、instrumental代表音乐类别，1482、005、10230代表音乐ID，经过处理后，音乐的格式均为MP3，为下一步音乐音频的处理和音频谱图的生成打下基础。

(2)音乐音频的增强

由于原始音乐数据可能会存在噪声或音质受损等情况，因此需要对其进行增强，使其接近理想状态。降噪主要利用滤波器，在降噪过程中，按照评价准则：

尽可能不损伤原始的音乐音频信号；回声消除利用NLMS算法实现，其滤波器抽头权重更新为w(n+1)＝w(n)μ(n)e(n)x(n)，e(n)代表误差信号，

代表输入向量的步长值，μ代表步长参数，n代表时间步；音频的采样率调整利用SoX处理为44.1KHZ。

(3)声谱图和音频谱图

(3.1)音频进行FFT生成声谱图

在(1)(2)的基础上，为了得到更多的音频谱图以及模型的训练，将每首处理好的音乐在保证特性基本不变的情况下分割成每段大约5s的音频片段，然后对其进行预加重，选择合适的帧长，确保相邻两帧间保留有一定的帧移，加窗(窗口大小设置为1024，相邻窗距设置为512，窗函数使用汉宁窗，即

最后通过快速傅里叶变换(Fast Fourier Transform，FFT)得到声谱图。

(3.2)Log梅尔谱图

在(3.1)获得的声谱图由于不符合人耳特性，潜在特征没能体现，因此不能直接用于训练。为了能够得到包含更多有效信息，损失最小的频谱图，需要将声谱图输入到Mel滤波器组中，滤波器数量设置为128，得到梅尔频谱，再对其取对数运算，将会得到Log梅尔谱图，然后将获得的图片归一化为256×256，最后对其进行标记，如electronic__1482__003.png、hip_hop__005__004.png、instrumental__10230__001.png，其中electronic、1482和003分别代表音乐类型、音乐ID和谱图序号。

(3.3)音频特征的提取

在(1)(2)处理好的音频中提取有价值的特征，主要包括韵律特征、光谱特征和语音质量特征为了对音频片段进行准确判别，将从音乐片段中提取MFCC、频谱质心、过零率和色度频率等特征，形成音乐元数据，作为一端DCNN模型的输入。

(4)基于Log梅尔谱图的DCNN

(4.1)使用Log梅尔谱图作为第一通道的DCNN网络模型的输入，为了使训练效果更好、减少训练时间以及保证训练的稳定，对DCNN模型采用两个较小的卷积核代替一个较大的卷积核，不仅能减少训练的权重参数，而且增强网络的非线性表征能力。

(4.2)第一通道的DCNN加入了批量归一化层，同时采用ReLu激活函数和Adam优化方法，这样在一定程度上可以防止梯度消失或网络退化问题，且保证了训练的稳定性。音频谱图进入第一通道的DCNN经过多轮训练，不断减小音乐特征真值与预测值之间的交叉熵误差，直至达到最佳的训练目的，最终得到回归预测模型。

(4.3)本发明第一通道DCNN是由4个卷积层和4个池化层交替出现，以及1个全连接组成的。经过上述的优化调整，该模型能够潜在的和更深层次的音频信息，并且通过4个池化层后，高纬度的特征信息大幅降低，同时提高了网络的准确率。

(5)基于MFCC的CNN

(5.1)将(3.3)得到的音乐元数据进行特征统计处理，使其适合网络的输入要求。由于该特征数据远小于图像，第二通道的CNN采用简单的网络结构，即卷积层、池化层均为一维的两层的，且全连接层比基于Log梅尔谱图的DCNN多了一层。

(5.2)MFCC-CNN模型训练

采用Adam优化算法训练并调整MFCC-CNN的权重参数等，使用交叉熵损失作为模型的损失函数，交叉熵公式如下：

H(D,Y)＝-∑D(x)logY(x) (5.1)

其中，D为真实值，Y为预测值。

(6)联合特征代表的训练，第一通道训练类似，最终会得到低维代表的特征向量，随后将第一通道和第二通道的结果组合在一起，进入全连接层和softmax层，softmax公式如下：

最终得到预测的结果的概率值为P，P＝{p₁,p₂,…,p_N}，p_i代表第i个类别的概率值，Max(p_i)即为实际的输出结果。然后结合CB算法原理，即先利用用户以前偏好的item特征，学习出用户的偏好特征，通过对比以前item特征特征与候选item的特征，实现满足用户偏好的音乐TopN推荐。

以上对本发明实施例所述的具体内容是本发明较好的实施方式，但本发明的实施方式并不局限于以上详述的实施例，对于一般技术人员，应当在不脱离本发明的原理上，可以进行修改、替换、增加等操作，但这些操作均在本发明的保护范围内。

Claims

1.一种基于DCNN联合特征表示的音乐推荐方法，其特征在于，包括：

音乐预处理和增强：用于处理原始音乐数据，以及增强音乐音频用来进行特征的提取；

音乐特征建模模块：在音乐音频预处理即增强完成后，进行音乐的特征提取，分为谱图特征以及MFCC等特征，用于对DCNN模型进行训练的初始样本；

推荐方法模块：所述的音乐推荐建模模块和推荐方法模块是双向连接，进行两端训练，然后将训练得到的低维特征向量进行组合拼接，再进行下一步工作并推荐音乐。

2.如权利要求1所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于，包括：

S1、音乐格式转换：将原始音乐数据进行格式转换，统一格式为MP3，并对每首音乐进行“类别-ID”的形式进行标识；

S2、音乐音频的增强：由于原始音乐数据可能会存在噪声或音质受损等情况，因此需要对其进行增强，降噪主要利用滤波器，在降噪过程中，尽可能不损伤原始的音乐音频信号，回声消除利用NLMS算法实现，音频的采样率调整利用SoX处理；

S3、声谱图和音频谱图：主要包括音频进行FFT生成声谱图、Log梅尔谱图等。音乐音频信号经过预加重、分帧加窗和FFT获得音频声谱图，在输入到梅尔滤波器组中，进一步得到梅尔谱图，最后进行对数运算得到Log梅尔谱图，用于第一通道的模型输入；

S4、音频特征的提取，使用librosa库进行音乐片段的MFCC等特征的提取，保存为文件，作为第二通道的输入数据。

3.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于：在S3中，采用1024的窗口大小，相邻窗距为512，窗函数使用α＝0.46的汉宁窗，梅尔滤波器数量为128，以及以10为底的对数运算。

4.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于，上述是S1、S2、S3中，使用Log梅尔谱图作为第一通道的DCNN网络模型的输入，经过多轮训练，不断减小音乐特征真值与预测值之间的交叉熵误差，直至达到最佳的训练目的，最终得到回归预测模型，即是基于Log梅尔谱图的DCNN模型。

5.如权利要求4所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于：第一通道的DCNN加入了批量归一化层，同时采用ReLu激活函数和Adam优化方法，由4个卷积层和4个池化层交替出现，以及1个全连接组成的。

6.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于，上述S4中，将其得到的音乐元数据进行特征统计处理，使其适合网络的输入要求，训练并调整其权重参数，最终得到MFCC-CNN模型。该模型采用简单的网络结构，即卷积层、池化层均为一维的两层的，且全连接层比基于Log梅尔谱图的DCNN多了一层。

7.如权利要求4和6所述的一种基于DCNN联合特征表示的音乐推荐方法，其特征在于：第一通道和第二通道的结果组合在一起，进入全连接层和softmax层，softmax公式如下：

最后结合CB算法原理，实现满足用户偏好的音乐TopN推荐。