CN113094544B - 一种基于dcnn联合特征表示的音乐推荐方法 - Google Patents

一种基于dcnn联合特征表示的音乐推荐方法 Download PDF

Info

Publication number
CN113094544B
CN113094544B CN202110338511.4A CN202110338511A CN113094544B CN 113094544 B CN113094544 B CN 113094544B CN 202110338511 A CN202110338511 A CN 202110338511A CN 113094544 B CN113094544 B CN 113094544B
Authority
CN
China
Prior art keywords
music
spectrogram
dcnn
audio
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110338511.4A
Other languages
English (en)
Other versions
CN113094544A (zh
Inventor
陈湘涛
柳玉洋
王莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110338511.4A priority Critical patent/CN113094544B/zh
Publication of CN113094544A publication Critical patent/CN113094544A/zh
Application granted granted Critical
Publication of CN113094544B publication Critical patent/CN113094544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于DCNN联合特征表示的音乐推荐方法,其发明内容主要包括音乐预处理和增强、音乐特征的提取和推荐方法的建模,首先将Log梅尔谱图输入到第一通道的DCNN进行训练,即得基于Log梅尔谱图的DCNN模型,同时将MFCC等特征输入到CNN中训练,即得基于MFCC的CNN模型,然后将第一通道和第二通道的结果进行组合拼接,输入到全连接层和softmax层,进行音乐特征向量的进一步降维,由于采用了不同模态的数据,训练的结果更加准确,更具有扩展性,最后计算用户偏好并对其推荐音乐。

Description

一种基于DCNN联合特征表示的音乐推荐方法
技术领域
本发明属于个性化音乐推荐领域,涵盖了音频处理、图像处理、推荐系统以及深度学习等领域知识和相关技术,是一种基于DCNN联合特征表示的音乐推荐方法。
背景技术
21世纪是信息科技飞速发展的时代,伴随着科技的飞速猛进和互联网的欣欣向荣,人类已然进入信息化和大数据时代。当前,以互联网为主体的数字音乐逐渐地走入人们的视线和每日生活,在互联网高效、快速的传播方式下,在线数字音乐的需求与供应不断增大。与此同时也带来了诸多问题,例如信息过载、信息不对称等问题。为了克服这些问题,个性化音乐推荐系统就此诞生。
现有的音乐推荐系统大多数采用的是比较传统的推荐方法,例如基于领域推荐、基于标签推荐和基于知识领域推荐以及混合推荐等,虽然在一定程度上解决了上述问题,以及人们越来越个性化音乐的追求,但在推荐效果上却不太理想,例如推荐的音乐大多相似,不具备多样性,推荐的结果可解释性较差,无法让用户信服或满意,以及推荐需要用户具备很高的领域知识,没能从音乐本体考虑,关注较多的用户行为数据,忽略了音乐的音频携带大量的有效信息,从而导致音乐推荐无法适应当前人们对音乐的个性化追求。
为了能够缓解或解决上述音乐推荐系统存在的问题和难点,以及给用户提供一个更加智能化、个性化的音乐推荐系统,来满足当下人们对音乐的需求。随着深度学习在多数领域大放异彩,且取得了骄人的成绩,因此本发明在传统推荐算法的基础上结合卷积神经网络等诸多人工智能技术,进一步探索一个新颖的个性化音乐推荐,即提出了一种基于DCNN联合特征表示的音乐推荐方法。
发明内容
本发明的目的:为了解决现有音乐推荐技术的缺点,进一步提高音乐推荐的准确率和多样性,本发明提出了一种基于DCNN联合特征表示的音乐推荐方法,该方法利用不同形式的数据进行多角度挖掘分析,能够为用户提供符合个人偏好的音乐推荐。
为了实现符合要求的个性化音乐推荐,本发明提出的基于DCNN联合特征表示的音乐推荐方法,主要包括以下步骤:
S1、对原始音乐数据集进行格式转换,统一为MP3格式,并对其进行标识。
S2、音乐音频的增强:对音频的增强主要包括降噪(ANC)、回声消除(AEC)和调整采样率等,这一步是数据增强的重要一步,直接影响接下来音频谱图能否包含准确且有效的潜在特征。
S3、音频的声谱图
S3.1、首先将步骤1、2得到的音频进行预加重(Pre-Emphasis,PE),使得音频喜好保持频谱平稳,增强高频段,即H(Z)=1-μZ-1,其中,μ∈[0.9,1.0);
S3.2、在步骤3.1基础上进行分帧加窗,利用汉宁窗来减少频谱泄漏,以及消除吉布斯效应,窗函数为
Figure BDA0002994752010000021
N代表窗口长度;
S3.3、紧接上一步,通过快速傅里叶变换(Fast Fourier Transform,FFT),再将每帧的频谱图顺时针翻转90度,再按顺序堆叠起来就得到声谱图,实际上这就是短时傅里叶变换(Short-Time Fourier Transform,STFT),即
Figure BDA0002994752010000022
w(t)代表窗函数,S(ω,τ)代表STFT,每一列代表不同位置的加窗信号;
S3.4、将步骤3.3的结果输入到滤波组中,利用滤波器将其转化为Mel频率,即
Figure BDA0002994752010000023
Figure BDA0002994752010000024
f代表频率,单位为Hz,log代表以10为底的对数,m代表Mel频率,然后在做对数运算就得到了音乐音频信号的Log梅尔谱图。
S4、为了充分挖掘和利用音乐音频信号的信息,将从另一个维度提取音乐的潜在特征,形成文本数据,即通过librosa库对音乐片段进行梅尔频率倒谱系数(MayerFrequency Cepstrum Coefficient,MFCC)、频谱质心、过零率和色度频率等特征的提取,形成音乐元数据,保存在文件中。
S5、利用DCNN对音乐的Log梅尔谱图进行卷积、池化等操作
S5.1、每一次经过卷积之后,使用归一化操作和Relu激活函数对其增强非线性表达能力,此外为了学习捕获边界信息,在第一通道DCNN中进行padding,设置方式为same计算公式为:
Figure BDA0002994752010000025
n代表输入尺寸大小,s代表步幅大小,/>
Figure BDA0002994752010000026
代表向上取整;
S5.2、经过步骤4.1之后,得到参数较多,维度较高的数据,再对其进行最大池化操作得到低维特征向量;
S5.3、步骤4.2得到的特征向量会依次经过后面3个卷积层和池化层,然后进入全连接层进一步降维,得到第一通道的DCNN训练的特征向量,称为X1,该输出接下来会与第二通道的DCNN的输出进行合并,作为新的特征,进行整个网络的下一步训练。
S6、将步骤4提取的音乐元数据经过处理后,输入到CNN中进行特征训练,经过卷积层、池化层以及全连接层后输出一个具有标识的低维特征向量,称为X2,连接来自两个通道输出的X1和X2,将作为下一个隐层的输入,并投射它们到联合的特征空间中,然后将联合特征代表传递到softmax层进行分类,最后结合CB算法对音乐进行推荐。
S7、训练优化DCNN模型
S7.1、利用训练集和验证集对DCNN联合特征表示模型进行训练,采用Adam梯度下降法对模型中的参数进行优化,选择交叉熵误差作为模型的损失函数,当模型训练超过设定的阈值时,如果模型没有提升,就提前结束训练;
S7.2、将上述整理好的两个数据集保存起来,在每次训练时,只需加载处理好的数据,从而提高模型的效率。
本发明采用的DCNN联合特征表示模型参数较少,训练更加稳定、效率更高,解决了训练时间与高效率之间的矛盾。由于利用不同的音乐特征数据和不同的训练通道,不仅有效地解决了训练数据的多模态,使训练结果更可靠,增加了其扩展性和适应性,而且保证了推荐结果更加满足用户的偏好,增强了音乐推荐的准确性和多样性。
附图说明
图1:本发明的一种基于DCNN联合特征表示的音乐推荐方法的流程图。
图2:本发明的DCNN联合特征表示模型框架图。
具体实施方式
本发明的具体实施方式具体内容如下:
(1)音乐格式转换
如图1所示,首先对音乐数据按照音乐类别进行归类,然后对每一类进行重新命名,例如electronic__1482.mp3、hip_hop__005.mp3、instrumental__10230.mp3等,其中electronic、hip_hop、instrumental代表音乐类别,1482、005、10230代表音乐ID,经过处理后,音乐的格式均为MP3,为下一步音乐音频的处理和音频谱图的生成打下基础。
(2)音乐音频的增强
由于原始音乐数据可能会存在噪声或音质受损等情况,因此需要对其进行增强,使其接近理想状态。降噪主要利用滤波器,在降噪过程中,按照评价准则:
Figure BDA0002994752010000031
尽可能不损伤原始的音乐音频信号;回声消除利用NLMS算法实现,其滤波器抽头权重更新为w(n+1)=w(n)μ(n)e(n)x(n),e(n)代表误差信号,/>
Figure BDA0002994752010000032
代表输入向量的步长值,μ代表步长参数,n代表时间步;音频的采样率调整利用SoX处理为44.1KHZ。
(3)声谱图和音频谱图
(3.1)音频进行FFT生成声谱图
在(1)(2)的基础上,为了得到更多的音频谱图以及模型的训练,将每首处理好的音乐在保证特性基本不变的情况下分割成每段大约5s的音频片段,然后对其进行预加重,选择合适的帧长,确保相邻两帧间保留有一定的帧移,加窗(窗口大小设置为1024,相邻窗距设置为512,窗函数使用汉宁窗,即
Figure BDA0002994752010000041
最后通过快速傅里叶变换(Fast Fourier Transform,FFT)得到声谱图。
(3.2)Log梅尔谱图
在(3.1)获得的声谱图由于不符合人耳特性,潜在特征没能体现,因此不能直接用于训练。为了能够得到包含更多有效信息,损失最小的频谱图,需要将声谱图输入到Mel滤波器组中,滤波器数量设置为128,得到梅尔频谱,再对其取对数运算,将会得到Log梅尔谱图,然后将获得的图片归一化为256×256,最后对其进行标记,如electronic__1482__003.png、hip_hop__005__004.png、instrumental__10230__001.png,其中electronic、1482和003分别代表音乐类型、音乐ID和谱图序号。
(3.3)音频特征的提取
在(1)(2)处理好的音频中提取有价值的特征,主要包括韵律特征、光谱特征和语音质量特征为了对音频片段进行准确判别,将从音乐片段中提取MFCC、频谱质心、过零率和色度频率等特征,形成音乐元数据,作为一端DCNN模型的输入。
(4)基于Log梅尔谱图的DCNN
(4.1)使用Log梅尔谱图作为第一通道的DCNN网络模型的输入,为了使训练效果更好、减少训练时间以及保证训练的稳定,对DCNN模型采用两个较小的卷积核代替一个较大的卷积核,不仅能减少训练的权重参数,而且增强网络的非线性表征能力。
(4.2)第一通道的DCNN加入了批量归一化层,同时采用ReLu激活函数和Adam优化方法,这样在一定程度上可以防止梯度消失或网络退化问题,且保证了训练的稳定性。音频谱图进入第一通道的DCNN经过多轮训练,不断减小音乐特征真值与预测值之间的交叉熵误差,直至达到最佳的训练目的,最终得到回归预测模型。
(4.3)本发明第一通道DCNN是由4个卷积层和4个池化层交替出现,以及1个全连接组成的。经过上述的优化调整,该模型能够潜在的和更深层次的音频信息,并且通过4个池化层后,高纬度的特征信息大幅降低,同时提高了网络的准确率。
(5)基于MFCC的CNN
(5.1)将(3.3)得到的音乐元数据进行特征统计处理,使其适合网络的输入要求。由于该特征数据远小于图像,第二通道的CNN采用简单的网络结构,即卷积层、池化层均为一维的两层的,且全连接层比基于Log梅尔谱图的DCNN多了一层。
(5.2)MFCC-CNN模型训练
采用Adam优化算法训练并调整MFCC-CNN的权重参数等,使用交叉熵损失作为模型的损失函数,交叉熵公式如下:
H(D,Y)=-∑D(x)logY(x) (5.1)
其中,D为真实值,Y为预测值。
(6)联合特征代表的训练,第一通道训练类似,最终会得到低维代表的特征向量,随后将第一通道和第二通道的结果组合在一起,进入全连接层和softmax层,softmax公式如下:
Figure BDA0002994752010000051
最终得到预测的结果的概率值为P,P={p1,p2,…,pN},pi代表第i个类别的概率值,Max(pi)即为实际的输出结果。然后结合CB算法原理,即先利用用户以前偏好的item特征,学习出用户的偏好特征,通过对比以前item特征特征与候选item的特征,实现满足用户偏好的音乐TopN推荐。
以上对本发明实施例所述的具体内容是本发明较好的实施方式,但本发明的实施方式并不局限于以上详述的实施例,对于一般技术人员,应当在不脱离本发明的原理上,可以进行修改、替换、增加等操作,但这些操作均在本发明的保护范围内。

Claims (1)

1.一种基于DCNN联合特征表示的音乐推荐方法,其特征在于,包括:
音乐预处理和增强:用于处理原始音乐数据,以及增强音乐音频用来进行特征的提取;
音乐特征建模模块:在音乐音频预处理和增强后,通过FFT、Mel滤波器生成声谱图、音频谱图和Log梅尔谱图,以及提取MFCC、频谱质心音频特征,用于模型训练的初始样本,然后结合DCNN、CNN进行建模,分别得到基于Log梅尔谱图的DCNN模型和基于MFCC的CNN模型,并对其进行训练;
推荐方法模块:音乐特征建模模块和推荐方法模块是双向连接,进行两端训练; 将训练得到的低维特征向量进行组合拼接,再进行下一步工作并推荐音乐,上述模块具体包括以下步骤:
S1.音乐格式转换:将原始音乐数据进行格式转换,统一格式为MP3,并对每首音乐按照“类别-ID”的形式进行标识;
S2.音乐音频的增强:由于原始音乐数据可能会存在噪声或音质受损的情况,因此需要对其进行增强,降噪主要利用滤波器,在降噪过程中,尽可能不损伤原始的音乐音频信号,回声消除利用NLMS算法实现,音频的采样率调整利用SoX处理;
S3.声谱图和音频谱图:主要包括音频进行FFT生成声谱图、Log梅尔谱图; 音乐音频信号经过预加重、分帧加窗和FFT获得音频声谱图,在输入到梅尔滤波器组中,进一步得到梅尔谱图,最后进行对数运算得到Log梅尔谱图,用于第一通道的模型输入;
S4.音频特征的提取,使用librosa库进行音乐片段的MFCC特征的提取,保存为文件,作为第二通道的输入数据;
其中,在步骤S3中采用1024的窗口大小,相邻窗距为512,窗函数使用α=0.46的汉宁窗,梅尔滤波器数量为128,以及以10为底的对数运算; 在步骤S1、S2和S3中使用Log梅尔谱图作为第一通道的DCNN网络模型的输入,经过多轮训练,不断减小音乐特征真值与预测值之间的交叉熵误差,直至达到最佳的训练目的,最终得到回归预测模型,即基于Log梅尔谱图的DCNN模型;
上述第一通道的DCNN加入了批量归一化层,同时采用ReLu激活函数和Adam优化方法,由4个卷积层和4个池化层交替出现,以及1个全连接组成;
然后,在步骤S4中将其得到的音乐元数据进行特征统计处理,使其适合网络的输入要求,训练并调整其权重参数,最终得到MFCC-CNN模型; 该模型采用简单的网络结构,即卷积层、池化层均为一维的两层的,且全连接层比基于Log梅尔谱图的DCNN多了一层;
最后,将第一通道和第二通道的结果组合在一起,进入全连接层和softmax层,softmax公式如下:
Figure FDA0003870463730000021
再结合CB算法原理,实现满足用户偏好的音乐TopN推荐。
CN202110338511.4A 2021-03-26 2021-03-26 一种基于dcnn联合特征表示的音乐推荐方法 Active CN113094544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110338511.4A CN113094544B (zh) 2021-03-26 2021-03-26 一种基于dcnn联合特征表示的音乐推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110338511.4A CN113094544B (zh) 2021-03-26 2021-03-26 一种基于dcnn联合特征表示的音乐推荐方法

Publications (2)

Publication Number Publication Date
CN113094544A CN113094544A (zh) 2021-07-09
CN113094544B true CN113094544B (zh) 2023-03-24

Family

ID=76671178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110338511.4A Active CN113094544B (zh) 2021-03-26 2021-03-26 一种基于dcnn联合特征表示的音乐推荐方法

Country Status (1)

Country Link
CN (1) CN113094544B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595550A (zh) * 2018-04-10 2018-09-28 南京邮电大学 一种基于卷积神经网络的音乐推荐系统及推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks
US11307880B2 (en) * 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US10782986B2 (en) * 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
CN108920648B (zh) * 2018-07-03 2021-06-22 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN112466329A (zh) * 2020-11-16 2021-03-09 辽宁工程技术大学 一种改进dcnn的音乐流派分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595550A (zh) * 2018-04-10 2018-09-28 南京邮电大学 一种基于卷积神经网络的音乐推荐系统及推荐方法

Also Published As

Publication number Publication date
CN113094544A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN110675881B (zh) 一种语音校验方法和装置
Ohi et al. Deep speaker recognition: Process, progress, and challenges
Luo et al. Emotional voice conversion using dual supervised adversarial networks with continuous wavelet transform f0 features
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
Sadeghi et al. Optimal MFCC features extraction by differential evolution algorithm for speaker recognition
CN116226372A (zh) 基于Bi-LSTM-CNN的多模态语音情感识别方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Reghunath et al. Transformer-based ensemble method for multiple predominant instruments recognition in polyphonic music
JP3014177B2 (ja) 話者適応音声認識装置
JPH09507921A (ja) ニューラルネットワークを使用した音声認識システムおよびその使用方法
CN110619886B (zh) 一种针对低资源土家语的端到端语音增强方法
CN113611293A (zh) 一种蒙古语数据集扩充方法
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
CN113094544B (zh) 一种基于dcnn联合特征表示的音乐推荐方法
Li et al. Speech intelligibility enhancement using non-parallel speaking style conversion with stargan and dynamic range compression
Feng et al. Speech emotion recognition based on LSTM and Mel scale wavelet packet decomposition
CN113744759B (zh) 音色模板定制方法及其装置、设备、介质、产品
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models
CN114360507A (zh) 基于跨层连接注意力的语音识别网络、方法、设备及介质
CN113593537A (zh) 基于互补特征学习框架的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant