CN111488485A

CN111488485A - 基于卷积神经网络的音乐推荐方法、存储介质和电子装置

Info

Publication number: CN111488485A
Application number: CN202010302141.4A
Authority: CN
Inventors: 沈建荣; 周兆鑫; 袁阳
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-04
Anticipated expiration: 2040-04-16
Also published as: CN111488485B

Abstract

本发明公开了一种基于卷积神经网络的音乐推荐方法、存储介质和电子装置，通过训练好的性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络对用户录音进行特征识别，以获得用户的性别、音色和音调，并基于用户的性别、音色和音调三个参数类别及其权重向用户推荐音乐。本发明基于用户录音的声音特质，而不是用户所录的内容，因此不直接使用录音数据进行音乐推荐，大大减少了后期计算量。同时，通过单独训练三个卷积神经网络识别用户声音的三个参数类别，并根据各类别权重向用户推荐音乐，提高了推荐全面性的同时也提高了推荐准确率。

Description

基于卷积神经网络的音乐推荐方法、存储介质和电子装置

技术领域

本发明涉及机器视觉识别技术，具体涉及一种基于卷积神经网络的音乐推荐方法、存储介质和电子装置。

背景技术

在智能设备上收听音乐已经成为音乐爱好者的日常习惯。当用户使用音乐app点播音乐时，app可以向用户推荐歌曲。现有的音乐推荐方式一般有根据语音特性进行推荐和根据神经网络进行推荐两种。但是这两种方式都存在一定弊端。首先，现有的根据语音特性进行音乐推荐的方式，其语音特性是根据语音和经验公式提取的特定语音特性，没有直接使用整个语音，忽略了声音的其他未知属性；其次，现有的根据神经网络进行推荐的方式，神经网络单一，计算量大。

发明内容

本发明要解决的技术问题是，提供一种基于卷积神经网络的音乐推荐方法、存储介质和电子装置，以解决现有的根据语音特性进行音乐推荐的方式，没有直接使用整个语音，忽略了声音的其他未知属性，以及现有的根据神经网络进行推荐的方式，神经网络单一，计算量大的问题。

本发明是通过如下技术方案实现的：

一种基于卷积神经网络的音乐推荐方法，包括：

步骤1：接收用户的录音；

步骤2：通过训练好的性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络分别对所述用户的录音进行特征识别，以获得所述用户的性别类别、音色类别和音调类别；

步骤3：根据所述用户的性别类别、音色类别和音调类别以及预设的每一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例，从曲库中筛选歌曲；

步骤4：判断筛选出的歌曲数量是否达到所需的推荐歌曲数量，如否，则跳转至步骤5，如是，则跳转至步骤6；

步骤5：根据每一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例，计算出要使筛选出的歌曲数量达到所需的推荐歌曲数量各类别还需筛选出的歌曲数量，并据此从曲库中补充筛选歌曲；

步骤6：将筛选出的所有歌曲推送到用户客户端进行展示。

进一步地，所述音乐推荐方法还包括：

步骤7：统计用户在所述客户端对各类别对应的推荐歌曲的播放次数，并计算每一类别对应的推荐歌曲的播放次数占所有推荐歌曲的总播放次数的比例；

步骤8：将所述步骤3中的比例，以每一类别对应的推荐歌曲的播放次数占所有推荐歌曲的总播放次数的比例与原来根据同一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例的平均值迭代，并返回步骤3。

进一步地，当迭代过程中某一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例趋近于0，则在进行音乐推荐时不再参考该类别因素，并剔除该类别识别对应的卷积神经网络不再使用。

进一步地，所述性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络的训练方法包括：

从数据库中选取用户打分超过设定值的录音作为录音样本；

生成所述录音样本的声波图；

离散密集型地从所述声波图上选择声音点，生成稀疏的声音矩阵模型；

利用所述声音矩阵模型分别进行性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络的训练，直到收敛。

进一步地，所述声音矩阵模型中，在声波曲线上的声音点的值为1，其余位置的声音点的值为0。

进一步地，在生成所述录音样本的声波图之前，还包括：

随机生成噪声脉冲信号，并将所述噪声脉冲信号加入选取的录音中，生成新的录音，并将所述新的录音也作为录音样本。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的音乐推荐方法。

一种电子装置，包括存储器、处理器及存储在所述存储器中并可在所述处理器中运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的音乐推荐方法。

本发明提供的基于卷积神经网络的音乐推荐方法、存储介质和电子装置，通过训练好的性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络对用户录音进行特征识别，以获得用户的性别、音色和音调，并基于用户的性别、音色和音调三个参数类别及其权重向用户推荐音乐。本发明基于用户录音的声音特质，而不是用户所录的内容，因此不直接使用录音数据进行音乐推荐，大大减少了后期计算量。同时，通过单独训练三个卷积神经网络识别用户声音的三个参数类别，并根据各类别权重向用户推荐音乐，提高了推荐全面性的同时也提高了推荐准确率。

附图说明

图1为本发明实施例基于卷积神经网络的音乐推荐方法的流程示意图；

图2为音乐推荐方法的流程中各卷积神经网络的训练方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步详细说明。

如图1所示，本发明实施例提供的基于卷积神经网络的音乐推荐方法能够应用在手机App等应用程序中，能够根据用户的声音特点为用户推荐音乐。该音乐推荐方法包括如下步骤。

步骤1：接收用户的录音。可以在手机、平板电脑等智能终端中安装用于实现本发明的音乐推荐方法的应用程序，应用程序调用智能终端的Mic采集用户的声音，以完成对用户录音的接收。

步骤2：通过训练好的性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络分别对用户的录音进行特征识别，以获得用户的性别类别、音色类别和音调类别。用户录音特征至少可以反映出用户的性别、音色和音调等特征，用户的性别、音色或音调特征决定了用户适合演唱何种类型的歌曲。因此，可以通过对用户的录音进行这三方面的特征识别，以获得户的性别类别、音色类别和音调类别，进而据此进行歌曲推荐。为此，本发明通过性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络分别对用户的录音进行特征识别，来确定用户的性别、音色和音调类别。通过单独的三个卷积神经网络识别用户声音的三个参数类别，并根据各类别权重向用户推荐音乐，可以提高推荐全面性，同时也提高推荐准确率。

步骤3：根据用户的性别类别、音色类别和音调类别以及预设的每一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例，从曲库中筛选歌曲。性别、音色和音调这三个参数类别在向用户推荐歌曲时的重要性可能不同，即这三个参数类别各自所占权重可能不同，可以先预设这三个类别各自占有一定百分比的权重(三个类别的权重不同)，当然也可以简单地预设为三个类别各自占有的权重相同，各占三分之一。后续可以在迭代过程中根据推荐效果不断调整三个参数类别各自所占权重(即前述的比例)。

步骤4：判断筛选出的歌曲数量是否达到所需的推荐歌曲数量，如否，则跳转至步骤5，如是，则跳转至步骤6。

步骤5：根据每一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例，计算出要使筛选出的歌曲数量达到所需的推荐歌曲数量各类别还需筛选出的歌曲数量，并据此从曲库中补充筛选歌曲。从而使筛选出的歌曲数量达到需要推荐的歌曲总数。

步骤6：将筛选出的所有歌曲推送到用户客户端进行展示。如果筛选出的歌曲数量超过需要推荐的歌曲总数，可以只向用户展示需要推荐的数量歌曲。

可在前述方法步骤基础上加入正反馈机制，以不断调整三个卷积神经网络的推荐占比，提高音乐推荐准确性。具体来说该音乐推荐方法还可以包括如下步骤。正反馈机制即体现在如下步骤中。

步骤7：统计用户在客户端对各类别对应的推荐歌曲的播放次数，并计算每一类别对应的推荐歌曲的播放次数占所有推荐歌曲的总播放次数的比例。某类别对应的推荐歌曲的播放次数占所有推荐歌曲的总播放次数的比例越高，说明根据该类别推荐的歌曲的准确性越高，反之越低。

步骤8：将步骤3中的比例，以每一类别对应的推荐歌曲的播放次数占所有推荐歌曲的总播放次数的比例与原来根据同一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例的平均值迭代，并返回步骤3。通过不断迭代，调整各类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例，提高能够获得更高准确率的类别的推荐歌曲占比，能够有效提高最终的推荐准确率。当迭代过程中某一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例趋近于0，说明基于该类别推荐的歌曲对于用户而言准确率趋近于0，没有参考意义，则在进行音乐推荐时不再参考该类别因素，并剔除该类别识别对应的卷积神经网络不再使用。

在本实施例中，如图2所示，音乐推荐方法，性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络的训练方法包括如下步骤。

从数据库中选取用户打分超过设定值的录音作为录音样本；

生成录音样本的声波图；

离散密集型地从声波图上选择声音点，生成稀疏的声音矩阵模型；

利用声音矩阵模型分别进行性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络的训练，直到收敛。

在训练过程中，对于数据库中录音的选取，可以选择用户打分超过80的录音。声音矩阵模型中，在声波曲线上的声音点的值为1，其余位置的声音点的值为0。通过这种方式能够最大程度上保留声波的特性，同时样本矩阵稀疏性和大范围的0值，大大减少了计算的量级，减少了后续卷积神经网络的训练量。同时，可以引入基于残差网络添加更多的网络层数。

在生成录音样本的声波图之前，还包括：

随机生成噪声脉冲信号，并将噪声脉冲信号加入选取的录音中，生成新的录音，并将新的录音也作为录音样本。通过这种方式能够增加录音样本数量，提高了其鲁棒性。

本发明的音乐推荐方法不再基于用户历史和爱好，而是基于用户声音的全部特性借助卷积神经网络，推荐最适合用户的歌曲，不仅大大减少了后期计算量，同时通过单独三个卷积神经网络识别用户声音的三个参数类别，并根据各类别权重向用户推荐音乐，还可以提高推荐全面性，同时也提高推荐准确率。

基于上述音乐推荐方法，本发明实施例还提供了一种计算机存储介质。该计算机存储介质上存储有计算机程序，计算机程序被处理器执行时，实现如上的音乐推荐方法。

基于上述音乐推荐方法，本发明实施例还提供了一种电子装置。该电子装置包括存储器、处理器及存储在存储器中并可在处理器中运行的计算机程序，处理器执行计算机程序时，实现如上的音乐推荐方法。

上述实施例仅为优选实施例，并不用以限制本发明的保护范围。在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的音乐推荐方法，其特征在于，包括：

步骤1：接收用户的录音；

步骤6：将筛选出的所有歌曲推送到用户客户端进行展示。

2.如权利要求1所述的音乐推荐方法，其特征在于，还包括：

3.如权利要求2所述的音乐推荐方法，其特征在于，当迭代过程中某一类别需要推荐的歌曲数量所占需要推荐的歌曲总数的比例趋近于0，则在进行音乐推荐时不再参考该类别因素，并剔除该类别识别对应的卷积神经网络不再使用。

4.如权利要求1所述的音乐推荐方法，其特征在于，所述性别识别卷积神经网络、音色识别卷积神经网络和音调识别卷积神经网络的训练方法包括：

从数据库中选取用户打分超过设定值的录音作为录音样本；

生成所述录音样本的声波图；

5.如权利要求4所述的音乐推荐方法，其特征在于，所述声音矩阵模型中，在声波曲线上的声音点的值为1，其余位置的声音点的值为0。

6.如权利要求4所述的音乐推荐方法，其特征在于，在生成所述录音样本的声波图之前，还包括：

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至6中任一所述的音乐推荐方法。

8.一种电子装置，其特征在于，包括存储器、处理器及存储在所述存储器中并可在所述处理器中运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1至6中任一所述的音乐推荐方法。