CN106095925B

CN106095925B - 一种基于声乐特征的个性化歌曲推荐方法

Info

Publication number: CN106095925B
Application number: CN201610407547.2A
Authority: CN
Inventors: 马占宇; 冯楚祎; 司中威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2018-07-03
Anticipated expiration: 2036-06-12
Also published as: CN106095925A

Abstract

本发明实施例公开了一种基于声乐特征的个性化歌曲推荐系统。该方法包括如下步骤：特征提取步骤：提取歌唱数据的音域特征、速度特征和音色特征，其中音域特征包括绝对音域和相对音域，速度特征是每分钟节拍数，音色特征是梅尔频率倒谱系数训练的高斯混合模型。系统推荐步骤：将用户演唱片段用关键音匹配算法找到音乐库中的对应歌曲，进行音域适合度检测、歌曲适合度检测、歌手适合度检测。用提取的用户特征进行歌手推荐和歌曲推荐。利用本发明实施例，可以实现评价当前演唱歌曲是否适合用户演唱，并进一步推荐与用户声乐能力相匹配的歌手和适合用户演唱的歌曲。从用户演唱的角度出发，将传统的音乐推荐范围进行了推广，具有很高的实用价值。

Description

一种基于声乐特征的个性化歌曲推荐方法

技术领域

本发明属于音频处理领域，着重描述了一种基于歌唱内容的个性化歌曲推荐方法。

背景技术

音乐推荐是为广大用户提供符合个人兴趣爱好的音乐的技术。该技术在数字音乐快速发展、音乐资源飞速增长的今天具有重要的研究及应用价值。歌曲推荐是音乐推荐的分支，在歌曲市场蓬勃发展的今天，歌曲推荐成为歌曲市场的重点发展方向。

目前，音乐推荐的主要方法有基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于知识的推荐以及组合推荐等。基于内容的推荐，主要针对音乐本身的声学性质，通过提取特征参数并计算它们之间的相似度来获得内容较为一致的音乐。协同过滤推荐，主要根据用户过去的行为选择，识别出一组具有相似兴趣的用户并计算他们之间的距离，然后利用这些相似用户对于音乐的评价来预测目标用户的兴趣爱好。基于关联规则的推荐，根据当前用户的收藏记录，通过音乐之间的相关性推算出用户还没有收藏的音乐，之后依据规则的重要程度，将这些音乐排列形成列表推荐给用户。基于知识的推荐，是一种基于推理的方法，能够给出用户和音乐之间的联系，用户提供的资料或偏好信息是能够支持推理的知识结构。组合推荐，以组合的形式将上述方法整合起来应用。

协同过滤推荐是当前音乐推荐系统中应用最早、最为广泛的方法。利用这种推荐方法得到的音乐，往往是评分较高、受欢迎的音乐，而一些新加入的音乐由于没有足够的时间关注因此很难被推荐给用户。传统的基于内容的推荐，提取像情感这类抽象参数时一般采用人工标注的方法，如此一来，特征的表达掺入了主观成分，具有了一些不确定因素。本发明所描述的基于歌唱内容的个性化歌曲推荐方法，不再聚焦于为用户推荐可能喜欢听的音乐，而是旨在推荐与用户声乐能力相匹配的歌手和适合用户演唱的歌曲。从用户演唱的角度出发，将传统的音乐推荐范围进行了推广。

发明内容

为了实现推荐与用户声乐能力相匹配的歌手和适合用户演唱的歌曲，本发明提供一种基于声乐特征的个性化歌曲推荐方法，包括以下步骤：

一.特征提取步骤：

A、音域特征提取：读入歌唱片段并通过快速傅里叶变换得到频谱，将每帧信号频谱值最大处对应的频率作为备选音高，并将其作为二到五次谐波时对应的基频加入到备选音高集合中；从歌唱片段中提取出每帧的备选音高集合；计算备选音高的选中概率，取概率最大者为输出音高，得到初始音高序列；对初始音高序列去孤立点，得到最终预测音高序列；找出最终预测音高序列的最高音和最低音，计算绝对音域和相对音域；

备选音高集合表达式为：

其中，f_i表示当前帧的第i个备选音高，f_max表示当前帧的频谱峰值对应的频率；

每个备选音高的选中概率为：

其中，h_m＝0.55^m-1为压缩因子，A(nf)是f的n次谐波对应的频谱幅度；

音域特征提取的步骤，具体包括：在得到初始音高序列后进行去孤立点，判断初始音高序列中的各点是正常点的规则是该点音高与前一点和后一点的音高一致，频率差不超过60Hz；得到最终预测音高序列后，绝对音域为最低音到最高音的区间，相对音域是该区间对应的八度个数；

B、速度特征提取：利用小波变换得到原始歌唱信号的一系列子频带；对每一个子频带分别做低通滤波、下采样，得到时域上的振幅包络；对其求和并做自相关函数分析，将得到的前5个峰值的每分钟节拍数BPM值相加得到速度特征；

C、音色特征提取：提取歌唱片段的39阶梅尔频率倒谱系数，用其训练该歌唱片段的含64个成分的高斯混合模型；

二.推荐步骤：将用户演唱片段用关键音匹配算法找到音乐库中的对应歌曲；进行音域适合度检测、歌曲适合度检测和歌手适合度检测后；用提取的音域特征和音色特征进行歌手推荐和歌曲推荐；

关键音匹配算法步骤如下：

1)用户歌唱片段记为User(n)，音乐库中的片段记为Music(N)；用户歌唱片段序列和音乐库片段序列为二维向量序列<pitch,duration>，其中pitch表示当前关键音的音高，duration表示当前关键音的音长；在Music(N)中寻找与User(n)可能相似的片段；

①对Music(N)和User(n)进行关键音提取，得到各自的关键音序列Music_p(M)和User_p(m)，M和m为关键音序列的长度；关键音序列为三维向量序列<changetime,difference,position>，其中changetime表示当前关键音与前一个关键音之间音高改变的次数，difference表示当前关键音与前一个关键音音高的差值，position表示当前关键音在旋律序列中的位置；

②比较关键音序列Music_p(M)和User_p(m)，确定Music(N)中可能与User(n)相似的片段，进行关键音匹配；

2)根据步骤1)中找到的相似片段，将User(n)的整体音高调整到与Music(N)一致，歌唱速度调整到与原唱速度一致；

3)计算User(n)和Music(N)的相似度；

①对User(n)和Music(N)进行时间的交叉划分，得到User(m)和Music(M)；

②对User(m)和Music(M)进行音长的交叉划分，得到User(t)和Music(t)，序列长度为T；这两个序列的音高分量序列和音长分量序列分别记为User_p(t)、User_d(t)、Music_p(t)、Music_d(t)；

③按下式计算用户歌唱片段和音乐库片段的相似度：

Similarity值越小，相似度越高；Similarity＝0时，代表两段旋律完全相同。

音域适合度检测的步骤，包括：

返回用户歌唱的绝对音域和相对音域、用户歌唱音域中的较窄、正常和/或较宽的属性；

其中，绝对音域的表示形式为音符加八度标号，设置的音符加八度标号的歌唱音域范围为[C2,C6]，相对音域以绝对音域对应了几个八度计；用户歌唱音域判定规则：若相对音域<1，则用户歌唱音域较窄；若1≤相对音域≤1.75，则用户歌唱音域正常；若相对音域>1.75，则用户歌唱音域较宽。

歌曲适合度检测的步骤，包括：返回当前演唱歌曲是否适合用户演唱；歌曲适合度检测使用的特征是音域特征和速度特征：

音域特征的比较步骤：

①比较绝对音域，若用户绝对音域在歌曲绝对音域范围内，则该歌曲可以演唱，否则不可以直接演唱；若不可以直接演唱，则进行步骤②；

②比较相对音域，若用户相对音域不小于歌曲相对音域，则该歌曲可以选择转调演唱，否则该歌曲无法演唱；

速度特征的比较规则：若0.8倍的歌曲速度≤用户演唱速度≤1.2倍的歌曲速度，则该曲适合演唱；否则该曲不适合演唱。

歌手适合度检测，包括：返回当前演唱歌曲的原唱歌手是否有歌曲适合用户演唱；歌手适合度检测使用的特征是音域特征和音色特征：

音域特征的比较：

①比较绝对音域，若用户绝对音域在歌手绝对音域的±14个半音范围内，则用户可以演唱该歌手的歌曲，否则不可以直接演唱；若不可以直接演唱，则进行步骤②；

②比较相对音域，若用户相对音域大于歌手相对音域的则用户可以选择转调演唱该歌手的歌曲，否则无法演唱；

音色特征的比较，通过计算用户歌唱片段观察矢量序列的后验概率P(X|λ_k)，来得到音色相近的歌手；将后验概率最大的三位歌手作为最合适该用户演唱的三位歌手，若其中含有当前演唱歌曲的原唱歌手，则判定音色相似，可以演唱，否则判定用户不适合演唱该歌手的歌曲。

还包括根据用户演唱特征进行推荐工作的步骤，包括：首先进行音色匹配得到推荐歌手，然后需要用户选择演唱方式，演唱方式包括直接演唱、转调演唱或跨性别演唱，在推荐歌手的范围内进行音域匹配得到推荐歌曲；若用户选择直接演唱，则在音域匹配中进行绝对音域匹配，若选择转调演唱，则在音域匹配中选择相对音域匹配；音域匹配为音域特征的比较，包括：

音色匹配的方法包括：音色特征的比较，通过计算用户歌唱片段观察矢量序列的后验概率P(X|λ_k)，来得到音色相近的歌手；将后验概率最大的三位歌手作为最合适该用户演唱的三位歌手，若其中含有当前演唱歌曲的原唱歌手，则判定音色相似，可以演唱，否则判定用户不适合演唱该歌手的歌曲；得到了三位推荐歌手后，在每位歌手的歌曲库中进行音域匹配：首先进行歌手适合度检测中的音域特征的比较，得到音色和音域均可演唱的歌手，然后进行歌曲适合度检测中的音域特征的比较，得到可演唱歌曲；最终得到推荐给该用户的歌手和歌曲。

本发明的有益效果在于，相对于现有技术而言，本发明以专业的视角审视歌曲推荐的核心问题，可以帮助用户解决“不知道自己适合唱谁的歌”、“不知道自己的音域能唱哪些歌”的困扰。本发明提取歌唱的本质特征，构建了音域、速度、音色的多维度特征集合。既对用户当前演唱的歌曲做出是否适合演唱的评价，又通过合理的推荐步骤给出适合用户演唱的歌手及其歌曲。实验结果验证了本发明的准确性和可行性，具有很强的实用价值。

附图说明

图1为本发明提供的一种基于声乐特征的个性化歌曲推荐方法的实现流程图；

图2为用户推荐的步骤流程图。

具体实施方式

下面将结合附图对本发明具体实施方式进行详细说明。

图1是本发明的流程图，其中实线表示训练部分流程走向，虚线表示推荐部分流程走向，包括以下步骤：

第一步：特征提取步骤，提取音乐库中歌唱片段的歌唱特征；

步骤S1：提取音域特征，得到绝对音域和相对音域。

步骤S2：提取速度特征，得到节拍直方图。

步骤S3：提取音色特征，得到梅尔频率倒谱系数(MFCC,Mel Frequency CepstrumCoefficient)。

第二步：训练歌唱模型；

步骤S4：构建音乐库歌唱片段的歌唱模型，其中音色部分是39阶梅尔频率倒谱系数训练的含64个成分的高斯混合模型。

第三步：推荐过程；

对于使用本方法的用户重复进行第一步中的步骤S1、步骤S2和步骤S3，得到当前用户的歌唱特征，输入步骤S4得到用户歌唱模型。

步骤S5：进行当前演唱歌曲的适合度检测，包括音域适合度检测、歌曲适合度检测、歌手适合度检测。

步骤S6：进行用户推荐，包括歌手推荐和歌曲推荐。实现细节如图2所示。

下面将对每个步骤进行具体的说明：

步骤S1实现音域特征的提取。读入歌唱数据并通过快速傅里叶变换得到频谱，将每帧信号频谱值最大处对应的频率作为备选音高，并将其作为二到五次谐波时对应的基频加入到备选音高集合中，其实现方法如下：

其中，f_i表示当前帧的第i个备选音高，f_max表示当前帧的频谱峰值对应的频率。

计算每帧信号的备选音高集合中每个备选音高的选中概率：

其中，h_m为压缩因子(h_m＝0.55^m-1)，A(nf)是f的n次谐波对应的频谱幅度。选中概率最大的备选音高即为该帧的预测音高。

对初始预测音高序列进行去孤立点，判定初始预测音高序列中正常点的规则如下：

其中，nseg是歌唱片段的分帧数，60为同音判定值，得到最终预测音高序列。找出音高序列的最高音和最低音，计算绝对音域和相对音域。

步骤S2实现速度特征的提取。利用小波变换得到原始歌唱信号的一系列子频带：

其中，x(k)为歌唱信号，ψ(n)为小波基函数。

对每一个子频带分别做低通滤波、下采样，得到时域上的振幅包络，再对其求和并做自相关函数分析：

其中，N为歌唱信号点数。将得到的前5个峰值的BPM值相加得到节拍直方图。

步骤S3实现音色特征的提取。提取歌唱数据的39阶梅尔频率倒谱系数。

步骤S4训练歌唱模型。音色部分的训练是将提取的梅尔频率倒谱系数训练该歌唱片段的含64个成分的高斯混合模型：

其中，π_k为第k个高斯模型的权重。

步骤S5进行当前演唱歌曲的适合度检测。

①通过关键音匹配算法找到用户当前演唱的歌曲。

②进行音域适合度检测。返回用户歌唱音域(绝对音域和相对音域)、用户歌唱音域属性(较窄/正常/较宽)。其中，绝对音域的表示形式为音符加八度标号(方法设置的歌唱音域范围为[C2,C6])，相对音域的计算式如下：

其中，f_highest为最高音对应频率，f_lowest为最低音对应频率，相对音域以八度形式计。

用户歌唱音域属性按以下规则判定：

③进行歌曲适合度检测。返回当前演唱歌曲是否适合用户演唱并给出原因。步骤如下：

1)比较绝对音域——若用户绝对音域在歌曲绝对音域范围内，则该歌曲可以演唱，否则不可以直接演唱。若不可以直接演唱，则进行步骤2)。

2)比较相对音域——若用户相对音域不小于歌曲相对音域，则该歌曲可以选择转调演唱，否则该歌曲无法演唱。

3)比较演唱速度。判定规则如下：

④进行歌手适合度检测。返回当前演唱歌曲的原唱歌手是否适合用户演唱并给出原因。步骤如下：

1)比较绝对音域——若用户绝对音域在歌手绝对音域的±14个半音范围内，则用户可以演唱该歌手的歌曲，否则不可以直接演唱。若不可以直接演唱，则进行步骤2)。

2)比较相对音域——若用户相对音域大于歌手相对音域的则用户可以选择转调演唱该歌手的歌曲，否则无法演唱。

3)比较音色——计算以用户歌唱数据为已知观察矢量序列的后验概率P(X|λ_k)的前三个最大值作为方法得出最合适该用户的三位歌手。若其中含有当前演唱歌曲的原唱歌手，则判定音色相似，可以演唱，否则判定用户不适合演唱该歌手的歌曲。

步骤S6进行用户推荐。返回给当前用户推荐的适合演唱的歌手及其歌曲。步骤如下：

①对用户进行歌手音色匹配，得到最适合用户演唱的三位歌手。

②根据用户选择的演唱方式(直接演唱或转调演唱或跨性别演唱)进行三位歌手的歌手音域匹配，得到音色和音域都适合用户演唱的歌手。

③对入选歌手进行本人歌曲库内的音域匹配。若用户选择直接演唱，则在音域匹配中进行绝对音域匹配；若选择转调演唱或跨性别演唱，则在音域匹配中选择相对音域匹配。得到最终推荐给用户的适合演唱的歌手及其歌曲。

以上结合附图对所提出的一种基于歌唱内容的个性化歌曲推荐方法的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现，该软件产品存储在一个存储介质中，包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声乐特征的个性化歌曲推荐方法，其特征在于，包括以下步骤：

一.特征提取步骤：

备选音高集合表达式为：

每个备选音高的选中概率为：

关键音匹配算法步骤如下：

3)计算User(n)和Music(N)的相似度；

③按下式计算用户歌唱片段和音乐库片段的相似度：

2.根据权利要求1所述的方法，其特征在于,音域适合度检测的步骤，包括：

3.根据权利要求1所述的方法，其特征在于,歌曲适合度检测的步骤，包括：返回当前演唱歌曲是否适合用户演唱；歌曲适合度检测使用的特征是音域特征和速度特征：

音域特征的比较步骤：

4.根据权利要求1所述的方法，其特征在于,歌手适合度检测，包括：返回当前演唱歌曲的原唱歌手是否有歌曲适合用户演唱；歌手适合度检测使用的特征是音域特征和音色特征：

音域特征的比较：

5.根据权利要求1所述的方法，其特征在于，还包括根据用户演唱特征进行推荐工作的步骤，包括：首先进行音色匹配得到推荐歌手，然后需要用户选择演唱方式，演唱方式包括直接演唱、转调演唱或跨性别演唱，在推荐歌手的范围内进行音域匹配得到推荐歌曲；若用户选择直接演唱，则在音域匹配中进行绝对音域匹配，若选择转调演唱，则在音域匹配中选择相对音域匹配；音域匹配为音域特征的比较，包括：