CN105575393A

CN105575393A - 一种基于人声音色的个性化点唱歌曲推荐方法

Info

Publication number: CN105575393A
Application number: CN201510859812.6A
Authority: CN
Inventors: 吴梅梅; 王永滨; 李樱; 冯爽; 安靖
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-05-11

Abstract

一种基于人声音色的个性化点唱推荐方法，它涉及网络平台演唱推荐方法。它解决了协同过滤方法在这里并不适用，不能直接使用说话人识别的相关方法，对推荐结果影响大的问题。本发明的方法一、采用伴奏人声分离；二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC；三、根据步骤二中提取的声学特征量推荐个性化点唱曲目；四、可扩展性分析。本发明的方法在网络演唱系统中提升用户体验，有着很好的应用前景。

Description

一种基于人声音色的个性化点唱歌曲推荐方法

技术领域

本发明涉及网络平台点唱推荐方法，具体涉及一种基于人声音色的个性化点唱推荐方法。

背景技术

目前，随着网络音乐的蓬勃发展，人们对于音乐服务的要求越来越高，各大音乐服务网站都相继推出了音乐的个性化推荐功能，即通过对用户访问行为以及收藏记录等历史行为的分析，挖掘用户的兴趣爱好，为其推荐符合其欣赏品味的音乐。

网络演唱是近几年发展迅猛的音乐服务类产品，他将传统的KTV演唱功能搬到互联网上，通过网络为广大演唱爱好者提供一个虚拟的演唱平台。由于在线KTV的用户大多数是业余用户，他们没有丰富的音乐知识，对歌曲的风格、调式、节奏以及歌手的音色特点等知之甚少，对哪些歌曲适合自己也不甚了解，所以选歌存在很大的盲目性。因此为网络演唱服务进行精准的个性化推荐就显得尤为重要。并且唱歌与听歌不同，听歌是被动的行为，并不需要听众过多的参与反馈。而演唱是主动的，需要用户全程积极参与其中，一旦歌曲不符合用户兴趣，就会直接被切歌，这就要求网络演唱推荐要更加精准，更贴近用户的真实兴趣。所以，网络演唱推荐不能全盘照搬音乐推荐的方法，而是应该在现有音乐推荐方法的基础上，结合网络演唱自身的特点，研究适合网络演唱的推荐方法。

基于人声音色的个性化演唱推荐与传统的音乐推荐有很大不同，第一，该推荐是根据用户自身的音色特点进行推荐，只和本身的音色特点有关，与其他用户无关，所以在传统音乐推荐中使用最广泛的协同过滤方法在这里并不适用，第二，基于人声音色的个性化演唱推荐是根据用户自己的音色特征，为其推荐与他有着类似音色的歌手的歌曲，所以和说话人识别有所不同，不能直接使用说话人识别的相关方法，第三，该推荐只能基于演唱者本人的人声信息，伴奏以及和声对推荐结果都会产生影响的问题。所以在数据处理阶段要对音乐文件进行处理，提取出只有人声部分的音频数据。而网络演唱平台的优势在于可以直接获得演唱者的人声音频数据，只要将曲库中的音乐数据做提取人声的处理就可以了。

发明内容

本发明为了解决传统音乐推荐中使用最广泛的协同过滤方法在这里并不适用，基于人声音色的个性化演唱推荐是根据用户自己的音色特征，为其推荐与他有着类似音色的歌手的歌曲，所以和说话人识别有所不同，不能直接使用说话人识别的相关方法；该推荐只能基于演唱者本人的人声信息，伴奏以及和声对推荐结果都会产生影响的问题，提供了一种基于人声音色的个性化点唱推荐方法，具体技术实施方案如下：

本发明的一种基于人声音色的个性化点唱推荐方法，该方法的步骤如下：

步骤一、伴奏人声分离；

步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC；

步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目；

首先将人声音频按音色进行分类，为此构造了一个人声音色分类数据集，将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类；

其次基础音色歌曲推荐，分类后包含音频数目最多的类别为用户的基本音色类别，其它音色类为用户的扩展音色类别；然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型，然后计算本类中所有待推荐样本与平均值的距离，以此度量歌手和用户音色相似度。将相似度从大到小排序；

然后扩展音色歌曲推荐，代表用户扩展音色的歌曲数目相对很少，所以这部分推荐可以直接使用AR策略，为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度，然后根据相似度从大到小排序；

最后推荐结果合并，假设用户演唱历史中基础音色对应的音频数目为m，扩展音色对应的音频数目为n，推荐歌曲数目为k，最后按照比例进行推荐结果合并。在基础音色推荐结果中取前Int(k*(m/(m+k)))个，在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个，形成最终推荐结果集；

步骤四、可扩展性分析；

根据基础音色产生平均值后，产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程。此过程可以分布到多个结点并行计算，每个结点产生m个推荐样本，再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。

本发明的一种基于人声音色的个性化点唱推荐方法，该方法在网络演唱系统中提升用户体验，有着很好的应用前景。

附图说明

图1是MFCC提取流程图，图2是基于音色分类的近邻搜索流程图，图3是SVM分类原理图，图4是AR策略示意图，图5是算法的分布式计算示意图，图6是算法的伪代码，图7是推荐准确率示意图。

具体实施方式

具体实施方式一：本实施方式的基于人声音色的个性化点唱的推荐方法是这样实现的：

步骤一、伴奏人声分离；

网络演唱系统中可以得到两部分的音频数据，一个是只有伴奏的信号m，另一个是伴有声音的信号c＝s+m′，s表示潜在的原始声音信号，m′表示为s伴奏的背景音乐。通常m听起来像m′，因此原始声音信号s可以被接近m′的m提取。但是，由于m和m′不能分辨，从c直接减去m对提取s的用处不大。一种有望成功代替直接提取的解决方法是采用自适应滤波器，如最小均方或者递归最小二乘，来从m中估算m′。为了计算效率，我们假定m和m′的主要差别是振幅和相位(或框架间隔)，相位差反应了m和m′的不同时。在一份相关的研究中提出，估算m和c之间音量级的差，然后在m后从c减去m可以用差值补偿。但是，他们的方法不能解决m和m′振幅和相位不同的问题；

自适应滤波器的概念可以通过频域计算实现；双频道信号首先被分成帧，然后通过快速傅里叶变换法转换为幅度谱；假设C_t＝{C_t，1，C_t，2，...，C_t，J}和M_t＝{M_t，1，M_t，2，...，M_t，J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱，其中J是频率成分的数值。假定C_t＝S_t+M′_t，其中S_t＝{S_t，1，S_t，2，...，S_t，J}是声音幅度谱，而M′_t＝{M′_t，1，M′_t，2，...，M′_t，J}是背景伴奏的幅度谱。为了找到S_t，我们可以通过a_tM_t+b_t接近M′_t，其中M_t+b_t是紧挨着可能与M′_t相对应的M_t的第b_t帧；而a_t是反映M_t和M′_t之间振幅差的换算系数。最优b_t可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到，即其中是考虑到的最优振幅换算系数。那么，假设我们得出以下a_t的最小二乘误差法答案为相应地，t帧上声音幅度谱可以通过估算出来；

步骤二、从人声数据中提取能代表用户音色特征的声学特征量梅尔倒谱系数MFCC和线性预测倒谱系数LPCC；

将伴奏和人声分离后，我们使用人声部分的音频数据去进行演唱者音色分析。每一个演唱者的人声音频数据中，会既包含语音的文本特征，又包含演唱者音色特征，在文本无关方式下，我们希望这些特征主要表示的是演唱者的音色特征。最终的目标是得到演唱者音色模型描述。要想满足上述目标，需要按照如下准则从人声音频数据中对演唱者音色特征参数进行提取：对局外变量不敏感，能够长期保持稳定，易于测量，与其他特征不相关。通常很难找到同时满足以上要求的特征，一般通过采取一些折衷措施的方式实现。

研究者们通过不断的实验和探索发现，声道频率特性以及激励信号源两者共同作用产生了语音信号，由于激励信号源经常伴有一些随机性，因而人声的个性特征主要取决于发音声道。因此，我们可以用能量、共振峰值、基音频率等参数表示人声音色特征。目前语音识别中常用梅尔倒谱系数(MFCC)与线性预测倒谱系数(LPCC)来表示说话者的音色特征，两者都采取了将语音从时域变换到倒谱域上的方式，MFCC通过模拟人耳听觉模型，使用滤波器组对语音信号进行滤波，然后以滤波后的输出作为声学特征，直接通过快速傅立叶变换将信号转换到频域中；LPCC从人的喉咙构造引起的发声模型角度出发，利用线性预测编码技术求倒谱系数。

在人声音色个性化推荐部分我们使用12维MFCC，12维MFCC差分和12维LPCC来描述音乐。

MFCC的计算主要分为5个步骤，具体流程如图1所示。

1、预处理：包括预加重、分帧和加窗函数

2、快速傅里叶变换：将信号从时域变换到频域，便于观察信号在各频率分量上的能量分布特点，如式1所示

X(i，k)＝FFT[x_i(m)](1)

3、计算谱线能量：对每一帧FFT后的数据计算谱线的能量，如式2所示

E(i，k)＝[X(i，k)]²(2)

4、计算通过MEL滤波器的能量：将能量谱通过一组三角带通梅尔频率滤波器，并计算在该MEL滤波器中的能量。在频域中相当于把每帧的能量谱E(i，k)与MEL滤波器的频域响应H_m(k)相乘并相加，如式3所示

S (i, m) = Σ_{k = 0}^{N - 1} E (i, k) H_{m} (k), 0 \leq m < M - - - (3)

5、计算DCT倒谱：把MEL滤波器的能量取对数后计算DCT，如式4所示

m f c c (i, n) = \sqrt{\frac{2}{M}} Σ_{m = 0}^{M - 1} l o g [S (i, m)] c o s (\frac{π n (2 m - 1)}{2 M}) - - - (4)

线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式。LPC系数可以通过自相关法求得，该方法可以保证系统的稳定性，并可以得到具有最小相位的声道模型传输函数如式5所示。

H (z) = \frac{G}{1 - Σ_{i = 1}^{p} a_{i} z^{- i}} - - - (5)

由此可得出语音信号的倒谱和现行预测系数之间的递推关系，如式6所示

或是由LPC通过式7计算得到：

C_{L P C C} (n) = C_{L P C} (n) + Σ_{k = 1}^{n - 1} \frac{n - k}{n} C_{L P C C} (n - k) C_{L P C} (k) - - - (7)

问题定义：定义U为用户集合，S为歌曲集，给定一个用户u，u∈U，为用户u推荐一个歌曲列表Sg＜S1，S2，...Sk＞，Sg∈S。

要想为用户推荐适合他音色特点的歌曲，首要问题是要分析出每个用户的音色特点。由于网络演唱系统中的大部分用户都是不是专业歌手，没有受过专业的演唱训练，那么我们认为多数用户在演唱多数歌曲时，声音特征都符合他固有的音色特征，只有少数高水平用户在演唱个别歌曲时会使用某些演唱技巧使固有音色特征发生改变。这样，我们将用户演唱历史中的绝大部分歌曲能代表的音色称为用户的基本音色，可以由演唱技巧改变的音色为扩展音色。

1、将人声音频按音色进行分类；

在产生推荐的过程中，我们需要计算曲库中所有歌曲的人声音频到用户音色特征平均值的距离，从中找到距离最近的k首歌曲生成推荐集。这种方法需要进行全局搜索，计算的时间复杂性大，速度慢。为解决这一问题，我们将分类过程结合到近邻的搜索过程中，将训练集和测试集中的人声音频按音色进行分类，构造了一个人声音色分类数据集，将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类。然后在近邻选择的过程中只要在相应的类别中进行搜索就可以了，可以将工作量减少5/6，如图2所示。

分类过程采用支持向量机(SupportVectorMachines，SVM)作为分类器进行人声音色分类。

支持向量机的思想如图3所示。假设在二维空间内，H是一条“分界线”，用于区分图中的圆圈和方块表示的两类样本，H₁、H₂分别是平行于“分界线”H的直线，且经过各类中离分类线最近的样本。支持向量机就是要找出这样的最优“分界线”，该分界线不但能准确的区分两类样本，并且要使得H₁、H₂之间的距离最大。分类的准确性保证了经验风险最小，而距离最大是使推广性的界中的置信风险最小，从而使真实风险最小。在二维空间H是一条分界线，扩展到高维空间，H就变成了一个最优分类曲面，称为“超平面”。

以上思想是SVM用于区分两类分类的基本思想，如果要将其扩展到多类分类，可以将多类问题进行分解，分解为若干个SVM可直接求解的两类问题，根据这些SVM求解结果得出最终判别结果。

如果要再将其扩展为可处理非线性可分问题，则科通过松弛变量和核函数技术来实现线性不可分的样本分类的。

SVM的核函数主要分为四种：

(1)、线性核函数

K(x，x′)＝x·x′(8)

(2)、多项式核函数

K(x，x′)＝[(x，x′)+c]^d，d为多项式的阶数(9)

(3)、径向基核函数

K(x，x′)＝tanhα(x，x′)+β，α为变换尺度，β为偏置(10)

(4)、Sigmoid核函数

σ²为高斯函数的方差(11)

经实验证明，径向基核函数在音乐流派分类数据集上的分类准确率最高，因此方法在SVM训练过程中选择径向基核函数进行音乐流派分类。

2、基础音色歌曲推荐，分类后包含音频数目最多的类别为用户的基本音色类别，其它音色类为用户的扩展音色类别；然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型，然后计算本类中所有待推荐样本与平均值的距离，以此度量歌手和用户音色相似度。将相似度从大到小排序；

基于用户音色特征的点唱推荐最重要的一点是用户音色特点分析，要解决的问题是如何从一个用户以往的演唱记录中发现该用户的音色特点，然后将和用户音色特点相似的歌曲推荐给用户。我们借鉴了基于全局特征的推荐的思想来解决这一问题。

基于全局特征的音乐推荐是基于用户长期行为推荐算法中比较朴素的一类推荐方法，此类算法认为用户的长期行为能够反映用户对音乐的偏好。因此，在抽取歌曲特征的基础上，此类算法将用户收听的所有歌曲的平均特征作为用户特征并推荐与此平均特征类似的歌曲给用户。

基于此方法，我们认为，用户的音色特点可以从他曾经演唱过的歌曲中发现，那么我们可以从用户过去演唱过的所有歌曲中抽取用户演唱的音色特征，用所有音色特征的平均值代表该用户的音色特征。

我们可以将一个用户过去演唱过所有歌曲看做一类(这一类歌曲都反映了该用户的音色)。从物理观点来看，一类用它的重心(该类样品特征的均值)做代表比较合理，所以我们取用户演唱过的所有歌曲中用户音色特征平均值代表该用户的音色特点。

为解决这个问题，我们在步骤三开始的问题定义的基础上，增加用户演唱历史集合S_h(S_h1，S_h2，...，S_hn)，S_h中有n首歌曲，我们从S_hi中提取MFCC和LPCC的组合用来表征用户的音色特征，其中MFCC为24维，LPCC为12维，那么Sh集合中的每首歌曲都用一个36维的特征向量来表示，形成了一个m×n的用户演唱历史的特征向量矩阵如式12所示，其中m为特征向量的维数，n为用户演唱历史中歌曲的数目。

(12)

[S_h11，S_h12，...，S_h1m

S_h21，S_h22，...，S_h2m

......

S_hn1，S_hn2，...，S_hnm]

那么，求用户音色特征的平均值就转化成求矩阵中所有向量的平均值的问题。我们将所有向量映射到欧几里德空间，每个向量对应着空间中的一个点，那么求向量的平均值问题就转化为求空间中所有点的重心问题，如式13所示：

\overset{&OverBar;}{S h} = \frac{1}{n} Σ_{i = 1}^{N} {Sh}_{i} - - - (13)

在用平均值表示了一个用户的音色特点之后，那么为这个用户推荐符合他音色特点的歌曲的问题就转化为：在曲库中计算每一首歌曲与代表该用户音色特点的平均值之间的距离，取距离最近的k首歌曲作为推荐结果的问题。

那么如何计算歌曲与平均值之间的距离呢？我们将曲库中的每首歌也提取36维的MFCC+LPCC形成特征向量S_i(S_i1，S_i2，...，S_im)，这样，求某首歌曲与平均值之间的距离就转化为求两个向量之间的距离的问题。

(1)二维平面上两点a(x₁，y₁)与b(x₂，y₂)间的欧氏距离：

d_{12} = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}} - - - (14)

(2)两个n维向量a(x₁₁，x₁₂，...，x_1n)与b(x₂₁，x₂₂，...，x_2n)间的欧氏距离：

d_{12} = \sqrt{Σ_{k = 1}^{n} {(x_{1 k} - x_{2 k})}^{2}} - - - (15)

也可以用表示成向量运算的形式：

d_{12} = \sqrt{(a - b) {(a - b)}^{T}} - - - (16)

3、扩展音色歌曲推荐，代表用户扩展音色的歌曲数目相对很少，所以这部分推荐可以直接使用AR策略，为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度，然后根据相似度从大到小排序；

AR策略：为群体用户中的每个用户进行个性化推荐，然后将推荐结果进行合并，作为群体推荐结果。最常用的合并策略有最小悲伤策略(leastmisery)、公平策略(average)等。我们可以将用户唱过的每首歌看做是整个群体中的一个用户，那么为每首歌寻找近邻，产生推荐，最后将推荐结果进行和并。如图4所示。

4、推荐结果合并，假设用户演唱历史中基础音色对应的音频数目为m，扩展音色对应的音频数目为n，推荐歌曲数目为k，最后按照比例进行推荐结果合并。在基础音色推荐结果中取前Int(k*(m/(m+k)))个，在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个，形成最终推荐结果集。

步骤四、可扩展性分析；

上述推荐算法中，根据基础音色产生平均值后，产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程。此过程可以分布到多个结点并行计算，每个结点产生m个推荐样本，再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。如图5所示。整个推荐方法的算法伪代码如图6所示。

附：实验结果及分析

数据集的建立及数据预处理

实验过程中选择了10个用户，每个用户录制了75首歌曲，作为实验数据集，然后将750首歌曲进行人声和伴奏分离，只保留人声部分的数据。然后将每个用户的数据分成5份，取4/5作为训练数据，然后将所有用户剩下的1/5数据混合在一起作为测试数据。

评价标准

令R(u)是为用户生成的推荐列表，T(u)是用户在测试集上的行为列表。那么，推荐结果的准确率定义为：

\Pr e c i s i o n = \frac{Σ_{u &Element; U} | R (u) \cap T (u) |}{Σ_{u &Element; U} | R u |} - - - (13)

评价过程：我们为每一个用户使用其训练集分析其音色，在测试集上为其生成推荐列表R(u)，T(u)为测试集中该用户演唱的歌曲，则R(u)∩T(u)则表示推荐正确的歌曲。

实验结果及分析

实验一：分别对10个用户进行推荐，推荐准确率如图7所示。最终该方法平均准确率为41.3％。

实验二、测试算法的计算效率，分析其时间复杂度，AR策略的算法时间复杂度为O(mn)，本文算法时间复杂度O(m+n)，为其中n为训练集歌曲数目，m为测试集歌曲数目，由此可见，本文算法的时间复杂度有了显著降低。

该推荐方法的优势在于不但可以为用户生成个性化推荐列表，还可以告诉用户他的主要音色类型以及可以扩展的音色类型，让用户对自己的音色特点更加了解。

一种基于用户人声音色的点唱歌曲推荐方法，该方法将基于全局特征的音乐推荐策略、群组推荐中合并推荐结果策略以及音色分类相结合，在分析用户的音色类型的基础上产生符合用户音色的歌曲推荐，该方法可以在网络演唱系统中提升用户体验，有着很好的应用前景。

Claims

1.一种基于人声音色的个性化点唱推荐方法，其特征在于：方法的步骤如下：

步骤一、伴奏人声分离；

其次基础音色歌曲推荐，分类后包含音频数目最多的类别为用户的基本音色类别，其它音色类为用户的扩展音色类别；然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型，然后计算本类中所有待推荐样本与平均值的距离，以此度量歌手和用户音色相似度；将相似度从大到小排序；

最后推荐结果合并，假设用户演唱历史中基础音色对应的音频数目为m，扩展音色对应的音频数目为n，推荐歌曲数目为k，最后按照比例进行推荐结果合并，基础音色推荐结果中取前Int(k*(m/(m+k)))个，在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个，形成最终推荐结果集；

步骤四、可扩展性分析；

根据基础音色产生平均值后，产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程，此过程可以分布到多个结点并行计算，每个结点产生m个推荐样本，再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。

2.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法，其特征在于：步骤一中所述的网络演唱系统中可以得到两部分的音频数据，一个是只有伴奏的信号m，另一个是伴有声音的信号c＝s+m′，s表示潜在的原始声音信号，m′表示为s伴奏的背景音乐；通常m听起来像m′，因此原始声音信号s可以被接近m′的m提取，但是，由于m和m′不能分辨，从c直接减去m对提取s的用处不大，一种有望成功代替直接提取的解决方法是采用自适应滤波器，如最小均方或者递归最小二乘，来从m中估算m′；为了计算效率，我们假定m和m′的主要差别是振幅和相位(或框架间隔)，相位差反应了m和m′的不同时，在一份相关的研究中提出，估算m和c之间音量级的差，然后在m后从c减去m可以用差值补偿；但是，他们的方法不能解决m和m′振幅和相位不同的问题；自适应滤波器的概念可以通过频域计算实现；双频道信号首先被分成帧，然后通过快速傅里叶变换法转换为幅度谱；假设C_t＝{C_t，1，C_t，2，...，C_t，J)和M_t＝{M_t，1，M_t，2，...，M_t，J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱，其中J是频率成分的数值；假定C_t＝S_t+M′_t，其中S_t＝{S_t，1，S_t，2，...，S_t，J)是声音幅度谱，而M′_t＝{M′_t，1，M′_t，2，...，M′_t，J)是背景伴奏的幅度谱，为了找到S_t，我们可以通过a_tM_t+b_t接近M′_t，其中M_t+b_t是紧挨着可能与M′_t相对应的M_t的第b_t帧；而a_t是反映M_t和M′_t之间振幅差的换算系数，最优b_t可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到，即其中是考虑到的最优振幅换算系数；那么，假设我们得出以下a_t的最小二乘误差法答案为相应地，t帧上声音幅度谱可以通过估算出来。

3.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法，其特征在于：步骤一中所述的将伴奏和人声分离后，使用人声部分的音频数据去进行演唱者音色分析；每一个演唱者的人声音频数据中，会既包含语音的文本特征，又包含演唱者音色特征，在文本无关方式下，我们希望这些特征主要表示的是演唱者的音色特征；最终的目标是得到演唱者音色模型描述；要想满足上述目标，需要按照如下准则从人声音频数据中对演唱者音色特征参数进行提取：对局外变量不敏感，能够长期保持稳定，易于测量，与其他特征不相关；通常很难找到同时满足以上要求的特征，一般通过采取一些折衷措施的方式实现；通过不断的实验和探索发现，声道频率特性以及激励信号源两者共同作用产生了语音信号，由于激励信号源经常伴有一些随机性，因而人声的个性特征主要取决于发音声道；因此，可以用能量、共振峰值、基音频率等参数表示人声音色特征；目前语音识别中常用梅尔倒谱系数与线性预测倒谱系数来表示说话者的音色特征，两者都采取了将语音从时域变换到倒谱域上的方式，MFCC通过模拟人耳听觉模型，使用滤波器组对语音信号进行滤波，然后以滤波后的输出作为声学特征，直接通过快速傅立叶变换将信号转换到频域中；LPCC从人的喉咙构造引起的发声模型角度出发，利用线性预测编码技术求倒谱系数；在人声音色个性化推荐部分我们使用12维MFCC，12维MFCC差分和12维LPCC来描述音乐；

MFCC的计算主要分为5个步骤，具体流程如下：

预处理：包括预加重、分帧和加窗函数；

快速傅里叶变换：将信号从时域变换到频域，便于观察信号在各频率分量上的能量分布特点，如式1所示

X(i，k)＝FFT[x_i(m)](1)

计算谱线能量：对每一帧FFT后的数据计算谱线的能量，如式2所示

E(i，k)＝[X(i，k)]²(2)

计算通过MEL滤波器的能量：将能量谱通过一组三角带通梅尔频率滤波器，并计算在该MEL滤波器中的能量，在频域中相当于把每帧的能量谱E(i，k)与MEL滤波器的频域响应H_m(k)相乘并相加，如式3所示

S (i, m) = Σ_{k = 0}^{N - 1} E (i, k) H_{m} (k), 0 \leq m < M - - - (3)

计算DCT倒谱：把MEL滤波器的能量取对数后计算DCT，如式4所示

m f c c (i, n) = \sqrt{\frac{2}{M}} Σ_{m = 0}^{M - 1} l o g [S (i, m)] c o s (\frac{π n (2 m - 1)}{2 M}) - - - (4)

线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式，LPC系数可以通过自相关法求得，该方法可以保证系统的稳定性，并可以得到具有最小相位的声道模型传输函数如式5所示；

H (z) = \frac{G}{1 - Σ_{i = 1}^{p} a_{i} z^{- i}} - - - (5)

或是由LPC通过式7计算得到：

G_{L P C C} (n) = G_{L P C} (n) + Σ_{k = 1}^{n - 1} \frac{n - k}{n} C_{L P C C} (n - k) C_{L P C} (k) - - - (7)