CN103714806A

CN103714806A - 一种结合svm和增强型pcp特征的和弦识别方法

Info

Publication number: CN103714806A
Application number: CN201410008923.1A
Authority: CN
Inventors: 李锵; 闫志勇; 关欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-01-07
Filing date: 2014-01-07
Publication date: 2014-04-09
Anticipated expiration: 2034-01-07
Also published as: CN103714806B

Abstract

本发明公开了一种结合SVM和增强型PCP特征的和弦识别方法，包括：音频输入并进行节拍跟踪、提取增强型音级轮廓特征PCP、支持向量机SVM分类参数的训练、两类和弦分类到多类和弦分类的转变、和弦类型的识别。和弦识别是自动音乐标注的基础，它在歌曲翻唱识别，音乐分割以及音频匹配等领域具有重要作用。针对不同乐器之间相同和弦的识别较低的问题，采用结合音高频率倒谱系数(PFCC)改进传统音级轮廓特征(PCP)的算法，并将增强型PCP特征作为新的和弦识别特征。实验结果表明采用增强型PCP特征比采用传统PCP特征的和弦识别率提高了2.5%～6.7%。

Description

一种结合SVM和增强型PCP特征的和弦识别方法

技术领域

本发明是音乐信息内容检索领域中的一个重要方面。它在计算机音乐自动伴奏，歌曲翻唱检索以及音频分割与匹配等领域具有重要作用。

背景技术

随着互联网上各种音乐信息存储的增多以及移动互联网技术的快速发展，近年来，基于音乐内容的音乐信息检索(Music Information Retrieval，MIR)成为了国内外学者研究的热点。通常，人们能够从复杂的音乐演奏中提取丰富并且有意义的信息，但是截至目前使用计算机处理这些信号是有难度的，特别是在进行和弦识别或者和弦转录时更是一项具有挑战的任务。

一般认为，和弦识别是音乐信息检索的中心任务之一，它对音乐信息检索技术的发展具有重要作用。在和弦识别的研究中，主要包括两个方面的研究内容：一个是和弦特征的提取；另一个就是模式识别方法的选择。在音乐和弦识别的信号分析中，广泛采用了一种叫做音级轮廓特征PCP的信号特征。该特征将信号能量压缩到了音乐的12个音级上，从而形成12维的特征向量。应用谐波积光谱与PCP特征相结合的EPCP特征同传统的PCP特征相比对具有相同根音的和弦具有更好的识别率；结合人耳听觉特性和音乐理论提出的新的识别特征MPCP，可以克服PCP特征在低频段特征模糊和峰值处容易发生混倄的缺陷等。对于模式识别的方法选择，最初选用的是模版匹配法。除此之外，条件随机场分割方法也可以运用到和弦识别的研究中。虽然该方法对观测序列没有独立性要求，并且具有表达长距离依赖性和交叠性特征的能力，但是缺点就是运行时间过长，因此在实用性方面还需继续改进。采用神经网络方法通过模拟人类大脑可以对和弦进行识别，有效避免噪声对和弦识别率的影响，但是该方法能识别的歌曲数目十分有限。隐马尔科夫模型HMM是目前音乐和弦识别中应用比较广泛的一种方法，该方法的最终和弦识别率可以到达75%。HMM是一种产生式模型，需要严格的独立性假设。近年来，提出了将延时隐马尔可夫模型(Duration HMM)应用于和弦识别。

发明内容

音乐是一个典型的高度结构化的艺术形式，它频繁使用了某些和弦进程，因此，本发明提供一种结合SVM和增强型PCP特征的和弦识别方法，采用结构化预测模型来译码音乐的结构化信息，完成对和弦的识别。在本发明中，对改进以后的12维PCP特征，计算两两音级之间的互相关特征向量，并将其叠加到12维的PCP特征上，这样最终就可以得到90维的信号特征((1+12)*12/2+12)。因此，同HMM相比，使用支持向量机SVM能够有效减少由于增加特征数据而过度拟合带来的和弦识别误差。

为了解决上述技术问题，本发明一种结合SVM和增强型PCP特征的和弦识别方法，具体包括以下步骤：

步骤一、音频输入并进行节拍跟踪：通过节拍跟踪获取与节拍构成相符的音频节拍时间点信息，并得到信号能量特征E；

步骤二、提取增强型音级轮廓特征PCP：对信号能量特征E进行音高倒谱系数的处理，采用音高尺度公式log(E*C+1)代替信号能量特征E，其中，C表示音高正常数，C=100；对使用对数表示的音级能量进行DCT变换获取音高倒谱系数；然后，保留高频音高倒谱系数，将低频音高倒谱系数置零，对处理后的音高倒谱系数进行DCT逆变换得到变换后的音级能量，然后进行频谱映射，得到12维增强型音级轮廓特征PCP，记做lgE；对12维lgE特征的两两音级之间做互相关计算，将12维信号特征扩展为90维；

步骤三、支持向量机SVM分类参数的训练：提取每首歌曲的增强型音级轮廓特征PCP并与相应歌曲的标签文件组合形成的特征向量输入到两类分类器支持向量机SVM中进行训练；

步骤四、两类和弦分类到多类和弦分类的转变：将音乐和弦分为25类，包括12类大调和弦（C，C#，…G）和12类小调和弦（c，c#，…g），其他和弦作为第25类和弦，采用DAG算法完成两类分类到多类分类的转换；

步骤五、和弦类型的识别：通过步骤三和步骤四得到与25类和弦分别对应的分类器参数，将待识别歌曲输入到已经训练好的分类器中，从而得到该歌曲的和弦识别率。

进一步讲，步骤一中采用动态规划的节拍跟踪算法来计算音频节拍时间点信息，包括起始点能量包络、自相关最佳速率估计和节拍跟踪三个过程，具体步骤如下：

首先，将音频信号进行FFT变换，通过一个权重矩阵将傅立叶频谱变换成40维Mel频谱，计算每一维频谱沿时间轴的一阶差分，然后将整个频谱内的值相加，滤除直流后得到起始能量包络；

其次，对音频信号的起始能量进行自相关运算，并在自相关运算结果的对数域上加高斯窗获取单一主峰值，将自相关中最大的滞后值作为最佳速率估计；

最后，通过动态规划算法并利用起始能量包络和最佳速率估计获取节拍的时间位置信息，完成节拍跟踪。

步骤二中，进行频谱映射的步骤如下：

按照音乐理论中的平均律，以对数方式将变换后的音级向量按照下述公式映射为新的音级轮廓特征PCP：

p(k)=[1200*log₂(k*f_s/N*f_r)]mod1200 （1）

公式（1）中，f_s代表采样率，f_s/N代表频域间隔，f_r表示参考频率，f_r对应了十二平均律中的C1音，k*f_s/N则表示频域中每一个分量的频率；忽略八度关系只考虑把频率能量分为12个频带，将所有与某一特定音级相对应的频率值的音级分量根据公式（1）相加得到一个12维的音级轮廓特征PCP：

PCP = \underset{k : p (k) = p}{Σ} | lgE (k) |, p = 1,2, . . ., 12 - - - (2)

根据步骤一得到的节拍点时间信息，计算每个节拍间隔内音级轮廓特征PCP的平均值并作为基于节拍的音级轮廓特征PCP：

\overset{&OverBar;}{PCP} = \frac{1}{M} Σ_{m = 1}^{M} PCP (p), p = 1,2, . . ., 12 - - - (3)

公式（3）中，M是每个节拍内的帧数，这样就得到了基于节拍的12维音级轮廓特征PCP，完成频谱映射。

步骤四中，两类和弦分类到多类和弦分类的转换，具体步骤如下：

将12类大调和弦（C，C#，…G）和12类小调和弦（c，c#，…g）的标签文件，为别依次标记为数字1，2，…，24；在和弦分类时，首先由分类器判断“1对24”，若判断结果是24，则沿DAG算法往左判断；接着判断“2对24”，判断结果为24，则继续往左判断，依此类推，得到整个歌曲每个节拍内的和弦类别。

与现有技术相比，本发明的有益效果是：

和弦识别是自动音乐标注的基础，它在歌曲翻唱识别，音乐分割以及音频匹配等领域具有重要作用。针对不同乐器之间相同和弦的识别较低的问题，本发明一种结合SVM和增强型PCP特征的和弦识别方法对传统PCP特征提出了一种改进算法，即增加对提取的频谱进行音高频率倒谱系数PFCC的处理，之后再压缩信号从而提取基于节拍跟踪的增强型PCP特征。新的PCP特征对乐器类型以及音色的变化更具鲁棒性。此外，将12维的增强型PCP特征通过两两音级之间的互相关性计算，得到90维的PCP特征。最后将该90维的PCP特征输入到结构化的SVM分类器中完成和弦的识别,并且完成了同基于HMM的和弦识别的比较。实验结果表明采用增强型PCP特征比采用传统PCP特征的和弦识别率提高了2.5%～6.7%。

附图说明

图1是本发明结合SVM和增强型PCP特征的和弦识别方法的流程图；

图2是本发明中进行节拍跟踪的示意图；

图3是使用A乐器弹奏曲目时提取的传统PCP色谱特征图；

图4是使用B乐器弹奏曲目时提取的传统PCP色谱特征图；

图5是使用A乐器弹奏曲目时提取的增强型PCP色谱特征图；

图6是使用B乐器弹奏曲目时提取的增强型PCP色谱特征图；

图7是多类和弦分类的DAG算法示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步详细地描述。

如图1所示，本发明一种结合SVM和增强型PCP特征的和弦识别方法，包括以下步骤：音频输入并进行节拍跟踪、提取增强型音级轮廓特征PCP、将音级轮廓特征与标签文件输入到支持向量机SVM完成SVM的学习训练以及分类、输出标签文件完成和弦类型的识别。

具体实施的步骤如下：

步骤一、音频输入并进行节拍跟踪：

通过节拍跟踪获取与节拍构成相符的音频节拍时间点信息，并得到信号能量特征E,这是计算机音乐自动伴奏及转录、计算机辅助音频编辑以及音乐相似性等应用的基础，同步节拍特征也是归一化不同音乐版本之间速率变化的一种很好的途径。由乐理知识可知，音乐中和弦的改变往往发生在节拍处，因此进行和弦识别时先对相应的音频进行节拍的跟踪检测，之后再进行音频分割，优点就是可以有效避免将同一个和弦分割在不同的音频段或者是同一音频段中包含有多个和弦的情况。在音乐信号处理中，增加节拍跟踪的方法可以很好的提高和弦的识别率。采用动态规划的节拍跟踪算法来计算音频节拍时间点信息，包括起始点能量包络、自相关最佳速率估计和节拍跟踪三个过程，如图2所示，具体步骤如下：

首先，将音频信号进行FFT(Fast Fourier Transform)变换，通过一个权重矩阵将傅立叶频谱变换成40维Mel频谱，计算每一维频谱沿时间轴的一阶差分(只有起始点信息)，然后将整个频谱内的值相加，滤除直流后得到起始能量包络；

步骤二、提取增强型音级轮廓特征PCP：

传统的PCP特征是音乐信息检索中广泛使用的一种信号特征。研究表明低频率处的一些音频系数(例如MFCC)通常跟音色相关，当忽略这种信息时，人们在一定程度上可以获取相对固定的音色，这样就会增加对不同乐器种类相同音级特征的鲁棒性。为此，本发明在传统PCP特征色谱能量基础上进行了音高系数PFCC(Pitch Frequency Cepstral Coefficients)的处理。

首先，对信号能量特征E进行音高倒谱系数的处理，采用了类似于MFCC系数计算中的Mel尺度，用音高尺度公式log(E*C+1)代替特征上述步骤一计算中的信号能量特征E，其中，C表示音高正常数，在实验中取C=100。对使用对数表示的音级能量进行DCT变换获取音高倒谱PFCC系数，计算中对能量进行对数压缩是考虑到声音强度的对数感。

然后，只保留上层的高频PFCC系数，将下层的低频PFCC值置零，对处理后的音高倒谱系数进行DCT逆变换得到变换后的音级能量，然后进行频谱映射，得到12维增强型音级轮廓特征PCP，记做lgE，lgE忽略了低频处的一些音色特征，增强了不同乐器演奏同一歌曲时音级特征PCP的鲁棒性。

进行频谱映射时，按照音乐理论中的平均律，以对数方式将变换后的音级向量按照下述公式映射为新的音级轮廓特征PCP：

p(k)=[1200*log₂(k*f_s/N*f_r)]mod1200 （1）

PCP = \underset{k : p (k) = p}{Σ} | lgE (k) |, p = 1,2, . . ., 12 - - - (2)

根据步骤一节拍跟踪得到的节拍点时间信息，计算每个节拍间隔内音级轮廓特征PCP的平均值并作为基于节拍的音级轮廓特征PCP：

\overset{&OverBar;}{PCP} = \frac{1}{M} Σ_{m = 1}^{M} PCP (p), p = 1,2, . . ., 12 - - - (3)

公式（3）中，M是每个节拍内的帧数，这样就得到了基于节拍的12维音级轮廓特征PCP，完成频谱映射。选用不同乐器A和乐器B演奏同一首乐曲时得到的音级轮廓特征PCP色谱特征图如图3、图4、图5和图6所示，其中,图3和图5分别是使用A乐器弹奏曲目时提取的传统PCP特征和增强型PCP色谱特征图，图4和图6分别是使用B乐器弹奏曲目时提取的传统PCP特征和增强型PCP色谱特征图。通过图3，图4与图5，图6的比较可以看出图5与图6色谱特征之间的差异更小，说明了增强型的PCP特征对不同乐器的鲁棒性更强。

最后，对12维lgE特征的两两音级之间做互相关计算，将12维信号特征扩展为90维，即对上述得到的基于节拍的12维增强型PCP特征，计算12个音级中两两音级之间的互相关特征向量，并将其叠加到12维的PCP特征上，这样最终就可以得到90维的信号特征((1+12)*12/2+12=90)。

步骤三、支持向量机SVM分类参数的训练：

提取每首歌曲的增强型音级轮廓特征PCP并与相应歌曲的标签文件组合形成的特征向量输入到两类分类器支持向量机SVM中进行训练。

步骤四、两类和弦分类到多类和弦分类的转变：

支持向量机SVM是一种两类分类器，但是在本发明的研究中依据音乐理论知识将音乐和弦分为25类，包括12类大调和弦（C，C#，…G）和12类小调和弦（c，c#，…g），其他和弦作为第25类和弦，因此需要将该两类分类器变换到多类分类器。在文本分类中，最常用的一种算法是DAG(Directed acyclic graph)算法，本发明和弦识别(25类和弦)研究中也采用此算法进行多类和弦的分类。

将12类大调和弦（C，C#，…G）和12类小调和弦（c，c#，…g）的标签文件，为别依次标记为数字1，2，…，24；在和弦分类时，对该24类和弦分类采用的DAG算法如图4所示，它的表示形式是一个有向无环图，如图7所示。在和弦分类时，首先由分类器判断“1对24”，若判断结果是24，则沿DAG算法往左判断；接着判断“2对24”，判断结果为24，则继续往左判断，依此类推，这样一直判断下去就可以得到整个歌曲每个节拍内的和弦类别。同理，其他种类的和弦识别过程类似。

步骤五、和弦类型的识别：

通过步骤三和步骤四得到与25类和弦分别对应的分类器参数，将待识别歌曲输入到已经训练好的分类器中，从而得到该歌曲的和弦识别率。

通过以上五个步骤，可以完成基于SVM和增强型PCP特征的和弦识别。

尽管上面结合图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以作出很多变形，这些均属于本发明的保护之内。

Claims

1.一种结合SVM和增强型PCP特征的和弦识别方法，具体包括以下步骤：

步骤二、提取增强型音级轮廓特征：对信号能量特征E进行音高倒谱系数的处理，采用音高尺度公式log(E*C+1)代替信号能量特征E，其中，C表示音高正常数，C=100；对使用对数表示的音级能量进行DCT变换获取音高倒谱系数；然后，保留高频音高倒谱系数，将低频音高倒谱系数置零，对处理后的音高倒谱系数进行DCT逆变换得到变换后的音级能量，然后进行频谱映射，得到12维增强型音级轮廓特征，记做lgE；对12维lgE特征的两两音级之间做互相关计算，将12维信号特征扩展为90维；

步骤三、支持向量机分类参数的训练：提取每首歌曲的增强型音级轮廓特征并与相应歌曲的标签文件组合形成的特征向量输入到两类分类器支持向量机中进行训练；

2.根据权利要求1所述结合SVM和增强型PCP特征的和弦识别方法，其中，步骤一中采用动态规划的节拍跟踪算法来计算音频节拍时间点信息，包括起始点能量包络、自相关最佳速率估计和节拍跟踪三个过程，具体步骤如下：

3.根据权利要求1所述结合SVM和增强型PCP特征的和弦识别方法，其中，步骤二中，进行频谱映射的步骤如下：

按照音乐理论中的平均律，以对数方式将变换后的音级向量按照下述公式映射为新的音级轮廓特征：

p(k)=[1200*log₂(k*f_s/N*f_r)]mod1200 （1）

公式（1）中，f_s代表采样率，f_s/N代表频域间隔，f_r表示参考频率，f_r对应了十二平均律中的C1音，k*f_s/N则表示频域中每一个分量的频率；忽略八度关系只考虑把频率能量分为12个频带，将所有与某一特定音级相对应的频率值的音级分量根据公式（1）相加得到一个12维的音级轮廓特征：

PCP = \underset{k : p (k) = p}{Σ} | lgE (k) |, p = 1,2, . . ., 12 - - - (2)

根据步骤一得到的节拍点时间信息，计算每个节拍间隔内音级轮廓特征的平均值并作为基于节拍的音级轮廓特征：

\overset{&OverBar;}{PCP} = \frac{1}{M} Σ_{m = 1}^{M} PCP (p), p = 1,2, . . ., 12 - - - (3)

公式（3）中，M是每个节拍内的帧数，这样就得到了基于节拍的12维音级轮廓特征，完成频谱映射。

4.根据权利要求1所述结合SVM和增强型PCP特征的和弦识别方法，其中，步骤四中，两类和弦分类到多类和弦分类的转换，具体步骤如下：