CN106847248B

CN106847248B - 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法

Info

Publication number: CN106847248B
Application number: CN201710007672.9A
Authority: CN
Inventors: 李锵; 王蒙蒙; 关欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2021-01-01
Anticipated expiration: 2037-01-05
Also published as: CN106847248A

Abstract

本发明涉及和弦自动识别，为提取鲁棒性音阶轮廓和弦特征，并能够快速准确的对和弦进行识别。本发明，基于鲁棒性音阶轮廓特征和向量机的和弦识别方法，包括下列步骤:1)对原始音频信号进行加窗预处理；2)对分帧结果进行离散余弦变换，得到原始信号的标准音频频谱矩阵S；3)通过凸优化问题进行全局最优解的求解：4)为了得到鲁棒性PCP特征，进行矩阵映射；5)采用测度学习的方法对支持向量机的高斯核函数进行优化；6)利用训练数据对测度学习支持向量机进行训练，确定测度学习支持向量机中的参数；7)使用训练好的测度学习支持向量机对测试数据进行识别，得到最终的识别率。本发明主要应用于和弦自动识别场合。

Description

基于鲁棒性音阶轮廓特征和向量机的和弦识别方法

技术领域

本发明涉及和弦自动识别，具体讲,涉及基于鲁棒性音阶轮廓特征(Robust PitchClass Profiles，RPCP)和测度学习支持向量机(metric learning Support VectorMachine，mlSVM)和弦识别方法。

背景技术

和弦识别是音乐信号处理的重要研究问题之一，它在歌曲翻唱识别，音频匹配以及音乐推荐系统等领域都有重要作用。和弦作为乐曲得重要组成部分，它由三个以上的音按照三度关系叠加起来构成，充分表现了一段乐曲内容和特征，对于音乐的认知具有重要作用。因此，和弦在频域的结构特征和和弦识别是计算机音乐信号处理的一个关键问题。

一般认为,和弦识别是音乐信息检索的中心任务之一，它对音乐信息检索技术的发展具有重要作用。在和弦识别的研究中,主要包括两个方面的研究内容一个是和弦特征的提取，另一个就是模式识别方法的选择。在音乐和弦识别的信号分析中，广泛采用了一种叫做音级轮廓特征(Pitch Class Profiles，PCP)的信号特征。该特征将信号能量压缩到了音乐的12个音级上,从而形成12维的特征向量。结合谐波信息，谐波音阶轮廓特征被用于和弦识别系统中，谐波音阶轮廓特征能够有效减弱乐器的类别对和弦的影响；应用谐波积光谱与常规音阶轮廓特征结合的增强音阶轮廓特征,同传统的音阶轮廓特征相比，针对具有相同根音的和弦具有更好的识别率；结合人耳听觉特性和音乐理论提出了新的特征向量美尔音阶轮廓特征，克服了传统音阶轮廓特征在低频段特征模糊和峰值出容易发生混淆的缺陷等。作为整个和弦识别系统的第二个阶段，和弦的模式识别主要任务是对提取到的能够表征和弦的特征向量进行分类。由于传统音阶轮廓特征的广泛使用，模式识别阶段成为区别各个和弦识别系统的关键步骤。现今，模式识别即和弦识别分类阶段所使用的方法可以分为两大类：手动标注模板法和由音阶轮廓向量训练形成的统计学习模型。作为模板法的经典方法，1999年提出二进制模板法。这种方法主要是基于理想和弦的特点，把和弦所在的主音反映在音阶轮廓向量的对应维，即在对应的分量置1。例如C大调和弦的模板：[1 0 0 01 0 0 1 0 0 0 0]。这种方法由于简单易于实施，从而被广泛使用。同时，随着人工智能领域的快速发展和大量手动和弦标注数据的涌现，概率和弦模型越来越流行。概率和弦模型的主要思想就是为每一类和弦定义一种概率分布。其中，生成和弦模型，例如高斯模型等被大多数和弦识别系统所采用。另外，例如条件随机场，结构化支持向量机等判别模型也有所应用。

到目前为止，罕见相关成熟技术报道。

发明内容

为克服现有技术的不足，本发明旨在提取鲁棒性音阶轮廓和弦特征，并能够快速准确的对和弦进行识别。本发明采用的技术方案是，基于鲁棒性音阶轮廓特征和向量机的和弦识别方法，包括下列步骤:

1)对原始音频信号进行加窗预处理，得到音乐信号的分帧结果；

2)对分帧结果进行离散余弦变换，得到原始信号的标准音频频谱矩阵S；

3)假设频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的，那么就有：S＝A+E；矩阵通过以下凸优化问题进行全局最优解的求解：

其中||· ||_*表示矩阵的核范数，即矩阵的奇异值之和；||· ||₁表示矩阵的一范数，即所有非零元素之和；

该优化问题通过增广拉格朗日乘子法进行解决；

4)为了得到鲁棒性PCP特征，将矩阵A乘映射矩阵P：

P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵，其中f_i表示音乐中12平均律所定义出来的12个音阶的基频，1≤i≤12，2π·ω_j则表示时频变换后所得到的各个频率成分的频率值，0≤j≤N-1，另外，

通常情况下，规定音符A4处的频率440Hz为基准频率，并通过f_A4·2^b获得其他音符处的频率值，其中b为音符与A4之间的音程差，然后，通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射，从而获得鲁棒音阶轮廓特征向量，其中2πω对应矩阵A每一行所对应的频率值，而f_i则表示音乐中通用的中央八度内12个音符所对应的频率，通过f_A4·2^b获得；

5)采用测度学习的方法对支持向量机的高斯核函数进行优化：根据和弦特征的特点，从问题本身的先验知识中有监督的学习到一个距离方程，该距离方程的求解是凸优化问题，从而使用梯度下降算法求得全局最优解，进而用求得的转换矩阵最优解对支持向量机的核函数进行优化，得到基于测度学习的高斯核函数；

6)利用训练数据对测度学习支持向量机进行训练，确定测度学习支持向量机中的参数；

7)使用训练好的测度学习支持向量机对测试数据进行识别，得到最终的识别率。

本发明的特点及有益效果是：

本发明分别采用基于帧的常规音阶轮廓特征和鲁棒音阶轮廓特征作为和弦特征，识别模型分为常规一对余支持向量机和一对余测度学习支持向量机。PCP+SVM(组合1)为传统的和弦识别模型，传统音阶轮廓特征基于音乐理论，压缩了信号的能量，但是当音乐出现人声时，此时对信号频谱能量进行压缩，有可能在特征矩阵引入较为明显的噪声，使得信号能量分散，不能集中于和弦所在的音阶之上，从而使和弦的识别产生误差。而基于核范数约束优化得到的鲁棒音阶轮廓特征(组合2)避免了这种错误的出现，因此提高了识别率。第三种识别模型为RPCP+mlSVM(组合3)，是三种识别组合中识别率最高的。这种识别率的提高主要集中在对具有相同根音大调和小调和弦的识别成功率上。已知相同根音大调和小调和弦一般具有两个相同的音阶，因此在识别时混淆其中的单音构成而造成识别错误。而第三种识别模式采用的测度学习支持向量机能够根据先验知识，从训练数据中通过测度学习对支持向量机的高斯核函数进行优化。进而，拉大不同类别和弦特征向量之间的距离，同时缩小相同和弦类型特征向量之间的距离，从而极大的提高了和弦识别率。

附图说明：

图1.本发明和弦识别算法流程图。

图2.DAG算法流程示意图。

具体实施方式

和弦识别是音乐信息检索领域的重要内容之一。和弦识别是自动音乐标注的基础，在分析音乐结构以及歌曲翻唱识别等领域具有重要作用。本发明提供的方法能够鲁棒性的提取音乐信号中的和弦信息，并能够准确的对和弦的类型进行识别。

本发明介绍一种基于鲁棒音阶轮廓特征和测度学习支持向量机的和弦识别系统。选用一种鲁棒音阶轮廓特征作为音频信号的和弦特征。这种特征能够去除信号中大而稀疏的噪声，并重构音乐信号中的谐波信息，从而能够获得更加稳定而纯净的谐波信息。另外，本文利用测度学习的方法，根据和弦特征的特点，从问题本身的先验知识中有监督的学习到一个距离方程，使原始特征空间投影到一个类别区分度更高的空间，使得在投影后的特征空间中，具有相同标签的特征向量更相似，具有不同难度标签的特征向量间区分度更大。从而改进原始SVM核函数，使得改进后得到的基于测度学习的支持向量机具有更好的分辨率。最后将新的鲁棒音阶轮廓特征输入测度学习支持向量机分类器中完成和弦的识别。

为克服现有技术的不足，提取鲁棒音阶轮廓特征，并能够快速准确的对和弦进行识别，本发明采用的技术方案是，基于鲁棒音阶轮廓特征和基于测度学习支持向量机的和弦识别系统，包括下列步骤:

1)对原始音频信号进行加窗预处理，得到音乐信号的分帧结果

2)对分帧结果进行离散余弦变换，得到原始信号的标准音频频谱矩阵S

3)假设谐波成分矩阵A和非谐波成分矩阵E是相互独立的，那么就有：S＝A+E；因此，矩阵可以通过以下凸优化问题进行全局最优解的求解：

其中||· ||_*表示矩阵的核范数(nuclear norm)，即矩阵的奇异值之和；||· ||₁表示矩阵的一范数，即所有非零元素之和。

该优化问题可以通过增广拉格朗日乘子法有效地进行解决。

4)为了得到鲁棒性PCP特征，将矩阵A乘映射矩阵P：

P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵，其中f_i(1≤i≤12)表示音乐中12平均律所定义出来的12个音阶的基频，2π·ω_j(0≤j≤N-1)则表示时频变换后所得到的各个频率成分的频率值。另外，

通常情况下，规定音符A4处的频率440Hz为基准频率，并通过f_A4·2^b获得其他音符处的频率值，其中b为音符与A4之间的音程差，然后，通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射，从而获得鲁棒音阶轮廓特征向量，其中2πω对应矩阵A每一行所对应的频率值，而f_i(1≤i≤12)则表示音乐中通用的中央八度内12个音符所对应的频率，可以通过f_A4·2^b获得。

5)为了提高SVM的识别率，本发明对SVM的高斯核函数进行优化。本发明采用测度学习的方法，根据和弦特征的特点，从问题本身的先验知识中有监督的学习到一个距离方程。该距离方程的求解是凸优化问题，从而可以使用梯度下降算法求得全局最优解。进而可以用求得的转换矩阵最优解对SVM的核函数进行优化，得到基于测度学习的高斯核函数。

6)利用训练数据对mlSVM进行训练，确定mlSVM中的参数。

7)使用训练好的mlSVM对测试数据进行识别，得到最终的识别率。

1.实验数据

本发明的实验数据采用Beatles乐队12张专辑的180收歌曲来评估分类模型，并且使用了来自学者Chris Harte对这些歌曲手动标记的标签文件。在本文中将和弦分为25类，12个根音音级分别对应一个大调和一个小调，再加上一个无和弦类型。

2结果分析

为验证本发明算法的有效性，将本发明所提出的基于RPCP和mlSVM的和弦识别系统同基于传统PCP特征并采用原始多分类支持向量机来实现和弦识别的结果进行比较，结果如图表1所示。

表1 识别结果对比(％)

本文分别采用基于帧的常规PCP和RPCP作为特征，识别模型分为常规one-over-allSVM和one-over-all mlSVM。PCP+SVM(组合1)为传统的和弦识别模型，PCP基于音乐理论，压缩了信号的能量，但是当音乐出现人声时，此时对信号频谱能量进行压缩，有可能在特征矩阵引入较为明显的噪声，使得信号能量分散，不能集中于和弦所在的音阶之上，从而使和弦的识别产生误差。而基于核范数约束优化得到的RPCP特征(组合2)避免了这种错误的出现，因此提高了识别率。第三种识别模型为RPCP+mlSVM(组合3)，是三种识别组合中识别率最高的。这种识别率的提高主要集中在对具有相同根音大调和小调和弦的识别成功率上。已知相同根音大调和小调和弦一般具有两个相同的音阶，因此在识别时混淆其中的单音构成而造成识别错误。而第三种识别模式采用的mlSVM能够根据先验知识，从训练数据中通过测度学习对SVM的高斯核函数进行优化。进而，拉大不同类别和弦特征向量之间的距离，同时缩小相同和弦类型特征向量之间的距离，从而极大的提高了和弦识别率。

下面结合一个具体实例进一步详细说明本发明。

1.音乐信号转换

将待输入音乐信号转换为采样率44100Hz，16bit，单通道，成为被参考的标准音频。

2.获得标准音频频谱矩阵

将标准音频。设音乐波形的时域信号为x(l)、加窗分帧处理后得到的信号为X_n(m)，则x_n(m)满足:x_n(m)＝w(m)x(n+m)，0≤m≤N-1，其中，n＝0,T,2T,…，N为帧长，T为帧移长度。

为矩形窗。设定帧长N＝12ms，帧移长度T＝6ms，相邻帧有50％的重叠。随后，使用短时傅里叶变换对分帧信号进行时频变换。每一帧采用1024点的快速傅里叶变换。得到的标准音频频谱矩阵S＝F·X_n(m)，其中F为傅里叶变换矩阵。

3.频谱矩阵的核范数约束优化

本发明采用采用曾广拉格朗日乘子法对本发明所提出的优化问题进行求解。所构建的拉格朗日函数：

其中，Y称为拉格朗日乘子，μ,λ是正惩罚参数，||· ||_F是Frobenius范数。YY₀＝S/max(S,1/λ·||S||_∞)以作为其迭代初始值，这是因为要使目标函数

的值尽可能大，并且能够使算法的收敛速度在

数量级。

ALM算法每部迭代公式如下：

Y_k+1＝Y_k+μ_k(S_k-A_k-E_k) (5)

在上式的每一步迭代中，都会通过奇异值分解(SVD)对目标函数求取奇异值。另外，算法所要保留的奇异值会根据如下软阈值操作，这个操作会同时扩展到矩阵：

其中μ^-1为阈值，同时与矩阵A的奇异值相关联。当通过奇异值约束重建低秩矩阵A时，阈值μ^-1的更新策略将会极大地影响恢复出来的矩阵的细节和算法的收敛速度。因此，基于和弦在色度矩阵上的分布情况，本文对原始ALM算法的阈值选择技术进行优化，根据每一步迭代产生的频谱矩阵A进行方差最大化约束，从而能够极大的加快收敛。具体步骤如下：

初始化奇异值截断阈值参数μ，参数λ，迭代索引k＝0，临时矩阵Y₀＝S，E₀为全零矩阵；进行奇异值分解

得到奇异值矩阵Σ；接着，从μ_k到1.5μ_k等间隔选取二十个数据点

其中1≤i≤20，对于每个

进行奇异值分解逆操作

由于谐波成分只分布在数个频率点上，因此计算矩阵

中某一列的方差，并从

中选取使得方差最大时，所对应的索引i，并使

即完成阈值自适应选择算法；计算这一步得到的矩阵

更新

Y_k+1＝Y_k+μ_k(S-A_k+1-E_k+1)和k＝k+1。

4.频谱矩阵转换为PCP特征矩阵

本发明为了得到鲁棒性PCP特征，需要将矩阵A乘映射矩阵P：

通常情况下，规定音符A4处的频率440Hz为基准频率，并通过f_A4·2^b获得其他音符处的频率值，其中b为音符与A4之间的音程差。然后，通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射，从而获得鲁棒音阶轮廓特征向量，其中2πω对应矩阵A每一行所对应的频率值，而f_i(1≤i≤12)则表示音乐中通用的中央八度内12个音符所对应的频率，可以通过f_A4·2^b获得。

5.获取测度学习矩阵

用下面的优化问题对转换矩阵T进行求解：

其中空间

是相似对，即同一和弦所对应的RPCP向量所形成的空间；而

是非相似对，即不同和弦所对应的RPCP向量所形成的空间。

可以看出，该优化问题是凸优化问题，从而可以使用梯度下降算法求得全局最优解。进而可以用求得的转换矩阵最优解对支持向量机的核函数进行优化，得到如下的基于测度学习的高斯核函数：

6.使用基于有向图策略测度学习支持向量机对和弦进行识别

支持向量机是一种两类分类器,但是在本发明的研究中依据音乐理论知识将音乐和弦分为25类,包括12类大调和弦,,12和类小调和弦,其他和弦作为第25类和弦,因此需要将该两类分类器变换到多类分类器。在文本分类中,最常用的一种算法是有向图(DirectedAcyclic Graph，DAG)算法,本发明和弦识别类和弦研究中也采用此算法进行多类和弦的分类。

将12类大调和弦和12类小调和弦的标签文件,为别依次标记为数字1,2,…,24；在和弦分类时,对该类和弦分类采用的DAG算法,它的表示形式是一个有向无环图,如图2所示。在和弦分类时,首先由分类器判断“对”,若判断结果是,则沿算法往左判断接着判断“对”,判断结果为,则继续往左判断,依此类推,这样一直判断下去就可以得到整个歌曲每个节拍内的和弦类别。同理,其他种类的和弦识别过程类似。

Claims

1.一种基于鲁棒性音阶轮廓特征和向量机的和弦识别方法，其特征是，包括下列步骤:

3)频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的，那么就有：S＝A+E；矩阵通过以下凸优化问题进行全局最优解的求解：

其中||·||_*表示矩阵的核范数，即矩阵的奇异值之和；||·||₁表示矩阵的一范数，即所有非零元素之和；

该优化问题通过增广拉格朗日乘子法进行解决；

4)为了得到鲁棒性PCP特征，将矩阵A乘映射矩阵P：

P表示频谱矩阵和由鲁棒性音阶轮廓特征RPCP向量组成的色度矩阵chromagram之间的变换矩阵，其中f_i表示音乐中12平均律所定义出来的12个音阶的基频，1≤i≤12，2π·ω_j则表示时频变换后所得到的各个频率成分的频率值，0≤j≤N-1，另外，

规定音符A4处的频率440Hz为基准频率，并通过f_A4·2^b获得其他音符处的频率值，其中b为音符与A4之间的音程差，然后，通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射，从而获得鲁棒音阶轮廓特征向量，其中2πω对应矩阵A每一行所对应的频率值，而f_i则表示音乐中通用的中央八度内12个音符所对应的频率，通过f_A4·2^b获得；