CN106847248B - 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法 - Google Patents

基于鲁棒性音阶轮廓特征和向量机的和弦识别方法 Download PDF

Info

Publication number
CN106847248B
CN106847248B CN201710007672.9A CN201710007672A CN106847248B CN 106847248 B CN106847248 B CN 106847248B CN 201710007672 A CN201710007672 A CN 201710007672A CN 106847248 B CN106847248 B CN 106847248B
Authority
CN
China
Prior art keywords
matrix
chord
vector machine
frequency
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710007672.9A
Other languages
English (en)
Other versions
CN106847248A (zh
Inventor
李锵
王蒙蒙
关欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710007672.9A priority Critical patent/CN106847248B/zh
Publication of CN106847248A publication Critical patent/CN106847248A/zh
Application granted granted Critical
Publication of CN106847248B publication Critical patent/CN106847248B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • G10H1/383Chord detection and/or recognition, e.g. for correction, or automatic bass generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及和弦自动识别,为提取鲁棒性音阶轮廓和弦特征,并能够快速准确的对和弦进行识别。本发明,基于鲁棒性音阶轮廓特征和向量机的和弦识别方法,包括下列步骤:1)对原始音频信号进行加窗预处理;2)对分帧结果进行离散余弦变换,得到原始信号的标准音频频谱矩阵S;3)通过凸优化问题进行全局最优解的求解:4)为了得到鲁棒性PCP特征,进行矩阵映射;5)采用测度学习的方法对支持向量机的高斯核函数进行优化;6)利用训练数据对测度学习支持向量机进行训练,确定测度学习支持向量机中的参数;7)使用训练好的测度学习支持向量机对测试数据进行识别,得到最终的识别率。本发明主要应用于和弦自动识别场合。

Description

基于鲁棒性音阶轮廓特征和向量机的和弦识别方法
技术领域
本发明涉及和弦自动识别,具体讲,涉及基于鲁棒性音阶轮廓特征(Robust PitchClass Profiles,RPCP)和测度学习支持向量机(metric learning Support VectorMachine,mlSVM)和弦识别方法。
背景技术
和弦识别是音乐信号处理的重要研究问题之一,它在歌曲翻唱识别,音频匹配以及音乐推荐系统等领域都有重要作用。和弦作为乐曲得重要组成部分,它由三个以上的音按照三度关系叠加起来构成,充分表现了一段乐曲内容和特征,对于音乐的认知具有重要作用。因此,和弦在频域的结构特征和和弦识别是计算机音乐信号处理的一个关键问题。
一般认为,和弦识别是音乐信息检索的中心任务之一,它对音乐信息检索技术的发展具有重要作用。在和弦识别的研究中,主要包括两个方面的研究内容一个是和弦特征的提取,另一个就是模式识别方法的选择。在音乐和弦识别的信号分析中,广泛采用了一种叫做音级轮廓特征(Pitch Class Profiles,PCP)的信号特征。该特征将信号能量压缩到了音乐的12个音级上,从而形成12维的特征向量。结合谐波信息,谐波音阶轮廓特征被用于和弦识别系统中,谐波音阶轮廓特征能够有效减弱乐器的类别对和弦的影响;应用谐波积光谱与常规音阶轮廓特征结合的增强音阶轮廓特征,同传统的音阶轮廓特征相比,针对具有相同根音的和弦具有更好的识别率;结合人耳听觉特性和音乐理论提出了新的特征向量美尔音阶轮廓特征,克服了传统音阶轮廓特征在低频段特征模糊和峰值出容易发生混淆的缺陷等。作为整个和弦识别系统的第二个阶段,和弦的模式识别主要任务是对提取到的能够表征和弦的特征向量进行分类。由于传统音阶轮廓特征的广泛使用,模式识别阶段成为区别各个和弦识别系统的关键步骤。现今,模式识别即和弦识别分类阶段所使用的方法可以分为两大类:手动标注模板法和由音阶轮廓向量训练形成的统计学习模型。作为模板法的经典方法,1999年提出二进制模板法。这种方法主要是基于理想和弦的特点,把和弦所在的主音反映在音阶轮廓向量的对应维,即在对应的分量置1。例如C大调和弦的模板:[1 0 0 01 0 0 1 0 0 0 0]。这种方法由于简单易于实施,从而被广泛使用。同时,随着人工智能领域的快速发展和大量手动和弦标注数据的涌现,概率和弦模型越来越流行。概率和弦模型的主要思想就是为每一类和弦定义一种概率分布。其中,生成和弦模型,例如高斯模型等被大多数和弦识别系统所采用。另外,例如条件随机场,结构化支持向量机等判别模型也有所应用。
到目前为止,罕见相关成熟技术报道。
发明内容
为克服现有技术的不足,本发明旨在提取鲁棒性音阶轮廓和弦特征,并能够快速准确的对和弦进行识别。本发明采用的技术方案是,基于鲁棒性音阶轮廓特征和向量机的和弦识别方法,包括下列步骤:
1)对原始音频信号进行加窗预处理,得到音乐信号的分帧结果;
2)对分帧结果进行离散余弦变换,得到原始信号的标准音频频谱矩阵S;
3)假设频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的,那么就有:S=A+E;矩阵通过以下凸优化问题进行全局最优解的求解:
Figure BDA0001203618100000021
其中||· ||*表示矩阵的核范数,即矩阵的奇异值之和;||· ||1表示矩阵的一范数,即所有非零元素之和;
该优化问题通过增广拉格朗日乘子法进行解决;
4)为了得到鲁棒性PCP特征,将矩阵A乘映射矩阵P:
Figure BDA0001203618100000022
P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵,其中fi表示音乐中12平均律所定义出来的12个音阶的基频,1≤i≤12,2π·ωj则表示时频变换后所得到的各个频率成分的频率值,0≤j≤N-1,另外,
Figure BDA0001203618100000023
通常情况下,规定音符A4处的频率440Hz为基准频率,并通过fA4·2b获得其他音符处的频率值,其中b为音符与A4之间的音程差,然后,通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射,从而获得鲁棒音阶轮廓特征向量,其中2πω对应矩阵A每一行所对应的频率值,而fi则表示音乐中通用的中央八度内12个音符所对应的频率,通过fA4·2b获得;
5)采用测度学习的方法对支持向量机的高斯核函数进行优化:根据和弦特征的特点,从问题本身的先验知识中有监督的学习到一个距离方程,该距离方程的求解是凸优化问题,从而使用梯度下降算法求得全局最优解,进而用求得的转换矩阵最优解对支持向量机的核函数进行优化,得到基于测度学习的高斯核函数;
6)利用训练数据对测度学习支持向量机进行训练,确定测度学习支持向量机中的参数;
7)使用训练好的测度学习支持向量机对测试数据进行识别,得到最终的识别率。
本发明的特点及有益效果是:
本发明分别采用基于帧的常规音阶轮廓特征和鲁棒音阶轮廓特征作为和弦特征,识别模型分为常规一对余支持向量机和一对余测度学习支持向量机。PCP+SVM(组合1)为传统的和弦识别模型,传统音阶轮廓特征基于音乐理论,压缩了信号的能量,但是当音乐出现人声时,此时对信号频谱能量进行压缩,有可能在特征矩阵引入较为明显的噪声,使得信号能量分散,不能集中于和弦所在的音阶之上,从而使和弦的识别产生误差。而基于核范数约束优化得到的鲁棒音阶轮廓特征(组合2)避免了这种错误的出现,因此提高了识别率。第三种识别模型为RPCP+mlSVM(组合3),是三种识别组合中识别率最高的。这种识别率的提高主要集中在对具有相同根音大调和小调和弦的识别成功率上。已知相同根音大调和小调和弦一般具有两个相同的音阶,因此在识别时混淆其中的单音构成而造成识别错误。而第三种识别模式采用的测度学习支持向量机能够根据先验知识,从训练数据中通过测度学习对支持向量机的高斯核函数进行优化。进而,拉大不同类别和弦特征向量之间的距离,同时缩小相同和弦类型特征向量之间的距离,从而极大的提高了和弦识别率。
附图说明:
图1.本发明和弦识别算法流程图。
图2.DAG算法流程示意图。
具体实施方式
和弦识别是音乐信息检索领域的重要内容之一。和弦识别是自动音乐标注的基础,在分析音乐结构以及歌曲翻唱识别等领域具有重要作用。本发明提供的方法能够鲁棒性的提取音乐信号中的和弦信息,并能够准确的对和弦的类型进行识别。
本发明介绍一种基于鲁棒音阶轮廓特征和测度学习支持向量机的和弦识别系统。选用一种鲁棒音阶轮廓特征作为音频信号的和弦特征。这种特征能够去除信号中大而稀疏的噪声,并重构音乐信号中的谐波信息,从而能够获得更加稳定而纯净的谐波信息。另外,本文利用测度学习的方法,根据和弦特征的特点,从问题本身的先验知识中有监督的学习到一个距离方程,使原始特征空间投影到一个类别区分度更高的空间,使得在投影后的特征空间中,具有相同标签的特征向量更相似,具有不同难度标签的特征向量间区分度更大。从而改进原始SVM核函数,使得改进后得到的基于测度学习的支持向量机具有更好的分辨率。最后将新的鲁棒音阶轮廓特征输入测度学习支持向量机分类器中完成和弦的识别。
为克服现有技术的不足,提取鲁棒音阶轮廓特征,并能够快速准确的对和弦进行识别,本发明采用的技术方案是,基于鲁棒音阶轮廓特征和基于测度学习支持向量机的和弦识别系统,包括下列步骤:
1)对原始音频信号进行加窗预处理,得到音乐信号的分帧结果
2)对分帧结果进行离散余弦变换,得到原始信号的标准音频频谱矩阵S
3)假设谐波成分矩阵A和非谐波成分矩阵E是相互独立的,那么就有:S=A+E;因此,矩阵可以通过以下凸优化问题进行全局最优解的求解:
Figure BDA0001203618100000031
其中||· ||*表示矩阵的核范数(nuclear norm),即矩阵的奇异值之和;||· ||1表示矩阵的一范数,即所有非零元素之和。
该优化问题可以通过增广拉格朗日乘子法有效地进行解决。
4)为了得到鲁棒性PCP特征,将矩阵A乘映射矩阵P:
Figure BDA0001203618100000041
P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵,其中fi(1≤i≤12)表示音乐中12平均律所定义出来的12个音阶的基频,2π·ωj(0≤j≤N-1)则表示时频变换后所得到的各个频率成分的频率值。另外,
Figure BDA0001203618100000042
通常情况下,规定音符A4处的频率440Hz为基准频率,并通过fA4·2b获得其他音符处的频率值,其中b为音符与A4之间的音程差,然后,通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射,从而获得鲁棒音阶轮廓特征向量,其中2πω对应矩阵A每一行所对应的频率值,而fi(1≤i≤12)则表示音乐中通用的中央八度内12个音符所对应的频率,可以通过fA4·2b获得。
5)为了提高SVM的识别率,本发明对SVM的高斯核函数进行优化。本发明采用测度学习的方法,根据和弦特征的特点,从问题本身的先验知识中有监督的学习到一个距离方程。该距离方程的求解是凸优化问题,从而可以使用梯度下降算法求得全局最优解。进而可以用求得的转换矩阵最优解对SVM的核函数进行优化,得到基于测度学习的高斯核函数。
6)利用训练数据对mlSVM进行训练,确定mlSVM中的参数。
7)使用训练好的mlSVM对测试数据进行识别,得到最终的识别率。
1.实验数据
本发明的实验数据采用Beatles乐队12张专辑的180收歌曲来评估分类模型,并且使用了来自学者Chris Harte对这些歌曲手动标记的标签文件。在本文中将和弦分为25类,12个根音音级分别对应一个大调和一个小调,再加上一个无和弦类型。
2结果分析
为验证本发明算法的有效性,将本发明所提出的基于RPCP和mlSVM的和弦识别系统同基于传统PCP特征并采用原始多分类支持向量机来实现和弦识别的结果进行比较,结果如图表1所示。
表1 识别结果对比(%)
Figure BDA0001203618100000043
Figure BDA0001203618100000051
本文分别采用基于帧的常规PCP和RPCP作为特征,识别模型分为常规one-over-allSVM和one-over-all mlSVM。PCP+SVM(组合1)为传统的和弦识别模型,PCP基于音乐理论,压缩了信号的能量,但是当音乐出现人声时,此时对信号频谱能量进行压缩,有可能在特征矩阵引入较为明显的噪声,使得信号能量分散,不能集中于和弦所在的音阶之上,从而使和弦的识别产生误差。而基于核范数约束优化得到的RPCP特征(组合2)避免了这种错误的出现,因此提高了识别率。第三种识别模型为RPCP+mlSVM(组合3),是三种识别组合中识别率最高的。这种识别率的提高主要集中在对具有相同根音大调和小调和弦的识别成功率上。已知相同根音大调和小调和弦一般具有两个相同的音阶,因此在识别时混淆其中的单音构成而造成识别错误。而第三种识别模式采用的mlSVM能够根据先验知识,从训练数据中通过测度学习对SVM的高斯核函数进行优化。进而,拉大不同类别和弦特征向量之间的距离,同时缩小相同和弦类型特征向量之间的距离,从而极大的提高了和弦识别率。
下面结合一个具体实例进一步详细说明本发明。
1.音乐信号转换
将待输入音乐信号转换为采样率44100Hz,16bit,单通道,成为被参考的标准音频。
2.获得标准音频频谱矩阵
将标准音频。设音乐波形的时域信号为x(l)、加窗分帧处理后得到的信号为Xn(m),则xn(m)满足:xn(m)=w(m)x(n+m),0≤m≤N-1,其中,n=0,T,2T,…,N为帧长,T为帧移长度。
Figure BDA0001203618100000052
为矩形窗。设定帧长N=12ms,帧移长度T=6ms,相邻帧有50%的重叠。随后,使用短时傅里叶变换对分帧信号进行时频变换。每一帧采用1024点的快速傅里叶变换。得到的标准音频频谱矩阵S=F·Xn(m),其中F为傅里叶变换矩阵。
3.频谱矩阵的核范数约束优化
本发明采用采用曾广拉格朗日乘子法对本发明所提出的优化问题进行求解。所构建的拉格朗日函数:
Figure BDA0001203618100000053
其中,Y称为拉格朗日乘子,μ,λ是正惩罚参数,||· ||F是Frobenius范数。YY0=S/max(S,1/λ·||S||)以作为其迭代初始值,这是因为要使目标函数
Figure BDA0001203618100000054
的值尽可能大,并且能够使算法的收敛速度在
Figure BDA0001203618100000055
数量级。
ALM算法每部迭代公式如下:
Yk+1=Ykk(Sk-Ak-Ek) (5)
Figure BDA00012036181000000613
Figure BDA00012036181000000614
在上式的每一步迭代中,都会通过奇异值分解(SVD)对目标函数求取奇异值。另外,算法所要保留的奇异值会根据如下软阈值操作,这个操作会同时扩展到矩阵:
Figure BDA0001203618100000061
其中μ-1为阈值,同时与矩阵A的奇异值相关联。当通过奇异值约束重建低秩矩阵A时,阈值μ-1的更新策略将会极大地影响恢复出来的矩阵的细节和算法的收敛速度。因此,基于和弦在色度矩阵上的分布情况,本文对原始ALM算法的阈值选择技术进行优化,根据每一步迭代产生的频谱矩阵A进行方差最大化约束,从而能够极大的加快收敛。具体步骤如下:
初始化奇异值截断阈值参数μ,参数λ,迭代索引k=0,临时矩阵Y0=S,E0为全零矩阵;进行奇异值分解
Figure BDA0001203618100000062
得到奇异值矩阵Σ;接着,从μk到1.5μk等间隔选取二十个数据点
Figure BDA0001203618100000063
其中1≤i≤20,对于每个
Figure BDA0001203618100000064
进行奇异值分解逆操作
Figure BDA0001203618100000065
由于谐波成分只分布在数个频率点上,因此计算矩阵
Figure BDA0001203618100000066
中某一列的方差,并从
Figure BDA0001203618100000067
中选取使得方差最大时,所对应的索引i,并使
Figure BDA0001203618100000068
即完成阈值自适应选择算法;计算这一步得到的矩阵
Figure BDA0001203618100000069
更新
Figure BDA00012036181000000610
Yk+1=Ykk(S-Ak+1-Ek+1)和k=k+1。
4.频谱矩阵转换为PCP特征矩阵
本发明为了得到鲁棒性PCP特征,需要将矩阵A乘映射矩阵P:
Figure BDA00012036181000000611
P表示频谱矩阵和由RPCP向量组成的色度矩阵chromagram之间的变换矩阵,其中fi(1≤i≤12)表示音乐中12平均律所定义出来的12个音阶的基频,2π·ωj(0≤j≤N-1)则表示时频变换后所得到的各个频率成分的频率值。另外,
Figure BDA00012036181000000612
通常情况下,规定音符A4处的频率440Hz为基准频率,并通过fA4·2b获得其他音符处的频率值,其中b为音符与A4之间的音程差。然后,通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射,从而获得鲁棒音阶轮廓特征向量,其中2πω对应矩阵A每一行所对应的频率值,而fi(1≤i≤12)则表示音乐中通用的中央八度内12个音符所对应的频率,可以通过fA4·2b获得。
5.获取测度学习矩阵
用下面的优化问题对转换矩阵T进行求解:
Figure BDA0001203618100000071
Figure BDA0001203618100000072
其中空间
Figure BDA0001203618100000073
是相似对,即同一和弦所对应的RPCP向量所形成的空间;而
Figure BDA0001203618100000074
是非相似对,即不同和弦所对应的RPCP向量所形成的空间。
可以看出,该优化问题是凸优化问题,从而可以使用梯度下降算法求得全局最优解。进而可以用求得的转换矩阵最优解对支持向量机的核函数进行优化,得到如下的基于测度学习的高斯核函数:
Figure BDA0001203618100000075
6.使用基于有向图策略测度学习支持向量机对和弦进行识别
支持向量机是一种两类分类器,但是在本发明的研究中依据音乐理论知识将音乐和弦分为25类,包括12类大调和弦,,12和类小调和弦,其他和弦作为第25类和弦,因此需要将该两类分类器变换到多类分类器。在文本分类中,最常用的一种算法是有向图(DirectedAcyclic Graph,DAG)算法,本发明和弦识别类和弦研究中也采用此算法进行多类和弦的分类。
将12类大调和弦和12类小调和弦的标签文件,为别依次标记为数字1,2,…,24;在和弦分类时,对该类和弦分类采用的DAG算法,它的表示形式是一个有向无环图,如图2所示。在和弦分类时,首先由分类器判断“对”,若判断结果是,则沿算法往左判断接着判断“对”,判断结果为,则继续往左判断,依此类推,这样一直判断下去就可以得到整个歌曲每个节拍内的和弦类别。同理,其他种类的和弦识别过程类似。

Claims (1)

1.一种基于鲁棒性音阶轮廓特征和向量机的和弦识别方法,其特征是,包括下列步骤:
1)对原始音频信号进行加窗预处理,得到音乐信号的分帧结果;
2)对分帧结果进行离散余弦变换,得到原始信号的标准音频频谱矩阵S;
3)频谱中谐波成分矩阵A和非谐波成分矩阵E是相互独立的,那么就有:S=A+E;矩阵通过以下凸优化问题进行全局最优解的求解:
Figure FDA0002580788210000011
其中||·||*表示矩阵的核范数,即矩阵的奇异值之和;||·||1表示矩阵的一范数,即所有非零元素之和;
该优化问题通过增广拉格朗日乘子法进行解决;
4)为了得到鲁棒性PCP特征,将矩阵A乘映射矩阵P:
Figure FDA0002580788210000012
P表示频谱矩阵和由鲁棒性音阶轮廓特征RPCP向量组成的色度矩阵chromagram之间的变换矩阵,其中fi表示音乐中12平均律所定义出来的12个音阶的基频,1≤i≤12,2π·ωj则表示时频变换后所得到的各个频率成分的频率值,0≤j≤N-1,另外,
Figure FDA0002580788210000013
规定音符A4处的频率440Hz为基准频率,并通过fA4·2b获得其他音符处的频率值,其中b为音符与A4之间的音程差,然后,通过映射公式(3)来对谐波矩阵A的各个频率成分进行映射,从而获得鲁棒音阶轮廓特征向量,其中2πω对应矩阵A每一行所对应的频率值,而fi则表示音乐中通用的中央八度内12个音符所对应的频率,通过fA4·2b获得;
5)采用测度学习的方法对支持向量机的高斯核函数进行优化:根据和弦特征的特点,从问题本身的先验知识中有监督的学习到一个距离方程,该距离方程的求解是凸优化问题,从而使用梯度下降算法求得全局最优解,进而用求得的转换矩阵最优解对支持向量机的核函数进行优化,得到基于测度学习的高斯核函数;
6)利用训练数据对测度学习支持向量机进行训练,确定测度学习支持向量机中的参数;
7)使用训练好的测度学习支持向量机对测试数据进行识别,得到最终的识别率。
CN201710007672.9A 2017-01-05 2017-01-05 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法 Expired - Fee Related CN106847248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710007672.9A CN106847248B (zh) 2017-01-05 2017-01-05 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710007672.9A CN106847248B (zh) 2017-01-05 2017-01-05 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法

Publications (2)

Publication Number Publication Date
CN106847248A CN106847248A (zh) 2017-06-13
CN106847248B true CN106847248B (zh) 2021-01-01

Family

ID=59118399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710007672.9A Expired - Fee Related CN106847248B (zh) 2017-01-05 2017-01-05 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法

Country Status (1)

Country Link
CN (1) CN106847248B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3083008A1 (en) * 2017-12-01 2019-06-06 1Qb Information Technologies Inc. Systems and methods for stochastic optimization of a robust inference problem
CN108256486B (zh) * 2018-01-18 2022-02-22 河南科技大学 一种基于非负低秩和半监督学习的图像识别方法及装置
CN108806657A (zh) * 2018-06-05 2018-11-13 平安科技(深圳)有限公司 音乐模型训练、音乐创作方法、装置、终端及存储介质
CN108846437A (zh) * 2018-06-15 2018-11-20 南京林业大学 基于capped-l1范数的提高TWSVM算法鲁棒性的方法
CN111445923B (zh) * 2020-03-26 2023-09-19 腾讯音乐娱乐科技(深圳)有限公司 一种翻唱识别方法、装置及计算机存储介质
CN111739491B (zh) * 2020-05-06 2023-03-21 华南理工大学 一种自动编配伴奏和弦的方法
CN112652281A (zh) * 2020-11-25 2021-04-13 平安科技(深圳)有限公司 音乐和弦识别方法及装置、电子设备、存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004028693B4 (de) * 2004-06-14 2009-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
JP4953068B2 (ja) * 2007-02-26 2012-06-13 独立行政法人産業技術総合研究所 和音判別装置、和音判別方法およびプログラム
JP5330720B2 (ja) * 2008-03-24 2013-10-30 株式会社エムティーアイ 和音同定方法、和音同定装置、及び学習装置
US9653056B2 (en) * 2012-04-30 2017-05-16 Nokia Technologies Oy Evaluation of beats, chords and downbeats from a musical audio signal
CN102723079B (zh) * 2012-06-07 2014-07-16 天津大学 基于稀疏表示的音乐和弦自动识别方法
CN103714806B (zh) * 2014-01-07 2017-01-04 天津大学 一种结合svm和增强型pcp特征的和弦识别方法
KR20160109819A (ko) * 2015-03-13 2016-09-21 삼성전자주식회사 전자 장치, 전자 장치의 현악기 연주 인식 방법 및 전자 장치의 현악기 연주 피드백 방법

Also Published As

Publication number Publication date
CN106847248A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106847248B (zh) 基于鲁棒性音阶轮廓特征和向量机的和弦识别方法
Korzeniowski et al. Feature learning for chord recognition: The deep chroma extractor
Han et al. Deep convolutional neural networks for predominant instrument recognition in polyphonic music
Lee et al. Acoustic chord transcription and key extraction from audio using key-dependent HMMs trained on synthesized audio
Humphrey et al. Learning a robust tonnetz-space transform for automatic chord recognition
Klapuri et al. Signal processing methods for music transcription
Gillet et al. Transcription and separation of drum signals from polyphonic music
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
Yakar et al. Bilevel Sparse Models for Polyphonic Music Transcription.
Han et al. Sparse feature learning for instrument identification: Effects of sampling and pooling methods
Cogliati et al. Piano music transcription with fast convolutional sparse coding
Pedersoli et al. Improving music transcription by pre-stacking a U-Net
Shi et al. Music genre classification based on chroma features and deep learning
Nadar et al. Towards CNN-based acoustic modeling of seventh chords for automatic chord recognition
Benetos et al. Template adaptation for improving automatic music transcription
CN117198251A (zh) 一种音乐旋律生成方法
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Kim et al. Blind rhythmic source separation: Nonnegativity and repeatability
Kitahara et al. Musical instrument recognizer" instrogram" and its application to music retrieval based on instrumentation similarity
Cheng Music information retrieval technology: Fusion of music, artificial intelligence and blockchain
Ghosal et al. Musical genre and style recognition using deep neural networks and transfer learning
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
O'Hanlon et al. Improved template based chord recognition using the CRP feature
Jiang et al. Music signal recognition based on the mathematical and physical equation inversion method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210101

CF01 Termination of patent right due to non-payment of annual fee