CN110222227A

CN110222227A - 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

Info

Publication number: CN110222227A
Application number: CN201910394433.2A
Authority: CN
Inventors: 杨新宇; 罗晶; 王银瑞; 董怡卓; 魏洁; 夏小景; 张亦弛; 吉姝蕾; 崔宇涵
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-10
Anticipated expiration: 2039-05-13
Also published as: CN110222227B

Abstract

本发明公开了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。本发明提出同时提取听觉感知特征和视觉特征用于中国民歌的地域分类，并且提出要充分考虑两种特征对于中国民歌地域分类的适用性，从而对它们做了改进。提取听觉感知特征时，充分考虑特征对音乐语义的清晰性表达与特征的时序结构，采用CHMM模型对每类民歌建模，然后计算每首民歌对应于各个CHMM的输出概率，进而将每首歌曲的听觉感知特征转化为新的特征向量。提取音频视觉特征时，采用彩色语谱图替代灰度图以捕捉更多的纹理信息，并且同时采用纹理模式特征与模式强度特征以更全面的表征纹理。实验表明，本发明不仅可以有效识别不同地域的民歌，而且优于现有的民歌地域识别方法。

Description

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法

技术领域

本发明属于机器学习与数据挖掘领域，具体涉及一种融合听觉感知特征和视觉特征的中国民歌地域分类方法。

背景技术

近年来，随着数字音频音乐的增加以及互联网的迅猛发展，具有独特民族风格与浓郁地方色彩的中国民歌开始被更多的人接触、喜欢与研究。然而由于中国民歌一般是即兴编作、口头传唱，不如流派歌曲创作规则明显，民歌的地域风格界限较为模糊，增加了地域识别的难度，因此目前中国民歌的地域识别研究比较少，急需学术界和工业界提出相关新的研究。

听觉感知特征在声学特征的基础上提出，其充分考虑人耳的听觉特性，融入大量的音乐感知信息，能够更贴近人耳与神经系统感知与处理音乐的过程，因此成为音乐分类中重要的特征选择。此外，通过将音乐音频信号转化成语谱图，进而提取视觉特征间接反映音乐节奏、韵律等特点，同样在音乐分类领域具有很大的潜力。听觉感知特征与视觉特征的巨大优势在中国民歌的地域识别的研究中应用的还非常少，尤其是视觉特征几乎没有应用。

发明内容

本发明的目的是解决现有研究中存在的缺乏探究新特征的不足问题，提出了一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，该方法同时提取听觉感知特征与视觉特征对中国民歌进行地域识别，通过前者捕捉民歌中的感知信息，通过后者捕捉民歌中的纹理特征，提高了中国民歌地域分类准确率。

为了达到上述目的，本发明采用如下的技术方案来实现：

一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，首先，对原始音频信号按帧提取听觉感知特征并进行时序相关性建模；其次，将原始音频信号的整体转化为彩色语谱图提取视觉特征；最后，将提取到的两部分特征进行决策级融合得到最终的分类结果；具体包括以下步骤：

1)听觉感知特征的提取：包括按帧提取音频特征，帧特征时序相关性建模，新的特征向量集合，归一化处理，具体包括以下步骤：

1-1)按帧提取音频特征：针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征；

1-2)帧特征时序相关性建模：采用连续隐马尔科夫模型为每类民歌建立模型，连续隐马尔科夫模型简称CHMM模型；

1-3)新的特征向量集合：计算每首民歌对应于所有CHMM模型的输出概率，并将这些输出概率组合成新的特征向量集合；

1-4)归一化处理：对得到的新特征向量进行归一化处理，作为最终用于分类的听觉感知特征向量集合；

2)视觉特征的提取：视觉特征的提取过程，包括视觉图像的获取，视觉纹理特征的提取，以及视觉特征的降维处理，具体包括以下步骤：

2-1)视觉图像的获取：将每首民歌的音频信号的整体转化为彩色语谱图，并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像；

2-2)视觉纹理特征的提取：分别对每个颜色通道的灰度图像提取均匀二值模式和对比度特征，同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算，考虑Contrast特征提取时算子取值离散化问题；

2-3)视觉特征的降维处理：采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式，然后只保留这些模式，从而达到降维的目的；

3)地域分类器融合：分别将提取到的听觉感知特征、视觉特征输入到各自的支持向量机分类器，对得到的SVM分类器分数向量进行融合作为最终的分类结果。

本发明进一步的改进在于，所述步骤1-2)具体操作为：将每首民歌提取的听觉感知特征作为观测向量，采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型；具体步骤如下：

1)CHMM的初值选择

CHMM的参数训练过程，需要输入初始的模型参数；其中HMM初始状态概率向量初值π₀与初始状态转移矩阵A₀对模型的建立影响不大，随机给出；而HMM状态数W与GMM模型个数P，则尝试采用不同组合来确定，以寻找最优的CHMM模型；GMM的初始参数选择则采取K均值分段算法来设置；

2)CHMM参数训练过程

CHMM参数训练过程分为以下两步：

E-step：给定观察向量序列递归计算出第t帧处于状态S_j中的前向概率α_t(S_j)与后向概率β_t(S_j)，并由二者计算出第t帧处于状态S_i且第t+1帧处于状态S_j的概率如式(1)，以及第t帧处于状态S_j中第m个高斯模型的概率如式(2)：

M-step：根据γ_t(S_j)重新估计CHMM的参数：计算GMM各模型平均值向量μ^jm、协方差矩阵∑^jm，权重c^jm；状态转移概率a_ij，初始状态概率向量π；各参数表达式如下：

本发明进一步的改进在于，所述步骤1-3)具体操作为：将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率，然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率，从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合

本发明进一步的改进在于，所述步骤1-4)将所有歌曲的特征向量作归一化处理，作为听觉感知特征最终的训练向量集合。

本发明进一步的改进在于，所述步骤2-2)具体操作为：首先分别对每个颜色通道的灰度图像进行与VAR_P,R运算，然后为解决三个颜色通道之间的相关性，对不同颜色通道两两做运算，运算时邻域中心的像素和周围像素分别取自不同的通道，最后为解决不同局部区域内部得到的VAR_P,R算子值是连续的问题，在计算VAR_P,R直方图特征向量之前对VAR_P,R特征空间进行了量化，降低特征维数，其中R为邻域半径、P为采样点数。

本发明进一步的改进在于，所述步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量，CV越大表示在该模式上差异越大，只保留这些差异大的模式，从而达到降维的目的。

本发明具有如下有益的技术效果：

本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，融合听觉感知特征与视觉特征对中国民歌的地域识别。在提取两种特征的时候不仅充分考虑民歌音乐自身的特点，而且还进行了相应的改进。提取感知特征时，充分考虑各帧特征之间的时序关系，首先采用CHMM模型对每类民歌建模，然后计算每首民歌对应于各个CHMM的输出概率，进而将每首歌曲的听觉感知特征转化为新的特征向量。提取视觉特征时，采用彩色语谱图替代灰度图，以捕捉更多的纹理信息，并且为了更好的表征图像的纹理，不仅考虑纹理的模式，而且还考虑了纹理模式的强度。首先将每首歌曲的音频文件整体转化为彩色语谱图，进而将彩色语谱图转化成RGB三个颜色通道的灰度图像，然后提取视觉特征，并对提取的视觉特征采用变异系数降维。实验表明，本发明不仅可以有效识别不同地域的民歌，而且优于现有的民歌地域识别方法。

附图说明

图1为本发明提出的融合听觉感知特征和视觉特征的中国民歌地域分类整体处理流程图；

图2为本发明中听觉感知特征提取及处理过程示意图；

图3为本发明中视觉特征提取及处理过程示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：。

参照图1，本发明提供的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，首先，对原始音频信号按帧提取听觉感知特征，采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型；其次，将原始音频信号的整体转化为彩色语谱图，进而转化成RGB三个颜色通道的灰度图像提取视觉特征，同时采用变异系数降维；最后，分别将提取到的两部分特征输入到各自的SVM分类器进行决策级融合，具体包括以下步骤：

1)听觉感知特征的提取：听觉感知特征的提取过程，包括按帧提取音频特征，帧特征时序相关性建模，新的特征向量集合，归一化处理，参照图2，具体包括以下步骤，

Step1按帧提取音频特征：针对原始音频信号按帧提取梅尔频率倒谱系数、谱质心及Chroma特征作为听觉感知特征；

Step2帧特征时序相关性建模：采用连续隐马尔科夫模型(Continuous HiddenMarkov Model，CHMM)为每类民歌建立模型，采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型；具体步骤如下：

1)CHMM的初值选择

2)CHMM参数训练过程

CHMM参数训练过程分为以下两步：

Step3新的特征向量集合：将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率，然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率，从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合

Step4归一化处理：对得到的新特征向量进行归一化处理，作为最终用于分类的听觉感知特征向量集合；

2)视觉特征的提取：视觉特征的提取过程，包括视觉图像的获取，视觉纹理特征的提取，视觉特征的降维处理，参照图3，具体包括以下步骤，

Step1视觉图像的获取：将每首民歌的音频信号的整体转化为彩色语谱图，并将每幅彩色语谱图转化为RGB三个颜色通道的灰度图像；

Step2视觉纹理特征的提取：分别对每个颜色通道的灰度图像提取均匀二值模式(uniform Local Binary Pattern，uniform LBP)和对比度(Contrast)特征，同时考虑对不同颜色通道之间的uniform LBP特征相关性进行计算，考虑Contrast特征提取时算子取值离散化问题；具体分别对每个颜色通道的灰度图像进行与VAR_P,R运算；为解决三个颜色通道之间的相关性，对不同颜色通道两两做运算，运算时邻域中心的像素和周围像素分别取自不同的通道；为解决不同局部区域内部得到的VAR_P,R算子值是连续的问题，在计算VAR_P,R直方图特征向量之前对VAR_P,R特征空间进行了量化，大大降低特征空间的特征维数，其中R为邻域半径、P为采样点数。以G通道为中心的视觉特征的提取过程为例，主要步骤如下所示：

1)针对每一首歌，从G通道灰度图像中取一个像素点A，其像素值为以该像素点为中心，分别从R，B两个外部通道以及G内部通道灰度图像中提取其邻域R周围的P个点的像素值，分别记为

2)针对A点的像素值计算三组邻域值对应的LBP编码及三个算子；

3)计算邻域值对应的VAR_P,R算子；

4)重复上述步骤，直至得到G通道图像中每个像素点对应的3个算子与1个VAR_P,R值，然后分别对G-R，G-B两个交互通道以及G内部通道中的各种算子进行统计，便可以得到G通道图像对应的三个LBP直方图序列；对G内部通道中各种VAR_P,R值进行统计，便可以得到G通道图像对应的一个Contrast直方图序列。

Step3视觉特征的降维处理：采用概率分析方法来获得不同地域民歌各种颜色通道内LBP特征中差异比较大的模式，然后只保留这些模式，从而达到降维的目的；具体采用变异系数CV(Coefficient of Variance)对三个地域民歌相同颜色通道内的相同模式做差异度衡量，CV越大则三个地域的民歌在该模式上差异越大，反之越小。本发明认为内部通道模式CV小于α的为差异较小的模式，交互通道内模式CV小于β的为差异较小的模式，进而将这些模式删除以达到降维的目的。

3)地域分类器融合：分别将提取到的听觉感知特征、视觉特征输入到各自的(Support Vector Machine,SVM)分类器，对得到的分类器分数向量进行融合作为最终的分类结果。

为了证明融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在民歌地域分类上的优越性，本发明将其与其它基于音频的民歌地域分类算法做了比较，参照表1所示，融合听觉感知特征与音频视觉特征的中国民歌地域分类算法在现有的基于音频的中国民歌地域分类算法中分类准确率是最高的，这也说明将这两类特征结合研究中国民歌的地域分类比直接采用声学特征的研究方式更符合中国民歌的音乐特点。

表1：本发明中民歌地域分类方法与其它民歌地域分类方法的分类准确率对比结果。

Claims

1.一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，首先，对原始音频信号按帧提取听觉感知特征并进行时序相关性建模；其次，将原始音频信号的整体转化为彩色语谱图提取视觉特征；最后，将提取到的两部分特征进行决策级融合得到最终的分类结果；具体包括以下步骤：

2.根据权利要求1所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，所述步骤1-2)具体操作为：将每首民歌提取的听觉感知特征作为观测向量，采用改进的Baum-Welch算法训练每个地域民歌的CHMM模型；具体步骤如下：

1)CHMM的初值选择

2)CHMM参数训练过程

CHMM参数训练过程分为以下两步：

E-step：给定观察向量序列递归计算出第t帧处于状态S_j中的前向概率α_t(S_j)与后向概率β_t(S_j)，并由二者计算出第t帧处于状态S_i且第t+1帧处于状态S_j的概率ξ_t ^(k)(S_i,S_j)，如式(1)，以及第t帧处于状态S_j中第m个高斯模型的概率如式(2)：

3.根据权利要求2所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，所述步骤1-3)具体操作为：将每首民歌的感知特征作为观察向量采用Viterbi算法求出其对应于每个CHMM模型的输出概率，然后将其串接成一维向量其中表示训练集中第m类地域中第j首歌在第i个地域民歌CHMM模型下的输出概率，从而将第m类民歌中所有感知特征向量集合转化为新的特征向量集合

4.根据权利要求3所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，所述步骤1-4)将所有歌曲的特征向量作归一化处理，作为听觉感知特征最终的训练向量集合。

5.根据权利要求4所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，所述步骤2-2)具体操作为：首先分别对每个颜色通道的灰度图像进行与VAR_P,R运算，然后为解决三个颜色通道之间的相关性，对不同颜色通道两两做运算，运算时邻域中心的像素和周围像素分别取自不同的通道，最后为解决不同局部区域内部得到的VAR_P,R算子值是连续的问题，在计算VAR_P,R直方图特征向量之前对VAR_P,R特征空间进行了量化，降低特征维数，其中R为邻域半径、P为采样点数。

6.根据权利要求5所述的一种融合听觉感知特征和视觉特征的中国民歌地域分类方法，其特征在于，所述步骤2-3)采用变异系数CV对相同颜色通道内的相同模式做差异度衡量，CV越大表示在该模式上差异越大，只保留这些差异大的模式，从而达到降维的目的。