CN111583957A

CN111583957A - 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法

Info

Publication number: CN111583957A
Application number: CN202010315772.XA
Authority: CN
Inventors: 韦岗; 黄勋; 曹燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-25
Anticipated expiration: 2040-04-21
Also published as: CN111583957B

Abstract

本发明公开了一种基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，该方法包括：对戏曲音频文件进行预处理，包括对戏曲音频文件进行切片以及对等长片段的音频信号进行分帧和加窗操作；通过基于戏曲五声音阶设计的滤波器组，提取五音阶乐律声谱图；将提取的五音阶乐律声谱图送入级联神经网络进行训练或者预测；对于级联神经网络的输出进行分类操作，得到其在各个戏曲类别上的概率分布，选取概率最大的类别作为最终分类结果。本发明基于戏曲五声音阶设计出更符合戏曲乐律特性的声谱图，同时级联神经网络结构更好地考虑了戏曲长音频的整体性以及各个片段之间的上下文依赖，有利于提高分类的准确性。

Description

基于五音阶乐律声谱图和级联神经网络的戏曲分类方法

技术领域

本发明涉及音频数字信号处理技术领域，具体涉及一种基于五音阶乐律声谱图和级联神经网络的戏曲分类方法。

背景技术

中国传统戏曲起源于民间歌曲与舞蹈，是一种由音乐、舞蹈、美术、中国武术和杂技等综合而成的表演方式，是我国传统文化中最丰富、最具有代表性的艺术形式之一，有着悠久而辉煌的历史，丰富了我国的文化宝库，被称为世界三大戏剧之一。据统计，传统戏剧种类有360多种，其中5种被列入世界非物质文化遗产，162种被列入国家级非物质文化遗产。为了让我国这宝贵的文化遗产绽放光芒，经久不衰，使用现代计算机技术保护和管理中国传统戏曲显得尤为必要。中国戏曲曲目数以百万计，数量庞大，以人工方式对戏曲进行分类，不仅效率低下，费用高昂，而且正确率低。因此，有必要构建一套自动化的戏曲分类系统。

目前，关注戏曲分类的研究还比较少，更多的是针对现代音乐的分类，比如音乐流派分类以及音乐情感分类等。目前主流音乐分类的方法主要有以下两种：

1)基于特征的传统机器学习分类方法。在特征提取方面，根据不同类型的乐音信号在音色、音高以及节奏的差别，分别从时域以及频域进行信号分析及计算，从而提取特征。这种提取特征方式虽然计算方便且可解释性强，但是需要更多依赖该领域专家的经验人工设计特征，且特征表达不够全面，也缺乏通用性。同时，传统机器学习分类识别算法并不能很好根据所提取的浅层特征去学习更深更好的特征，导致传统机器学习分类识别算法在音频信号分类上有所限制。

2)基于音频声谱图的深度学习分类方法。在特征提取方面，常用的方法是提取音频信号的声谱图。对音频信号进行分帧以及加窗处理，然后对其进行短时傅里叶变换，最后拼接每一帧的傅里叶变换系数得到声谱图。对于深度学习分类算法，比如卷积神经网络以及循环神经网络，能够对前面的声谱图自动地实现特征学习并得到特征表示。特别地，卷积神经网络更偏向于学习声谱图在空间域方面的特征，循环神经网络更偏向于学习声谱图在时间序列方面的特征，两种算法学习的特征侧重点不同。

由于第二种方法在数据量大时能够更好学习高阶特征，且不过多依赖于专业领域的先验知识，因此该方法更适合运用于戏曲分类。然而对比音乐分类，戏曲分类有以下因素需要进行考虑。

首先，对于音频声谱图的提取，以往通常是基于傅里叶变换得到的。但是由于傅里叶变换得到的音频谱是线性分布的，而音阶的频率是指数分布的，两者不匹配。常数Q变换本质就是中心频率按指数规律分布，且中心频率与带宽比为常量Q的滤波器组。因此，在音乐信号分析中，采用常数Q变换一般会比傅里叶变换有效。另外，不同于现代音乐的七声音阶，大多数戏曲采用五声音阶。五声音阶的意思就是按五度的相生顺序，从宫音开始到角音，依次为：宫、商、角、徵、羽。五声音阶的特色在于，它没有半音阶(小二度)音程。其音程组织是每个八度之内有3处全音，分成两个一串(宫─商─角)和一个单独的(徵─羽)，音阶中的每一个音都可以当主音以建立调式，可形成5种不同的五声调式。因此在戏曲分类任务中对于声谱图的提取，应该基于五声音阶乐律，简称五音阶乐律声谱图。

此外，对于音乐分类的建模流程，一般都是先将音乐进行切片，然后再对切分好的等时长音乐片段提取声谱图，最后建模训练。在预测音乐种类时，一般会采取投票机制对预测结果进行处理。具体地，会对组成该音频的多个音乐片段进行预测，然后计算出多个片段在不同类别下的平均概率，其中概率最大的类别即为音乐的类别。但是，由于戏曲音频的时长一般都会比较大，简单的分段投票忽略了戏曲音频本身的整体性。同时各个戏曲片段之间的上下文依赖关系也被忽略了。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于五音阶乐律声谱图和级联神经网络的戏曲分类方法。该方法基于戏曲五声音阶设计出更符合戏曲乐律特性的声谱图，同时利用级联神经网络结构更好地考虑了戏曲长音频的整体性以及各个片段之间的上下文依赖，有利于提高分类的准确性。

本发明的目的可以通过采取如下技术方案达到：

一种基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，所述的戏曲分类方法包括如下步骤：

S1、对戏曲音频文件进行预处理；

S2、提取基于五音阶乐律的声谱图；

S3、将提取的五音阶乐律声谱图送入级联神经网络进行训练或者预测，所述的级联神经网络由两级模型组成，其中，第一级模型基于T秒戏曲片段学习片段信号内部的时频特性，采用卷积神经网络和循环神经网络中的一种或组合；第二级模型基于整首戏曲学习各个片段之间的上下文依赖关系，采用双向循环神经网络；

S4、对于级联神经网络的输出进行分类操作，得到其在各个戏曲类别上的概率分布，选取概率最大的类别作为最终分类结果。

进一步地，所述的步骤S1、对戏曲音频文件进行预处理过程如下：

首先对戏曲音频文件进行切片，把戏曲按等长时间切成多个片段；然后对已经切成等长片段的音频信号进行分帧以及加窗操作。

进一步地，所述的步骤S2、提取基于五音阶乐律的声谱图过程如下：

S201、对于经过步骤S1预处理获得的每一帧的音频信号，通过常数Q变换得到对应的频谱；

S202、通过基于戏曲五声音阶设计的滤波器组，得到对应的滤波信号的能量为每一帧音频信号对应的输出向量；

S203、对每一帧音频信号对应的输出向量进行对数变换；

S204、按帧的顺序进行拼接每一帧的音频信号对应的输出向量，获得每一个戏曲片段对应的矩阵。

进一步地，所述的基于戏曲五声音阶设计的滤波器组由50个级联的巴特沃斯IIR滤波器组成，每个滤波器分别对应十个五阶音程的五十个乐音。

进一步地，所述的级联神经网络由两级模型级联组成，其中，第一级模型以T秒戏曲片段对应的五音阶乐律声谱图为输入，由卷积神经网络组成，从第一级模型的输入层到第一级模型的输出层依次为：卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层，其中，卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3构成卷积神经网络，全连接层输出作为T秒戏曲片段的特征表达；其中，第二级模型以同一首戏曲内各个T秒戏曲片段的特征表达作为各个时刻的输入序列，由双向循环神经网络组成，从第二级模型的输入层到第二级模型的输出层依次为：双向循环神经网络、注意力机制层、全连接层。

进一步地，所述的步骤S3、将提取的五音阶乐律声谱图送入级联神经网络进行训练或者预测过程如下：

S301、以T秒戏曲片段为单位，将前面提取的戏曲片段对应的五音阶乐律声谱图作为输入送进第一级模型；

S302、将卷积神经网络提取的特征经过全连接层转化成一维向量，进行第一级分类计算，第一级模型输出预测的戏曲片段分类概率，其中经全连接层转化的一维向量作为提取T秒戏曲片段的特征表达；

S303、以整首戏曲为单位，将同一首戏曲内各个T秒戏曲片段的特征表达作为各个时刻的输入序列，送入第二级模型的双向循环神经网络；

S304、针对双向循环神经网络各个时刻的输出状态引入注意力机制，自动学习各个时刻输出的权重，然后对双向循环神经网络学习到的特征进行加权平均，其中注意力分数公式如下：

其中，α_i表示注意力概率分布α中第i个注意力概率值，e_i表示注意力分数e中第i个分数值，e_j表示注意力分数e中第j个分数值，T表示特征中列向量的数量；

S305、将步骤S304的输出结果送入全连接层，其中损失函数为交叉熵函数，学习率为0.001，优化器为Adam优化器；

S306、使用第二级模型分类计算出最终输出概率，选取最大的概率所对应的类目标签作为最终戏曲的分类结果。

进一步地，所述的步骤S4中采用softmax函数计算相对概率分布，其中，所述的softmax函数公式如下所示：

其中，m表示当前元素的类别索引，n表示第n个元素类别索引，N表示总的类别个数，v_m是级联神经网络在第i类别下的输出，p_m表示的是当前元素的指数与所有元素指数和的比值，通过softmax函数将多分类的输出数值转化为相对概率。

本发明相对于现有技术具有如下的优点及效果：

1)本发明基于戏曲五声音阶设计的滤波器组，提取五音阶乐律声谱图，考虑了戏曲乐律特性，更适用于戏曲分类。

2)本发明采用级联神经网络结构，第一级模型学习片段信号内部的时频特性，第二级模型学习各个片段之间的上下文依赖关系。考虑了戏曲长音频的整体性以及各个片段之间的上下文依赖。

3)本发明在第二级模型中引入注意力机制，对不同片段的特征学习自动赋予不同的权重，考虑了不同片段重要性的不同。

附图说明

图1是本发明实施例基于五音阶乐律声谱图和级联神经网络的戏曲分类方法的具体流程图；

图2是本发明实施例中用于五音阶乐律声谱图提取的具体流程图；

图3是本发明实施例中五音阶滤波器组的频率响应图；

图4是本发明实施例中级联神经网络结构示意图；

图5是本发明实施例中基于T秒戏曲片段的第一级模型结构示意图；

图6是本发明实施例中基于整首戏曲的第二级模型结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，借鉴音乐分类的方法，在此基础上基于五音阶乐律提取声谱图，同时利用级联神经网络结构更好地考虑戏曲长音频的整体性以及各个片段之间的上下文依赖，以适用于戏曲分类和提高分类的准确性。

如图1所示，包括如下步骤：

S1、对戏曲音频文件进行预处理。首先是对戏曲音频文件进行切片，把戏曲按等长时间T秒切成多个片段，不足规定时间长度的片段舍弃；然后对已经切成等长戏曲片段的音频信号进行预处理操作，包括分帧和加窗。比如时间长度T可以取值为9；9秒等长的戏曲片段采样率为22050Hz，以1024个采样点(约46毫秒)为帧长，帧移50％(约23毫秒)，进行分帧，总共可分为388帧；为了避免频谱泄露，对信号加汉明窗。

S2、提取基于五音阶乐律的声谱图。每一帧的音频信号，通过常数Q变换得到对应的频谱，通过基于戏曲五声音阶设计的滤波器组，得到对应的滤波信号的能量为每一帧音频信号对应的输出向量，对每一帧音频信号对应的输出向量进行对数变换。按帧的顺序进行拼接每一帧的音频信号对应的输出向量，获得每一个戏曲片段对应的矩阵。

S3、把提取的五音阶乐律声谱图送入级联神经网络进行训练或者预测。其中级联神经网络由两级模型组成。第一级模型学习片段信号内部的时频特性，可以是卷积神经网络，也可以是循环神经网络，还可以是卷积神经网络与循环神经网络相结合。在这里，第一级模型采用卷积神经网络。第二级模型学习各个片段之间的上下文依赖关系，采用双向循环神经网络。

S4、对于级联神经网络的输出进行分类操作，得到其在各个戏曲类别上的概率分布，选取概率最大的类别作为最终分类结果。可采用softmax函数计算相对概率分布。softmax函数公式如下所示：

其中，m表示当前元素的类别索引，n表示第n个元素类别索引，N表示总的类别个数，v_m是级联神经网络在第i类别下的输出，p_m表示的是当前元素的指数与所有元素指数和的比值，通过softmax函数将多分类的输出数值转化为相对概率

本发明中戏曲类目数量为8，具体分类如下表1所示：

表1.戏曲类目分类表

序号	戏曲类型	序号	戏曲类型
				1	粤剧	5	晋剧
2	评剧	6	黄梅戏
				3	昆剧	7	川剧
4	京剧	8	潮剧

上述步骤S2、提取基于五音阶乐律的声谱图的具体流程如图2所示，包括以下步骤：

S201、对于步骤S1获得的每一帧的音频信号，通过常数Q变换得到对应的频谱。由于音符音高以指数规律分布，这导致在低频区音符的数量要多于高频区。常用的时频变换中，短时傅里叶变换(STFT)和离散傅里叶变换(DFT)都是采用固定窗长，适应低频区频率分辨率的窗长同时会导致高频区的频率解析过度，丢失时间分辨率；而且这两种变换的频率点间隔采用线性标度，对于指数规律分布的音高频率不可能很好地映射到DFT或STFT得到的频谱空间上。所以使用一种更适合音乐信号分析的时频变换，即常数Q变换采用可变长的窗口且频率带宽比为常数，具体定义如下：

其中，f_k是音乐信号在常数Q变换谱中第k个频率分量或称谱线频率；f₀是所处理信号的频率下限，在这里f₀取16.352Hz；K表示CQT谱中划分的频带数目；b表示一个音程频率范围内划分的频率分量的数目，在这里由于同一个五阶音程内只有五个乐音，对应五个频率分量，因此b取5。

S202、通过基于戏曲五声音阶设计的滤波器组，得到对应的滤波信号的能量为每一帧音频信号对应的输出向量。

上述基于五声音阶设计的滤波器组是基于戏曲的音律特性，采用的五音阶滤波器组由50个滤波器组成，可以是巴特沃斯IIR滤波器或者其他形状的滤波器组成，对应十个五阶音程的五十个乐音，中心频率从16.352Hz到15KHz。如图3所示，是五阶滤波器组的频率响应图。其中第一个五阶音程内五个乐音的中心频率分别为16.352Hz，18.354Hz，20.602Hz，24.5Hz，27.5Hz，分别用f₁，f₂，f₃，f₄，f₅表示。第二个五阶音程内五个乐音的中心频率为2f₁，2f₂，2f₃，2f₄，2f₅。之后相邻一个五阶音程的同一个音级的中心频率比例为2：1。由此类推，第十个五阶音程内五个乐音的中心频率为2⁹f₁，2⁹f₂，29f₃，2⁹f₄，2⁹f₅。每个滤波器中心频率对应每个乐音的中心频率，展宽为前后两个乐音中心频率差值绝对值。每一帧的音频信号通过五音阶滤波器组，就得到对应的滤波信号，该滤波信号的能量作为输出值，一共有50个输出值。

S203、由于声音能量的单位通常是分贝，所以需要对每一帧音频信号对应的输出向量进行对数变换。

S204、按帧的顺序进行拼接每一帧的音频信号对应的输出向量，获得每一个戏曲片段对应的矩阵。在这里，每一个T秒等长的戏曲片段总共有388帧，因此可以获得对应大小为388*50的矩阵，矩阵即为输出的声谱图。

上述级联神经网络的结构图如图4所示。级联神经网络由两级模型级联组成。第一级模型以T秒戏曲片段对应的五音阶乐律声谱图为输入，主要由卷积神经网络组成，从第一级模型的输入层到第一级模型的输出层依次为：卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层，其中全连接层输出作为T秒戏曲片段的特征表达。第二级模型以同一首戏曲内各个T秒戏曲片段的特征表达作为各个时刻的输入序列，主要由双向循环神经网络组成，从第二级模型的输入层到第二级模型的输出层依次为：双向循环神经网络、注意力机制层、全连接层。

现有的技术中对戏曲的分类方法大多是基于T秒戏曲片段利用卷积神经网络进行分类，然后采取投票机制对预测结果进行处理，即计算出多个片段在不同类别下的平均概率，其中概率最大的类别即为音乐的类别。但这样的做法忽略了戏曲音频本身的整体性以及各个戏曲片段之间的上下文依赖。而级联神经网络正好解决了这个问题：第一级模型基于T秒戏曲片段，学习片段信号内部的时频特性；第二级模型基于整首戏曲，学习戏曲内各个片段之间的上下文依赖关系。在我们的实验中，级联神经网络的预测准确率平均达到96％，比卷积神经网络加投票机制的方法的预测准确率(93.2％左右)提升了三个百分点左右。

戏曲分类模型建立步骤如下：

S301、以T秒戏曲片段为单位，将前面提取的戏曲片段对应的五音阶乐律声谱图作为输入送进卷积神经网络，作为第一级模型。基于T秒戏曲片段的第一级模型结构示意图如图5所示。卷积神经网络由三个卷积层以及池化层组成：

卷积层1处理输入的常数Q变换声谱图(大小为388*50)，由1*50的纵向卷积核与4*1的横向卷积核串联组成，通道数均为128。1*50的纵向卷积核主要学习声谱图在纵轴方向(频域)的特征，而4*1的横向卷积核主要学习声谱图在横轴方向(时域)的特征。另外，卷积核的串联可以在增大卷积感受野的同时减少参数量，从而防止模型过拟合。此外，激活函数为reLu函数，使用Dropout和批归一化，以防止过拟合。

池化层1处理卷积层1的输出，采用最大池化，池化核大小为2*1。

卷积层2处理输入的池化层1的输出，卷积核大小为4*1，通道数为128。激活函数为reLu函数，使用Dropout和批归一化，以防止过拟合。

池化层2处理卷积层2的输出，采用最大池化，池化核大小为2*1。

卷积层3处理输入的池化层2的输出，卷积核大小为4*1，通道数为128。激活函数为reLu函数，使用Dropout和批归一化，以防止过拟合。

池化层3处理卷积层3的输出，分别采用最大池化和平均池化，池化核大小均为26*1，然后拼接两个池化层输出结果。

S302、将卷积神经网络提取的特征经过全连接层转化成一维向量，进行第一级分类计算，输出第一级模型预测的戏曲片段分类概率。因为第一级模型输入样本是T秒的戏曲片段，所以第一级模型输出对应各个T秒戏曲片段的标签。其中经全连接层转化的一维向量作为提取T秒戏曲片段的特征表达。

S303、以整首戏曲为单位，将同一首戏曲内各个T秒戏曲片段的特征表达作为各个时刻的输入序列，送入双向循环神经网络，作为第二级模型。基于整首戏曲的第二级模型结构示意图如图6所示。

S304、针对双向循环神经网络各个时刻的输出状态引入注意力机制，自动学习各个时刻输出的权重，然后对双向循环神经网络学习到的特征进行加权平均。其中注意力分数公式如下：

其中，α_i表示注意力概率分布α中第i个注意力概率值，e_i表示注意力分数e中第i个分数值，e_j表示注意力分数e中第j个分数值，T表示特征中列向量的数量。

S305、将步骤S304的输出结果送入全连接层。其中损失函数为交叉熵函数，学习率为0.001,优化器为Adam优化器。

S306、使用第二级分类计算出最终输出概率，选取最大的概率所对应的类目标签作为最终戏曲的分类结果。

如上即可较好地实现本发明并取得前述技术效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的戏曲分类方法包括如下步骤：

S1、对戏曲音频文件进行预处理；

S2、提取基于五音阶乐律的声谱图；

2.根据权利要求1所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的步骤S1、对戏曲音频文件进行预处理过程如下：

3.根据权利要求1所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的步骤S2、提取基于五音阶乐律的声谱图过程如下：

S203、对每一帧音频信号对应的输出向量进行对数变换；

4.根据权利要求3所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的基于戏曲五声音阶设计的滤波器组由50个级联的巴特沃斯IIR滤波器组成，每个滤波器分别对应十个五阶音程的五十个乐音。

5.根据权利要求1所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的级联神经网络由两级模型级联组成，其中，第一级模型以T秒戏曲片段对应的五音阶乐律声谱图为输入，由卷积神经网络组成，从第一级模型的输入层到第一级模型的输出层依次为：卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层，其中，卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3构成卷积神经网络，全连接层输出作为T秒戏曲片段的特征表达；其中，第二级模型以同一首戏曲内各个T秒戏曲片段的特征表达作为各个时刻的输入序列，由双向循环神经网络组成，从第二级模型的输入层到第二级模型的输出层依次为：双向循环神经网络、注意力机制层、全连接层。

6.根据权利要求5所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的步骤S3、将提取的五音阶乐律声谱图送入级联神经网络进行训练或者预测过程如下：

7.根据权利要求1所述的基于五音阶乐律声谱图和级联神经网络的戏曲分类方法，其特征在于，所述的步骤S4中采用softmax函数计算相对概率分布，其中，所述的softmax函数公式如下所示：