CN111402919A

CN111402919A - 一种基于多尺度多视图的戏曲唱腔风格识别方法

Info

Publication number: CN111402919A
Application number: CN201911278068.5A
Authority: CN
Inventors: 陈可佳; 吴怡林; 郭林博; 李雨康; 张慧
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Mei Lanfangjinianguan; Nanjing University of Posts and Telecommunications
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-07-10
Anticipated expiration: 2039-12-12
Also published as: CN111402919B

Abstract

本发明公开了一种基于多尺度多视图的戏曲唱腔风格识别方法，包括步骤如下：S1收集戏曲音频并进行正反例标记；S2对标记的戏曲音频进行预处理；S3对预处理之后的音频进行特征提取；S4搭建训练模型，优化模型参数；S5使用优化后的卷积神经网络模型，识别正例戏曲风格。从原始音频数据中生成语谱图、MFCC谱图等多个视图下的表示，并在不同尺度下生成训练样本，随后采用卷积神经网络(CNN)模型抽取特征并融合至分类模型中，以识别某类特定艺术家的风格。本方法可以准确识别戏曲的风格，可作为戏曲教学中的唱腔评分依据，模型学得的参数也可用于生成具有特定风格的唱腔。

Description

一种基于多尺度多视图的戏曲唱腔风格识别方法

技术领域

本发明涉及计算机风格识别，尤其涉及一种基于多尺度多视图的戏曲唱腔风格识别方法，主要应用于中国传统梅派戏曲唱腔识别及分类。

背景技术

当今，“人工智能”都将成为人们热议的话题，它承载着科技创新的巨大能量，不断刷新着人类对未知世界和极限领域的认知，改变着人类的生活、生产方式。近代，AI在艺术领域也崭露头角。在视觉艺术领域，德国科学家使用深度学习算法GAN让AI“学习”得到梵·高等画家的画风，生成具有画家风格的“油画”；在音乐领域，谷歌的Magenta项目利用AI训练音乐作品并生成新乐曲。

目前，在中国戏曲领域，AI还未真正起到作用，其主要原因是中国戏曲的腔调非常复杂。即使是同一句唱词、同一个曲调，只要有音量、节奏或吐字上的一丝不同，表情达意的效果就有不可思议的变化。而人类演员根据自己的嗓音特质做出各自的“微调”，也正是戏曲众多艺术风格和流派的重要发端。

本发明采用AI领域的机器学习技术，以梅派唱腔为例，分析和处理梅派戏曲音频数据，建立数据集，构建卷积神经网络(CNN)框架，优化模型参数，识别并分类不同的唱腔风格。本项目是一次非常有价值的艺术尝试，旨在打破传统唱腔分析的繁杂、多样、散乱的局面，基于信息技术系统而全面地分析唱腔风格。本文的研究不仅有利于中国传统音乐基本理论的完善，也有利于戏曲音乐教学的改革，让传统文化在人工智能时代得到传承与创新。

发明内容

发明目的：为了更好地识别和分类梅派戏曲的风格，同时结合实际问题，提出一种基于多尺度多视图的戏曲唱腔风格识别方法

技术方案：本发明是一种基于多尺度多视图的戏曲唱腔风格识别方法，包括如下步骤：

(1)收集戏曲音频数据，对戏曲手动切除没有人声的部分后进行正反例标记；

(2)对标记的戏曲音频进行预处理，包括预加重、加窗、分帧。

(3)对预处理之后的音频进行特征提取；

(4)搭建并训练模型，优化模型参数；

(5)使用优化后的卷积神经网络模型，识别正例戏曲风格。

进一步地，所述步骤(1)还包括：

(1.1)手动切除特定艺术家戏曲中没有人声的部分；

(1.2)对已经切除过无人声部分的戏曲加上正例标签，其他类型戏曲加上反例标签；

(1.3)已经标记的戏曲以4秒、8秒、12秒作为间隔再次切割。

进一步地，步骤(2)中所述方法还包括：

(2.1)预加重为一种在发送端对输入信号高频分量进行补偿的信号处理方式，随着信号速率的增加，信号在传输过程中受损很大，为了在接收终端能得到比较好的信号波形，就需要对受损的信号进行补偿，补偿信号在传输过程中的损耗、衰减，更多的保留了有效信息，直接调用预加重函数为：H(Z)＝1-u/z，u取 0.97；

(2.2)采集的分段音频数据，直接调用汉明窗函数，分帧加窗同步进行；

W(n,a)＝(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1，参数a＝0.46。

语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变)，分帧就是把语音信号分为一些短段来进行处理，语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的，这就是加窗。分帧：一般取10-30ms，在 10-30ms内，认为语音信号是不变的，可以求绝对值一类的数学变量。

进一步地，步骤(3)中所述特征提取包括：

(3.1)表示级别特征提取，其包含音强、音调、音色；

(3.2)语义级别特征提取，其包含节奏、旋律、唱腔；

(3.3)深度学习特征提取，包括使用已经预处理过的数据生成语谱图和 MFCC谱图。

进一步地，步骤(4)中所述搭建并训练模型方法还包括：

(4.1)使用Keras框架，在框架上搭建神经网络；

(4.2)使用预训练模型InceptionV3设计网络结构，依照相似的方法搭建语谱图模型和MFCC模型；

(4.3)生成融合模型，将训练集送入融合模型并开始训练；

(4.4)根据训练结果，调整参数直至训练集和验证集的准确率至少达到90％。

进一步地，步骤(4.2)中搭建语谱图方法具体包括：

(4.2.1)初始化InceptionV3模型参数，构建不带分类器的预训练模型InceptionV3并加入分类器；

(4.2.2)构建完整模型，冻结InceptionV3所有的卷积层，训练最后加入的网络层；

(4.2.2)编译模型，设置优化器并评估损失，用语谱图训练模型，迭代40 次后保存模型。

进一步地，步骤(4.3)中生成融合模型方法包括：

(4.3.1)分别读取训练好的语谱图模型和MFCC模型，然后将网络层冻结；将两个模型的输入层以及特征向量的输出层取出来；

(4.3.2)将两个输出层特征向量拼接到一起，加入分类器；

(4.3.3)重新编写生成器，将两个生成器的输入层拼接到一起；保存融合模型。

有益效果：本发明与现有技术相比，其显著优点是：(1)提供一种将人工智能中的深度学习首次应用于中国的传统戏曲音频数据中，进行特征的抽取和风格的学习；(2)从原始音频数据中生成语谱图、MFCC谱图等多个视图下的表示，并在不同尺度下生成训练样本，采用卷积神经网络模型抽取特征并融合至分类模型中来识别某类特定艺术家的风格；(3)准确识别戏曲的风格，可作为戏曲教学中的唱腔评分依据，模型学得的参数也可用于生成具有特定风格的唱腔。

附图说明

图1本发明方法的流程框图。

具体实施方式：

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1：步骤1：收集戏曲音频，并进行标记

从中国京剧老唱片网站寻找大量的正例(梅兰芳)戏曲和反例(非梅兰芳)的戏曲，将正例(梅兰芳)戏曲送入一些音频切割软件(Adobe Audition)，手动把没有人声的部分切除，反例(非梅兰芳)戏曲不做处理，分别加上‘正’和‘反’标签；

以8秒为间隔切割已经标记的戏曲，正反例分开切割、保存。

手动切除比较耗费时间，后期模型参数调整也比较费时，但分离背景音与人声算法的实现难度较大；此外，戏曲数据量一定要充足，不然准确率会很低；也可以以4秒、12秒为间隔切割。

步骤2：对标记的戏曲音频进行预处理：预加重、加窗、分帧(按时长分帧；按节拍、唱字等多粒度分帧)

调用一些现成的函数，对已经切割的戏曲进行预加重：

预加重函数为：H(Z)＝1-u/z，u取0.97；

对预加重后的戏曲进行加窗(汉明窗)、分帧操作：

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，那么乘上汉明窗后

S1(n)＝S(n)*W(n)

W(n,a)＝(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1

a取0.46

步骤3：对预处理之后的音频进行特征提取

调用一些现有的函数，从预处理之后的音频数据中提取生成语谱图；

MFCC(梅尔倒谱系数)需要在原来已经加窗的数据上增加一些操作：

①快速傅里叶变换

式中x(n)为输入的语音信号，N表示傅里叶变换的点数

②通过三角带通滤波器

三角滤波器的频率响应定义为:

其中

③计算每个滤波器组输出的对数能量为：

④经离散余弦变换(DCT)得到MFCC系数：

L取16，M为三角滤波器个数

经过这些操作之后，便可生成MFCC谱图；

将语谱图和MFCC谱图分别按3:1分为训练集，验证集。

步骤4：搭建模型，训练模型，优化模型参数

使用Keras框架；在框架上搭建神经网络；使用预训练模型InceptionV3 设计网络结构；搭建语谱图模型：初始化InceptionV3模型参数；构建不带分类器的预训练模型InceptionV3：加入分类器；构建完整模型；冻结InceptionV3 所有的卷积层(即不参与训练)，只训练最后加入的网络层；编译模型，设置优化器，评估损失；用语谱图训练模型，迭代40次；保存模型；

搭建MFCC模型：

仿照搭建语谱图模型的方法搭建MFCC模型；用MFCC谱图训练模型并保存；

生成融合模型：

分别读取训练好的语谱图模型和MFCC模型，然后将网络层冻结；将两个模型的输入层以及特征向量的输出层取出来；

将两个输出层(特征向量)拼接到一起，加入分类器；

重新编写生成器，将两个生成器的输入层拼接到一起；保存融合模型；

将训练集送入融合模型，开始训练；

根据训练结果，不断调整参数，直至准确率至少达到90％

步骤5：使用优化后的卷积神经网络(CNN)模型，识别正例戏曲风格(如：梅兰芳)

如果模型参数调整比较合适的话，这时的准确率就比较高

采用本发明实施例中的上述方案，通过语谱图，卷积神经网络(CNN)模型，可以在数据层面对中国戏曲进行差异化分析和识别，从最本质的数据出发，用神经网络进行学习分类，结合多尺度、多视图，挖掘出了大部分易被人耳忽略的数据信息，避免了人分类音频时的非理性决策，提高了识别分类的准确率。

Claims

1.一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于,包括如下步骤：

(2)对标记的戏曲音频进行预处理，包括预加重、加窗、分帧；

(3)对预处理之后的音频进行特征提取；

(4)搭建并训练模型，优化模型参数；

(5)使用优化后的卷积神经网络模型，识别正例戏曲风格。

2.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，所述步骤(1)还包括：

(1.1)手动切除特定艺术家戏曲中没有人声的部分；

(1.3)已经标记的戏曲以4秒、8秒、12秒作为间隔再次切割。

3.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，步骤(2)还包括：

(2.1)预加重为一种在发送端对输入信号高频分量进行补偿的信号处理方式，直接调用预加重函数为：H(Z)＝1-u/z，z为采样数据信号输入自变量，u取0.97；

W(n,a)＝(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1，参数a＝0.46，n为取值区间，N为帧的数值。

4.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，步骤(3)中所述特征提取包括：

(3.1)表示级别特征提取，其包含音强、音调、音色；

(3.2)语义级别特征提取，其包含节奏、旋律、唱腔；

(3.3)深度学习特征提取，包括使用已经预处理过的数据生成语谱图和MFCC谱图。

5.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，步骤(4)中所述搭建并训练模型方法还包括：

(4.1)使用Keras框架，在框架上搭建神经网络；

(4.3)生成融合模型，将训练集送入融合模型并开始训练；

6.根据权利要求5所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，步骤(4.2)中搭建语谱图方法具体包括：

(4.2.2)编译模型，设置优化器并评估损失，用语谱图训练模型，迭代40次后保存模型。

7.根据权利要求5所述的一种基于多尺度多视图的戏曲唱腔风格识别方法，其特征在于，步骤(4.3)中生成融合模型方法包括：

(4.3.2)将两个输出层特征向量拼接到一起，加入分类器；