CN106531153A

CN106531153A - 基于唱段和念白提取的戏曲分类方法

Info

Publication number: CN106531153A
Application number: CN201610957057.XA
Authority: CN
Inventors: 于瑞国; 朱思翰; 王建荣; 于健; 徐天; 徐天一; 高洁
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-03-22
Anticipated expiration: 2036-10-27
Also published as: CN106531153B

Abstract

本发明属于机器学习中语音识别分离技术领域，具体涉及一种基于唱段和念白提取的戏曲分类方法。该方法步骤具体为：步骤(1)是对声学时域数据进行特征提取，得到特征向量时间序列数据；步骤(2)是对上述步骤(1)得到的时间序列数据运行节段CDP算法，得出相似段对的候选；步骤(3)是从上述步骤(2)相似段对的候选中进行选择，得出相似段对；步骤(4)是在对上述步骤(3)得出的相似段进行图形化，描述出直方图；步骤(5)是得出唱段边界，并进行唱段和念白提取；步骤(6)是将处理得到的唱段和念白作为传统分类算法的输入，得出最后的结果，并进行准确率和效率的分析。本发明避免人为的去处理大量的数据，导致费时费力且效率很低。

Description

基于唱段和念白提取的戏曲分类方法

技术领域

本发明属于机器学习中语音识别分离技术领域，具体涉及一种基于唱段和念白提取的戏曲分类方法。

背景技术

目前在相关技术中，对于唱段和念白的提取技术，目前没有人在该领域内实现过对戏曲中唱段和念白的提取。在与之类似的语音乐音分离领域内，也尚处于正在发展阶段，相关技术也不是特别的完善。目前的在语音乐音分离领域内主要运用的方法有正弦模型技术，非负矩阵分解和稀疏编码等方法。目前的语音分离技术的大多数算法的计算量都比较大，效率也不是很高，对语音信号的平稳性可能适应度也不够。因此，目前的语音分离技术还需要很长时间的发展。

对于戏曲的分类技术，在该领域的研究也屈指可数。更多的是对于乐音语音的分类研究，目前现有的研究技术是针对音色，音高，节奏等在不同的时域和频域上对其进行特征提取，然后进行特征融合，最后运用融合的特征来分类进而得出最后的结果。戏曲分类也可以沿用这种技术，但是目前的戏曲研究，都是对一首戏曲的整体进行研究，数据量大且繁杂，特征提取的效率也不高。而唱段和念白是戏曲中两个比较有特点，有区分度的戏曲组成部分，目前没有研究者注意这两者。

发明内容

本发明的目的在于克服现有的语音识别方法的缺点和不足,将节段CDP算法应用在戏曲的唱段和念白提取上,从而提供一种基于唱段和念白提取的戏曲分类方法，为当前在戏曲片段提取领域开拓了一种全新的方法。

本发明的技术方案是提供一种基于唱段和念白提取的戏曲分类方法，具体包括如下步骤：

步骤(1)：对声学时域数据进行特征提取，得到特征向量时间序列数据；

步骤(2)：对上述步骤(1)得到的时间序列数据运行节段CDP算法，得出相似段对的候选；

步骤(3)：从上述步骤(2)相似段对的候选中进行选择，得出相似段对；

步骤(4)：在对上述步骤(3)得出的相似段进行图形化，描述出直方图；

步骤(5)：得出唱段边界，并进行唱段和念白提取；

步骤(6)：将处理得到的唱段和念白作为传统分类算法的输入，得出最后的结果，并进行准确率和效率的分析。

所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约，以达到减少数据量的同时提高分类准确率；根据其特点，特征提取的方法主要有：基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。

所述步骤(1)中的特征提取的方法是基于变换的特征提取。

所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量，来对声学数据进行处理。

所述步骤(2)中的节段CDP算法的具体步骤为：a、分割片断；b、对于段内的每一帧，求出与当前时间横轴点的距离；c、将距离进行累加，选择极小值距离；d、累加后的距离即为段与段之间的距离，根据阈值判断是否为相似段对。

所述步骤(3)具体为：节段CDP算法先前规定了一个阈值TH，如果某两个段之间的最佳距离小于阈值TH，可以称为这两个段为一对相似段对；这些得出的相似段对作为候选，然后进一步的控制数量，缩小阈值，选出更为精确的相似段对。

所述步骤(4)在绘制直方图时，以时间为横轴，频率为纵轴，在确定的一对相似段对之间画横线，然后对于横轴上的每一个时间点，可以得出经过这个时间点的相似段对横线的数目，从而得出纵轴的数值。

所述步骤(5)具体步骤为：根据上述步骤(4)绘出的直方图，在直方图中相似的片段之间会形成峰值，这其中的每一个峰可以看作是戏曲的唱段部分，直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。

所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征，并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后，选择分类效果最好的6种进行特征融合，将融合后的特征用极限学习机分类器进行分类，最后进行十步交叉验证得到最优结果。

所述步骤(6)具体为：将处理得到的唱段和念白作为传统分类算法的输入，最后得出戏曲分类的结果；然后对准确率和效率进行分析，把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较，分析得出是否有提高。

本发明的有益效果：

本发明开拓性的将节段CDP算法使用在对戏曲的唱段和念白的提取，避免人为的去处理大量的数据，导致费时费力且效率很低；然后将传统的戏曲分类的算法数据部分用上述方法进行改进，从而达到提高传统戏曲分类算法的准确流程和效率。

附图说明

图1为本发明的方法流程图。

图2为节段CDP算法流程图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明，并不对本发明作任何的限制。

如图1所示，本发明的方法具体包括如下步骤：

步骤1、对声学时域数据进行特征提取，得到特征向量时间序列数据。特征提取主要是在分类前对数据时间采样值上进行适当的归约，以达到减少数据量的同时提高分类准确率。

本发明的特征提取的方法是基于变换的特征提取。

本发明的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量，来对声学数据进行处理。

步骤2、对上述步骤1得到的时间序列数据运行节段CDP算法，得出相似段对的候选，如图2所示，节段CDP算法的主要流程步骤如下：

a、分割片断：我们需要将经过特征提取后得到的时间序列数据划分为若干片段，每个片段的长度为N_CDP，然后定义一个帧长度τ，依据业内经验值为21ms。

b、对于段内的每一帧，求出与当前时间横轴点的距离：我们将划分后的片段依次输入程序，规定第一个片段开始输入时时间为0，开始计时。对于输入片段的每一帧，我们都计算该帧与从0开始到当前的时间点之间以毫秒为单位的所有时间点之间的距离，因为输入数据都是时间序列数据，所以此时的距离即为欧氏距离，计算完1ms后更新起点。

c、将距离进行累加，选择极小值距离：步骤a中有每个片段的长度N_CDP，所以从时间0开始到第一个N_CDP为一个片段，另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加，即为我们所求的段与段之间的距离。我们需要得到段与段之间的距离。具体：步骤a中有每个片段的长度，所以从时间0开始到第一个N_CDP为一个片段，另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加，即为我们所求的段与段之间的距离。比如说，我们在时间t这个点，我们可以求出当前时间t和一个段H内每一个时间点的距离，这样就有N_CDP个距离，然后将这些距离累加即为时间t到这一个段H之间的距离，记为L，然后如果t为另一个段Q的起点，则我们在t到t+N_CDP这个时间段内可以得到N_CDP个距离L，将这些距离再次累加，即为段H与段Q之间的距离。

d、累加后的距离即为段与段之间的距离，根据阈值判断是否为相似段对：如果这个距离小于阈值TH，则我们认为这两个段之间是相似段对。

步骤3、从上述步骤2相似段对的候选中进行选择，得出相似段对。在步骤1和2的基础上得到段与段之间的最佳距离进行进一步处理，具体为：节段CDP算法先前规定了一个阈值TH，如果某两个段之间的最佳距离小于阈值TH，可以称为这两个段为一对相似段对；这些得出的相似段对作为候选，然后进一步的控制数量，缩小阈值，选出更为精确的相似段对。

步骤4、在对上述步骤3得出的相似段进行图形化，描述出直方图。在绘制直方图时，以时间为横轴，频率为纵轴，在确定的一对相似段对之间画横线，然后对于横轴上的每一个时间点，可以得出经过这个时间点的相似段对横线的数目，从而得出纵轴的数值。

步骤5、得出唱段边界，并进行唱段和念白提取，具体步骤为：根据上述步骤4绘出的直方图，在直方图中相似的片段之间会形成峰值，这其中的每一个峰可以看作是戏曲的唱段部分，直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。

步骤6、将处理得到的唱段和念白作为传统分类算法的输入，得出最后的结果，并进行准确率和效率的分析，具体步骤为：将处理得到的唱段和念白作为传统分类算法的输入，最后得出戏曲分类的结果；然后对准确率和效率进行分析，把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较，分析得出是否有提高。

为了说明本发明所提供的方法的效果,下面实验数据选择六个流派，共300首中国传统戏曲，为了方便，此处只统计了10首戏曲，10首戏曲分别来自六个流派，10首戏曲的长度都在3分钟到5分钟左右，因最后的结果得出的为戏曲片段，可见算法将片段分的很杂乱，且每个分割后的片段时长很短；实验结果如表1所示，其中念白的分割准确率在30％左右，且浮动比较大，唱段的分割准确率虽然也在75％左右，但是分割的片段过于的杂碎，这样无法作为下一步实验的输入。

表1为10首戏曲唱段念白分割结果

把上述的唱段和念白处理成长度在90秒到120秒之间的片段，进行下一步实验，最后得出的戏曲分类结果表2所示。从表2中可以看出，相比于用整体戏曲作为输入的传统戏曲分类方法，用唱段和念白作为输入时，不仅在特征提取的用时上要快很多，并且效率也很不错，唱段对于戏曲分类的效果相比于整体戏曲的效果要优秀。可以看出唱段和念白在特征提取的时间上明显优于整体戏曲，算法运行的效率也得到了提高。

	唱段	念白	整体戏曲
				特征提取时间(s)	33038	1104	84327
算法运行时间(s)	106	92	224
				准确率	0.887	0.787	0.857

表2为唱段念白与整体戏曲的分类结果比较

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.基于唱段和念白提取的戏曲分类方法，其特征在于，具体包括如下步骤：

步骤(5)：得出唱段边界，并进行唱段和念白提取；

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约，以达到减少数据量的同时提高分类准确率；根据其特点，特征提取的方法主要有：基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。

3.根据权利要求1所述的方法，其特征在于，所述步骤(1)中的特征提取的方法是基于变换的特征提取。

4.根据权利要求1所述的方法，其特征在于，所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量，来对声学数据进行处理。

5.根据权利要求1所述的方法，其特征在于，所述步骤(2)中的节段CDP算法的具体步骤为：a、分割片断；b、对于段内的每一帧，求出与当前时间横轴点的距离；c、将距离进行累加，选择极小值距离；d、累加后的距离即为段与段之间的距离，根据阈值判断是否为相似段对。

6.根据权利要求1所述的方法，其特征在于，所述步骤(3)的具体为：节段CDP算法先前规定了一个阈值TH，如果某两个段之间的最佳距离小于阈值TH，可以称为这两个段为一对相似段对；这些得出的相似段对作为候选，然后进一步的控制数量，缩小阈值，选出更为精确的相似段对。

7.根据权利要求1所述的方法，其特征在于，所述步骤(4)在绘制直方图时，以时间为横轴，频率为纵轴，在确定的一对相似段对之间画横线，然后对于横轴上的每一个时间点，可以得出经过这个时间点的相似段对横线的数目，从而得出纵轴的数值。

8.根据权利要求1所述的方法，其特征在于，所述步骤(5)具体步骤为：根据上述步骤(4)绘出的直方图，在直方图中相似的片段之间会形成峰值，这其中的每一个峰可以看作是戏曲的唱段部分，直方图中的低平段可以看作是戏曲的念白部分，这样就得到了戏曲中的唱段和念白。

9.根据权利要求1所述的方法，其特征在于，所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征，并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后，选择分类效果最好的6种进行特征融合，将融合后的特征用极限学习机分类器进行分类，最后进行十步交叉验证得到最优结果。

10.根据权利要求1所述的方法，其特征在于，所述步骤(6)具体为：将处理得到的唱段和念白作为传统分类算法的输入，最后得出戏曲分类的结果；然后对准确率和效率进行分析，把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较，分析得出是否有提高。