CN106531153A - 基于唱段和念白提取的戏曲分类方法 - Google Patents

基于唱段和念白提取的戏曲分类方法 Download PDF

Info

Publication number
CN106531153A
CN106531153A CN201610957057.XA CN201610957057A CN106531153A CN 106531153 A CN106531153 A CN 106531153A CN 201610957057 A CN201610957057 A CN 201610957057A CN 106531153 A CN106531153 A CN 106531153A
Authority
CN
China
Prior art keywords
opera
section
feature extraction
time
aria
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610957057.XA
Other languages
English (en)
Other versions
CN106531153B (zh
Inventor
于瑞国
朱思翰
王建荣
于健
徐天
徐天一
高洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610957057.XA priority Critical patent/CN106531153B/zh
Publication of CN106531153A publication Critical patent/CN106531153A/zh
Application granted granted Critical
Publication of CN106531153B publication Critical patent/CN106531153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器学习中语音识别分离技术领域,具体涉及一种基于唱段和念白提取的戏曲分类方法。该方法步骤具体为:步骤(1)是对声学时域数据进行特征提取,得到特征向量时间序列数据;步骤(2)是对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;步骤(3)是从上述步骤(2)相似段对的候选中进行选择,得出相似段对;步骤(4)是在对上述步骤(3)得出的相似段进行图形化,描述出直方图;步骤(5)是得出唱段边界,并进行唱段和念白提取;步骤(6)是将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析。本发明避免人为的去处理大量的数据,导致费时费力且效率很低。

Description

基于唱段和念白提取的戏曲分类方法
技术领域
本发明属于机器学习中语音识别分离技术领域,具体涉及一种基于唱段和念白提取的戏曲分类方法。
背景技术
目前在相关技术中,对于唱段和念白的提取技术,目前没有人在该领域内实现过对戏曲中唱段和念白的提取。在与之类似的语音乐音分离领域内,也尚处于正在发展阶段,相关技术也不是特别的完善。目前的在语音乐音分离领域内主要运用的方法有正弦模型技术,非负矩阵分解和稀疏编码等方法。目前的语音分离技术的大多数算法的计算量都比较大,效率也不是很高,对语音信号的平稳性可能适应度也不够。因此,目前的语音分离技术还需要很长时间的发展。
对于戏曲的分类技术,在该领域的研究也屈指可数。更多的是对于乐音语音的分类研究,目前现有的研究技术是针对音色,音高,节奏等在不同的时域和频域上对其进行特征提取,然后进行特征融合,最后运用融合的特征来分类进而得出最后的结果。戏曲分类也可以沿用这种技术,但是目前的戏曲研究,都是对一首戏曲的整体进行研究,数据量大且繁杂,特征提取的效率也不高。而唱段和念白是戏曲中两个比较有特点,有区分度的戏曲组成部分,目前没有研究者注意这两者。
发明内容
本发明的目的在于克服现有的语音识别方法的缺点和不足,将节段CDP算法应用在戏曲的唱段和念白提取上,从而提供一种基于唱段和念白提取的戏曲分类方法,为当前在戏曲片段提取领域开拓了一种全新的方法。
本发明的技术方案是提供一种基于唱段和念白提取的戏曲分类方法,具体包括如下步骤:
步骤(1):对声学时域数据进行特征提取,得到特征向量时间序列数据;
步骤(2):对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;
步骤(3):从上述步骤(2)相似段对的候选中进行选择,得出相似段对;
步骤(4):在对上述步骤(3)得出的相似段进行图形化,描述出直方图;
步骤(5):得出唱段边界,并进行唱段和念白提取;
步骤(6):将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析。
所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率;根据其特点,特征提取的方法主要有:基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。
所述步骤(1)中的特征提取的方法是基于变换的特征提取。
所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
所述步骤(2)中的节段CDP算法的具体步骤为:a、分割片断;b、对于段内的每一帧,求出与当前时间横轴点的距离;c、将距离进行累加,选择极小值距离;d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对。
所述步骤(3)具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
所述步骤(4)在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
所述步骤(5)具体步骤为:根据上述步骤(4)绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征,并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后,选择分类效果最好的6种进行特征融合,将融合后的特征用极限学习机分类器进行分类,最后进行十步交叉验证得到最优结果。
所述步骤(6)具体为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
本发明的有益效果:
本发明开拓性的将节段CDP算法使用在对戏曲的唱段和念白的提取,避免人为的去处理大量的数据,导致费时费力且效率很低;然后将传统的戏曲分类的算法数据部分用上述方法进行改进,从而达到提高传统戏曲分类算法的准确流程和效率。
附图说明
图1为本发明的方法流程图。
图2为节段CDP算法流程图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明,并不对本发明作任何的限制。
如图1所示,本发明的方法具体包括如下步骤:
步骤1、对声学时域数据进行特征提取,得到特征向量时间序列数据。特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率。
本发明的特征提取的方法是基于变换的特征提取。
本发明的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
步骤2、对上述步骤1得到的时间序列数据运行节段CDP算法,得出相似段对的候选,如图2所示,节段CDP算法的主要流程步骤如下:
a、分割片断:我们需要将经过特征提取后得到的时间序列数据划分为若干片段,每个片段的长度为NCDP,然后定义一个帧长度τ,依据业内经验值为21ms。
b、对于段内的每一帧,求出与当前时间横轴点的距离:我们将划分后的片段依次输入程序,规定第一个片段开始输入时时间为0,开始计时。对于输入片段的每一帧,我们都计算该帧与从0开始到当前的时间点之间以毫秒为单位的所有时间点之间的距离,因为输入数据都是时间序列数据,所以此时的距离即为欧氏距离,计算完1ms后更新起点。
c、将距离进行累加,选择极小值距离:步骤a中有每个片段的长度NCDP,所以从时间0开始到第一个NCDP为一个片段,另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加,即为我们所求的段与段之间的距离。我们需要得到段与段之间的距离。具体:步骤a中有每个片段的长度,所以从时间0开始到第一个NCDP为一个片段,另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加,即为我们所求的段与段之间的距离。比如说,我们在时间t这个点,我们可以求出当前时间t和一个段H内每一个时间点的距离,这样就有NCDP个距离,然后将这些距离累加即为时间t到这一个段H之间的距离,记为L,然后如果t为另一个段Q的起点,则我们在t到t+NCDP这个时间段内可以得到NCDP个距离L,将这些距离再次累加,即为段H与段Q之间的距离。
d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对:如果这个距离小于阈值TH,则我们认为这两个段之间是相似段对。
步骤3、从上述步骤2相似段对的候选中进行选择,得出相似段对。在步骤1和2的基础上得到段与段之间的最佳距离进行进一步处理,具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
步骤4、在对上述步骤3得出的相似段进行图形化,描述出直方图。在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
步骤5、得出唱段边界,并进行唱段和念白提取,具体步骤为:根据上述步骤4绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
步骤6、将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析,具体步骤为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
为了说明本发明所提供的方法的效果,下面实验数据选择六个流派,共300首中国传统戏曲,为了方便,此处只统计了10首戏曲,10首戏曲分别来自六个流派,10首戏曲的长度都在3分钟到5分钟左右,因最后的结果得出的为戏曲片段,可见算法将片段分的很杂乱,且每个分割后的片段时长很短;实验结果如表1所示,其中念白的分割准确率在30%左右,且浮动比较大,唱段的分割准确率虽然也在75%左右,但是分割的片段过于的杂碎,这样无法作为下一步实验的输入。
表1为10首戏曲唱段念白分割结果
把上述的唱段和念白处理成长度在90秒到120秒之间的片段,进行下一步实验,最后得出的戏曲分类结果表2所示。从表2中可以看出,相比于用整体戏曲作为输入的传统戏曲分类方法,用唱段和念白作为输入时,不仅在特征提取的用时上要快很多,并且效率也很不错,唱段对于戏曲分类的效果相比于整体戏曲的效果要优秀。可以看出唱段和念白在特征提取的时间上明显优于整体戏曲,算法运行的效率也得到了提高。
唱段 念白 整体戏曲
特征提取时间(s) 33038 1104 84327
算法运行时间(s) 106 92 224
准确率 0.887 0.787 0.857
表2为唱段念白与整体戏曲的分类结果比较
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.基于唱段和念白提取的戏曲分类方法,其特征在于,具体包括如下步骤:
步骤(1):对声学时域数据进行特征提取,得到特征向量时间序列数据;
步骤(2):对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;
步骤(3):从上述步骤(2)相似段对的候选中进行选择,得出相似段对;
步骤(4):在对上述步骤(3)得出的相似段进行图形化,描述出直方图;
步骤(5):得出唱段边界,并进行唱段和念白提取;
步骤(6):将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率;根据其特点,特征提取的方法主要有:基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取的方法是基于变换的特征提取。
4.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
5.根据权利要求1所述的方法,其特征在于,所述步骤(2)中的节段CDP算法的具体步骤为:a、分割片断;b、对于段内的每一帧,求出与当前时间横轴点的距离;c、将距离进行累加,选择极小值距离;d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对。
6.根据权利要求1所述的方法,其特征在于,所述步骤(3)的具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
7.根据权利要求1所述的方法,其特征在于,所述步骤(4)在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
8.根据权利要求1所述的方法,其特征在于,所述步骤(5)具体步骤为:根据上述步骤(4)绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
9.根据权利要求1所述的方法,其特征在于,所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征,并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后,选择分类效果最好的6种进行特征融合,将融合后的特征用极限学习机分类器进行分类,最后进行十步交叉验证得到最优结果。
10.根据权利要求1所述的方法,其特征在于,所述步骤(6)具体为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
CN201610957057.XA 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法 Active CN106531153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610957057.XA CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610957057.XA CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Publications (2)

Publication Number Publication Date
CN106531153A true CN106531153A (zh) 2017-03-22
CN106531153B CN106531153B (zh) 2019-11-05

Family

ID=58325704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610957057.XA Active CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Country Status (1)

Country Link
CN (1) CN106531153B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545902A (zh) * 2017-07-14 2018-01-05 清华大学 一种基于声音特征的物品材质识别方法及装置
CN111402919A (zh) * 2019-12-12 2020-07-10 南京邮电大学 一种基于多尺度多视图的戏曲唱腔风格识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345072A (zh) * 2008-01-24 2009-01-14 王金虎 一种不同剧种互载音处理方法
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
JP2015180965A (ja) * 2015-06-17 2015-10-15 ヤマハ株式会社 オーディオ信号識別装置、およびプログラム
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345072A (zh) * 2008-01-24 2009-01-14 王金虎 一种不同剧种互载音处理方法
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
JP2015180965A (ja) * 2015-06-17 2015-10-15 ヤマハ株式会社 オーディオ信号識別装置、およびプログラム
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545902A (zh) * 2017-07-14 2018-01-05 清华大学 一种基于声音特征的物品材质识别方法及装置
CN107545902B (zh) * 2017-07-14 2020-06-02 清华大学 一种基于声音特征的物品材质识别方法及装置
CN111402919A (zh) * 2019-12-12 2020-07-10 南京邮电大学 一种基于多尺度多视图的戏曲唱腔风格识别方法

Also Published As

Publication number Publication date
CN106531153B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN102800314B (zh) 具有反馈指导的英语句子识别与评价系统及其方法
Zhang et al. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection
US20170092262A1 (en) Bettering scores of spoken phrase spotting
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN106875943A (zh) 一种用于大数据分析的语音识别系统
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN111105785A (zh) 一种文本韵律边界识别的方法及装置
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN103578481A (zh) 一种跨语言的语音情感识别方法
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
CN102201237A (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN116010874A (zh) 基于深度学习多模态深尺度情感特征融合的情感识别方法
CN106531153B (zh) 基于唱段和念白提取的戏曲分类方法
CN110532380A (zh) 一种基于记忆网络的文本情感分类方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN1298533A (zh) 用于特殊领域或方言的语音识别器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant