CN106531153B - 基于唱段和念白提取的戏曲分类方法 - Google Patents

基于唱段和念白提取的戏曲分类方法 Download PDF

Info

Publication number
CN106531153B
CN106531153B CN201610957057.XA CN201610957057A CN106531153B CN 106531153 B CN106531153 B CN 106531153B CN 201610957057 A CN201610957057 A CN 201610957057A CN 106531153 B CN106531153 B CN 106531153B
Authority
CN
China
Prior art keywords
opera
aria
similar section
feature extraction
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610957057.XA
Other languages
English (en)
Other versions
CN106531153A (zh
Inventor
于瑞国
朱思翰
王建荣
于健
徐天一
高洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610957057.XA priority Critical patent/CN106531153B/zh
Publication of CN106531153A publication Critical patent/CN106531153A/zh
Application granted granted Critical
Publication of CN106531153B publication Critical patent/CN106531153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器学习中语音识别分离技术领域,具体涉及一种基于唱段和念白提取的戏曲分类方法。该方法步骤具体为:步骤(1)是对声学时域数据进行特征提取,得到特征向量时间序列数据;步骤(2)是对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;步骤(3)是从上述步骤(2)相似段对的候选中进行选择,得出相似段对;步骤(4)是在对上述步骤(3)得出的相似段进行图形化,描述出直方图;步骤(5)是得出唱段边界,并进行唱段和念白提取;步骤(6)是将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析。本发明避免人为的去处理大量的数据,导致费时费力且效率很低。

Description

基于唱段和念白提取的戏曲分类方法
技术领域
本发明属于机器学习中语音识别分离技术领域,具体涉及一种基于唱段和念白提取的戏曲分类方法。
背景技术
目前在相关技术中,对于唱段和念白的提取技术,目前没有人在该领域内实现过对戏曲中唱段和念白的提取。在与之类似的语音乐音分离领域内,也尚处于正在发展阶段,相关技术也不是特别的完善。目前的在语音乐音分离领域内主要运用的方法有正弦模型技术,非负矩阵分解和稀疏编码等方法。目前的语音分离技术的大多数算法的计算量都比较大,效率也不是很高,对语音信号的平稳性可能适应度也不够。因此,目前的语音分离技术还需要很长时间的发展。
对于戏曲的分类技术,在该领域的研究也屈指可数。更多的是对于乐音语音的分类研究,目前现有的研究技术是针对音色,音高,节奏等在不同的时域和频域上对其进行特征提取,然后进行特征融合,最后运用融合的特征来分类进而得出最后的结果。戏曲分类也可以沿用这种技术,但是目前的戏曲研究,都是对一首戏曲的整体进行研究,数据量大且繁杂,特征提取的效率也不高。而唱段和念白是戏曲中两个比较有特点,有区分度的戏曲组成部分,目前没有研究者注意这两者。
发明内容
本发明的目的在于克服现有的语音识别方法的缺点和不足,将节段CDP算法应用在戏曲的唱段和念白提取上,从而提供一种基于唱段和念白提取的戏曲分类方法,为当前在戏曲片段提取领域开拓了一种全新的方法。
本发明的技术方案是提供一种基于唱段和念白提取的戏曲分类方法,具体包括如下步骤:
步骤(1):对声学时域数据进行特征提取,得到特征向量时间序列数据;
步骤(2):对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;
步骤(3):从上述步骤(2)相似段对的候选中进行选择,得出相似段对;
步骤(4):在对上述步骤(3)得出的相似段进行图形化,描述出直方图;
步骤(5):得出唱段边界,并进行唱段和念白提取;
步骤(6):将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析。
所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率;根据其特点,特征提取的方法主要有:基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。
所述步骤(1)中的特征提取的方法是基于变换的特征提取。
所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
所述步骤(2)中的节段CDP算法的具体步骤为:a、分割片断;b、对于段内的每一帧,求出与当前时间横轴点的距离;c、将距离进行累加,选择极小值距离;d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对。
所述步骤(3)具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
所述步骤(4)在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
所述步骤(5)具体步骤为:根据上述步骤(4)绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征,并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后,选择分类效果最好的6种进行特征融合,将融合后的特征用极限学习机分类器进行分类,最后进行十步交叉验证得到最优结果。
所述步骤(6)具体为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
本发明的有益效果:
本发明开拓性的将节段CDP算法使用在对戏曲的唱段和念白的提取,避免人为的去处理大量的数据,导致费时费力且效率很低;然后将传统的戏曲分类的算法数据部分用上述方法进行改进,从而达到提高传统戏曲分类算法的准确流程和效率。
附图说明
图1为本发明的方法流程图。
图2为节段CDP算法流程图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明,并不对本发明作任何的限制。
如图1所示,本发明的方法具体包括如下步骤:
步骤1、对声学时域数据进行特征提取,得到特征向量时间序列数据。特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率。
本发明的特征提取的方法是基于变换的特征提取。
本发明的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
步骤2、对上述步骤1得到的时间序列数据运行节段CDP算法,得出相似段对的候选,如图2所示,节段CDP算法的主要流程步骤如下:
a、分割片断:我们需要将经过特征提取后得到的时间序列数据划分为若干片段,每个片段的长度为NCDP,然后定义一个帧长度τ,依据业内经验值为21ms。
b、对于段内的每一帧,求出与当前时间横轴点的距离:我们将划分后的片段依次输入程序,规定第一个片段开始输入时时间为0,开始计时。对于输入片段的每一帧,我们都计算该帧与从0开始到当前的时间点之间以毫秒为单位的所有时间点之间的距离,因为输入数据都是时间序列数据,所以此时的距离即为欧氏距离,计算完1ms后更新起点。
c、将距离进行累加,选择极小值距离:步骤a中有每个片段的长度NCDP,所以从时间0开始到第一个NCDP为一个片段,另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加,即为我们所求的段与段之间的距离。我们需要得到段与段之间的距离。具体:步骤a中有每个片段的长度,所以从时间0开始到第一个NCDP为一个片段,另一个片段中的每一个时间点到达这个片段里每一个时间点的距离的累加,即为我们所求的段与段之间的距离。比如说,我们在时间t这个点,我们可以求出当前时间t和一个段H内每一个时间点的距离,这样就有NCDP个距离,然后将这些距离累加即为时间t到这一个段H之间的距离,记为L,然后如果t为另一个段Q的起点,则我们在t到t+NCDP这个时间段内可以得到NCDP个距离L,将这些距离再次累加,即为段H与段Q之间的距离。
d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对:如果这个距离小于阈值TH,则我们认为这两个段之间是相似段对。
步骤3、从上述步骤2相似段对的候选中进行选择,得出相似段对。在步骤1和2的基础上得到段与段之间的最佳距离进行进一步处理,具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
步骤4、在对上述步骤3得出的相似段进行图形化,描述出直方图。在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
步骤5、得出唱段边界,并进行唱段和念白提取,具体步骤为:根据上述步骤4绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
步骤6、将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析,具体步骤为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
为了说明本发明所提供的方法的效果,下面实验数据选择六个流派,共300首中国传统戏曲,为了方便,此处只统计了10首戏曲,10首戏曲分别来自六个流派,10首戏曲的长度都在3分钟到5分钟左右,因最后的结果得出的为戏曲片段,可见算法将片段分的很杂乱,且每个分割后的片段时长很短;实验结果如表1所示,其中念白的分割准确率在30%左右,且浮动比较大,唱段的分割准确率虽然也在75%左右,但是分割的片段过于的杂碎,这样无法作为下一步实验的输入。
表1为10首戏曲唱段念白分割结果
把上述的唱段和念白处理成长度在90秒到120秒之间的片段,进行下一步实验,最后得出的戏曲分类结果表2所示。从表2中可以看出,相比于用整体戏曲作为输入的传统戏曲分类方法,用唱段和念白作为输入时,不仅在特征提取的用时上要快很多,并且效率也很不错,唱段对于戏曲分类的效果相比于整体戏曲的效果要优秀。可以看出唱段和念白在特征提取的时间上明显优于整体戏曲,算法运行的效率也得到了提高。
唱段 念白 整体戏曲
特征提取时间(s) 33038 1104 84327
算法运行时间(s) 106 92 224
准确率 0.887 0.787 0.857
表2为唱段念白与整体戏曲的分类结果比较
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.基于唱段和念白提取的戏曲分类方法,其特征在于,具体包括如下步骤:步骤(1):对声学时域数据进行特征提取,得到特征向量时间序列数据;
步骤(2):对上述步骤(1)得到的时间序列数据运行节段CDP算法,得出相似段对的候选;
步骤(3):从上述步骤(2)相似段对的候选中进行选择,得出相似段对;
步骤(4):在对上述步骤(3)得出的相似段进行图形化,描述出直方图;
步骤(5):得出唱段边界,并进行唱段和念白提取;
步骤(6):将处理得到的唱段和念白作为传统分类算法的输入,得出最后的结果,并进行准确率和效率的分析;
所述步骤(2)中的节段CDP算法的具体步骤为:a、分割片断;b、对于片段内的每一帧,求出与当前时间横轴点的距离;c、将距离进行累加,选择极小值距离;d、累加后的距离即为段与段之间的距离,根据阈值判断是否为相似段对;
所述步骤(6)中的传统分类算法是在时域和频域上提取了19种基于变换的特征,并将其19种特征每一种单独的用极限学习机分类器进行分类得出结果后,选择分类效果最好的6种进行特征融合,将融合后的特征用极限学习机分类器进行分类,最后进行十步交叉验证得到最优结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取主要是在分类前对数据时间采样值上进行适当的归约,以达到减少数据量的同时提高分类准确率;根据其特点,特征提取的方法主要有:基于统计方法的特征提取、基于模型的特征提取、基于变换的特征提取和基于分型维数的特征提取。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取的方法是基于变换的特征提取。
4.根据权利要求1所述的方法,其特征在于,所述步骤(1)中的特征提取使用的是梅尔频率倒谱系数MFCC作为特征向量,来对声学数据进行处理。
5.根据权利要求1所述的方法,其特征在于,所述步骤(3)的具体为:节段CDP算法先前规定了一个阈值TH,如果某两个段之间的最佳距离小于阈值TH,可以称为这两个段为一对相似段对;这些得出的相似段对作为候选,然后进一步的控制数量,缩小阈值,选出更为精确的相似段对。
6.根据权利要求1所述的方法,其特征在于,所述步骤(4)在绘制直方图时,以时间为横轴,频率为纵轴,在确定的一对相似段对之间画横线,然后对于横轴上的每一个时间点,可以得出经过这个时间点的相似段对横线的数目,从而得出纵轴的数值。
7.根据权利要求1所述的方法,其特征在于,所述步骤(5)具体步骤为:根据上述步骤(4)绘出的直方图,在直方图中相似的片段之间会形成峰值,这其中的每一个峰可以看作是戏曲的唱段部分,直方图中的低平段可以看作是戏曲的念白部分,这样就得到了戏曲中的唱段和念白。
8.根据权利要求1所述的方法,其特征在于,所述步骤(6)具体为:将处理得到的唱段和念白作为传统分类算法的输入,最后得出戏曲分类的结果;然后对准确率和效率进行分析,把数据与传统采用整首戏曲或片段进行分类的算法结果进行比较,分析得出是否有提高。
CN201610957057.XA 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法 Active CN106531153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610957057.XA CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610957057.XA CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Publications (2)

Publication Number Publication Date
CN106531153A CN106531153A (zh) 2017-03-22
CN106531153B true CN106531153B (zh) 2019-11-05

Family

ID=58325704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610957057.XA Active CN106531153B (zh) 2016-10-27 2016-10-27 基于唱段和念白提取的戏曲分类方法

Country Status (1)

Country Link
CN (1) CN106531153B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545902B (zh) * 2017-07-14 2020-06-02 清华大学 一种基于声音特征的物品材质识别方法及装置
CN111402919B (zh) * 2019-12-12 2023-05-30 南京邮电大学 一种基于多尺度多视图的戏曲唱腔风格识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345072A (zh) * 2008-01-24 2009-01-14 王金虎 一种不同剧种互载音处理方法
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
JP2015180965A (ja) * 2015-06-17 2015-10-15 ヤマハ株式会社 オーディオ信号識別装置、およびプログラム
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345072A (zh) * 2008-01-24 2009-01-14 王金虎 一种不同剧种互载音处理方法
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
JP2015180965A (ja) * 2015-06-17 2015-10-15 ヤマハ株式会社 オーディオ信号識別装置、およびプログラム
CN105788592A (zh) * 2016-04-28 2016-07-20 乐视控股(北京)有限公司 一种音频分类方法及装置

Also Published As

Publication number Publication date
CN106531153A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
US10515292B2 (en) Joint acoustic and visual processing
WO2018108080A1 (zh) 一种基于声纹搜索的信息推荐方法及装置
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
CN105469784B (zh) 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN109192213A (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN111105785A (zh) 一种文本韵律边界识别的方法及装置
CN110031827B (zh) 一种基于超声波测距原理的手势识别方法
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN106531153B (zh) 基于唱段和念白提取的戏曲分类方法
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
CN105679306B (zh) 语音合成中预测基频帧的方法及系统
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
Zhu et al. Speaker Recognition System Based on weighted feature parameter
CN111785302A (zh) 说话人分离方法、装置及电子设备
CN112231440A (zh) 一种基于人工智能的语音搜索方法
CN104240699B (zh) 一种简单有效的短语语音识别方法
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
CN103325372A (zh) 基于改进声调核模型的汉语语音声调识别方法
CN105304087B (zh) 一种基于过零间隔点声纹识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant