CN104575518B - 韵律事件检测方法和装置 - Google Patents

韵律事件检测方法和装置 Download PDF

Info

Publication number
CN104575518B
CN104575518B CN201310487945.6A CN201310487945A CN104575518B CN 104575518 B CN104575518 B CN 104575518B CN 201310487945 A CN201310487945 A CN 201310487945A CN 104575518 B CN104575518 B CN 104575518B
Authority
CN
China
Prior art keywords
detected
trained
sample
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310487945.6A
Other languages
English (en)
Other versions
CN104575518A (zh
Inventor
刘加
赵军红
袁桦
张卫强
何亮
赵峰
邵颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cheyin Intelligent Technology Co ltd
Tsinghua University
Original Assignee
SHENZHEN VCYBER TECHNOLOGY Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN VCYBER TECHNOLOGY Co Ltd, Tsinghua University filed Critical SHENZHEN VCYBER TECHNOLOGY Co Ltd
Priority to CN201310487945.6A priority Critical patent/CN104575518B/zh
Publication of CN104575518A publication Critical patent/CN104575518A/zh
Application granted granted Critical
Publication of CN104575518B publication Critical patent/CN104575518B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

Description

韵律事件检测方法和装置
技术领域
本发明涉及语音技术,尤其涉及一种韵律事件检测方法和装置。
背景技术
人们进行语言交流时,相互传递的不仅仅是语言文字信息,还包括超音段的韵律信息。因此,上下文信息对韵律事件的检测至关重要。目前,利用上下文信息进行韵律事件检测的方法包括:利用N-gram语言模型进行韵律事件检测,或利用CRF模型进行韵律事件检测。
其中,利用N-gram模型进行韵律事件检测时,使用的N-gram模型为
其中,P*={p1 *, p2 *…..,pn *}为韵律事件的标签序列,A={a1,a2,…an}是对应的声学特征序列,pi为第i个韵 律事件。
然而,由于N-gram模型需要利用其历史状态进行检测,因此N-gram模型具有时序性的约束,使得利用N-gram模型进行韵律事件检测时,只能利用每个样本及其之前样本之间的关系,导致韵律事件检测的准确率较低。
发明内容
本发明的实施例提供一种韵律事件检测方法和装置,能够提高韵律事件检测的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种韵律事件检测方法,包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn,n>1;以音节为单位划分所述待检测语音,得到至少一个待检测样本;分别从所述至少一个待检测样本中提取每个待检测样本对应的待检测声学特征;使用所述判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用所述判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据所述第N概率确定所述至少一个待检测样本的韵律检测结果;所述对应的联合检测特征,包括:根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率;根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及根据每个待检测样本对应的待检测声学特征,获取的所述目标样本对应的待检测声学特征。
一种韵律事件检测装置,包括:
模型获取模块,用于接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn,n>1;
待检测音节划分模块,与所述模型获取模块相连,用于以音节为单位划分所述模型获取模块接收的待检测语音,得到至少一个待检测样本;
待检测特征获取模块,与所述待检测音节划分模块相连,用于分别从所述音节划分模块得到的至少一个待检测样本中提取每个待检测样本对应的待检测声学特征;
第一分类模块,分别与所述模型获取模块和所述待检测特征获取模块相连,用于使用所述模型获取模块获取的判别式模型M1根据所述特征获取模块获取的对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;
第二分类模块,分别与所述模型获取模块、所述待检测特征获取模块和所述第一分类模块相连,用于根据对应的联合检测特征,依次使用所述判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;
结果获取模块,与所述第二分类模块相连,用于根据所述第二分类模块得到的第N概率确定所述至少一个待检测样本的韵律检测结果;
所述对应的联合检测特征,包括:根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率;
根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及
根据每个待检测样本对应的待检测声学特征,获取的所述目标样本对应的待检测声学特征。
本发明实施例提供的韵律事件检测方法和装置,使用预先训练一组受训语音得到的判别式模型M1、M2…Mn,依次对待检测语音划分音节后的至少一个待检测样本进行分类,从而根据最后一个判别式模型Mn的分类结果确定至少一个待检测声学特征的韵律检测结果,实现韵律事件检测。由于判别式模型M2…Mn根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类,并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的,即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的;此外,待检测相邻概率利用目标样本及其相邻样本之间的关系获取的,即不仅利用目标样本及其之前样本之间的关系,还利用目标样本及其之后样本之间的关系,解决了现有技术使用N-gram模型进行韵律事件检测时,只能利用每个样本及其之前样本之间的关系,导致韵律事件检测的准确率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的韵律事件检测方法的流程图;
图2为本发明实施例二提供的韵律事件检测方法的流程图;
图3为本发明实施例三提供的韵律事件检测装置的结构示意图一;
图4为本发明实施例三提供的韵律事件检测装置的结构示意图二;
图5为本发明实施例三提供的韵律事件检测装置的结构示意图三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有韵律事件检测的准确率较低的问题,本发明提供一种韵律事件检测方法和装置。
实施例一:
如图1所示,本发明实施例提供的韵律事件检测方法,包括:
步骤101,接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn
在本实施例中,可以预先通过迭代的方式对一组受训语音进行训练,以得到判别式模型M1、M2…Mn;也可以通过其他方式获取判别式模型M1、M2…Mn,在此不再一一赘述。其中,n>1。其中,判别式模型可以为神经网络(Neural Network,NN)模型;为了提高韵律事件检测的准确率,也可以为支持向量机(Support Vector Machine,SVM)模型,还可以为判别式模型中的其他模型,在此不作限制。
步骤102,以音节为单位划分该待检测语音,得到至少一个待检测样本。
步骤103,分别从至少一个待检测样本中提取每个待检测样本对应的待检测声学特征。
在本实施例中,通过步骤103提取的每个待检测样本对应的声学特征可以包括:音高重音特征和边界检测所用的特征中的一种或多种。其中,音高重音特征包括:帧平均特征集合和TILT特征;该帧平均特征集合包括响度特征、基频特征、谱凸显特征和时长特征。
在本实施例中,该待检测声学特征为音高重音特征时,步骤103中提取每个待检测样本对应的声学特征可以包括:
一、将该待检测语音进行短时傅里叶变换,得到线性尺度的频率f;
根据将所述线性尺度的频率f映射到临 界带Bark;根据每个临界带范围内所有频率点的能量之和,获取每个临界带范围内总的音 强根据将所述总的音强映射为对应的声压级I(z);根 据所述声压级I(z)和计算每个临界带的响度L (z);根据计算所有临界带的响度之和,得到响度特征L;所述I(k)为第k个频率 点的能量;所述j为对应的临界带的频率点总数;所述I0为1KHZ的标准听觉阈值;和/或
二、从所述待检测语音中提取基频f0;根据将所述基频映射到半音程尺度下的基频,得到基频特征S;和/或
三、将所述待检测语音进行短时傅里叶变换,得到线性尺度的频率f;用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量,得到谱凸显特征;和/或
四、将所述待检测/受训语音进行强制对准,得到边界信息;根据所述边界信息获取时长特征;和/或
五、从所述待检测语音中获取基频曲线;根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilta;根据所述基频曲线的变化趋势和确定时长相关的TILT特征tiltd;根据所述基频曲线的变化趋势和确定总得TILT特征tiltt,所述Arise为上升幅度的总合,所述Afall为下降幅度的总和,所述Drise为上升的持续时间的总和,所述Dfall为下降的持续时间的总和。
在本实施例中,该待检测声学特征为边界检测所用的特征时,步骤103中提取每个待检测样本对应的声学特征可以包括:
以音节划分所述待检测语音后,前后两音节的时长及它们的相对比值;和/或
以音节划分所述待检测语音后,前后两音节的音节核的时长及它们的相对比值;和/或
以音节划分所述待检测语音后,前后两音节之间的静音时长;和/或
以音节划分所述待检测语音后,前后两音节的基频均值和最大值,及前后音节的基频均值的差值和前后音节的最大值的差值;和/或
以音节划分所述待检测语音后,前后两音节的响度和谱凸显的均值,前后音节的响度的差值和前后音节的谱凸显的差值;和/或
以音节划分所述待检测语音后,前后两音节的TILT特征。
步骤104,使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率。
步骤105,根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率。
在本实施例中,步骤105中对应的联合检测特征包括:根据所使用的判别式模型的前一个判别式模型对至少一个待检测样本中目标样本分类后得到的待检测本地概率;根据该前一个判别式模型对至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及根据每个待检测样本对应的待检测声学特征,获取的目标样本对应的待检测声学特征。
以所使用的判别式模型为Mi,分类的目标样本为Pq为例,如果预设相邻数目为3,则联合检测特征包括:使用判别式模型Mi-1根据目标样本Pq对应的联合检测特征进行分类得到的待检测本地概率;使用判别式模型Mi-1根据目标样本Pq相邻的Pq-3、Pq-2、Pq-1、Pq+1、Pq+2和Pq+3样本对应的联合检测特征进行分类得到的待检测相邻概率;和目标样本Pq对应的待检测声学特征。即,每个联合检测特征是需要由前一个判别式模型对应的联合检测特征获取;过程如下:将目标样本Pq对应的第一概率和对应的待检测声学特征组合,得到第一联合检测特征;使用判别式模型M2根据第一联合检测特征对该目标样本Pq进行初步分类,得到目标样本属于每个类别的第二概率;将该第二概率和对应的待检测声学特征组合,得到第二联合检测特征;……执行上述过程的类似操作,依次获取第三概率、第三联合检测特征、第四概率等直到第i概率。
在本实施例中,使用其他判别式模型对待检测样本进行检测的过程,与上述过程类似,在此不再一一赘述。
步骤106,根据该第N概率确定至少一个待检测样本的韵律检测结果。
在本实施例中,通过步骤105得到每个待检测样本属于各个类别的第N概率后,可以从每个待检测样本属于各个类别的第N概率中,获取最高概率对应的目标类别,从而根据目标类别确定每个待检测样本的韵律检测结果。
本发明实施例提供的韵律事件检测方法,使用预先训练一组受训语音得到的判别式模型M1、M2…Mn,依次对待检测语音划分音节后的至少一个待检测样本进行分类,从而根据最后一个判别式模型Mn的分类结果确定至少一个待检测声学特征的韵律检测结果,实现韵律事件检测。由于判别式模型M2…Mn根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类,并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的,即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的;此外,待检测相邻概率利用目标样本及其相邻样本之间的关系获取的,即不仅利用目标样本及其之前样本之间的关系,还利用目标样本及其之后样本之间的关系,解决了现有技术使用N-gram模型进行韵律事件检测时,只能利用每个样本及其之前样本之间的关系,导致韵律事件检测的准确率较低的问题。
实施例二:
如图2所示,本发明实施例提供的韵律事件的检测方法,该方法与图1所示的相似,区别在于,在通过步骤101获取预先训练一组受训语音得到的判别式模型M1、M2…Mn之前,该方法还包括:
步骤107,接收到一组受训语音时,以音节为单位划分该受训语音,得到至少一个受训样本。
步骤108,分别从该至少一个受训样本中提取每个受训样本对应的受训声学特征。
在本实施例中,通过步骤108提取受训声学特征的方式,与图1所示的步骤103相似,在此不再一一赘述。
步骤109,分别获取该至少一个受训样本的类别标签后,根据该类别标签和对应的受训声学特征进行训练,得到判别式模型M1
在本实施例中,可以通过模型工具包根据类别标签和对应的受训声学特征进行训练,以得到判别式模型M1;也可以通过其他方式训练以获取判别式模型M1,在此不作限制。
步骤110,使用该判别式模型M1根据对应的受训声学特征对每个受训样本进行初步分类,得到每个受训样本属于各个样本的第一概率。
步骤111,根据对应的联合受训特征和类别标签进行训练,直至得到预设训练数目的判别式模型M2…Mn
在本实施例中,通过步骤109和步骤111训练得到的判别式模型,可以为NN模型;为了提高韵律事件检测的准确率,也可以为SVM模型,在此不作限制。
在本实施例中,步骤101中对应的联合受训特征包括:根据待训练的判别式模型的前一个判别式模型对至少一个受训样本中目标样本分类后得到的受训本地概率;根据前一个判别式模型对至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率;根据每个受训样本对应的受训声学特征,获取该目标样本对应的受训声学特征。具体的,该联合受训特征的内容,与图1中步骤105中联合检测特征相似,可以通过受训声学特征根据类似过程确定,在此不再一一赘述。
在本实施例中,步骤111中,预设训练数目,可以根据用户需要任意设置;为提高韵律事件检测的效率,也可以根据预设的开发集确定该相邻数目,即开发集检测正确率不在提高时,结束迭代,得到相邻数目,在此不再一一赘述。
本发明实施例提供的韵律事件检测方法,使用预先训练一组受训语音得到的判别式模型M1、M2…Mn,依次对待检测语音划分音节后的至少一个待检测样本进行分类,从而根据最后一个判别式模型Mn的分类结果确定至少一个待检测声学特征的韵律检测结果,实现韵律事件检测。由于判别式模型M2…Mn根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类,并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的,即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的;此外,待检测相邻概率利用目标样本及其相邻样本之间的关系获取的,即不仅利用目标样本及其之前样本之间的关系,还利用目标样本及其之后样本之间的关系,解决了现有技术使用N-gram模型进行韵律事件检测时,只能利用每个样本及其之前样本之间的关系,导致韵律事件检测的准确率较低的问题。
实施例三:
如图3所示,本发明实施例提供的韵律事件检测装置,包括:
模型获取模块301,用于接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn,n>1;
待检测音节划分模块302,与模型获取模块相连,用于以音节为单位划分模型获取模块接收的待检测语音,得到至少一个待检测样本;
待检测特征获取模块303,与待检测音节划分模块相连,用于分别从音节划分模块得到的至少一个待检测样本中提取每个待检测样本对应的待检测声学特征;
第一分类模块304,分别与模型获取模块和待检测特征获取模块相连,用于使用模型获取模块获取的判别式模型M1根据特征获取模块获取的对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;
第二分类模块305,分别与模型获取模块、待检测特征获取模块和第一分类模块相连,用于根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;
结果获取模块306,与第二分类模块相连,用于根据第二分类模块得到的第N概率确定至少一个待检测样本的韵律检测结果。
在本实施例中,第二分类模块305中对应的联合检测特征,包括:根据所使用的判别式模型的前一个判别式模型对至少一个待检测样本中目标样本分类后得到的待检测本地概率;根据前一个判别式模型对至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及根据每个待检测样本对应的待检测声学特征,获取的目标样本对应的待检测声学特征。
在本实施例中,通过模型获取模块301至结果获取模块306实现韵律事件检测的过程,与本发明实施例一提供的过程相似,在此不再一一赘述。
进一步的,如图4所示,本发明实施例提供的韵律事件检测装置,还可以包括:
受训音节划分模块307,用于接收到一组受训语音时,以音节为单位划分受训语音,得到至少一个受训样本;
受训特征获取模块308,与受训音节划分模块相连,用于分别从受训音节划分模块得到的至少一个受训样本中提取每个受训样本对应的受训声学特征;
第一训练模块309,与受训特征获取模块相连,用于分别获取至少一个受训样本的类别标签后,根据类别标签和对应的受训声学特征进行训练,得到判别式模型M1
第三分类模块310,分别与第一训练模块和受训特征获取模块相连,用于使用第一训练模块得到的判别式模型M1根据对应的受训声学特征对每个受训样本进行初步分类,得到每个受训样本属于各个类别的第一概率;
第二训练模块311,与受训特征获取模块和第三分类模块相连,用于根据对应的联合受训特征和类别标签进行训练,直至得到预设训练数目的判别式模型M2…Mn
在本实施例中,第二训练模块311中对应的联合受训特征,包括:根据待训练的判别式模型的前一个判别式模型对至少一个受训样本中目标样本分类后得到的受训本地概率;根据前一个判别式模型对至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率;根据每个受训样本对应的受训声学特征,获取的目标样本对应的受训声学特征。
在本实施例中,韵律事件监测装置还包括受训音节划分模块307至第二训练模块311时,韵律事件检测的过程与本发明实施例二提供的相似,在此不再一一赘述。
此时,如图5所示,该韵律事件检测装置还可以包括:
数目计算模块312,与第二训练模块相连,用于根据预设的开发集确定相邻数目。
进一步的,待检测/受训声学特征为音高重音特征时,待检测/受训特征获取模块包括:响度获取子模块、基频获取子模块、谱凸显获取子模块、时长获取子模块和TILT获取子模块中的一种或多种。
其中,响度获取子模块,用于将待检测/受训语音进行短时傅里叶变换,得到线性 尺度的频率f;根据将线性尺度的频率f映射 到临界带Bark;根据每个临界带范围内所有频率点的能量之和,获取每个临界带范围内总 的音强根据将总的音强映射为对应的声压级I(z);根 据声压级I(z)和计算每个临界带的响度L(z);根 据计算所有临界带的响度之和,得到响度特征L;I(k)为第k个频率点的能量; j为对应的临界带的频率点总数;I0为1KHZ的标准听觉阈值;
基频获取子模块,用于从待检测/受训语音中提取基频f0
根据将基频映射到半音程尺度下的基频,得到基频特征S;
谱凸显获取子模块,用于将待检测/受训语音进行短时傅里叶变换,得到线性尺度的频率f;用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量,得到谱凸显特征;
时长获取子模块,用于将待检测/受训语音进行强制对准,得到边界信息;根据边界信息获取时长特征;
TILT获取子模块,用于从待检测/受训语音中获取基频曲线;根据基频曲线的变化趋势和确定幅度相关的TILT特征tilta;根据基频曲线的变化趋势和确定时长相关的TILT特征tiltd;根据基频曲线的变化趋势和确定总得TILT特征tiltt,Arise为上升幅度的总合,Afall为下降幅度的总和,Drise为上升的持续时间的总和,Dfall为下降的持续时间的总和。
进一步的,当待检测/受训声学特征为边界检测所用特征时,待检测/受训特征获取模块包括:第一获取子模块、第二获取子模块、第三获取子模块、第四获取子模块、第五获取子模块和第六获取子模块中的一种或多种。
其中,第一获取子模块,用于以音节划分待检测/受训语音后,前后两音节的时长及它们的相对比值;
第二获取子模块,用于以音节划分待检测/受训语音后,前后两音节的音节核的时长及它们的相对比值;
第三获取子模块,用于以音节划分待检测/受训语音后,前后两音节之间的静音时长;
第四获取子模块,用于以音节划分待检测/受训语音后,前后两音节的基频均值和最大值,及前后音节的基频均值的差值和前后音节的最大值的差值;
第五获取子模块,用于以音节划分待检测/受训语音后,前后两音节的响度和谱凸显的均值,前后音节的响度的差值和前后音节的谱凸显的差值;
第六获取子模块,用于以音节划分待检测/受训语音后,前后两音节的TILT特征。
本发明实施例提供的韵律事件检测装置,使用预先训练一组受训语音得到的判别式模型M1、M2…Mn,依次对待检测语音划分音节后的至少一个待检测样本进行分类,从而根据最后一个判别式模型Mn的分类结果确定至少一个待检测声学特征的韵律检测结果,实现韵律事件检测。由于判别式模型M2…Mn根据由待检测本地概率、待检测相邻概率和待检测声学特征组成的联合检测特征进行分类,并且待检测本地概率和待检测相邻概率都是根据所使用判别式模型的前一个判别式模型确定的,即待检测本地概率和待检测相邻概率是通过迭代目标样本、及目标样本的相邻样本之间的关系获取的;此外,待检测相邻概率利用目标样本及其相邻样本之间的关系获取的,即不仅利用目标样本及其之前样本之间的关系,还利用目标样本及其之后样本之间的关系,解决了现有技术使用N-gram模型进行韵律事件检测时,只能利用每个样本及其之前样本之间的关系,导致韵律事件检测的准确率较低的问题。
本发明实施例提供的韵律事件检测方法和装置,可以应用在自然语音的检测中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种韵律事件检测方法,其特征在于,包括:
接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn,n>1;
以音节为单位划分所述待检测语音,得到至少一个待检测样本;
分别从所述至少一个待检测样本中提取每个待检测样本对应的待检测声学特征;
使用所述判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;
根据对应的联合检测特征,依次使用所述判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;
根据所述第N概率确定所述至少一个待检测样本的韵律检测结果;
所述对应的联合检测特征,包括:根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率;
根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及
根据每个待检测样本对应的待检测声学特征,获取的所述目标样本对应的待检测声学特征。
2.根据权利要求1所述的韵律事件检测方法,其特征在于,所述获取预先训练一组受训语音得到的判别式模型M1、M2…Mn之前,所述方法还包括:
接收到一组受训语音时,以音节为单位划分所述受训语音,得到至少一个受训样本;
分别从所述至少一个受训样本中提取每个受训样本对应的受训声学特征;
分别获取所述至少一个受训样本的类别标签后,根据所述类别标签和对应的受训声学特征进行训练,得到判别式模型M1
使用所述判别式模型M1根据对应的受训声学特征对每个受训样本进行初步分类,得到每个受训样本属于各个类别的第一概率;
根据对应的联合受训特征和所述类别标签进行训练,直至得到预设训练数目的判别式模型M2…Mn
所述对应的联合受训特征,包括:根据待训练的判别式模型的前一个判别式模型对所述至少一个受训样本中目标样本分类后得到的受训本地概率;
根据所述前一个判别式模型对所述至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率;
根据每个受训样本对应的受训声学特征,获取的所述目标样本对应的受训声学特征。
3.根据权利要求2所述的韵律事件检测方法,其特征在于,所述方法还包括:
根据预设的开发集确定所述相邻数目。
4.根据权利要求2或3所述的韵律事件检测方法,其特征在于,所述待检测/受训声学特征为音高重音特征时,所述提取每个待检测/受训样本对应的待检测/受训声学特征包括:
将所述待检测/受训语音进行短时傅里叶变换,得到线性尺度的频率f;
根据将所述线性尺度的频率f映射到临界带Bark;根据每个临界带范围内所有频率点的能量之和,获取每个临界带范围内总的音强根据将所述总的音强映射为对应的声压级I(z);根据所述声压级I(z)和计算每个临界带的响度L(z);根据计算所有临界带的响度之和,得到响度特征L;所述I(k)为第k个频率点的能量;所述j为对应的临界带的频率点总数;所述I0为1KHZ的标准听觉阈值;和/或
从所述待检测/受训语音中提取基频f0;根据将所述基频映射到半音程尺度下的基频,得到基频特征S;和/或
将所述待检测/受训语音进行短时傅里叶变换,得到线性尺度的频率f;用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量,得到谱凸显特征;和/或
将所述待检测/受训语音进行强制对准,得到边界信息;根据所述边界信息获取时长特征;和/或
从所述待检测/受训语音中获取基频曲线;根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilta;根据所述基频曲线的变化趋势和确定时长相关的TILT特征tiltd;根据所述基频曲线的变化趋势和确定总得TILT特征tiltt,所述Arise为上升幅度的总合,所述Afall为下降幅度的总和,所述Drise为上升的持续时间的总和,所述Dfall为下降的持续时间的总和。
5.根据权利要求2或3所述的韵律事件检测方法,其特征在于,所述待检测/受训声学特征为边界检测所用特征时,所述提取每个待检测/受训样本对应的待检测/受训声学特征包括:
以音节划分所述待检测/受训语音后,前后两音节的时长及它们的相对比值;和/或
以音节划分所述待检测/受训语音后,前后两音节的音节核的时长及它们的相对比值;和/或
以音节划分所述待检测/受训语音后,前后两音节之间的静音时长;和/或
以音节划分所述待检测/受训语音后,前后两音节的基频均值和最大值,及前后音节的基频均值的差值和前后音节的最大值的差值;和/或
以音节划分所述待检测/受训语音后,前后两音节的响度和谱凸显的均值,前后音节的响度的差值和前后音节的谱凸显的差值。
6.一种韵律事件检测装置,其特征在于,包括:
模型获取模块,用于接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn,n>1;
待检测音节划分模块,与所述模型获取模块相连,用于以音节为单位划分所述模型获取模块接收的待检测语音,得到至少一个待检测样本;
待检测特征获取模块,与所述待检测音节划分模块相连,用于分别从所述音节划分模块得到的至少一个待检测样本中提取每个待检测样本对应的待检测声学特征;
第一分类模块,分别与所述模型获取模块和所述待检测特征获取模块相连,用于使用所述模型获取模块获取的判别式模型M1根据所述特征获取模块获取的对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;
第二分类模块,分别与所述模型获取模块、所述待检测特征获取模块和所述第一分类模块相连,用于根据对应的联合检测特征,依次使用所述判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;
结果获取模块,与所述第二分类模块相连,用于根据所述第二分类模块得到的第N概率确定所述至少一个待检测样本的韵律检测结果;
所述对应的联合检测特征,包括:根据所使用的判别式模型的前一个判别式模型对所述至少一个待检测样本中目标样本分类后得到的待检测本地概率;
根据所述前一个判别式模型对所述至少一个待检测样本中目标样本的相邻预设相邻数目个待检测样本分类后得到的待检测相邻概率;以及
根据每个待检测样本对应的待检测声学特征,获取的所述目标样本对应的待检测声学特征。
7.根据权利要求6所述的韵律事件检测装置,其特征在于,还包括:
受训音节划分模块,用于接收到一组受训语音时,以音节为单位划分所述受训语音,得到至少一个受训样本;
受训特征获取模块,与所述受训音节划分模块相连,用于分别从所述受训音节划分模块得到的至少一个受训样本中提取每个受训样本对应的受训声学特征;
第一训练模块,与所述受训特征获取模块相连,用于分别获取所述至少一个受训样本的类别标签后,根据所述类别标签和对应的受训声学特征进行训练,得到判别式模型M1
第三分类模块,分别与所述第一训练模块和所述受训特征获取模块相连,用于使用所述第一训练模块得到的判别式模型M1根据对应的受训声学特征对每个受训样本进行初步分类,得到每个受训样本属于各个类别的第一概率;
第二训练模块,与所述受训特征获取模块和所述第三分类模块相连,用于根据对应的联合受训特征和所述类别标签进行训练,直至得到预设训练数目的判别式模型M2…Mn
所述对应的联合受训特征,包括:根据待训练的判别式模型的前一个判别式模型对所述至少一个受训样本中目标样本分类后得到的受训本地概率;
根据所述前一个判别式模型对所述至少一个受训样本中目标样本的相邻预设相邻数目个受训样本分类后得到的受训相邻概率;
根据每个受训样本对应的受训声学特征,获取的所述目标样本对应的受训声学特征。
8.根据权利要求7所述的韵律事件检测装置,其特征在于,所述装置还包括:
数目计算模块,与所述第二训练模块相连,用于根据预设的开发集确定所述相邻数目。
9.根据权利要求6或7所述的韵律事件检测装置,其特征在于,所述待检测/受训声学特征为音高重音特征时,所述待检测/受训特征获取模块包括:
响度获取子模块、基频获取子模块、谱凸显获取子模块、时长获取子模块和TILT获取子模块中的一种或多种;
其中,所述响度获取子模块,用于将所述待检测/受训语音进行短时傅里叶变换,得到线性尺度的频率f;根据将所述线性尺度的频率f映射到临界带Bark;根据每个临界带范围内所有频率点的能量之和,获取每个临界带范围内总的音强根据将所述总的音强映射为对应的声压级I(z);根据所述声压级I(z)和计算每个临界带的响度L(z);根据计算所有临界带的响度之和,得到响度特征L;所述I(k)为第k个频率点的能量;所述j为对应的临界带的频率点总数;所述I0为1KHZ的标准听觉阈值;
所述基频获取子模块,用于从所述待检测/受训语音中提取基频f0
根据将所述基频映射到半音程尺度下的基频,得到基频特征S;
所述谱凸显获取子模块,用于将所述待检测/受训语音进行短时傅里叶变换,得到线性尺度的频率f;用带有凯撒窗的有限冲击响应滤波器提取500Hz到1500Hz频率范围内的能量,得到谱凸显特征;
所述时长获取子模块,用于将所述待检测/受训语音进行强制对准,得到边界信息;根据所述边界信息获取时长特征;
所述TILT获取子模块,用于从所述待检测/受训语音中获取基频曲线;根据所述基频曲线的变化趋势和确定幅度相关的TILT特征tilta;根据所述基频曲线的变化趋势和确定时长相关的TILT特征tiltd;根据所述基频曲线的变化趋势和确定总得TILT特征tiltt,所述Arise为上升幅度的总合,所述Afall为下降幅度的总和,所述Drise为上升的持续时间的总和,所述Dfall为下降的持续时间的总和。
10.根据权利要求6或7所述的韵律事件检测装置,其特征在于,所述待检测/受训声学特征为边界检测所用特征时,所述待检测/受训特征获取模块包括:
其中,第一获取子模块、第二获取子模块、第三获取子模块、第四获取子模块、第五获取子模块中的一种或多种;
其中,所述第一获取子模块,用于以音节划分所述待检测/受训语音后,前后两音节的时长及它们的相对比值;
所述第二获取子模块,用于以音节划分所述待检测/受训语音后,前后两音节的音节核的时长及它们的相对比值;
所述第三获取子模块,用于以音节划分所述待检测/受训语音后,前后两音节之间的静音时长;
所述第四获取子模块,用于以音节划分所述待检测/受训语音后,前后两音节的基频均值和最大值,及前后音节的基频均值的差值和前后音节的最大值的差值;
所述第五获取子模块,用于以音节划分所述待检测/受训语音后,前后两音节的响度和谱凸显的均值,前后音节的响度的差值和前后音节的谱凸显的差值。
CN201310487945.6A 2013-10-17 2013-10-17 韵律事件检测方法和装置 Expired - Fee Related CN104575518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310487945.6A CN104575518B (zh) 2013-10-17 2013-10-17 韵律事件检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310487945.6A CN104575518B (zh) 2013-10-17 2013-10-17 韵律事件检测方法和装置

Publications (2)

Publication Number Publication Date
CN104575518A CN104575518A (zh) 2015-04-29
CN104575518B true CN104575518B (zh) 2018-10-02

Family

ID=53091415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310487945.6A Expired - Fee Related CN104575518B (zh) 2013-10-17 2013-10-17 韵律事件检测方法和装置

Country Status (1)

Country Link
CN (1) CN104575518B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2603381B (en) * 2020-05-11 2023-10-18 New Oriental Education & Tech Group Inc Accent detection method and accent detection device, and non-transitory storage medium
CN111292763B (zh) * 2020-05-11 2020-08-18 新东方教育科技集团有限公司 重音检测方法及装置、非瞬时性存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
WO2011135001A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Assessing speech prosody
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
WO2011135001A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Assessing speech prosody
CN102426834A (zh) * 2011-08-30 2012-04-25 中国科学院自动化研究所 测试英文口语韵律水平的方法

Also Published As

Publication number Publication date
CN104575518A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN103854646B (zh) 一种实现数字音频自动分类的方法
Yoon et al. Landmark-based automated pronunciation error detection.
CN103928023B (zh) 一种语音评分方法及系统
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN101739869B (zh) 一种基于先验知识的发音评估与诊断系统
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN101751919B (zh) 一种汉语口语重音自动检测方法
CN107610707A (zh) 一种声纹识别方法及装置
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
CN101996635B (zh) 基于重音突显度的英语发音质量评价方法
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN104575519B (zh) 特征提取方法、装置及重音检测的方法、装置
CN106531185A (zh) 基于语音相似度的语音评测方法及系统
CN101923855A (zh) 文本无关的声纹识别系统
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN103824565A (zh) 一种基于音符和时值建模的哼唱识谱方法及系统
CN106409298A (zh) 一种声音重录攻击的识别方法
CN102426834B (zh) 测试英文口语韵律水平的方法
CN103366735B (zh) 语音数据的映射方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100084 Rom Building 8-101, Tsinghua University, No. 1 Tsinghua Garden, Haidian District, Beijing

Co-patentee after: CHEYIN INTELLIGENT TECHNOLOGY CO.,LTD.

Patentee after: TSINGHUA University

Address before: 100084 Rom Building 8-101, Tsinghua University, No. 1 Tsinghua Garden, Haidian District, Beijing

Co-patentee before: SHENZHEN VCYBER TECHNOLOGY Co.,Ltd.

Patentee before: Tsinghua University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181002