CN104318921B - 音段切分检测方法及系统、口语评测方法及系统 - Google Patents
音段切分检测方法及系统、口语评测方法及系统 Download PDFInfo
- Publication number
- CN104318921B CN104318921B CN201410619840.6A CN201410619840A CN104318921B CN 104318921 B CN104318921 B CN 104318921B CN 201410619840 A CN201410619840 A CN 201410619840A CN 104318921 B CN104318921 B CN 104318921B
- Authority
- CN
- China
- Prior art keywords
- cutting
- voice
- result
- segment
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种音段切分检测方法及系统,该方法包括:获取对朗读语音进行音段切分得到的切分结果;对所述朗读语音进行语音识别,得到识别结果;根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;如果所述切分结果的识别率高于所述识别结果的识别率,则确定所述切分结果正常;否则确定所述切分结果异常。本发明还公开了一种口语评测方法及系统。利用本发明,可以有效检测音段切分结果是否异常,进而保证评测结果的准确性。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种音段切分检测方法及系统、以及一种口语评测方法及系统。
背景技术
口语评测可以实现对发音人的口语水平进行评估,并根据评估结果指导发音人进行学习。评测的基本原理源于对标准发音和实际发音之间的差别度量,音段切分是口语评测技术中的一种主流方法,具体流程是:根据朗读文本构建解码网络,对语音的声学特征基于解码网络和声学模型进行强制对齐,解码得到音段切分结果。
如图1所示,是传统口语评测方法的流程图,包括以下步骤:
第一步:输入语音评测文本,并根据所述文本构建语法网络;
第二步:输入评测语音,并提取所述评测语音的声学特征;
第三步:利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段切分边界;
第四步:依次对所述音段切分边界内的每个音素计算后验概率;
第五步:根据各音段切分边界和其对应的音素后验概率,得到评分特征;
第六步:基于所述评分特征的映射模型,计算得到评测结果。
上述传统口语评测方法在实际的口语评测过程中,很有可能出现下述情况:用户不按照文本顺序朗读、用户朗读与文本无关的内容、或者环境噪声较大,在出现这些情况时,会导致得到的音段切分边界很有可能是异常的(或称为不正确的),而后续的评测过程基于异常的音段切分边界进行,会使得最终输出的评测结果不可信,降低了评测的效果和用户体验,无法满足用户的需求。
发明内容
本发明实施例一方面提供了一种音段切分检测方法及系统,以有效检测音段切分结果是否异常,为后续的语音评测提供保障。
本发明实施例另一方面提供一种口语评测方法及系统,以保证评测结果的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
一种音段切分检测方法,包括:
获取对朗读语音进行音段切分得到的切分结果;
对所述朗读语音进行语音识别,得到识别结果;
根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;
如果所述切分结果的识别率高于所述识别结果的识别率,则确定所述切分结果正常;否则确定所述切分结果异常。
优选地,根据所述朗读语音对应的朗读文本计算切分结果的识别率包括:
利用动态规划算法对所述朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配;
计算所述切分结果中顺序正确的单词的比例,并将所述切分结果中顺序正确的单词比例作为所述切分结果的识别率;
相应地,根据所述朗读语音对应的朗读文本计算识别结果的识别率包括:
利用动态规划算法对所述朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配;
计算所述识别结果中顺序正确的单词的比例,并将所述识别结果中顺序正确的单词的比例作为所述识别结果的识别率。
优选地,所述方法还包括:
在对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
如果所述语音质量参数大于预设的质量参数门限,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
优选地,所述语音质量参数包括:信噪比、和/或截幅率。
优选地,所述方法还包括:
在对所述朗读语音进行语音识别之前,依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
基于各音段对应的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
优选地,所述方法还包括:
在对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
如果所述语音质量参数大于预设的质量参数门限,则依次对所述切分结果中各音段的每个音素,计算其音素后验概率;否则确定所述切分结果异常;
基于各音段对应的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
一种口语评测方法,包括:
获取朗读语音及所述朗读语音对应的朗读文本;
对所述朗读语音进行音段切分,得到切分结果;
基于前面所述的音段切分检测方法对所述切分结果进行音段切分检测;
如果切分异常,则进行异常报警;
否则,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率;
根据所述切分结果及所述音素后验概率获取评分特征;
基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
优选地,所述对所述朗读语音进行音段切分,得到切分结果包括:
根据所述朗读文本的内容构建语法网络;
提取所述朗读语音的声学特征;
利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段的切分边界。
优选地,所述方法还包括:
在根据所述音素后验概率获取音段评分特征之前,基于各音段的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行根据所述音段对应的音素后验概率获取音段评分特征的步骤;否则进行异常报警。
一种音段切分检测系统,包括:
切分结果获取模块,用于获取对朗读语音进行音段切分得到的切分结果;
语音识别模块,用于对所述朗读语音进行语音识别,得到识别结果;
识别率计算模块,用于根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;
第一判断模块,用于判断所述切分结果的识别率是否高于所述识别结果的识别率;如果是,则触发检测结果输出模块输出切分结果正常指示;否则触发所述检测结果输出模块输出切分结果异常指示。
优选地,所述识别率计算模块包括:
匹配单元,用于利用动态规划算法对所述朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配;
计算单元,用于计算所述切分结果中顺序正确的单词的比例,并将所述切分结果中顺序正确的单词的比例作为所述切分结果的识别率;
所述匹配单元,还用于利用动态规划算法对所述朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配;
所述计算单元,还用于计算所述识别结果中顺序正确的单词的比例,并将所述识别结果中顺序正确的单词的比例作为所述识别结果的识别率。
优选地,所述系统还包括:
语音质量参数计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
第二判断模块,用于判断所述语音质量参数是否大于预设的质量参数门限;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
优选地,所述系统还包括:
音素后验概率计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
置信度计算模块,用于基于各音段对应的音素后验概率,计算所述切分结果的置信度;
第三判断模块,用于判断所述置信度是否大于预设的置信度阈值;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
优选地,所述系统还包括:
语音质量参数计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
第二判断模块,用于判断所述语音质量参数是否大于预设的质量参数门限;如果是,则触发音素后验概率计算模块计算各音段对应的音素后验概率;否则触发所述检测结果输出模块输出切分结果异常指示;
所述音素后验概率计算模块,用于依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
置信度计算模块,用于基于各音段对应的音素后验概率,计算所述切分结果的置信度;
第三判断模块,用于判断所述置信度是否大于预设的置信度阈值;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
一种口语评测系统,包括:
评测信息获取模块,用于获取朗读语音及所述朗读语音对应的朗读文本;
切分模块,用于对所述朗读语音进行音段切分,得到切分结果;
第一检测模块,用于基于前面所述的音段切分检测系统对所述切分结果进行音段切分检测;
报警模块,用于在所述检测模块检测到切分异常时,进行异常报警;
音素后验概率计算模块,用于在所述第一检测模块检测到切分正常时,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率;
评分特征获取模块,用于根据所述切分结果及所述音素后验概率获取评分特征;
评分计算模块,用于基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
优选地,所述切分模块包括:
语法网络构建单元,用于根据所述朗读文本的内容构建语法网络;
提取单元,用于提取所述朗读语音的声学特征;
解码单元,用于利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段的切分边界。
优选地,所述系统还包括:
置信度计算模块,用于在所述评分特征获取模块根据所述音素后验概率获取音段评分特征之前,基于各音段的音素后验概率,计算所述切分结果的置信度;
第二检测模块,用于检测所述置信度是否大于预设的置信度阈值;如果是,则触发所述评分特征获取模块根据所述音素后验概率获取音段评分特征;否则,触发所述报警模块进行异常报警。
本发明的有益效果在于:
本发明实施例提供的音段切分检测方法及系统,通过对朗读语音进行语音识别,并利用朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率,比较这两种识别率的大小,根据比较结果确定切分结果是否异常。从而有效地检测音段切分结果的正确性,为后续的语音评测提供保障。
相应地,基于上述对切分结果的检测,本发明实施例提供的口语评测方法及系统,能够检测出评测语音中的音段切分异常,然后相应做出反馈和报警,能够更好地满足用户需求,提高用户体验;进一步地,可以将异常语音从评测语音中分离出来,使之不参与正常评测,从而不会影响正常语音的评测,使得评测结果的准确度提高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是传统口语评测方法的流程图;
图2是本发明音段切分检测方法第一实施例的流程图;
图3是本发明音段切分检测方法第二实施例的流程图;
图4是本发明音段切分检测方法第三实施例的流程图;
图5是本发明实施例口语评测方法的一种流程图;
图6是本发明实施例口语评测方法的另一种流程图;
图7是本发明音段切分检测系统第一实施例的结构示意图;
图8是本发明音段切分检测系统第二实施例的结构示意图;
图9是本发明音段切分检测系统第三实施例的结构示意图;
图10是本发明音段切分检测系统第四实施例的结构示意图;
图11是本发明实施例口语评测系统的一种结构示意图;
图12是本发明实施例口语评测系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
由于传统的语音评测系统,即使针对不正确的音段切分结果,也会直接进行后续评测,从而导致评测结果的不可信。针对这一问题,本发明实施例提供了一种音段切分检测方法及系统,以有效地检测音段切分结果的正确性。进一步地,本发明另一实施例还提供一种口语评测方法及系统,以保证评测结果的准确性。
如图2所示,是本发明音段切分检测方法第一实施例的流程图,包括以下步骤:
步骤201,获取对朗读语音进行音段切分得到的切分结果。
步骤202,对所述朗读语音进行语音识别,得到识别结果。
语音识别的具体方法可以采用现有技术中的一些常用的语音识别处理方法,也可以是一些改进的语音识别处理方法,对此本发明实施例不做限定。
步骤203,根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率。
具体地,可以利用动态规划算法对朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配,然后计算切分结果中顺序正确的单词的比例,并将该比例作为所述切分结果的识别率。
同样地,可以利用动态规划算法对朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配,然后计算所述识别结果中顺序正确的单词的比例,并将该比例作为所述识别结果的识别率。
步骤204,判断所述切分结果的识别率是否高于所述识别结果的识别率。如果是,则执行步骤205;否则执行步骤206。
步骤205,确定所述切分结果正常。
步骤206,确定所述切分结果异常。
本发明实施例的音段切分检测方法,通过对朗读语音进行语音识别,并利用朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率,比较这两种识别率的大小,根据比较结果确定切分结果是否异常。从而有效地检测音段切分结果的正确性,为后续的语音评测提供保障。
如图3所示,是本发明音段切分检测方法第二实施例的流程图。
与图2所示实施例不同的是,在该实施例中,在对所述朗读语音进行语音识别之前,还进一步对朗读语音的语音质量进行检测,在有效检测音段切分结果的正确性的同时,降低了检测的工作量。
该实施例的方法包括以下步骤:
步骤301,获取对朗读语音进行音段切分得到的切分结果。
步骤302,计算所述朗读语音的语音质量参数。
所述语音质量参数包括:信噪比、和/或截幅率。其中:
信噪比是语音中有声段与静音段的能量比,其计算公式为:
SNR=10*Log10(Ps/Pn) (1)
其中Ps表示语音中有效音段(即有声段)的能量;Pn表示无效音段(即静音段)的能量。
截幅率是指语音中幅值较高的采样点的百分比,其计算公式为:
CAT_RATE=Ch/Ca (2)
其中Ch表示采样点的值高于第一阈值(比如30000)或低于第二阈值(比如-30000)的采样点数量;Ca表示采样点总数。
步骤303,判断所述语音质量参数是否大于预设的质量参数门限。如果是,则执行步骤304;否则,执行步骤308。
如果语音质量很差,则该语音的切分结果可信度就很差,基本上可以判定切分结果异常。而语音质量达到一定要求,也不能完全就能判定切分结果正常,还需要借助其它检测手段进行综合检测。
步骤304,对所述朗读语音进行语音识别,得到识别结果。
语音识别的具体方法可以采用现有技术中的一些常用的语音识别处理方法,也可以是一些改进的语音识别处理方法,对此本发明实施例不做限定。
步骤305,根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率。
具体地,可以利用动态规划算法对朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配,然后计算切分结果中顺序正确的单词的比例,并将该比例作为所述切分结果的识别率。
同样地,可以利用动态规划算法对朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配,然后计算所述识别结果中顺序正确的单词的比例,并将该比例作为所述识别结果的识别率。
步骤306,判断所述切分结果的识别率是否高于所述识别结果的识别率。如果是,则执行步骤307;否则执行步骤308。
步骤307,确定所述切分结果正常。
步骤308,确定所述切分结果异常。
如图4所示,是本发明音段切分检测方法第三实施例的流程图。
与图2所示实施例不同的是,在该实施例中,在对所述朗读语音进行语音识别之前,还进一步对切分结果的置信度进行检测,在有效检测音段切分结果的正确性的同时,降低了检测的工作量。
该实施例的方法包括以下步骤:
步骤401,获取对朗读语音进行音段切分得到的切分结果。
步骤402,依次对所述切分结果中各音段的每个音素,计算其音素后验概率。
具体地,对于切分结果中的一个音段及其强制对齐的音素,计算其同类别(如元音、辅音的分类)下的其他音素对齐到这一音段时的概率。强制对齐的音素与同类别下其他音素的概率和的比值,即为这一音段的后验概率。公式如下:
其中n表示同类别下的其他音素;l表示音素的似然度(对概率取ln自然对数);f表示强制对齐的音素。
如果用概率域表示,公式如下:
其中n表示同类别下的其他音素,P表示音段对齐于这一音素的概率;f表示强制对齐的音素。
步骤403,基于各音段对应的音素后验概率,计算所述切分结果的置信度。
具体地,可以基于音段切分结果以及音素后验概率,计算音段切分结果中发音正确的音素所占的比例,作为切分结果的置信度。公式如下:
CONFIDENCE=Tr/Ta (5)
其中Tr表示音素后验概率大于门限(门限优选值为-3.2)的音素总时长;Ta表示所有音素的总时长。
步骤404,判断所述置信度大于预设的置信度阈值。如果是,则执行步骤405;否则,执行步骤409。
上述置信度阈值可以根据实际需要来设定,比如优选设定值为80%。
步骤405,对所述朗读语音进行语音识别,得到识别结果。
语音识别的具体方法可以采用现有技术中的一些常用的语音识别处理方法,也可以是一些改进的语音识别处理方法,对此本发明实施例不做限定。
步骤406,根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率。
具体地,可以利用动态规划算法对朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配,然后计算所述切分结果中顺序正确的单词的比例,并将该比例作为所述切分结果的识别率。
同样地,可以利用动态规划算法对朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配,然后计算所述识别结果中顺序正确的单词的比例,并将该比例作为所述识别结果的识别率。
步骤407,判断所述切分结果的识别率是否高于所述识别结果的识别率。如果是,则执行步骤408;否则执行步骤409。
步骤408,确定所述切分结果正常。
步骤409,确定所述切分结果异常。
需要说明的是,在实际应用中,也可以首先判断切分结果的识别率是否高于所述识别结果的识别率,如果是,再根据切分结果的置信度做进一步地判断,对此本发明实施例不做限定。
另外,需要说明的是,在实际应用中,还可以综合利用上述三种判断方式,即切分结果的置信度、语音质量、切分结果的识别率,对切分结果进行综合检测。而且这三种判断方式的先后顺序可以是任意的,对此本发明实施例不做限定。
基于上述各音段切分检测方法,本发明实施例还提供一种口语评测方法,如图5所示,是该方法的一种流程图,包括以下步骤:
步骤501,获取朗读语音及所述朗读语音对应的朗读文本。
步骤502,对所述朗读语音进行音段切分,得到切分结果。
具体地,可以提取朗读语音的声学特征,利用声学模型,在根据朗读文本构建的语法网络上对所述声学特征进行强制对齐,得到各音段切分边界。
步骤503,对所述切分结果进行音段切分检测,确定切分结果是否异常。如果是,则执行步骤504;否则,执行步骤505。
具体地,可以基于前面图2和图3中描述的各实施例中的音段切分检测方法,对所述切分结果进行音段切分检测,以确定切分结果是否异常。
步骤504,进行异常报警。
步骤505,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率。
步骤506,根据所述切分结果及所述音素后验概率获取评分特征。
步骤507,基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
上述根据切分结果及音素后验概率获取评分特征、以及基于评分特征的映射模型计算得到所述朗读语音的评测得分的具体实现方式可以采用现有技术中的一些实现方式,在此不再赘述。
所述映射模型可以通过训练过程预先构建,具体如下:选取一定数量的朗读语音数据及其对应的朗读文本,依据上述方法分别计算其评分特征。根据朗读语音及其对应朗读文本,由人工专家对其进行评分。根据人工专家的评分,使用机器学习算法,训练得到根据评分特征计算出分数的数学模型。所述机器学习算法可以是线性回归(LR)、支持向量机(SVM)、决策树(CART)等,本发明实施例不做限定。
如图6所示,是本发明实施例口语评测方法的另一种流程图,包括以下步骤:
步骤601,获取朗读语音及所述朗读语音对应的朗读文本。
步骤602,对所述朗读语音进行音段切分,得到切分结果。
步骤603,对所述切分结果进行音段切分检测,确定切分结果是否异常。如果是,则执行步骤604;否则,执行步骤605。
具体地,可以基于前面图2和图3中描述的各实施例中的音段切分检测方法,对所述切分结果进行音段切分检测,以确定切分结果是否异常。
步骤604,进行异常报警。
步骤605,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率。
步骤606,基于各音段对应的音素后验概率,计算所述切分结果的置信度。
步骤607,判断所述置信度是否大于预设的置信度阈值。如果是,则执行步骤608;否则,执行步骤604。
步骤608,根据所述切分结果及所述音素后验概率获取评分特征。
步骤609,基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
本发明实施例口语评测方法,在语音评测过程中,通过对音段切分结果进行异常检测,并对异常的切分结果做出报警,从而保证了评测结果的准确度,能够更好地满足用户需求,提高用户体验。进一步地,对于异常语音,可以将其分离出来,使之不参与正常评测,从而不会影响正常语音的评测,有效地提高了评测结果的准确度。
相应地,本发明实施例还提供一种音段切分检测系统,如图7所示,是该音段切分检测系统的一种结构示意图。
在该实施例中,所述音段切分检测系统包括:
切分结果获取模块701,用于获取对朗读语音进行音段切分得到的切分结果;
语音识别模块702,用于对所述朗读语音进行语音识别,得到识别结果;
识别率计算模块703,用于根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;
第一判断模块704,用于判断所述切分结果的识别率是否高于所述识别结果的识别率;如果是,则触发检测结果输出模块705输出切分结果正常指示;否则触发所述检测结果输出模块705输出切分结果异常指示。
其中,所述识别率计算模块703包括匹配单元和计算单元(未图示)。
所述匹配单元,用于利用动态规划算法对所述朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配;还用于利用动态规划算法对所述朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配;
计算单元,用于计算所述切分结果中顺序正确的单词的比例,并将所述比例作为所述切分结果的识别率;还用于计算所述识别结果中顺序正确的单词的比例,并将所述比例作为所述识别结果的识别率。
本发明实施例的音段切分检测系统,通过对朗读语音进行语音识别,并利用朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率,比较这两种识别率的大小,根据比较结果确定切分结果是否异常。从而有效地检测音段切分结果的正确性,为后续的语音评测提供保障。
如图8所示,是本发明实施例音段切分检测系统的另一种结构示意图。
与图7所示实施例不同的是,在该实施例中所述系统还包括:
语音质量参数计算模块801,用于在所述语音识别模块702对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
第二判断模块802,用于判断所述语音质量参数是否大于预设的质量参数门限;如果是,则触发所述语音识别模块702对所述朗读语音进行语音识别;否则触发所述检测结果输出模块705输出切分结果异常指示。
本发明实施例的音段切分检测系统,在对所述朗读语音进行语音识别之前,还进一步对朗读语音的语音质量进行检测,在有效检测音段切分结果的正确性的同时,降低了检测的工作量。
如图9所示,是本发明实施例音段切分检测系统的另一种结构示意图。
与图7所示实施例不同的是,在该实施例中所述系统还包括:
音素后验概率计算模块901,用于在所述语音识别模块702对所述朗读语音进行语音识别之前,依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
置信度计算模块902,用于基于各音段对应的音素后验概率,计算所述切分结果的置信度;
第三判断模块903,用于判断所述置信度是否大于预设的置信度阈值;如果是,则触发所述语音识别模块702对所述朗读语音进行语音识别;否则触发所述检测结果输出模块705输出切分结果异常指示。
本发明实施例的音段切分检测系统,在对所述朗读语音进行语音识别之前,还进一步对切分结果的置信度进行检测,在有效检测音段切分结果的正确性的同时,降低了检测的工作量。
需要说明的是,在实际应用中,本发明实施例的音段切分检测系统,还可以同时进行上述三项检测,即分别检测识别率、语音质量、置信度,综合这三项检测的结果来确定切果是正常还是异常,以确保检测结果的准确性,其一种具体结构如图10所示。
在该实施例中,语音质量参数计算模块801、音素后验概率计算模块901、置信度计算模块902、以及第三判断模块的功能与其在图8和图9所示系统中的功能完全相同,在此不再赘述。不同的是,该实施例中的第二判断模块1001虽然也是判断所述语音质量参数是否大于预设的质量参数门限,但根据判断结果的触发关系有所不同,如果判断所述语音质量参数大于预设的质量参数门限,则触发音素后验概率计算模块901计算各音段对应的音素后验概率;否则触发所述检测结果输出模块705输出切分结果异常指示。
当然,在实际应用中,综合上述三项指标进行检测的系统,依据检测顺序的不同,所述系统也可以有其它具体实现结构,对此本发明实施例不做限定。
基于上述各实施例的音段切分检测系统,本发明还提供一种口语评测系统,以便有效地保证评测结果的准确度。
如图11所示,是本发明实施例口语评测系统的一种结构示意图。
在该实施例中,所述系统包括:
评测信息获取模块111,用于获取朗读语音及所述朗读语音对应的朗读文本;
切分模块112,用于对所述朗读语音进行音段切分,得到切分结果;
第一检测模块113,用于对所述切分结果进行音段切分检测,具体可以应用上述图7或图8所示的音段切分检测系统进行音段切分检测;
报警模块114,用于在所述检测模块113检测到切分异常时,进行异常报警;
音素后验概率计算模块115,用于在所述第一检测模块113检测到切分正常时,对所述切分结果中各音段的每个音素,计算各音段的音素后验概率;
评分特征获取模块116,用于根据所述切分结果及所述音素后验概率获取音段评分特征;
评分计算模块117,用于基于所述音段评分特征的映射模型计算得到所述朗读语音的评测得分。
上述切分模块112包括:
语法网络构建单元,用于根据所述朗读文本的内容构建语法网络;
提取单元,用于提取所述朗读语音的声学特征;
解码单元,用于利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段的切分边界。
如图12所示,是本发明实施例口语评测系统的另一种结构示意图。
与图11所示不同的是,在图12所示实施例中,所述口语评测系统还进一步包括:
置信度计算模块121,用于在所述评分特征获取模块116根据所述音素后验概率获取音段评分特征之前,基于各音段的音素后验概率,计算所述切分结果的置信度;
第二检测模块122,用于检测所述置信度是否大于预设的置信度阈值;如果是,则触发所述评分特征获取模块116根据所述音素后验概率获取评分特征;否则,触发所述报警模块114进行异常报警。
本发明实施例口语评测系统,在语音评测过程中,通过对音段切分结果进行异常检测,并对异常的切分结果做出报警,从而保证了评测结果的准确度,能够更好地满足用户需求,提高用户体验。进一步地,对于异常语音,可以将其分离出来,使之不参与正常评测,从而不会影响正常语音的评测,有效地提高了评测结果的准确度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的,作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (17)
1.一种音段切分检测方法,其特征在于,包括:
获取对朗读语音进行音段切分得到的切分结果;
对所述朗读语音进行语音识别,得到识别结果;
根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;
如果所述切分结果的识别率高于所述识别结果的识别率,则确定所述切分结果正常;否则确定所述切分结果异常。
2.根据权利要求1所述的方法,其特征在于,
根据所述朗读语音对应的朗读文本计算切分结果的识别率包括:
利用动态规划算法对所述朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配;
计算所述切分结果中顺序正确的单词的比例,并将所述切分结果中顺序正确的单词的比例作为所述切分结果的识别率;
根据所述朗读语音对应的朗读文本计算识别结果的识别率包括:
利用动态规划算法对所述朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配;
计算所述识别结果中顺序正确的单词的比例,并将所述识别结果中顺序正确的单词的比例作为所述识别结果的识别率。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
如果所述语音质量参数大于预设的质量参数门限,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
4.根据权利要求3所述的方法,其特征在于,所述语音质量参数包括:信噪比、和/或截幅率。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在对所述朗读语音进行语音识别之前,依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
基于各音段对应的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
如果所述语音质量参数大于预设的质量参数门限,则依次对所述切分结果中各音段的每个音素,计算其音素后验概率;否则确定所述切分结果异常;
基于各音段对应的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行对所述朗读语音进行语音识别的步骤;否则确定所述切分结果异常。
7.一种口语评测方法,其特征在于,包括:
获取朗读语音及所述朗读语音对应的朗读文本;
对所述朗读语音进行音段切分,得到切分结果;
基于权利要求1至4任一项所述的方法对所述切分结果进行音段切分检测;
如果切分异常,则进行异常报警;
否则,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率;
根据所述切分结果及所述音素后验概率获取评分特征;
基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
8.根据权利要求7所述的方法,其特征在于,所述对所述朗读语音进行音段切分,得到切分结果包括:
根据所述朗读文本的内容构建语法网络;
提取所述朗读语音的声学特征;
利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段的切分边界。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
在根据所述音素后验概率获取音段评分特征之前,基于各音段的音素后验概率,计算所述切分结果的置信度;
如果所述置信度大于预设的置信度阈值,则执行根据所述音段对应的音素后验概率获取音段评分特征的步骤;否则进行异常报警。
10.一种音段切分检测系统,其特征在于,包括:
切分结果获取模块,用于获取对朗读语音进行音段切分得到的切分结果;
语音识别模块,用于对所述朗读语音进行语音识别,得到识别结果;
识别率计算模块,用于根据所述朗读语音对应的朗读文本分别计算切分结果的识别率及识别结果的识别率;
第一判断模块,用于判断所述切分结果的识别率是否高于所述识别结果的识别率;如果是,则触发检测结果输出模块输出切分结果正常指示;否则触发所述检测结果输出模块输出切分结果异常指示。
11.根据权利要求10所述的系统,其特征在于,所述识别率计算模块包括:
匹配单元,用于利用动态规划算法对所述朗读文本的单词序列和所述切分结果的单词序列进行顺序匹配;
计算单元,用于计算所述切分结果中顺序正确的单词的比例,并将所述切分结果中顺序正确的单词的比例作为所述切分结果的识别率;
所述匹配单元,还用于利用动态规划算法对所述朗读文本的单词序列和所述识别结果的单词序列进行顺序匹配;
所述计算单元,还用于计算所述识别结果中顺序正确的单词的比例,并将所述识别结果中顺序正确的单词的比例作为所述识别结果的识别率。
12.根据权利要求10或11所述的系统,其特征在于,所述系统还包括:
语音质量参数计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
第二判断模块,用于判断所述语音质量参数是否大于预设的质量参数门限;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
13.根据权利要求10或11所述的系统,其特征在于,所述系统还包括:
音素后验概率计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
置信度计算模块,用于基于各音段对应的音素后验概率,计算所述切分结果的置信度;
第三判断模块,用于判断所述置信度是否大于预设的置信度阈值;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
14.根据权利要求10或11所述的系统,其特征在于,所述系统还包括:
语音质量参数计算模块,用于在所述语音识别模块对所述朗读语音进行语音识别之前,计算所述朗读语音的语音质量参数;
第二判断模块,用于判断所述语音质量参数是否大于预设的质量参数门限;如果是,则触发音素后验概率计算模块计算各音段对应的音素后验概率;否则触发所述检测结果输出模块输出切分结果异常指示;
所述音素后验概率计算模块,用于依次对所述切分结果中各音段的每个音素,计算其音素后验概率;
置信度计算模块,用于基于各音段对应的音素后验概率,计算所述切分结果的置信度;
第三判断模块,用于判断所述置信度是否大于预设的置信度阈值;如果是,则触发所述语音识别模块对所述朗读语音进行语音识别;否则触发所述检测结果输出模块输出切分结果异常指示。
15.一种口语评测系统,其特征在于,包括:
评测信息获取模块,用于获取朗读语音及所述朗读语音对应的朗读文本;
切分模块,用于对所述朗读语音进行音段切分,得到切分结果;
第一检测模块,用于基于权利要求10至12任一项所述的系统对所述切分结果进行音段切分检测;
报警模块,用于在所述检测模块检测到切分异常时,进行异常报警;
音素后验概率计算模块,用于在所述第一检测模块检测到切分正常时,依次对所述切分结果中各音段的每个音素,计算各音段的音素后验概率;
评分特征获取模块,用于根据所述切分结果及所述音素后验概率获取评分特征;
评分计算模块,用于基于所述评分特征的映射模型计算得到所述朗读语音的评测得分。
16.根据权利要求15所述的系统,其特征在于,所述切分模块包括:
语法网络构建单元,用于根据所述朗读文本的内容构建语法网络;
提取单元,用于提取所述朗读语音的声学特征;
解码单元,用于利用声学模型,在所述语法网络上对所述声学特征进行强制对齐,得到各音段的切分边界。
17.根据权利要求15或16所述的系统,其特征在于,所述系统还包括:
置信度计算模块,用于在所述评分特征获取模块根据所述音素后验概率获取音段评分特征之前,基于各音段的音素后验概率,计算所述切分结果的置信度;
第二检测模块,用于检测所述置信度是否大于预设的置信度阈值;如果是,则触发所述评分特征获取模块根据所述音素后验概率获取音段评分特征;否则,触发所述报警模块进行异常报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410619840.6A CN104318921B (zh) | 2014-11-06 | 2014-11-06 | 音段切分检测方法及系统、口语评测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410619840.6A CN104318921B (zh) | 2014-11-06 | 2014-11-06 | 音段切分检测方法及系统、口语评测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104318921A CN104318921A (zh) | 2015-01-28 |
CN104318921B true CN104318921B (zh) | 2017-08-25 |
Family
ID=52374144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410619840.6A Active CN104318921B (zh) | 2014-11-06 | 2014-11-06 | 音段切分检测方法及系统、口语评测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104318921B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157976B (zh) * | 2015-04-10 | 2020-02-07 | 科大讯飞股份有限公司 | 一种唱歌评测方法及系统 |
CN106373558B (zh) * | 2015-07-24 | 2019-10-18 | 科大讯飞股份有限公司 | 语音识别文本处理方法及系统 |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
CN106653029A (zh) * | 2016-12-02 | 2017-05-10 | 广东小天才科技有限公司 | 一种音频批量分割方法及装置 |
CN107068145B (zh) * | 2016-12-30 | 2019-02-15 | 中南大学 | 语音评测方法及系统 |
CN107316638A (zh) * | 2017-06-28 | 2017-11-03 | 北京粉笔未来科技有限公司 | 一种诗词背诵评测方法及系统、一种终端及存储介质 |
CN108122556B (zh) * | 2017-08-08 | 2021-09-24 | 大众问问(北京)信息科技有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN112559798B (zh) * | 2019-09-26 | 2022-05-17 | 北京新唐思创教育科技有限公司 | 音频内容质量的检测方法及装置 |
CN111986650B (zh) * | 2020-08-07 | 2024-02-27 | 云知声智能科技股份有限公司 | 借助语种识别辅助语音评测的方法及系统 |
CN112908358B (zh) * | 2021-01-31 | 2022-10-18 | 云知声智能科技股份有限公司 | 一种开放式的语音评测方法和设备 |
CN113053390B (zh) * | 2021-03-22 | 2022-12-02 | 深圳如布科技有限公司 | 基于语音识别的文本处理方法、装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315733A (zh) * | 2008-07-17 | 2008-12-03 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101650886A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种自动检测语言学习者朗读错误的方法 |
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
CN103559894A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
-
2014
- 2014-11-06 CN CN201410619840.6A patent/CN104318921B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315733A (zh) * | 2008-07-17 | 2008-12-03 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101650886A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种自动检测语言学习者朗读错误的方法 |
CN103065626A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 英语口语考试系统中的朗读题自动评分方法和设备 |
CN103559894A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104318921A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104318921B (zh) | 音段切分检测方法及系统、口语评测方法及系统 | |
US9704413B2 (en) | Non-scorable response filters for speech scoring systems | |
US8990082B2 (en) | Non-scorable response filters for speech scoring systems | |
CN106847260B (zh) | 一种基于特征融合的英语口语自动评分方法 | |
CN103594087B (zh) | 提高口语评测性能的方法及系统 | |
CN104464757B (zh) | 语音评测方法和语音评测装置 | |
US9489864B2 (en) | Systems and methods for an automated pronunciation assessment system for similar vowel pairs | |
CN105374352B (zh) | 一种语音激活方法及系统 | |
CN103810996B (zh) | 待测试语音的处理方法、装置及系统 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN101751919A (zh) | 一种汉语口语重音自动检测方法 | |
US9799350B2 (en) | Apparatus and method for verifying utterance in speech recognition system | |
WO2011135001A1 (en) | Assessing speech prosody | |
CN103680493A (zh) | 区分地域性口音的语音数据识别方法和装置 | |
CN109979486B (zh) | 一种语音质量评估方法及装置 | |
CN107886968A (zh) | 语音评测方法及系统 | |
CN102426834A (zh) | 测试英文口语韵律水平的方法 | |
CN107625527B (zh) | 一种测谎方法及装置 | |
Deng et al. | Confidence measures for speech emotion recognition: A start | |
JP2015164008A5 (zh) | ||
CN104347071B (zh) | 生成口语考试参考答案的方法及系统 | |
CN109065024B (zh) | 异常语音数据检测方法及装置 | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
CN107871113B (zh) | 一种情感混合识别检测的方法和装置 | |
Yousfi et al. | Holy Qur'an speech recognition system distinguishing the type of recitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180207 Address after: Room 405, A2 building, voice teaching product R & D building, No. 666, Wangjiang West Road, Anhui Hefei high tech Zone Patentee after: Anhui Knowledge Science & Technology Co., Ltd. Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666 Patentee before: Iflytek Co., Ltd. |