CN102800314A - 具有反馈指导的英语句子识别与评价系统及其方法 - Google Patents
具有反馈指导的英语句子识别与评价系统及其方法 Download PDFInfo
- Publication number
- CN102800314A CN102800314A CN2012102482762A CN201210248276A CN102800314A CN 102800314 A CN102800314 A CN 102800314A CN 2012102482762 A CN2012102482762 A CN 2012102482762A CN 201210248276 A CN201210248276 A CN 201210248276A CN 102800314 A CN102800314 A CN 102800314A
- Authority
- CN
- China
- Prior art keywords
- statement
- module
- evaluation
- voice
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明为一种具有反馈指导的英语句子识别与评价系统,其特征在于:包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、客观评价模块及反馈指导模块,还包括分别与语音识别模块、客观评价模块、反馈指导模块连接的标准语句模型库,通过模型匹配得到结果;实现英语句子的语音识别、口语翻译、客观评价和反馈指导等功能。本发明具有口语翻译,语音识别效率和准确率更高,语音评价和反馈指导准确客观等优点。
Description
技术领域
本发明涉及语音识别与评价技术领域,特别涉及一种用于将人发出的语音信号识别后转变为相应的翻译结果,并给出客观评价和反馈指导的具有反馈指导的英语句子识别与评价系统。本发明还涉及该系统的语音识别与评价方法。
背景技术
语音识别技术就是让机器通过识别和理解,把人发出的语音信号转变为相应的文本或做出设定命令的技术,它正逐步成为信息技术中人机交互的关键技术。随着语音识别技术的进步,计算机辅助语音教学技术(Computer-assisted Language Learning,CALL)成为了研究的热门,它极大地提高语言学习效率,及时、准确、客观的评价和反馈帮助学习者找出自己发音与标准发音之间的差距,并纠正发音错误。因此,具有反馈指导的英语句子识别与评价系统有着巨大的发展潜力,可广泛适用于国内外旅游、国际展览会、国际体育赛事、宾馆服务以及语言学习等活动,使人与人之间的距离更近,交流更方便。
发明内容
本发明的目的在于设计具有反馈指导的英语句子识别与评价系统,实现英语句子的语音识别、口语翻译、客观评价和反馈指导等功能。此外,本发明具有语音识别时效率更高,识别准确率更高;语音评价时,评价指标更全面,客观评价和反馈指导准确客观,真实性和可信性高的特点。
本发明的另外一个目的在于提供该系统的语音识别与评价方法。
为了实现上述发明目的,本发明包括如下技术特征:一种具有反馈指导的英语句子识别与评价系统,其包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、客观评价模块及反馈指导模块,还包括分别与语音识别模块、客观评价模块、反馈指导模块连接的标准语句模型库;
语音采集模块对语音信号进行采集;语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理;语音特征提取模块对语音信号进行语音特征参数的提取;语音识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、客观评价和反馈指导。
所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元,通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价;
所述语速评价单元通过计算待评价语句与标准语句的时长比,与所设置的语速阈值进行比较;
所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线,进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度,再将之与标准语音的强度曲线图进行对比,通过比较其拟合程度进行评价;
所述重音评价单元在规整后强度曲线图的基础上,设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长,进行重音单元的划分;进而采用DTW算法对待评价语句和标准语句进行模式匹配;
所述节奏评价单元采用改进的dPVI参数计算公式,根据语音单元时长差异性的特征,将标准语句与待评价语句的音节单元片段时长分别进行对比计算,并转换出相对应的参数;
所述语调评价单元通过提取语句发音的共振峰并加以分析,进而通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化,再将之与标准语音的语调变化进行对比,最后通过比较语调的拟合程度进行评价。
同时,本发明还提供一种具有反馈指导的英语句子识别与评价方法,其包括以下步骤:
(1)语音采集模块对语音信号进行采集,并根据奈奎斯特采样定理将模拟信号数字化;
(2)语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理;
(3)语音特征提取模块对预处理后的语音信号进行语音特征参数MFCC的提取;
(4)语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理,然后通过与标准语句模型库的匹配,以语音和文本的形式输出识别结果;
(5)客观评价模块和反馈指导模块通过与标准语句模型库的匹配从语句的语速、准确度、重音、节奏和语调方面进行客观评价和反馈指导。
所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库和文本库。
标准语句模型库用于对语音信号进行语音识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号,包括语音信号的强度曲线图、时长、重音、共振峰及标准发音;特征参数库存储标准语句的特征参数;聚类分组库存储标准语句的所属分组;HMM模型库存储标准语句的HMM模型;文本库存储标准语句的中英文文本。
聚类分组库和HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi算法进行语音特征降维、分组建模和模型匹配;所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题,聚类模型交叉分组算法解决分组性能较低问题,HMM模型聚类分组技术解决Viterbi算法运算量和混合高斯分布概率计算量大问题,Viterbi算法解决HMM的解码问题。
步骤(4)具体还包括如下步骤:
(a)采用分段均值数据降维算法对语音特征提取模块得到的语音特征进行降维处理;
(b)通过与标准语句模型库的匹配,利用改进的DTW算法确定语音特征聚类分组K;
(c)对第K组内的HMM模型参数进行计算:将语音特征参数作为隐马尔可夫模型的观察序列;训练得到的语音单元为状态序列,通过Viterbi算法解出状态转移序列;
(d)采用决策判决,得到最大概率的状态转移序列;
(e)通过与标准语句模型库的匹配,根据最佳状态序列对应出英语句子。
本发明通过对采集到的语音信号进行预处理和分段均值降维处理,使系统在后期进行语音识别和评价时效率更高,准确率也更高。采用隐马尔可夫模型,并结合聚类交叉分组算法训练模型库,再用其进行模型匹配,使识别过程更加准确高效。,通过比较待评价语句和标准语句的准确度、语速、重音、节奏和语调等方面进行客观评价,并给予反馈指导,使评价结果更加准确客观。
本发明与现有技术相比,具有口语翻译,语音识别时效率更高,识别准确率更高;语音评价时评价指标更加全面,客观评价和反馈指导准确客观,真实性和可信性高等优点,在语音识别与评价系统领域具有很大的消费市场。
附图说明
图1为本发明的模块原理图
图2为语音特征参数分段均值降维示意图
图3为聚类模型交叉分组训练算法示意图
图4为HMM模型聚类分组图
图5为本发明的语音识别过程图
图6为隐马尔可夫模型识别过程图
图7为DTW算法约束后的匹配范围
图8为基于DTW算法的评价示意图
图9为共振峰提取原理图
具体实施方式
本发明设计并实现了一种具有反馈指导的英语句子识别与评价系统。本发明的模块原理图如图1所示,通过语音采集模块1采集输入的语音信号;通过语音预处理模块2对所得的语音信号进行预处理;通过语音特征提取模块3对预处理后的语音信号进行语音特征参数提取;通过语音识别模块4与标准语句模型库5进行匹配,以语音和文本的形式输出识别结果;通过客观评价模块6与标准语句模型库5进行匹配,对待评价语句的重音、语速、语调、节奏等方面进行评价,实现上述处理功能的是准确度评价单元61、语速因素评价单元62、重音因素评价单元63、节奏因素评价单元64和语调因素评价单元65;通过反馈指导模块7与标准语句模型库5进行匹配,给予反馈指导。
下面分别对涉及到的各个模块单元进行说明:
一、标准语句模型库5
本发明的标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库和文本库。
标准语句模型库用于对语音信号进行语音识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号,包括语音信号的强度曲线图、时长、重音、共振峰及标准发音等;特征参数库存储标准语句的特征参数;聚类分组库存储标准语句的所属分组;HMM模型库存储标准语句的HMM模型;文本库存储标准语句的中英文文本。
其中,聚类分组库和HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi算法进行语音特征降维、分组建模和模型匹配;所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题,聚类模型交叉分组算法解决分组性能较低问题,HMM模型聚类分组技术解决Viterbi算法运算量和混合高斯分布概率计算量大问题,Viterbi算法解决HMM的解码问题。
1、分段均值数据降维算法
本发明采用一种分段均值的方法对语音特征参数进行降维,首先将语音信号特征参数进行平均分段,语音特征参数可表示为S(K,J),其中K是特征参数的阶数,J为分段后特征参数的帧数,T为原语音帧数。则将特征参数平均分为N段的计算公式如下:
M(i)即为分段后第i段的语音特征参数。
把特征参数平均分为N段后,再将M(i)平均分为M段,子分段计算公式可参考上式。之后对每个子分段的各帧参数进行求均值运算,得出各个子分段的均值向量M(i)k,k=1,2,...,M。在取得各个子分段的均值向量后,将各个子分段的均值合并为一个矩阵,即得到K×M×N大小的矩阵即为降维后的特征参数输出值。对语音特征参数进行分段均值降维处理如图2所示。
可知,分段均值降维算法可将T×K大小的特征参数矩阵降维为K×M×N大小的参数矩阵。由式K×M×N可知,分段均值降维算法成功去除了语音帧数T对降维后数据大小的影响,降维后参数矩阵大小只与特征参数阶数K、分段大小N以及子分段大小M有关,使得各个不同长度的语音可以规整为同一大小的矩阵,这在很大程度上方便了语音特征聚类算法的实现。
2、聚类模型交叉分组算法
成功实现对语音特征参数进行降维处理后,运用K均值算法对语音特征参数进行聚类实验。在对语句进行聚类时,本发明将训练样本中发音相同的语句采用均值的方式经行合并,使其成为一个具有代表性的标准样本,用于聚类训练。
为了进一步提高K均值聚类算法对语音的分类性能,本发明采用一种新的二次训练算法——聚类交叉分组训练算法。图3为聚类模型交叉分组训练算法示意图。
在用K均值聚类算法对已经过分段均值降维处理的训练样本参数进行聚类后,依次对每个样本参数用DTW算法匹配其与样本中心距离,距离最小者为目标分组,然后检验目标分组是否包含输入特征参数所表示的语句,若包含则表示分类正确,若不包含则将该语句加入目标分组。
设聚类分组数为K,系统词汇量为N,第k个聚类分得词汇数量为Sk,k=(1,2,...,K),则在进行初次聚类后有定义聚类交叉分组系数的表达式为易知在进行初次聚类后有必须提出的一个问题是,在采用聚类交叉分组训练算法对聚类分组进行二次训练后,是否会趋于或等于K×N,即趋近于1。若趋近于1,则说明聚类算法退化,产生假分组现象。
由于引入分段均值降维聚类算法,聚类结果有较好的稳定性,其中有部分语句完全没有出现分组错误,那么在交叉分组训练是这些语句将不会参与重新分组,这将有助于减小使交叉分组达到较好的效果。
3、HMM模型聚类分组技术
由于基于HMM的语音识别系统中每个语句都有一个与其对应的唯一HMM模型,因此可以将语音特征参数聚类分组结果中所包含的语句映射到与这些语句相对应的HMM模型,这样就得出了如图4所示的HMM模型聚类分组。
由于本发明使用的降维聚类交叉分组算法具有较好的性能,使得每个模型聚类组中包含的HMM模型数总是小于等于系统语句量。在聚类分组合适的情况下,系统将节省非常可观的计算量,系统性能得以大大提高。
4、Viterbi算法
解码问题,本发明采用Viterbi算法解决。给定一个HMM模型λ=(π,A,B),以及由模型产生的观察序列O=O1,O2,Λ,OT,搜索使该模型产生此观察序列最有可能经历的状态序列S=q1,q2Λqt,即求解使P(S/O,λ)最大的状态序列S。由于而P(O/λ)对于所有的S均相同,因此解码问题等价于求解使P(S,O/λ)最大的状态序列S。
如图5所示,得出HMM聚类模型分组后,进行语音识别时首先对输入语音参数进行计算并确定其语音特征聚类分组K,则在进行Viterbi解码运算时只对第K组内的HMM模型参数进行计算。
如图6所示,语音识别模块采用HMM模型,调用标准语句模型库中已训练好的语音模型,同输入语音进行匹配,解出状态转移序列P(O|λn)(n=1...M),最终采用决策判决,得到最大概率的状态转移序列。根据最佳状态序列对应出英语句子,并以语音和文本形式输出识别结果。
二、客观评价模块6
所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元,通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调等方面进行综合评价。
重音以音节为单位,以词重音为主,其意义功能表现为起强调、对照作用。节奏分为完全重读型、不完全重读型、强调重读型三种,在朗读、说话时,以不同组合形成的节奏群为单位交替出现,其意义功能表现为增强旋律和乐感。语调以意群为单位按不同调式进行变化,其意义功能表现为表达各种不同的感情色彩。对于待评价语句的评价,除发音(Pronunciation)呈现出的表面要素外,它所要表达的意思内容、感情色彩才是本质所在。此外,语速和准确度也是衡量语句发音质量的因素。
三、语速评价单元61
四、准确度评价单元62
语句的强度曲线图可以反映语音信号随着时间的变化。语句中重读音节响亮的特征将反映到时域上的能量强度,即重音音节表现为语音能量强度大。根据语音信号s(n)的短时能量的定义:
对语句提取能量值,即为语句的强度曲线图。
由于不同人不同时间对同一句话的发音时长不相等、发音强度也不同,如果将待评价语句和标准语音的强度曲线直接进行模板匹配,结果将影响评价的客观性。鉴于此,本发明提出了一种基于标准语音的强度曲线提取方法:当待评价语句时长比标准语句短的时候,采用插值方法对其进行时长的补充;当待评价语句时长比标准语句长的时候,采用抽值方法对其进行时长的调整;最后,利用标准语音强度曲线的最强点,对待评价语音强度曲线进行强度规整。
该方法首先计算插值或抽值的步进K
其中MagStd,MagTest分别表示标准语音和待评价语音的强度曲线,Len(·)表示该强度曲线的长度。接着,当Len(MagStd)-Len(MagTest)<0时,表示待评价语音的时长比标准语音长,可直接对待评价语音强度曲线进行步进为K的抽值计算;当Len(MagStd)-Len(MagTest)>0时,表示待评价语音的时长比标准语音短,则需计算插值位置的强度值MagATest(n)
其中i=nK,n=1,2...(Len(MagStd)-Len(MagTest))。最后,将由上式所得的一系列强度值以步进K插入到待评价语音强度曲线中,并对其进行语音强度的规整,如下式所示
其中i=1,2,...Len(MagATest)。
完成强度曲线的提取和规整后,本发明将之与标准语音的强度曲线图进行对比,通过比较其拟合程度进行评价。
五、重音评价单元63
重音以音节为单位,以词重音为主,其意义功能表现为起强调、对照作用。
在规整后强度曲线图的基础上,本发明采用双门限比较法来进行重音端点检测,经过大量实验验证,设定如下两个阀值:
重音阀值Tu=(max(sig_in)+min(sig_in))/2.5
非重音阀值Tl=(max(sig_in)+min(sig_in))/10
双门限比较法中,根据语句的能量值逐个搜索语句中大于重音阀值Tu的最大语音信号值Smax,然后向信号值Smax左右搜索等于非重音阀值Tl的语音信号值Sl与Sr,将Sl与Sr设置为语句重音信号,并将Sl与Sr之间的信号量值置0,避免重复在Sl与Sr之间搜索。
由于语句中重读音节有着发音偏长的特征,而第一步搜索出来的重读音节单元可能存在能量值大,即听觉表现为发音响亮,持续时间却很短的问题,这些单元可能是短元音,也可能是信号尖峰的干扰,它们不构成重读音节,可以根据重读音节发音偏长的特征将重读音节单元进一步筛选。本发明将重读音节单元的最小单位设定为一个大致重读元音时长(Stressed vowel durations),为100ms。
通过以上步骤,完成对语句重音单元的划分。
接着采用改进的DTW算法进行待评价语句和标准语句的模式匹配。DTW算法的基本原理为动态时间规整,把测试模板和参考模板之间本来不匹配的时间长度进行匹配。用传统的欧氏距离计算其相似度,设参考模板和测试模板为R和T,距离D[T,R]越小则相似度越高。传统DTW算法的缺点是在进行模板匹配时,所有帧的权重一致,必须匹配所有的模板,计算量比较大,特别是当模板数增加较快时,运算量增长特别快。
如图7所示,本发明通过设置匹配边界,将需要运算的交点限定在平行四边形内。将R和T按等时分为N、M帧,可分为三段路径(1,Xa)、(Xa+1,Xb)、(Xb+1,N)计算距离,根据坐标计算可得和Xa、Xb取最相近的整数。当不满足限制条件2M-N≥3,2N-M≥2时,不进行动态匹配,减少了系统开支。
X轴上的每一帧与Y坐标轴上[ymin,ymax]间的帧匹配,ymin,ymax的计算如下
若Xa>Xb,匹配的路径可分为(1,Xb)、(Xb+1,Xa)、(Xa+1,N)。X坐标轴每向前一帧,虽对应Y坐标轴的帧数不同,但规整特性一致,累积距离为
其中D和d分别表示累积距离和帧匹配距离。
图8为基于改进的DTW算法的评价示意图,其中X轴为标准语音的强度曲线,Y轴是待评价语音的强度曲线,将两曲线等长分帧,按照顺序计算对应帧的距离,将累积距离输出,作为评分机制的参考标准。
六、节奏评价单元64
节奏分为完全重读型、不完全重读型、强调重读型三种,在朗读、说话时,以不同组合形成的节奏群为单位交替出现,其意义功能表现为增强旋律和乐感。
国外学者Pike和Abercrombie提出了所有的语言都存在着语音单元等时性(isochrony)特征,语言节奏的时同步性假设中把语言节奏定义为“某种语言单元片段的等时性重复”,这就是著名的语言节奏的时同步性假设。成对变异指数(Pairwise Variability Index,PVI),用于计算相邻单位间的时长的变异性,若变异性越小,代表该单位具有等时性。新加坡南洋理工大学的Low在对新加坡英语节奏的研究中第一次提出了PVI公式,它用于通过计算重读的和非重读的元音连续的前后音节之间的差距得出语音节奏的相关性。
本发明采用改进的dPVI(the Distinct Pairwise Variability Index)参数计算公式,根据语音单元时长差异性的特征,将标准语句与待评价语句的音节单元片段时长分别进行对比计算,并将转换出的参数用于客观评价和反馈指导依据。
其中d为语句划分的语音单元片段时长(如:dk为第k个语音单元片段时长),m=min(标准语句单元数,待评价语句单元数),LenStd为标准语句时长。由于进行PVI运算之前已经将待评价语句时长规整到与标准语句时长相当,计算可只用LenStd作为计算单元。
七、语调评价单元65
语调以意群为单位按不同调式进行变化,其意义功能表现为表达各种不同的感情色彩。
在语调评价方面,本发明通过提取英语句子发音的共振峰并加以分析,通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化,再将之与标准语音的语调变化进行对比,最后通过语调的拟合程度进行打分。
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源,而且人在语音感知中利用了共振峰信息,所以共振峰是语音信号处理中非常重要的特征参数。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般我们认为频谱包络中的最大值就是共振峰。
声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般。在英语语音声学中,共振峰决定着元音的音质,每一个元音对应一个共振峰。
常见的共振峰提取方法有基于线性预测(LPC)、倒谱、LPC倒谱等方法,各种方法各有优劣,本发明主要是利用倒谱方法提取语音信号的共振峰,并将共振峰提取的结果运用于语音发音的评价中。倒谱法根据对数功率谱的逆傅里叶变换,能够分离频谱包络和细微结构,很精确地得到基音频率和共振峰信息,在噪音不大的情况下,倒谱进行基音提取的效果是很好的。倒谱的定义如下:
c(n)=IFT{ln|FT[x(n)]|}
倒谱将基音谐波和声道的频谱包络分离开来。倒谱的低时部分可以分析声道、声门和辐射信息,而高频部分可以用来分析激励源信息。对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行了定位,即可提取出语音信号的共振峰。图9为共振峰提取原理图。
结合上述的说明,本发明与现有技术相比,具有口语翻译,语音识别时效率更高,识别准确率更高;语音评价时,评价指标更全面,客观评价和反馈指导准确客观,真实性和可信性高等优点,在语音识别与评价系统领域具有很大的消费市场。
Claims (7)
1.一种具有反馈指导的英语句子识别与评价系统,其特征在于:包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、客观评价模块及反馈指导模块,还包括分别与语音识别模块、客观评价模块、反馈指导模块连接的标准语句模型库;
语音采集模块对语音信号进行采集;语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理;语音特征提取模块对语音信号进行语音特征参数的提取;语音识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、客观评价和反馈指导。
2.根据权利要求1所述的具有反馈指导的英语句子识别与评价系统,其特征在于:所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元,通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价。
3.根据权利要求2所述的具有反馈指导的英语句子识别与评价系统,其特征在于:
所述语速评价单元通过计算待评价语句与标准语句的时长比,与所设置的语速阈值进行比较;
所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线,进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度,再将之与标准语音的强度曲线图进行对比,通过比较其拟合程度进行评价;
所述重音评价单元在规整后强度曲线图的基础上,设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长,进行重音单元的划分;进而采用DTW算法对待评价语句和标准语句进行模式匹配;
所述节奏评价单元采用改进的dPVI参数计算公式,根据语音单元时长差异性的特征,将标准语句与待评价语句的音节单元片段时长分别进行对比计算,并转换出相对应的参数;
所述语调评价单元通过提取语句发音的共振峰并加以分析,进而通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化,再将之与标准语音的语调变化进行对比,最后通过比较语调的拟合程度进行评价。
4.一种具有反馈指导的英语句子识别与评价方法,其特征在于:包括以下步骤:
(1)语音采集模块对语音信号进行采集,并根据奈奎斯特采样定理将模拟信号数字化;
(2)语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理;
(3)语音特征提取模块对预处理后的语音信号进行语音特征参数MFCC的提取;
(4)语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理,然后通过与标准语句模型库的匹配,以语音和文本的形式输出识别结果;
(5)客观评价模块和反馈指导模块通过与标准语句模型库的匹配从语句的语速、准确度、重音、节奏和语调方面进行客观评价和反馈指导。
5.根据权利要求4所述的具有反馈指导的英语句子识别与评价方法,其特征在于:所述标准语句模型库包括标准语句的语音信号库、特征参数库、聚类分组库、HMM模型库和文本库。
标准语句模型库用于对语音信号进行语音识别、客观评价和反馈指导的模式匹配。语音信号库存储标准语句的语音信号,包括语音信号的强度曲线图、时长、重音、共振峰及标准发音;特征参数库存储标准语句的特征参数;聚类分组库存储标准语句的所属分组;HMM模型库存储标准语句的HMM模型;文本库存储标准语句的中英文文本。
6.根据权利要求5所述的具有反馈指导的英语句子识别与评价方法,其特征在于:聚类分组库和HMM模型库采用分段均值数据降维算法、聚类模型交叉分组算法、HMM模型聚类分组技术和Viterbi算法进行语音特征降维、分组建模和模型匹配;所述分段均值数据降维算法解决语音特征参数维度较高和不同长度问题,聚类模型交叉分组算法解决分组性能较低问题,HMM模型聚类分组技术解决Viterbi算法运算量和混合高斯分布概率计算量大问题,Viterbi算法解决HMM的解码问题。
7.根据权利要求6所述的具有反馈指导的英语句子识别与评价方法,其特征在于:步骤(4)具体还包括如下步骤:
(a)采用分段均值数据降维算法对语音特征提取模块得到的语音特征进行降维处理;
(b)通过与标准语句模型库的匹配,利用改进的DTW算法确定语音特征聚类分组K;
(c)对第K组内的HMM模型参数进行计算:将语音特征参数作为隐马尔可夫模型的观察序列;训练得到的语音单元为状态序列,通过Viterbi算法解出状态转移序列;
(d)采用决策判决,得到最大概率的状态转移序列;
(e)通过与标准语句模型库的匹配,根据最佳状态序列对应出英语句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210248276.2A CN102800314B (zh) | 2012-07-17 | 2012-07-17 | 具有反馈指导的英语句子识别与评价系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210248276.2A CN102800314B (zh) | 2012-07-17 | 2012-07-17 | 具有反馈指导的英语句子识别与评价系统及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102800314A true CN102800314A (zh) | 2012-11-28 |
CN102800314B CN102800314B (zh) | 2014-03-19 |
Family
ID=47199405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210248276.2A Expired - Fee Related CN102800314B (zh) | 2012-07-17 | 2012-07-17 | 具有反馈指导的英语句子识别与评价系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102800314B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544311A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种基于手机新闻客户端评价系统及其方法 |
CN103617799A (zh) * | 2013-11-28 | 2014-03-05 | 广东外语外贸大学 | 一种适应于移动设备的英语语句发音质量检测方法 |
CN103646644A (zh) * | 2013-12-12 | 2014-03-19 | 华为终端有限公司 | 一种获取语音识别业务信息认可度的方法和装置 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN103971675A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104050965A (zh) * | 2013-09-02 | 2014-09-17 | 广东外语外贸大学 | 具有情感识别功能的英语语音发音质量评价系统及方法 |
CN104408874A (zh) * | 2014-11-28 | 2015-03-11 | 广东欧珀移动通信有限公司 | 一种安全预警方法及装置 |
CN104505103A (zh) * | 2014-12-04 | 2015-04-08 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN104599680A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 移动设备上的实时口语评价系统及方法 |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
TWI563478B (en) * | 2015-06-05 | 2016-12-21 | Shu-Ming Hsieh | Method of displaying architecture of English sentence |
US9697821B2 (en) | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
CN107203755A (zh) * | 2017-05-31 | 2017-09-26 | 中国科学院遥感与数字地球研究所 | 一种用于遥感图像时间序列标记样本自动增新的方法、装置和系统 |
CN107871408A (zh) * | 2017-12-21 | 2018-04-03 | 冯雯雯 | 一种用于英语教学的智能装置 |
CN108320750A (zh) * | 2018-01-23 | 2018-07-24 | 东南大学—无锡集成电路技术研究所 | 一种基于改进型动态时间规整语音识别算法的实现方法 |
CN108376545A (zh) * | 2018-03-15 | 2018-08-07 | 广东小天才科技有限公司 | 一种儿童发声练习的评分控制方法及装置 |
CN108427548A (zh) * | 2018-02-26 | 2018-08-21 | 广东小天才科技有限公司 | 基于麦克风的用户交互方法、装置、设备及存储介质 |
CN108428458A (zh) * | 2018-03-15 | 2018-08-21 | 河南科技学院 | 一种声乐学习电子辅助发音系统 |
CN108922289A (zh) * | 2018-07-25 | 2018-11-30 | 深圳市异度信息产业有限公司 | 一种用于英语口语的打分方法、装置及设备 |
CN109872727A (zh) * | 2014-12-04 | 2019-06-11 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN110084371A (zh) * | 2019-03-27 | 2019-08-02 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的模型迭代更新方法、装置和计算机设备 |
CN111785260A (zh) * | 2020-07-08 | 2020-10-16 | 泰康保险集团股份有限公司 | 分句方法与装置、存储介质、电子设备 |
CN111951625A (zh) * | 2020-09-04 | 2020-11-17 | 中原工学院信息商务学院 | 一种大学英语口语会话互动系统 |
CN112086094A (zh) * | 2020-08-21 | 2020-12-15 | 广东小天才科技有限公司 | 一种纠正发音的方法、终端设备及计算机可读存储介质 |
CN113674764A (zh) * | 2021-08-20 | 2021-11-19 | 广东外语外贸大学 | 基于双向循环神经网络的口译评测方法、系统及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006133521A (ja) * | 2004-11-05 | 2006-05-25 | Kotoba No Kabe Wo Koete:Kk | 語学学習機 |
CN101105939A (zh) * | 2007-09-04 | 2008-01-16 | 安徽科大讯飞信息科技股份有限公司 | 发音指导方法 |
CN101739870B (zh) * | 2009-12-03 | 2012-07-04 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
-
2012
- 2012-07-17 CN CN201210248276.2A patent/CN102800314B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006133521A (ja) * | 2004-11-05 | 2006-05-25 | Kotoba No Kabe Wo Koete:Kk | 語学学習機 |
CN101105939A (zh) * | 2007-09-04 | 2008-01-16 | 安徽科大讯飞信息科技股份有限公司 | 发音指导方法 |
CN101739870B (zh) * | 2009-12-03 | 2012-07-04 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
Non-Patent Citations (1)
Title |
---|
方凡泉等: "语音质量客观评价方法研究及实现", 《广州大学学报(自然科学版)》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971675B (zh) * | 2013-01-29 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
WO2014117555A1 (en) * | 2013-01-29 | 2014-08-07 | Tencent Technology (Shenzhen) Company Limited | Method and system for automatic speech recognition |
US9697821B2 (en) | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
CN103971675A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104050965A (zh) * | 2013-09-02 | 2014-09-17 | 广东外语外贸大学 | 具有情感识别功能的英语语音发音质量评价系统及方法 |
CN104599680B (zh) * | 2013-10-30 | 2019-11-26 | 语冠信息技术(上海)有限公司 | 移动设备上的实时口语评价系统及方法 |
CN104599680A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 移动设备上的实时口语评价系统及方法 |
WO2015062465A1 (zh) * | 2013-10-30 | 2015-05-07 | 上海流利说信息技术有限公司 | 移动设备上的实时口语评价系统及方法 |
EP3065119A4 (en) * | 2013-10-30 | 2017-04-19 | Shanghai Liulishuo Information Technology Co. Ltd. | Real-time oral english evaluation system and method on mobile device |
CN103544311A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种基于手机新闻客户端评价系统及其方法 |
CN103617799A (zh) * | 2013-11-28 | 2014-03-05 | 广东外语外贸大学 | 一种适应于移动设备的英语语句发音质量检测方法 |
CN103617799B (zh) * | 2013-11-28 | 2016-04-27 | 广东外语外贸大学 | 一种适应于移动设备的英语语句发音质量检测方法 |
CN103646644A (zh) * | 2013-12-12 | 2014-03-19 | 华为终端有限公司 | 一种获取语音识别业务信息认可度的方法和装置 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN103928023B (zh) * | 2014-04-29 | 2017-04-05 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104408874A (zh) * | 2014-11-28 | 2015-03-11 | 广东欧珀移动通信有限公司 | 一种安全预警方法及装置 |
CN109872727A (zh) * | 2014-12-04 | 2019-06-11 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN104505103B (zh) * | 2014-12-04 | 2018-07-03 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN104505103A (zh) * | 2014-12-04 | 2015-04-08 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
CN104732977B (zh) * | 2015-03-09 | 2018-05-11 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
TWI563478B (en) * | 2015-06-05 | 2016-12-21 | Shu-Ming Hsieh | Method of displaying architecture of English sentence |
CN107203755A (zh) * | 2017-05-31 | 2017-09-26 | 中国科学院遥感与数字地球研究所 | 一种用于遥感图像时间序列标记样本自动增新的方法、装置和系统 |
CN107203755B (zh) * | 2017-05-31 | 2021-08-03 | 中国科学院遥感与数字地球研究所 | 一种用于遥感图像时间序列标记样本自动增新的方法、装置和系统 |
CN107871408B (zh) * | 2017-12-21 | 2020-11-20 | 冯雯雯 | 一种用于英语教学的智能装置 |
CN107871408A (zh) * | 2017-12-21 | 2018-04-03 | 冯雯雯 | 一种用于英语教学的智能装置 |
CN108320750A (zh) * | 2018-01-23 | 2018-07-24 | 东南大学—无锡集成电路技术研究所 | 一种基于改进型动态时间规整语音识别算法的实现方法 |
CN108427548A (zh) * | 2018-02-26 | 2018-08-21 | 广东小天才科技有限公司 | 基于麦克风的用户交互方法、装置、设备及存储介质 |
CN108376545A (zh) * | 2018-03-15 | 2018-08-07 | 广东小天才科技有限公司 | 一种儿童发声练习的评分控制方法及装置 |
CN108428458A (zh) * | 2018-03-15 | 2018-08-21 | 河南科技学院 | 一种声乐学习电子辅助发音系统 |
CN108922289A (zh) * | 2018-07-25 | 2018-11-30 | 深圳市异度信息产业有限公司 | 一种用于英语口语的打分方法、装置及设备 |
CN110084371B (zh) * | 2019-03-27 | 2021-01-15 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的模型迭代更新方法、装置和计算机设备 |
CN110084371A (zh) * | 2019-03-27 | 2019-08-02 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的模型迭代更新方法、装置和计算机设备 |
CN111785260A (zh) * | 2020-07-08 | 2020-10-16 | 泰康保险集团股份有限公司 | 分句方法与装置、存储介质、电子设备 |
CN111785260B (zh) * | 2020-07-08 | 2023-10-27 | 泰康保险集团股份有限公司 | 分句方法与装置、存储介质、电子设备 |
CN112086094A (zh) * | 2020-08-21 | 2020-12-15 | 广东小天才科技有限公司 | 一种纠正发音的方法、终端设备及计算机可读存储介质 |
CN111951625A (zh) * | 2020-09-04 | 2020-11-17 | 中原工学院信息商务学院 | 一种大学英语口语会话互动系统 |
CN113674764A (zh) * | 2021-08-20 | 2021-11-19 | 广东外语外贸大学 | 基于双向循环神经网络的口译评测方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102800314B (zh) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN106228977B (zh) | 基于深度学习的多模态融合的歌曲情感识别方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
Lee et al. | An information-extraction approach to speech processing: Analysis, detection, verification, and recognition | |
Wang et al. | An acoustic measure for word prominence in spontaneous speech | |
Weninger et al. | Deep Learning Based Mandarin Accent Identification for Accent Robust ASR. | |
Lengerich et al. | An end-to-end architecture for keyword spotting and voice activity detection | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
CN104575490A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
Ryant et al. | Highly accurate mandarin tone classification in the absence of pitch information | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
CN101409073A (zh) | 一种基于基频包络的汉语普通话孤立词识别方法 | |
Zheng et al. | An improved speech emotion recognition algorithm based on deep belief network | |
Wisesty et al. | A classification of marked hijaiyah letters’ pronunciation using hidden Markov model | |
Ling | An acoustic model for English speech recognition based on deep learning | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
Lee et al. | Speech emotion recognition using spectral entropy | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Dai | An automatic pronunciation error detection and correction mechanism in English teaching based on an improved random forest model | |
Yang et al. | Landmark-based pronunciation error identification on Chinese learning | |
Schuller et al. | Late fusion of individual engines for improved recognition of negative emotion in speech-learning vs. democratic vote |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140319 Termination date: 20200717 |
|
CF01 | Termination of patent right due to non-payment of annual fee |