CN101645271B - 发音质量评估系统中的置信度快速求取方法 - Google Patents

发音质量评估系统中的置信度快速求取方法 Download PDF

Info

Publication number
CN101645271B
CN101645271B CN2008102408113A CN200810240811A CN101645271B CN 101645271 B CN101645271 B CN 101645271B CN 2008102408113 A CN2008102408113 A CN 2008102408113A CN 200810240811 A CN200810240811 A CN 200810240811A CN 101645271 B CN101645271 B CN 101645271B
Authority
CN
China
Prior art keywords
frame
phoneme
calculate
voice
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102408113A
Other languages
English (en)
Other versions
CN101645271A (zh
Inventor
董滨
葛凤培
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN2008102408113A priority Critical patent/CN101645271B/zh
Publication of CN101645271A publication Critical patent/CN101645271A/zh
Application granted granted Critical
Publication of CN101645271B publication Critical patent/CN101645271B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。

Description

发音质量评估系统中的置信度快速求取方法
技术领域
本发明属于发音质量评估技术领域,具体地说,本发明涉及一种用于发音质量评估系统中的置信度快速求取方法。
背景技术
在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估系统达到原有的评估精度造成了困难。另外,用户说的词汇如果不在发音质量评估系统预先设定的领域范围内,也较容易造成评估误差。总之,对于商业化的发音质量评估系统,用户的期望是尽可能的准确评估发音质量,与此同时还要求比较快的评估速度,而置信度评价方法正是解决这些困难的一种关键性措施。
置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而提高发音质量评估系统的准确率和稳健性。
目前,把目标文本的后验概率作为计算发音评估的置信度是一种应用较广的做法。例如,图1为现有的置信度计算方法的示意图。如图1所示,输入语音首先通过全音节网络识别器进行一遍解码,在这个过程中,可以获得对应于输入语音的音素分割点,然后在每个音素段内与目标音素强制对齐,从而获得目标文本对应的状态分割点,最终计算出目标文本在待评估语音下的后验概率作为置信度得分。在解码和置信度计算过程中,使用同一个描述精细的大声学模型,由于这种精细模型包含大量的状态信息,所以有利于准确解码进而提高目标音素状态分割点的准确性,但同时给后验概率计算造成了很大的计算量,需要占用更长的系统时间,从而很不利于发音质量评估系统的在线使用和实际推广。
发明内容
本发明的目的是克服现有技术的不足,综合考虑计算速度和稳健性,提供一种用于发音质量评估系统中的置信度快速求取方法,该方法是一种利用粗糙背景模型的广义后验概率作为发音质量评估置信度的快速求取算法。
为实现上述发明目的,本发明提供的发音质量评估系统中的置信度快速求取方法,包括如下步骤:
1)将待识别语音输入语音识别系统中;
2)对输入语音进行预处理,该预处理中包括分帧处理;
3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数(MFCC)特征提取方法提取语音特征;
4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息;
5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值p(xt|st),其负对数为:
- ln p ( x t | s t ) = d ( x t , s t ) = 1 2 [ ( x t - μ t ) Σ t - 1 ( x t - μ t ) + n ln ( 2 π ) + ln ( | Σ t | ) ]
其中,xt为输入的第t帧语音特征;st为第t帧语音特征对应的隐马尔科夫模型的状态,该状态为正态分布N(μt,∑t),μt和∑t分别是状态st模型的均值矢量和协方差矩阵;n是特征向量xt的维数,即μt和∑t的维数;
6)引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和
Figure G2008102408113D00022
其中,D*是粗略背景模型中所有状态的集合;
7)计算每一帧待评估语音的广义后验概率: p ( s t | x t ) = p ( x t | s t ) Σ s k ∈ D * p ( x t | s k ) ;
8)分别计算每个音素的广义后验概率: p ( ph ) = 1 τ e - τ s + 1 Σ t = τ s τ e p ( s t | x t ) ,
其中,τs、τe分别指输入的语音特征在当前音素的起始帧号和结束帧号,st是从强制对齐结果中获得的对应于第t帧语音特征xt的状态号;
9)将音素的广义后验概率作为该音素在发音质量评估系统中的置信度得分。
上述技术方案中,所述步骤2)中对输入语音进行预处理包括对输入语音进行数字化、预加重高频提升、分帧及加窗处理。
上述技术方案中,所述步骤3)中提取语音特征包括:计算PLP或MFCC参数系数、计算能量特征和计算差分系数。
上述技术方案中,所述步骤4)中全音节循环网络解码过程采用viterbi解码方法。
本发明的优点是,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。在现有技术中,解码和置信度计算两部分使用同一个描述精细的大声学模型,这种精细模型包含大量的状态信息,所以有利于准确解码进而提高目标音素状态分割点的准确性,但同时给后验概率计算造成了很大的计算量,需要占用更长的系统时间。本发明是一种在保证状态分割点准确性的基础上置信度计算的简化算法,是在后验概率计算过程中引入背景模型,在简单的背景模型基础上获得后验概率分母值,因此只需要对少数几个状态计算各帧的似然值,极大节省了系统的运行时间和计算的复杂度。
附图说明
图1是现有技术的置信度计算方法的示意图;
图2是本发明的置信度快速求取方法一个实施例的流程图;
图3是本发明的置信度快速求取方法中的状态图的搭建示意图;
图4是本发明的置信度快速求取方法中的基于状态图的强制对齐示意图。
具体实施方式
下面结合附图及具体实施例对本发明的置信度快速求取方法做进一步地描述。
图2是本发明的置信度快速求取方法一个实施例的流程图。如图2所示,本发明提供的发音质量评估系统中的置信度快速求取方法包括如下步骤:
1)将待识别语音输入语音识别系统中。
2)对输入语音进行预处理,主要是进行分帧处理。
在本实施例中,预处理采用如下流程:
2-1)将语音信号按照16K(或8K)采样率进行数字化;
2-2)通过预加重进行高频提升:
预加重滤波器是:H(z)=1-αz-1,其中α=0.98。
2-3)将数据进行分帧处理:取帧长25ms、帧间重叠15ms,可根据需要适当调整;
2-4)加窗处理:
窗函数采用常用的hamming窗函数: w ( n ) = 0.54 - 0.46 cos ( 2 πn N - 1 )
其中,0≤n≤N-1。
3)提取语音特征:本发明可采用PLP(Perceptual Linear Predictive,感知加权线性预测)或者MFCC(mel-frequency cepstral coefficient,美尔域倒谱系数)参数特征提取方法,具体流程如下:
3-1)计算每帧语音的PLP或MFCC参数系数c(m),1≤m≤Nc,其中Nc为倒谱系数的个数,Nc=12;
3-2)计算每帧语音的能量特征;
3-3)计算能量特征和倒谱特征的一阶和二阶差分。采用如下的回归公式计算差分倒谱系数:
∂ c ( t ) ∂ t = μ Σ τ = - T T τc ( t + τ ) , 其中μ是归一化因子,τ为整数,2T+1为用于计算差分倒谱系数的语音帧数,其中:T=2,μ=0.375;
3-4)对于每一帧语音,生成39维的特征向量。
4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息。
本步骤中所利用到的状态图的构建方法如下:
图3是本发明的置信度快速求取方法中的状态图的搭建示意图。如图3所示,首先根据全音节语法搭建起一个基于所有音节的搜索空间,即一个所有音节并联的可循环网络。识别器将在这个音节的网络上进行搜索,找到对应于输入语音的最好的一条路径作为识别结果。在搜索以前,借助识别系统中字典的信息,把词的网络展开成一个最小单位是音素的音素网络。每个节点由一个音节变为一个音素,然后每个音素再被声学模型中相对应的隐马尔可夫模型(HMM)所取代,每个马尔可夫模型(HMM)由若干个状态组成。这样,最终的搜索空间就变成了一个状态图,状态图中的任意一条路径代表一个音节序列候选,通过比较不同路径上的累积概率值(似然概率与转移概率)来获得最优路径作为识别结果。
本实施例中采用的精细声学模型是与性别有关的,男生模型包含4665个状态,女生模型包含4015个状态,每个状态都是由16个高斯共同描述的。
本实施例中,在解码过程中采用了传统的viterbi搜索策略。
5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音在其相应状态下的似然概率值p(xt|st),其负对数为:
- ln p ( x t | s t ) = d ( x t , s t ) = 1 2 [ ( x t - μ t ) Σ t - 1 ( x t - μ t ) + n ln ( 2 π ) + ln ( | Σ t | ) ]
其中,xt为输入的第t帧语音特征;st为第t帧语音特征对应的隐马尔科夫模型的状态,该状态为正态分布N(μt,∑t),μt和∑t分别是状态st模型的均值矢量和协方差矩阵,其具体数值从声学模型中获得;n是特征向量xt的维数,即μt和∑t的维数。
该强制对齐过程也是一个简单的解码过程,只是这时的候选项是同一音素的所有状态序列,最佳状态序列作为最佳路径被解出来。图4是本发明的置信度快速求取方法中的基于状态图的强制对齐示意图。在图4中,虚线代表候选状态序列,而黑实线代表解出来的最优路径即最佳状态序列。如图4所示,当某一状态序列对观察序列(本实施例中的观察序列为特征向量)出现的似然概率P(X|S)最大时,认为该状态序列为最佳状态序列。
6)引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和其中,D*是粗略背景模型中所有状态的集合,将该和作为广义后验概率的分母代替采用精细模型的分母计算。
背景模型是将训练数据中的所有非sil和sp的音素均标记成背景音素bg,从而训练得到的一个只包含三个音素(sil,sp,bg)七个状态的简单声学模型。它与精细声学模型的区别主要在于声学概率空间中概率分布的精细程度,因此不管是背景模型还是精细模型所描述的声学空间的大致轮廓是相同的。而在声学模型所有状态下计算的似然概率和正是这种空间轮廓的反应,所以采用这种简单背景模型可以极大减少计算量,同时不会造成评估性能的严重降低。
7)计算每一帧待评估语音的广义后验概率: p ( s t | x t ) = p ( x t | s t ) Σ s k ∈ D * p ( x t | s k ) .
8)分别计算每个音素的广义后验概率: p ( ph ) = 1 τ e - τ s + 1 Σ t = τ s τ e p ( s t | x t ) ,
其中τs、τe分别指输入的语音特征在当前音素的起始帧号和结束帧号,st是从强制对齐结果中获得的对应于第t帧语音特征xt的状态号。
9)音素的广义后验概率即可作为该音素的置信度得分。
音素的置信度得分被用来衡量该音素发音质量的好坏。在评价置信度计算方法的性能时,采用与专家评估作对比的方式进行,即对同一批语音数据机器评估和专家评估发音质量同时进行,以专家评估的结果作为标准,机器评估结果与其一致认为机器评估正确,否则认为机器评估错误,这样统计出一个打分正确率的值。比较打分正确率的变化即可获知不同置信度算法的性能变化情况。从音素的置信度得分到机器评估结果之间存在着影射关系的问题,在此采用了阈值分类的方法。首先采用一个开发数据集按照打分正确率最高的原则,训练出各个音素的置信度阈值;在测试过程中,针对特定音素,当其置信度得分高于该音素的阈值时认为发音较准确,反之则认为该发音存在缺陷。
测试试验:
使用香港普通话水平考试现场录制的三个数据集对本发明中的利用背景模型计算分母的置信度快速估计算法进行试验。试验任务是评价发音质量评估系统的音素打分正确率。三个数据集分别被称为PSK1、PSK2和PSK3,PSK1由182个女生和107个男生的语音数据构成,PSK2中有122个女生和79个男生的数据,PSK3中有64个女生和44个男生的数据。每位朗读者朗读的目标语音都是事先指定的50个单字和25个双字词,三个数据集之间事先指定的目标语音内容各不相同。朗读者均是香港本地的大学生毕业生,普通话水平普遍不太好。对所有语音数据均有语言学专家的音素打分结果作为评价发音质量评估系统准确性的依据。置信度的得分被用来区分发音质量的好坏。当置信度得分高于事先设定的门限时认为发音较准确,反之则认为该发音存在缺陷。这个门限我们是通过训练得到的,即我们从每个数据集中随机取出60%作为开发集用来训练门限值,剩下的40%作为其测试集。我们的目标是提高音素打分正确率,即尽可能使机器评估的准确性接近于专家评估。
使用两种不同的算法计算置信度。一种如图1所示,定义为精细算法,另一种为如图2所示的本发明的引入背景模型的快速置信度算法,定义为广义算法。在精细算法中,使用统一的精细声学模型,即与性别有关的,男生模型包含4665个状态,女生模型包含4015个状态,每个状态都是由16个高斯共同描述的声学模型。而在广义算法中,除了使用以上的精细声学模型,还引入了一个背景模型,用来描述整体声学空间的分布状况,它包含7个状态,每个状态由128个高斯模型共同描述。
表1是本发明的背景模型快速计算方法与现有技术的精细模型计算方法的性能对比测试表。两种算法的性能对比测试结果如下表1所示。
表1:
Figure G2008102408113D00071
从表中可以看出,本发明所使用的引入背景模型的快速置信度算法的性能要好于精细置信度算法。本发明采用的置信度算法的打分正确率在PSK1韵母上达到87.6%,相应精细算法的打分正确率为87.0%。虽然在广义置信度算法中只使用了状态数很少的背景声学模型来计算后验概率的分母部分,但是由于背景模型仍然能够描述整个声学空间的大致分布状况,只是精细模型的一个概化,所以性能依然没有降低。
此外,两种方法的计算复杂度有很大的差别,实时测试中引入背景模型的快速置信度算法要比只采用精细声学模型的置信度算法的速度提高3倍以上。

Claims (4)

1.一种发音质量评估系统中的置信度快速求取方法,其特征在于,包括如下步骤:
1)将待识别语音输入语音识别系统中;
2)对输入语音进行预处理,该预处理中包括分帧处理;
3)采用感知加权线性预测参数特征提取方法或者美尔域倒谱系数特征提取方法提取语音特征;
4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息;
5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值p(xt|st),其负对数为:
- ln p ( x t | s t ) = d ( x t , s t ) = 1 2 [ ( x t - μ t ) Σ t - 1 ( x t - μ t ) + n ln ( 2 π ) + ln ( | Σ t | ) ]
其中,xt为输入的第t帧语音特征,st为第t帧语音特征对应的隐马尔科夫模型的状态,该状态为正态分布N(μt,∑t),μt和∑t分别是状态st模型的均值矢量和协方差矩阵,n是特征向量的维数;
6)引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和
Figure FDA0000080591730000012
其中,D*是粗略背景模型中所有状态的集合;
7)计算每一帧待评估语音的广义后验概率:
Figure FDA0000080591730000013
8)分别计算每个音素的广义后验概率:
Figure FDA0000080591730000014
其中,τs、τe分别指输入的语音特征在当前音素的起始帧号和结束帧号,st是从强制对齐结果中获得的对应于第t帧语音特征xt的状态号;
9)将音素的广义后验概率作为该音素在发音质量评估系统中的置信度得分。
2.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法,其特征在于,所述步骤2)的语音预处理具体流程如下:
2-1)将语音信号按照16K或者8K采样率进行数字化;
2-2)通过预加重进行高频提升:
预加重滤波器是:H(z)=1-αz-1
其中,α=0.98;
2-3)将数据进行分帧处理:取帧长25ms、帧间重叠15ms;
2-4)加窗处理:
窗函数采用hamming窗函数: w ( n ) = 0.54 - 0.46 cos ( 2 πn N - 1 )
其中,0≤n≤N-1。
3.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法,其特征在于,所述步骤3)中提取的语音特征包括:计算感知加权线性预测或美尔域倒谱系数的参数系数、计算能量特征和计算差分系数,具体流程如下:
3-1)计算每帧语音的感知加权线性预测或美尔域倒谱系数参数系数c(m),1≤m≤Nc,其中Nc为倒谱系数的个数,取Nc=12;
3-2)计算每帧语音的能量特征;
3-3)计算能量特征和倒谱特征的一阶和二阶差分,采用如下的回归公式计算差分倒谱系数:
∂ c ( t ) ∂ t = μ Σ τ = - T T τc ( t + τ )
其中,μ是归一化因子,τ为整数,2T+1为用于计算差分倒谱系数的语音帧数,T=2,μ=0.375;
3-4)对于每一帧语音,生成39维的感知加权线性预测或者美尔域倒谱系数特征向量。
4.根据权利要求1所述的发音质量评估系统中的置信度快速求取方法,其特征在于,所述步骤4)中全音节循环网络解码过程采用viterbi解码方法。
CN2008102408113A 2008-12-23 2008-12-23 发音质量评估系统中的置信度快速求取方法 Expired - Fee Related CN101645271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102408113A CN101645271B (zh) 2008-12-23 2008-12-23 发音质量评估系统中的置信度快速求取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102408113A CN101645271B (zh) 2008-12-23 2008-12-23 发音质量评估系统中的置信度快速求取方法

Publications (2)

Publication Number Publication Date
CN101645271A CN101645271A (zh) 2010-02-10
CN101645271B true CN101645271B (zh) 2011-12-07

Family

ID=41657124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102408113A Expired - Fee Related CN101645271B (zh) 2008-12-23 2008-12-23 发音质量评估系统中的置信度快速求取方法

Country Status (1)

Country Link
CN (1) CN101645271B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
CN101840699B (zh) * 2010-04-30 2012-08-15 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102881289B (zh) * 2012-09-11 2014-04-02 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
CN103186658B (zh) * 2012-12-24 2016-05-25 中国科学院声学研究所 用于英语口语考试自动评分的参考语法生成方法和设备
CN103559894B (zh) * 2013-11-08 2016-04-20 科大讯飞股份有限公司 口语评测方法及系统
CN104050964A (zh) * 2014-06-17 2014-09-17 公安部第三研究所 音频信号还原度检测方法及系统
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
CN106782508A (zh) * 2016-12-20 2017-05-31 美的集团股份有限公司 语音音频的切分方法和语音音频的切分装置
CN106782536B (zh) * 2016-12-26 2020-02-28 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质
CN109686383B (zh) * 2017-10-18 2021-03-23 腾讯科技(深圳)有限公司 一种语音分析方法、装置及存储介质
CN109036384B (zh) * 2018-09-06 2019-11-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109243429B (zh) * 2018-11-21 2021-12-10 苏州奇梦者网络科技有限公司 一种语音建模方法及装置
CN110390948B (zh) * 2019-07-24 2022-04-19 厦门快商通科技股份有限公司 一种快速语音识别的方法及系统
CN112687291B (zh) * 2020-12-21 2023-12-01 科大讯飞股份有限公司 一种发音缺陷识别模型训练方法以及发音缺陷识别方法
CN112951276B (zh) * 2021-04-23 2024-02-20 北京一起教育科技有限责任公司 一种综合评价语音的方法、装置及电子设备
CN112863486B (zh) * 2021-04-23 2021-07-23 北京一起教育科技有限责任公司 一种基于音素的口语评测方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
JP2008040035A (ja) * 2006-08-04 2008-02-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
JP2008040035A (ja) * 2006-08-04 2008-02-21 Advanced Telecommunication Research Institute International 発音評定装置、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贲俊等.基于语音识别置信度的英语语言学习算法研究.《上海大学学报(自然科学版)》.2002,(第05期),全文. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Also Published As

Publication number Publication date
CN101645271A (zh) 2010-02-10

Similar Documents

Publication Publication Date Title
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
CN105845134B (zh) 自由朗读题型的口语评测方法及系统
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN100411011C (zh) 用于语言学习机的发音质量评价方法
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN101650886B (zh) 一种自动检测语言学习者朗读错误的方法
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
US11056100B2 (en) Acoustic information based language modeling system and method
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
CN101840699A (zh) 一种基于发音模型的语音质量评测方法
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
Besacier et al. Towards speech translation of non written languages
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
Mao et al. Applying multitask learning to acoustic-phonemic model for mispronunciation detection and diagnosis in l2 english speech
Shen et al. Self-supervised pre-trained speech representation based end-to-end mispronunciation detection and diagnosis of Mandarin
Mary et al. Searching speech databases: features, techniques and evaluation measures
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Luo et al. Automatic pronunciation evaluation of language learners' utterances generated through shadowing.
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
WO2022140166A1 (en) Systems and methods for speech validation
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Pranjol et al. Bengali speech recognition: An overview
Rocha et al. Voice segmentation system based on energy estimation
Rahman et al. Arabic Speech Recognition: Advancement and Challenges

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111207

CF01 Termination of patent right due to non-payment of annual fee