CN101562012B - 语音分级测定方法及系统 - Google Patents

语音分级测定方法及系统 Download PDF

Info

Publication number
CN101562012B
CN101562012B CN2008101041821A CN200810104182A CN101562012B CN 101562012 B CN101562012 B CN 101562012B CN 2008101041821 A CN2008101041821 A CN 2008101041821A CN 200810104182 A CN200810104182 A CN 200810104182A CN 101562012 B CN101562012 B CN 101562012B
Authority
CN
China
Prior art keywords
voice
decision tree
voice signal
sound template
template vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101041821A
Other languages
English (en)
Other versions
CN101562012A (zh
Inventor
许军
张化云
陈炜
李慧勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuang'exin (Beijing) Technology Co.,Ltd.
Original Assignee
Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Technology Ltd filed Critical Creative Technology Ltd
Priority to CN2008101041821A priority Critical patent/CN101562012B/zh
Publication of CN101562012A publication Critical patent/CN101562012A/zh
Application granted granted Critical
Publication of CN101562012B publication Critical patent/CN101562012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种语音分级测定方法及系统。该方法包括步骤:将接收到的语音信号进行语音识别,根据参考文本和参考模型获取状态对齐的语音特征序列;根据状态对齐的语音特征序列对参考模型分布参数进行修正,生成所述语音信号基于该参考模型的语音模板矢量;利用支持向量机分类判决树对所述语音模板矢量进行分类判决,获得所述语音模板矢量映射的分类等级。本发明引入支持向量机对语言分类边界进行建模并应用于语言学习中,对接收的语音信号提取语音特征并与参考模型进行状态对齐,修正参考模型分布参数并生成相应的语音模板矢量,利用支持向量机分类判决树对语音模板矢量进行判决,有效降低了语音分类判决的复杂度,提高语音分级测定的准确性。

Description

语音分级测定方法及系统
技术领域
本发明涉及语音识别领域,特别是涉及一种语音分级测定方法及系统。
背景技术
语音识别的本质是对语音信号进行分类。传统语音识别建模的重点在于捕捉不同发言人在不同场合中相同内容发音之间的共性。目前,较为成熟的语音识别建模是基于状态概率分布密度的隐马尔可夫模型(Hidden MarkovModel,以下简称HMM)。基于HMM模型的语音识别中,计算置信度常用的方法是对数似然法(Log Likelihood Ratio,简称LLR), LLR = log ( x / Λ ) - log ( x / Λ ‾ ) , 其中,x为发音脚本,Λ为发音脚本对应的HMM声学模型; 
Figure DEST_PATH_S2008101041821D00012
为相应的反模型。基于HMM模型的对数似然法对于完成语音识别任务方面的应用通常是有效的做法。但是,发明人在实现本发明时发现,基于HMM模型的对数似然法应用到语言学习中,至少存在如下缺陷:
1、不能识别语言学习者发音的细微差别。语言学习与语音识别最大的区别在于,语言学习中语音测定目标更为关注语言学习者发音的细节特征。目前基于HMM模型的对数似然法中,反模型的参数缺乏有效的确定方法,而是采用一些近似的算法,例如:最大似然准则(Maximum LikelihoodPrinciple,简称MLP),对反模型的参数进行估计。因此采用对数似然法不能够区分一段语音中的个别发音错误,即传统语音识别不能区分的发音,对数似然法也无法区分。
2、采用该方法进行语音识别往往需要提供海量的训练数据。HMM模型利用最大似然准则来估计状态的输出概率分布密度,从而实现语音的识别。但在语言学习中,大量采集语音专家的标准发音需要较高成本,即采集海量的训练数据存在困难。
总之,由于语音识别与语言学习中语音测定目标不同,基于HMM模型的对数似然法存在语音分级判决复杂度高、语音分级测定准确度低等缺陷。
发明内容
本发明要解决的技术问题是提供一种语音分级测定方法及系统,用以降低语音分级判决的复杂度,提高语音分级测定的准确性。
为解决上述技术问题,本发明第一方面通过一些实施例提供了一种语音分级测定方法,包括以下步骤:
将接收到的语音信号进行语音识别,根据参考文本对接收的语音信号提取语音特征,并根据参考模型采用维特比算法对所述语音特征进行维特比状态对齐,获取状态对齐的语音特征序列;所述参考模型为隐马尔可夫模型;
根据状态对齐的语音特征序列,对各状态相应的所述参考模型分布参数进行最大后验概率修正;将修正后的所述隐马尔可夫模型中所有均值矢量顺序连接,获得所述语音信号相对于所述隐马尔可夫模型的语音模板矢量;
利用支持向量机分类判决树对所述语音模板矢量进行分类判决,获得所述语音模板矢量映射的分类等级。
本发明第一方面实施例提供的语音分级测定方法中,将采用支持向量机对语言分类边界进行建模并引入语言学习应用中,对接收的语音信号提取语音特征序列,与参考模型进行状态对齐,修正参考模型分布参数并生成相应的语音模板矢量,利用支持向量机分类判决树对语音模板矢量进行判决,有效降低了语音分类判决的复杂度,提高语音分级测定的准确性。
为解决上述技术问题,本发明第二方面通过另一些实施例提供了一种语音分级测定系统,包括:
模型库,用于存储参考文本和参考模型;
语音识别模块,将接收到的语音信号进行语音识别,根据参考文本和参考模型获取状态对齐的语音特征序列;
模板矢量生成模块,用于根据状态对齐的语音特征序列对参考模型分布参数进行修正,生成所述语音信号基于该参考模型的语音模板矢量;
判决模块,用于利用支持向量机分类判决树对所述语音模板矢量进行分 类判决,获得所述语音模板矢量映射的分类等级;所述模板矢量生成模块,包括:修正单元,用于根据状态对齐的语音特征序列,分别对各状态下隐马尔可夫模型的分布参数进行最大后验概率修正;
模板矢量生成单元,用于将修正后的隐马尔可夫模型中所有均值矢量顺序连接,获得所述语音信号相对于所述隐马尔可夫模型的语音模板矢量。
本发明第二方面实施例提供的语音分级测定系统中,将支持向量机引入对语言分类边界进行建模中并应用于语言学习中,语音识别模块对接收的语音信号提取语音特征并获取状态对齐的语音特征序列,模板矢量生成模块修正参考模型分布参数并生成相应的语音模板矢量,通过判决模块利用支持向量机分类判决树对语音模板矢量进行判决,有效降低了语音分类判决的复杂度,提高语音分级测定的准确性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明语音分级测定方法第一实施例流程图;
图2为本发明语音分级测定方法第二实施例流程图;
图3为本发明特定HMM模型下语音模板矢量的计算方法示意图;
图4为本发明采用SVM分类判决树实施例示意图;
图5为本发明语音测定系统第一实施例结构示意图;
图6为本发明语音测定系统第二实施例结构示意图。
具体实施方式
图1为本发明语音分级测定方法第一实施例流程图。如图1所示,该语音分级测定方法包括:
步骤11、接收语音信号。
该语音信号可至少包括训练样本语音信号或测试语音信号。当该语音信号为训练样本语音信号时,对应流程为系统的学习训练过程;当该语音信号为测试语音信号时,对应流程为系统的分级测定过程。
步骤12、对接收的语音信号进行语音识别,根据参考文本和参考模型获取状态对齐的语音特征序列。
参考文本和参考模型存储在语音分级测定系统的存储库中,当接收到语音信号后,将接收的语音信号相对于存储库中存储的相应参考文本和参考模型进行时间对准或采用维特比算法进行状态对准,获取该接收的语音信号状态对齐的语音特征序列。
步骤13、根据状态对齐的语音特征序列对参考模型分布参数进行修正,生成该语音信号基于该参考模型的语音模板矢量。
参考模型存储在语音分级测定系统的存储库中,存储库中可存储有多种参考模型。本步骤根据接收语音信号状态对齐的语音特征序列,对存储库中的一个参考模型的分布参数进行修正处理,将语音特征序列转换至高维矢量空间,提取该语音信号基于该参考模型的语音模板矢量。训练样本语音信号和测试语音信号均可采用该方法分别获得训练样本语音信号的语音模板矢量和测试语音信号的语音模板矢量。根据训练样本语音信号的语音模板矢量可建立支持向量机分类判决树。
步骤14、利用支持向量机分类判决树对测试语音信号的语音模板矢量进行分类判决,获得测试语音信号的语音模板矢量映射的分类等级。
发明人在实现本发明过程中发现,语言学习相对于语音识别更为关注语言学习者发音的细节特征,因此,采用语音分类的边界进行建模,相对于语音识别中对语音的概率分布密度进行建模的方法,更能适合语言学习的任务要求。支持向量机(Support Vector Machines,以下简称SVM)是对数据分类的边界进行建模的有效方法。但由于经典SVM是一种静态二元分类器,并不能直接应用于语音信号处理。将SVM应用到语言学习中,还需解决二个关键的问题:
1、由于语音信号是动态时间序列,如何将语音转换至高维矢量空间;
2、语音测定是多分类任务,SVM如何进行高效可靠的语音多类分类。
本实施例将对语言分类边界进行建模的支持向量机引入语言学习应用中,通过对接收的语音信号提取语音特征并生成相应的语音模板矢量,可将 语音信号转换成高维矢量空间;利用支持向量机分类判决树对语音模板矢量进行判决,可进行高效可靠的语音多类分类,有效降低了语音分类判决的复杂度,提高语音分级测定的准确性。
图2为本发明语音分级测定方法第二实施例流程图。如图2所示,该语音分级测定方法包括:
步骤21、接收语音信号。
该语音信号可至少包括训练样本语音信号或测试语音信号。当该语音信号为训练样本语音信号时,对应流程为系统的学习训练过程;当该语音信号为测试语音信号时,对应流程为系统的分级测定过程。
步骤22、根据参考文本对接收的语音信号提取语音特征,并根据参考模型采用维特比算法对该语音信号的语音特征进行维特比状态对齐,获取该语音信号相应的状态对齐的语音特征序列。
上述语音特征的提取通常是基于语音帧。根据语音信号的短时平稳特性,可以把语音信号分成若干帧进行处理,每一帧的长度约为10~30ms,对每一帧提取一次语音特征。分帧可以采用连续分段的方法,但为了体现相邻两帧数据之间的相关性,以及使帧与帧之间平滑过渡,保持其连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头重叠,通常帧移为帧长的1/2。分别提取出各帧的语音特性,将语音特性进行顺序连接,获得了语音特征序列。
语音特征的提取还需综合考虑存储量的限制和识别性能的要求。如:可以使用梅尔频率倒谱系数(Mel-Frequency Ceptral Coefficients,简称MFCC)。为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡到0,就要让语音帧乘以一个窗函数。由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。将加窗后的帧经过快速傅立叶变换(Fast Fourier Transform,简称FFT),求出每帧的频谱参数。再将每帧的频谱参数通过一组N个(N一般为20~30个)三角形带通滤波器所组成的 梅尔频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(logenergy)Ek,k=1,2,...N。再将此N个参数进行余弦变换(cosine transform)求出L阶的梅尔倒频谱(Mel-scale cepstrum)参数。
基于动态规划的维特比算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准,词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。
步骤23、根据状态对齐的语音特征序列,对该语音特征序列中相应状态的参考模型分布参数进行最大后验概率修正,将修正后该参考模型中所有均值矢量顺序连接,获得该语音信号相对于该特定HMM参考模型的语音模板矢量。
上述参考模型可为隐马尔科夫模型(Hidden Markov Model,以下简称HMM)。HMM是一个离散时域有限状态自动机,是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征(如:语音特征)。
由于HMM是语音信号建模的有效方法,本实施例利用HMM结构化表达方法将变长的语音信号转换成高维数的支持向量机样本空间。图3为本发明特定HMM模型下语音模板矢量的计算方法示意图。
假设一段语音信号对应的特定HMM模型为:由N个状态级连组成的无跳变HMM模型,N为大于或等于1的整数,该模型中每个状态的概率分布密度由混合高斯函数表示:
p ( x ) = Σ j = 1 M ω ij N ( o t ; μ ij , Σ ij )
其中ot为语音信号的语音特征,i为状态序数(1≤i≤N),M为第i个状态包含的高斯的总数量(M为大于或等于1的整数),j为高斯的序数(1≤j≤M),N(·)为高斯函数,ωij为混合高斯权重,即第i个状态第j个 高斯的混合高斯权重,μij和∑ij分别为高斯函数参数,即分别为均值矢量和协方差矩阵,μij即第i个状态第j个高斯均值矢量,∑ij即第i个状态第j个高斯协方差矩阵。
利用状态对齐的语音的特征序列对各状态分布进行最大后验概率(Maximun A Posteriori,简称MAP)修正。
举例说明:假设Λ为参考模型的一个分布参数,0(t)为输入的语音数据,该分布参数优化后表示为Λ′。参考模型的分布参数的优化准则如下:
Λ ′ = max arg Λ P ( Λ | O )
该优化准则可采用最大期望(Expectation-Maximization,简称EM)算法进行迭代求解。
对于由N个状态级连组成的无跳变HMM模型中,每个状态的概率分布密度都是一个连续混合高斯分布模型,模型中的均值矢量μij优化后的均值矢量表示为 
Figure DEST_PATH_S2008101041821D00072
优化公式如下:
μ ^ ij = D · μ ij + Σ t γ ij ( t ) o ( t ) D + Σ t γ ij ( t )
其中,ot为输入的语音信号的语音特征;γij(t)为高斯分布N(μij,∑ij)相对于ot的占有概率;D为语音模板矢量的维数,为大于或等于1的整数。γij(t)的计算方法如下:
γ ij ( t ) = N ( o t ; μ ij , Σ ij ) Σ i ′ = 1 N Σ j ′ = 1 M N ( o t ; μ i ′ j ′ , Σ i ′ j ′ )
如图3所示,利用状态对齐的语音的特征序列对各状态分布进行最大后验概率(Maximun A Posteriori,简称MAP)修正,将修正后所有均值矢量 
Figure DEST_PATH_S2008101041821D00075
(1≤i≤N;1≤j≤M)顺序连接得到该段语音信号基于该特定HMM模型的语音模板矢量。通过上述步骤可实现将动态时间序列的语音信号转换成高维数支持向量机样本空间。
在采用本实施例的方法进行分级测定之前,还包括采用训练样本语音信号对测定系统进行学习训练的过程。在学习训练过程中,训练样本语音信号 可存储在模板中,这些样本语音信号已经经语音专家逐条测价分成不同的等级。训练时,采用上述修正方法分别计算出样本语音信号在该特定HMM模型的语音模板矢量。
步骤24、将求得的样本语音信号的语音模板矢量映射到语音专家对该样本语音信号已测价的类别或等级,任意二个不同的类别数据构造一个二元支持向量机分类器,将构造好的各二元支持向量机分类器以二分树的结构组成支持向量机分类判决树。
采用上述修正方法求得样本语音信号对应的语音模板矢量,将求得的样本语音信号的语音模板矢量映射到语音专家对该样本语音信号已测价的类别或等级。
SVM分类判决树的建立用以解决SVM的多元分类问题。在语言辅助学习中,专家对学习者发音质量的评定通常包括多个等级,采用多级打分的方式区分不同学习者的不同发音质量。可见,语言学习属于一个多元分类的问题。一个实用的语言学习系统对学习者发音测定可能输出多个等级,例如,可包括:优秀、良好、一般、失败等4个等级。对于数据多元分类的问题,经典的支持向量机(以下简称SVM)是一种静态的二元分类器,并不能直接应用到语言学习中。如果采用SVM建模解决多元分类,需对经典的SVM进行改进,已有的改进方法主要有:一对多SVM分类法和一对一的分类法。
其中,一对多SVM分类法为每类数据训练一个SVM分类器,用于区分当前类别数据与其他类别数据。训练时依次把属于其中某一类别的模板标注为正样本,其他剩下的所有样本归为负样本,这样Z(Z为大于或等于1的正整数)个类别的训练模板共可以构造Z个二元SVM分类器。测试时分别对所有的二元SVM分类器计算决策函数值,并选择其中最大值对应的分类作为识别结果。该方法存在的问题是,所需的训练数据多,训练困难,一对多SVM分类器使得分类边界复杂化,从而降低分类的性能。
而一对一SVM分类法只限于区分分属于二个不同类别的数据,即建立二元分类器。这样完成K类识别共需要Z×(Z-1)/2个SVM。识别时,将测试模板在 每一个分类器的判决结果进行投票判决。得票最多的类别作为识别结果。该方法存在的缺陷是:二元分类器的数目随类别数K急剧增加,识别运算量大,算法复杂度高,并且样本空间中存在不可区分空间。
本实施例是基于一对一SVM方法构造二元SVM分类器,对于K个类别,需构造的二元SVM分类器的数量为Z×(Z-1)/2个,每个SVM分类器用于区分分别映射于二类不同等级的数据。SVM分类器的目标是将D维空间内的样点通过D-1维的超平面分成两个不同类别,并且保证两类样点之间的间隔最大。例如,样本语音表示为(xk,yk),其中xk表示训练样本语音信号的语音模板矢量,为D维矢量,D为大于或等于1的整数;k为训练样本语音信号的序号;yk=±1表示训练样本语音的等级类别。寻找分类超平面可表示为:w·x-b=0;(w,b)为SVM分类器的模型参数。
为了保证最大分类间隔,该二元SVM分类器对应的各训练样本语音信号的语音模板矢量的判决公式如下:
w · x k - b ≥ + 1 if y k = + 1 w · x k - b ≤ - 1 if y k = - 1
该判决公式表示的是:对于属于等级类别yk=+1的数据,各训练样本语音模板矢量需满足:w·xk-b≥+1;对于属于等级类别yk=-1的数据,各训练样本语音模板矢量需满足:w·xk-b≤-1。采用二次规划(QuadraticProgramming,简称QP)算法可以分别求解出上式中的参数(w,b),即获得该二元SVM分类器对应的模型参数。采用上述方法构造好二元SVM分类器后,将这些二元SVM分类器按二分树的结构组织成SVM分类判决树。
步骤25、利用支持向量机分类判决树对测试语音信号对应的语音模板矢量进行分类判决:从支持向量机分类判决树的根节点开始,依次根据判决过程所经节点对应的二元支持向量机分类器,对测试语音信号对应的语音模板矢量进行是/非判决,每次判决排除一个候选等级,直至到达支持向量机分类判决树的叶节点,获得该语音模板矢量映射的分类等级。
图4为本发明采用SVM分类判决树实施例示意图。假设一个语音测定系 统的学习数据库中存储的语音片断,经专家逐条测价划分为4个等级:A、优秀;B、良好;C、一般;D、失败。通过对不同分类数据的学习过程,将相应语音片断在特定HMM模型中的语音模板矢量映射到相应的等级中,这样根据4个等级可以构造6个二元SVM分类器:
“A类数据+B类数据”对应“优秀/良好”二元SVM分类器;
“A类数据+C类数据”对应“优秀/一般”二元SVM分类器;
“A类数据+D类数据”对应“优秀/失败”二元SVM分类器;
“B类数据+C类数据”对应“良好/一般”二元SVM分类器;
“B类数据+D类数据”对应“良好/失败”二元SVM分类器;
“C类数据+D类数据”对应“一般/失败”二元SVM分类器。
根据构造好的6个二元分类器,建立如图4所示的SVM分类判决树。测定时,由SVM分类判决树的根节点开始,至叶结点结束,依次经过其中4个节点对应的二元SVM分类器对测试语音特征序列进行是/非判决,每次判决排除一个候选等级。例如,在根节点进行“优秀/失败”二元SVM分类器的判决时,候选级为“优秀”或“失败”。如果测试语音特征序列相对于该“优秀/失败”二元SVM分类器的打分为正,则排出“失败”的候选级,进入下一节点“优秀/一般”二元分类器进行判决。其中,采用二元SVM分类器进行打分时,可将输入的测试语音的测试语音模板矢量分别代入SVM分类判决树当前节点对应的二个二元SVM分类器的判决公式,获得w·x-b的符号,根据w·x-b符号的正负进行打分。采用该方法依次经过4个二元SVM分类器次判决后,到达SVM分类判决树的叶节点,获得语音测试信号映射的分类等级。
本实施例通过一对一的方式训练二元SVM分类器,分类边界较简单,有利于提高分类性能,训练算法复杂度较低,运算量较小,不存在不可分区间;此外,采用二分树的方法构造SVM分类判决树,并利用SVM分类判决树对测试语音信号对应的语音模板矢量进行判决,能够有效提高语音分级测定的准确性。如果在系统学习训练过程中,提供相应的负模板,本实施例基于语音模板矢量的语音分类技术能够有效区分语音信号的细微差别,这使得本实施 例应用到语言学习系统中具有很大的优势。
本发明语音测定方法与传统语音识别方法测试结果比较中,在区分汉语相似发音“SHI4”和“SI4”的测试实验中,使用传统的语音识别方法(例如:基于HMM模型的对数似然法)时,等错误率为19%;而采用本发明语音测定方法进行测定时,等错误率(Equal Error Rate,简称EER)降低至7%。因此,本发明语音测定方法可有效降低语音分级判决的复杂度,提高语音分级测定的准确性。
图5为本发明语音测定系统第一实施例结构示意图。如图5所示,本实施例语音测定系统包括:模型库51、语音识别模块52、模板矢量生成模块53和判决模块54。
模型库51用于存储参考文本和参考模型。
语音识别模块52用于接收语音信号,对接收的语音信号进行语音识别,根据存储的参考文本和参考模型获取状态对齐的语音特征序列。
模板矢量生成模块53用于根据状态对齐的语音特征序列对参考模型分布参数进行修正,生成该语音信号基于该参考模型的语音模板矢量。
判决模块54用于利用支持向量机分类判决树对接收到语音信号对应的语音模板矢量进行分类判决,获得该语音模板矢量映射的分类等级。
本实施例通过语音识别模块对接收的语音信号提取语音特征并获得状态对齐的语音特征矢量,模板矢量生成模块修正参考模型分布参数并生成相应的语音模板矢量,通过判决模块利用支持向量机分类判决树对语音模板矢量进行判决,有效降低了语音分类判决的复杂度,提高语音分级测定的准确性。
图6为本发明语音测定系统第二实施例结构示意图。如图6所示,本实施例与本发明语音测定系统第一实施例的区别在于,本实施例模板矢量生成模块53进一步包括修正单元531和模板矢量生成单元532,此外本实施例还包括判决树生成模块55,判决树生成模块55进一步包括映射单元551、分类器模型单元552和判决树生成单元553。
修正单元531用于根据状态对齐的语音特征序列,分别对各状态下隐马 尔可夫模型的分布参数进行最大后验概率修正;其中,隐马尔可夫模型即为模型库中存储的其中一种参考模型。
本实施例中接收的语音信号至少包括测试语音信号或训练样本语音信号。判决树生成模块55用于根据训练样本语音信号的语音模板矢量建立支持向量机分类判决树。而判决模块54还用于根据支持向量机分类判决树对测试语音信号的语音模板矢量进行分类判决,获得该语音模板矢量映射的分类等级。
判决树生成模块55中,模板矢量生成单元532用于将修正后的隐马尔可夫参考模型中所有均值矢量顺序连接,获得该语音信号相对于隐马尔可夫模型的语音模板矢量。
映射单元551用于将模板矢量生成单元生成的样本语音信号的语音模板矢量映射到相应类别。
分类器模型单元552用于采用二组不同的类别数据构造一个二元支持向量机分类器,将二元支持向量机分类器存储在模型库51中。
判决树生成单元553用于将构造好的各二元支持向量机分类器以二分树的结构组成支持向量机分类判决树。生成的支持向量机分类判决树可存储在模型库51中。
本实施例通过一对一的方式训练二元SVM分类器,分类边界较简单,有利于提高分类性能,训练算法复杂度较低,运算量较小,不存在不可分区间;此外,采用二分树的方法构造SVM分类判决树,并利用SVM分类判决树对测试语音信号对应的语音模板矢量进行判决,能够有效提高语音分级测定的准确性。如果在系统学习训练过程中,提供相应的负模板,本实施例基于语音模板矢量的语音分类技术能够有效区分语音信号的细微差别,这使得本实施例应用到语言学习系统中具有很大的优势。
本发明语音分级测定系统实施例中可具体运行本发明语音分级测定方法实施例,其具体实现语音分级测定实施例详见本发明语音分级测定方法实施例的记载,不在赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (7)

1.一种语音分级测定方法,其特征在于包括:
将接收到的语音信号进行语音识别,根据参考文本对接收的语音信号提取语音特征,并根据参考模型采用维特比算法对所述语音特征进行维特比状态对齐,获取状态对齐的语音特征序列;所述参考模型为隐马尔可夫模型;
根据状态对齐的语音特征序列,对各状态相应的所述参考模型的分布参数进行最大后验概率修正;将修正后的所述隐马尔可夫模型中所有均值矢量顺序连接,获得所述语音信号相对于所述隐马尔可夫模型的语音模板矢量;
利用支持向量机分类判决树对所述语音模板矢量进行分类判决,获得所述语音模板矢量映射的分类等级。
2.根据权利要求1所述的语音分级测定方法,其特征在于,所述接收的语音信号至少包括测试语音信号或训练样本语音信号;所述利用支持向量机分类判决树对所述语音模板矢量进行分类判决具体为:
根据所述训练样本语音信号的语音模板矢量建立所述支持向量机分类判决树;
根据所述支持向量机分类判决树对测试语音信号的语音模板矢量进行分类判决。
3.根据权利要求2所述的语音分级测定方法,其特征在于,所述根据训练样本语音信号的语音模板矢量建立所述支持向量机分类判决树具体为:
将训练样本语音信号的语音模板矢量映射为相应类别数据;
采用每二组不同的类别数据构造一个二元支持向量机分类器;
将构造好的各所述二元支持向量机分类器以二分树的结构组成所述支持向量机分类判决树。
4.根据权利要求3所述的语音分级测定方法,其特征在于,所述根据支持向量机分类判决树对测试语音信号的语音模板矢量进行分类判决具体为:从所述支持向量机分类判决树的根节点开始,依次根据判决过程所经节点对应的二元支持向量机分类器,对测试语音信号的语音模板矢量进行是/非判决,每次判决排除一个候选等级,直至所述支持向量机分类判决树的叶节点,获得测试语音信号的语音模板矢量映射的分类等级。
5.一种语音分级测定系统,其特征在于包括:
模型库,用于存储参考文本和参考模型;所述参考模型为隐马尔可夫模型;
语音识别模块,将接收到的语音信号进行语音识别,根据参考文本和参考模型获取状态对齐的语音特征序列;
模板矢量生成模块,用于根据状态对齐的语音特征序列对参考模型的分布参数进行修正,生成所述语音信号基于该参考模型的语音模板矢量;
判决模块,用于利用支持向量机分类判决树对所述语音模板矢量进行分类判决,获得所述语音模板矢量映射的分类等级;
所述模板矢量生成模块,包括:
修正单元,用于根据状态对齐的语音特征序列,分别对各状态下隐马尔可夫模型的分布参数进行最大后验概率修正;
模板矢量生成单元,用于将修正后的隐马尔可夫模型中所有均值矢量顺序连接,获得所述语音信号相对于所述隐马尔可夫模型的语音模板矢量。
6.根据权利要求5所述的语音分级测定系统,其特征在于,所述接收的语音信号至少包括测试语音信号或训练样本语音信号;所述语音分级测定系统还包括:
判决树生成模块,用于根据训练样本语音信号的语音模板矢量建立所述支持向量机分类判决树;
所述判决模块还用于根据所述支持向量机分类判决树对测试语音信号的语音模板矢量进行分类判决,获得测试语音信号的语音模板矢量映射的分类等级。
7.根据权利要求6所述的语音分级测定系统,其特征在于,所述判决树生成模块包括:
映射单元,用于将训练样本语音信号的语音模板矢量映射为相应类别数据;
分类器模型单元,用于采用每二组不同的类别数据构造一个二元支持向量机分类器,将所述二元支持向量机分类器存储在所述模型库中;
判决树生成单元,用于将构造好的各所述二元支持向量机分类器以二分树的结构组成所述支持向量机分类判决树。
CN2008101041821A 2008-04-16 2008-04-16 语音分级测定方法及系统 Active CN101562012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101041821A CN101562012B (zh) 2008-04-16 2008-04-16 语音分级测定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101041821A CN101562012B (zh) 2008-04-16 2008-04-16 语音分级测定方法及系统

Publications (2)

Publication Number Publication Date
CN101562012A CN101562012A (zh) 2009-10-21
CN101562012B true CN101562012B (zh) 2011-07-20

Family

ID=41220779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101041821A Active CN101562012B (zh) 2008-04-16 2008-04-16 语音分级测定方法及系统

Country Status (1)

Country Link
CN (1) CN101562012B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840699B (zh) * 2010-04-30 2012-08-15 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102486922B (zh) * 2010-12-03 2014-12-03 株式会社理光 说话人识别方法、装置和系统
CN102348169A (zh) * 2011-10-25 2012-02-08 中兴通讯股份有限公司 自动测试GoTa集群呼叫语音质量类别的方法及系统
CN103177267B (zh) * 2013-04-22 2017-02-08 山东师范大学 一种时频联合的支持向量机半监督学习方法
CN104347081B (zh) * 2013-08-07 2019-07-02 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN104751856B (zh) * 2013-12-31 2017-12-22 中国移动通信集团公司 一种语音语句识别方法及装置
CN104505090B (zh) * 2014-12-15 2017-11-14 北京国双科技有限公司 敏感词的语音识别方法和装置
CN106531185B (zh) * 2016-11-01 2019-12-13 云知声(上海)智能科技有限公司 基于语音相似度的语音评测方法及系统
CN108091340B (zh) * 2016-11-22 2020-11-03 北京京东尚科信息技术有限公司 声纹识别方法、声纹识别系统和计算机可读存储介质
CN106486126B (zh) * 2016-12-19 2019-11-19 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN109961775A (zh) * 2017-12-15 2019-07-02 中国移动通信集团安徽有限公司 基于hmm模型的方言识别方法、装置、设备及介质
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2004-54567A 2004.02.19
杜圣东.基于多类支持向量机的文本分类研究.《CNKI中国优秀硕士学位论文全文数据库》.2007,(第06期),34,38-39,41-42. *
韩纪庆等.基于语音识别的发音学习技术.《语音技术》.2004,47-51. *

Also Published As

Publication number Publication date
CN101562012A (zh) 2009-10-21

Similar Documents

Publication Publication Date Title
CN101562012B (zh) 语音分级测定方法及系统
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN107610707B (zh) 一种声纹识别方法及装置
CN101136199B (zh) 语音数据处理方法和设备
Kotti et al. Speaker segmentation and clustering
US7627474B2 (en) Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons
Apsingekar et al. Speaker model clustering for efficient speaker identification in large population applications
US7742918B1 (en) Active learning for spoken language understanding
CN106294344A (zh) 视频检索方法和装置
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
Dua et al. Discriminative training using noise robust integrated features and refined HMM modeling
US11823702B2 (en) Condition-invariant feature extraction network
Fan et al. Deep Hashing for Speaker Identification and Retrieval.
Singhal et al. Multi-level region-of-interest CNNs for end to end speech recognition
Wu et al. Music chord recognition based on midi-trained deep feature and blstm-crf hybird decoding
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
Aradilla Acoustic models for posterior features in speech recognition
CN116189671B (zh) 一种用于语言教学的数据挖掘方法及系统
US8639510B1 (en) Acoustic scoring unit implemented on a single FPGA or ASIC
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
En-Naimani et al. Hybrid system of optimal self organizing maps and hidden Markov model for Arabic digits recognition
Xue et al. Learning speech emotion features by joint disentangling-discrimination
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211103

Address after: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: CREATIVE KNOWLEDGE (BEIJING) EDUCATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 15

Patentee before: Innovation (China) Technology Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: Chuang'exin (Beijing) Technology Co.,Ltd.

Address before: 100089 4th Floor 403, No. 15 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: CREATIVE KNOWLEDGE (BEIJING) EDUCATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address