CN101894548B - 一种用于语种识别的建模方法及装置 - Google Patents

一种用于语种识别的建模方法及装置 Download PDF

Info

Publication number
CN101894548B
CN101894548B CN2010102072379A CN201010207237A CN101894548B CN 101894548 B CN101894548 B CN 101894548B CN 2010102072379 A CN2010102072379 A CN 2010102072379A CN 201010207237 A CN201010207237 A CN 201010207237A CN 101894548 B CN101894548 B CN 101894548B
Authority
CN
China
Prior art keywords
subspace
vector
language
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010102072379A
Other languages
English (en)
Other versions
CN101894548A (zh
Inventor
何亮
张卫强
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2010102072379A priority Critical patent/CN101894548B/zh
Publication of CN101894548A publication Critical patent/CN101894548A/zh
Application granted granted Critical
Publication of CN101894548B publication Critical patent/CN101894548B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。

Description

一种用于语种识别的建模方法及装置
技术领域
本发明涉及语音识别、模式识别和信号处理,具体而言,本发明涉及一种用于语种识别的建模方法及装置。
背景技术
语种识别是指利用机器判别给定语音语言种类的技术。语种识别技术是多语言处理系统的前端,可用于语音人性化服务、语音安全监控等领域。
目前,语种识别领域最流行的系统建模方法是:对预处理后的语音提取频谱层特征,随后采用GMM(Gaussian Mixture Models,高斯混合模型)或SVM(Support Vector Machine,支持向量机)进行系统建模。
常用的频谱层特征有Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感知线性预测(PLP)及它们的衍生特征。经过特征提取过程,预处理的语音信号转化为更容易进行语种识别的时间序列。GMM和SVM这两种建模方法试图从两种角度对时间序列进行识别。前者利用模型参数对时间序列的分布进行拟合;后者在高维空间寻找最优分类面。两类建模方法各有所长:GMM建模方法参数物理意义明确,在训练、识别数据充分的情况下有较好的性能;SVM建模方法基于结构风险最小化原则,在训练数据稀少的情况下有较好的识别能力。最近提出的GMM-SVM建模方法将GMM模型本身作为SVM分类器的输入。
与GMM或SVM建模方法相比,GMM-SVM建模方法具有两个明显优点:1)利用支持向量机算法对GMM的权重、权重或方差进行鉴别式建模,提高语种识别率;
2)融合子空间投影(补偿)技术,可以解决训练数据与待识别语音数据信道不匹配的问题,并进一步解决待识别语音数据稀少的问题。
GMM-SVM建模方法的不足之处在于:
1)GMM的协方差矩阵通常被简化为对角阵,协方差矩阵的非对角阵元素所含有的鉴别式信息并没有被利用;
2)GMM模型不包含高阶统计量(3阶以及3阶以上),而合理使用高阶统计量可以有效提高语种识别率;
3)GMM-SVM的子空间投影和子空间补偿技术都基于线性空间,而时间序列所隐含的非线性信息没有被有效利用。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别针对有效利用时间序列的高阶统计量,更可以采用线性子空间、非线性子空间技术对提出的统计量进行投影补偿,进一步提升语种识别系统性能,提出了一种用于语种识别的建模的方法及装置。
为实现上述目的,本发明实施例一方面提出了一种用于语种识别的建模方法,包括如下步骤:
输入语音数据,对所述语音数据预处理得到特征序列,所述特征序列由特征向量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为超矢量,对所述超矢量进行投影和补偿,通过支持向量机算法建立并训练语种模型;
输入待测语音,对所述待测语音预处理得到特征序列,所述特征序列由特征向量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射为待测超矢量,对所述待测超矢量进行投影和补偿,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言种类。
本发明实施例另一方面提出了一种用于语种识别的建模装置,包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。
其中,语音预处理模块,用于降噪,并去除与语种识别无关的内容,输出去除后的纯语音;
特征提取模块,用于读入所述预处理模块的语音,并提取特征,输出特征序列,所述特征序列由特征向量组成;
多坐标系原点选择模块,用于选取辅助训练集,在特征序列空间选择各个坐标系原点;
特征矢量映射模块,用于根据选定的各个坐标系原点,将所述特征提取模块输出的特征矢量映射成为超矢量;
子空间提取模块,用于利用辅助训练集上的超矢量训练语种子空间和信道子空间;
子空间投影补偿模块,用于利用所述语种子空间和信道子空间,对所述语音数据的超矢量和待测语音的超矢量进行投影补偿;
训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训练语种模型;
识别模块,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言种类。
根据本发明实施例提供的用于语种识别的建模方法及装置,通过对语音信号特征序列的高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息,提高了语种识别的正确率,又降低了在集成电路上的运算复杂度。
本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实现简单、高效。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的用于语种识别的建模方法结构框图;
图2为图1中用于语种识别的建模方法的实施流程图;
图3为根据本发明实施例的用于语种识别的建模装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
为实现本发明之目的,本发明实施例公开了一种用于语种识别的建模方法。图1示出了该建模方法的流程框图。如图1所示,该方法包括如下步骤:
S101:输入语音数据,对语音数据预处理得到特征序列,并根据坐标系选择算法和特征矢量映射算法,将特征矢量映射为超矢量,对超矢量进行投影和补偿,通过支持向量机算法建立并训练语种模型;
具体的说,结合图2所示,首先输入语音数据,然后执行如下步骤:
A1:语音数据预处理。
A11:对语音数据即语音信号进行零均值化和预加重,其中零均值化为整段语音减去其均值。预加重为语音进行高通滤波。
其中,高通滤波器传输函数为H(z)=1-αz-1,其中0.95≤α≤1。
A12:对语音信号分帧。其中,帧长为20ms,帧移为10ms。
A2:从预处理的语音数据中提取特征序列。
特征序列是由一系列的特征向量组成。
A21:对语音信号加汉明窗,其中窗函数为:
ω H ( n ) = 0.54 - 0.46 cos ( 2 πn N - 1 ) 0 ≤ n ≤ N - 1 1 others
A22:对加汉明窗的数据做离散傅立叶变换(DFT)
X ( ω k ) = Σ n = 0 N - 1 x ( n ) e - j 2 π M nk
其中ωk代表频率,k代表频率标号,N是DFT变换点数。
A23:选择有M(m=1,2,…,M)个滤波器的滤波器组,其中第m个三角型滤波器如下定义
H m [ k ] = 0 k < f [ m - 1 ] ( k - f [ m - 1 ] ) ( f [ m ] - f [ m - 1 ] ) f [ m - 1 ] &le; k &le; f [ m ] ( f [ m + 1 ] - k ) ( f [ m + 1 ] - f [ m ] ) f [ m ] &le; k &le; f [ m + 1 ] 0 k > f [ m ] ,
其中,
Figure BSA00000165111500052
f[m]为三角窗的边界点,由下式确定:
f [ m ] = N F s B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 )
fl和fh为给定滤波器组的最低频率和最高频率,B为频率向梅尔频标的映射函数
B(f)=1125ln(1+(f/700)),
B-1为梅尔频标向频率的映射函数:
B-1(b)=700exp((b/1125)-1)。
A24:计算每个滤波器输出的对数能量
S [ m ] = ln [ &Sigma; k = 0 N - 1 | X &omega; [ k ] | 2 H m [ k ] ] , 0 < m &le; M .
A25:离散余弦变换,并计算MFCC系数
c [ n ] = &Sigma; m = 0 M - 1 S [ m ] cos ( &pi;n ( m - 1 / 2 ) / M ) , 0 < m &le; M ,
取前7维系数,拼接成为MFCC基本特征c=[c0,c1,…,c6]。
A26:计算第n时刻的偏移差分倒谱特征(SDC),
s(iN+j)(n)=cj(n+iS+b)-cj(n+iS-b),j=1,2,…,N-1;i=0,1,…,K-1
其中,b为计算一阶差分特征时的帧数差,一般取值为1;K为块数,一般取值为7;S为各块之间的偏移帧数,一般取值为3。
在本实施例中,b=1,K=7,S=3
A27:将基本特征与差分特征拼接,形成新的特征矢量。
y(n)={cj(n),j=0,1,…,N-1;siN+j(n),j=0,1,…,N-1,i=0,1,…,K-1}。
A3:选取各个坐标系原点,提取高维统计量。
A31:在辅助训练数据集上,通过EM算法选取多坐标系原点坐标o={o1,o2,…,oC},C为坐标系数目。
A32:选择特征矢量y(n)与原点坐标oj的度量f[y(n),oc],1≤c≤C,并计算特征矢量y(n)在每个子坐标系的占有率
&gamma; [ y ( n ) | o j ] = f [ y ( n ) , o j ] &Sigma; c = 1 C f [ y ( n ) , o c ] .
A33:选择特征矢量y(n)在坐标系内的扩展函数g[y(n),cc],结合步骤A32计算所得的占有率,将特征矢量y(n)映射为超矢量
v(n)=[r[y(n)|o1]g[y(n),o1],r[y(n)|o2]g[y(n),o2],…,r[y(n)|oC)g(y(n),oC]]
A34:超矢量序列v(n)对时间取平均,得到该段语音的超矢量 v = 1 T &Sigma; n = 1 T v ( n ) .
A4:采用子空间技术,寻找信道子空间和语种子空间。
其中,信道子空间为超矢量所属空间所包含的,不利于识别的子空间。语种子空间为超矢量所属空间所包含的,有利于识别的子空间。
通过子空间投影、补偿技术,提取超矢量v中仅有利于语种识别的部分。
A41:在辅助训练数据集上,提取语音超矢量{v0,v1,v2,…,vL}。对辅助训练集的要求是,尽量包含训练、识别语音的语言种类,并且每个语种要对应多段语音。
A42:对提取的语音超矢量{v0,v1,v2,…,vL}采用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取语种子空间L。
A43:对提取的语音超矢量{v0,v1,v2,…,vL}进行修正,每个超矢量减去对应语种超矢量的期望,得到新的语音超矢量{v′0,v′1,v′2,…,v′L}。对新的语音超矢量采用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取信道子空间U。
A5:利用语种子空间L、信道子空间U,对超矢量v进行投影和补偿,提取超矢量v仅存在于语种子空间L的部分vL
A6:通过支持向量机算法,建立语种模型。
A61:支持向量机训练算法;
令输入样本集为
Figure BSA00000165111500063
p=[1,2,…,P],θp∈{+1,-1},通常,θp=+1的样本称为正样本,θp=-1的样本称为负样本。SVM算法寻找最优分类面w,使得正负样本集之间的距离最大。最优分类面w是通过求解下述优化函数而得
min L = 1 2 | | &omega; | | 2 + C ( &Sigma; p = 1 P &xi; p )
其中,‖w‖2与正负样本之间距离成反比,ξp是在样本线性不可分的情况下引入的松弛变量,C是控制错分样本的惩罚程度。上式在对偶空间求解,优化函数变为
max &Sigma; p = 1 P &alpha; p - 1 2 &Sigma; p , q = 1 P &alpha; p &alpha; q &theta; p &theta; q K ( v p L , v q L )
其中,
Figure BSA00000165111500072
αp≥0,p=1,2,…,P,K(vp,vq)为
Figure BSA00000165111500073
Figure BSA00000165111500074
的核函数。
设最优解α*,则最优分类面是训练样本的组合
Figure BSA00000165111500075
p=[1,2,…,P]。
A62:对步骤A5中获得的超矢量,采用步骤A61中的支持向量机算法建立并训练语种模型。
S102:输入待测语音,对待测语音预处理得到特征序列,并根据坐标系选择算法和特征矢量映射算法,将特征矢量映射为待测超矢量,对待测超矢量进行投影和补偿,利用语种模型对待测超矢量打分,识别待测语音的语言种类。
具体的说,首先输入待测语音,然后采用上述步骤A1、A2、A3和A5中的方法提取超矢量。
B1:根据输入的待测语音,采用上述步骤A1、A2、A3和A5中的方法提取超矢量。具体的说,
B11:对待测语音进行预处理,从预处理后的待测语音中提取特征序列,特征序列是由一系列的特征向量组成;
B12:根据步骤A3中得到的各个坐标系原点,利用根据坐标系选择算法和特征序列映射算法,将特征矢量映射成待测超矢量;
B13:根据待测超矢量,通过步骤A4中得到的信道子空间和语种子空间,利用信道子空间和语种子空间对待测超矢量进行投影和补偿,提取待测超矢量仅存在于语种子空间的部分;
B2:利用步骤A62中训练的语种模型,对步骤B1中输出的超矢量进行打分,得到输出分数。其中打分函数为:
f ( v ) = &Sigma; p = 1 P &alpha; p * &theta; p K ( v p L , v L ) + b * .
B3:对步骤B2的输出分数进行后处理,与判决门限比较,判别该段语音的语言种类。
根据本发明实施例提供的用于语种识别的建模方法,通过对语音信号特征序列的高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息,提高了语种识别的正确率,又降低了在集成电路上的运算复杂度。
本发明实施例还提出了一种用于语种识别的建模装置。图3示出了该建模装置的结构框图。如图3中所示,该装置包括特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。
其中,语音预处理模块,用于降噪,并去除彩铃、音乐等与语种识别无关的部分,输出纯净语音供特征提取模块;
A11:语音预处理模块对语音数据即语音信号进行零均值化和预加重,其中零均值化为整段语音减去其均值。预加重为语音进行高通滤波。
其中,高通滤波器传输函数为H(z)=1-αz-1,其中0.95≤α≤1。
A12:语音预处理模块对语音信号分帧。其中,帧长为20ms,帧移为10ms。
特征提取模块,用于读入预处理模块的语音,并提取特征,输出特征序列。其中,特征序列由特征向量组成。
特征序列是由一系列的特征向量组成。
A21:特征提取模块对语音信号加汉明窗,其中窗函数为:
&omega; H ( n ) = 0.54 - 0.46 cos ( 2 &pi;n N - 1 ) 0 &le; n &le; N - 1 1 others
A22:特征提取模块对加汉明窗的数据做离散傅立叶变换(DFT)
X ( &omega; k ) = &Sigma; n = 0 N - 1 x ( n ) e - j 2 &pi; M nk
其中ωk代表频率,k代表频率标号,N是DFT变换点数。
A23:特征提取模块选择有M(m=1,2,…,M)个滤波器的滤波器组,其中第m个三角型滤波器如下定义
H m [ k ] = 0 k < f [ m - 1 ] ( k - f [ m - 1 ] ) ( f [ m ] - f [ m - 1 ] ) f [ m - 1 ] &le; k &le; f [ m ] ( f [ m + 1 ] - k ) ( f [ m + 1 ] - f [ m ] ) f [ m ] &le; k &le; f [ m + 1 ] 0 k > f [ m ] ,
其中,f[m]为三角窗的边界点,由下式确定:
f [ m ] = N F s B - 1 ( B ( f l ) + m B ( f h ) - B ( f l ) M + 1 )
fl和fh为给定滤波器组的最低频率和最高频率,B为频率向梅尔频标的映射函数
B(f)=1125ln(1+(f/700)),
B-1为梅尔频标向频率的映射函数:
B-1(b)=700exp((b/1125)-1)。
A24:特征提取模块计算每个滤波器输出的对数能量
S [ m ] = ln [ &Sigma; k = 0 N - 1 | X &omega; [ k ] | 2 H m [ k ] ] , 0 < m &le; M
A25:离散余弦变换,并计算MFCC系数
c [ n ] = &Sigma; m = 0 M - 1 S [ m ] cos ( &pi;n ( m - 1 / 2 ) / M ) , 0 < m &le; M
取前7维系数,拼接成为MFCC基本特征c=[c0,c1,…,c6]。
A26:特征提取模块计算第n时刻的偏移差分倒谱特征(SDC),
s(iN+j)(n)=cj(n+iS+b)-cj(n+iS-b),j=1,2,…,N-1;i=0,1,…,K-1
其中,b为计算一阶差分特征时的帧数差,一般取值为1;K为块数,一般取值为7;S为各块之间的偏移帧数,一般取值为3。
在本实施例中,b=1,K=7,S=3
A27:特征提取模块将基本特征与差分特征拼接,形成新的特征矢量。
y(n)={cj(n),j=0,1,…,N-1;siN+j(n),j=0,1,…,N-1,i=0,1,…,K-1}
多坐标系原点选择模块,用于选取辅助训练集,在特征序列空间选择各个坐标系原点。
A31:多坐标系原点选择模块在辅助训练数据集上,通过EM算法选取多坐标系原点坐标o={o1,o2…,oC},C为坐标系数目。
A32:多坐标系原点选择模块选择特征矢量y(n)与原点坐标oj的度量f[y(n),oc],1≤c≤C,并计算特征矢量y(n)在每个子坐标系的占有率
&gamma; [ y ( n ) | o j ] = f [ y ( n ) , o j ] &Sigma; c = 1 C f [ y ( n ) , o c ] .
特征矢量映射模块,用于根据选定的各个坐标系原点,将特征提取模块输出的特征矢量映射成为超矢量。
A33:多坐标系原点选择模块选择特征矢量y(n)在坐标系内的扩展函数g[y(n),cc],根据计算所得的占有率,特征矢量映射模块将特征矢量y(n)映射为超矢量
v(n)=[r[y(n)|o1]g[y(n),o1],r[y(n)|o2]g[y(n),o2],…,r[y(n)|oC)g(y(n),oC]]
A34:超矢量序列v(n)对时间取平均,得到该段语音的超矢量 v = 1 T &Sigma; n = 1 T v ( n ) .
子空间提取模块,用于利用辅助训练集上的超矢量训练语种子空间和信道子空间。
其中,信道子空间为超矢量所属空间所包含的,不利于识别的子空间。语种子空间为超矢量所属空间所包含的,有利于识别的子空间。
通过子空间投影、补偿技术,提取超矢量v中仅有利于语种识别的部分。
A41:在辅助训练数据集上,子空间提取模块提取语音超矢量{v0,v1,v2,…,vL}。对辅助训练集的要求是,尽量包含训练、识别语音的语言种类,并且每个语种要对应多段语音。
A42:子空间提取模块对提取的语音超矢量{v0,v1,v2,…,vL}采用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取语种子空间L。
A43:子空间提取模块对提取的语音超矢量{v0,v1,v2,…,vL}进行修正,每个超矢量减去对应语种超矢量的期望,得到新的语音超矢量{v′0,v′1,v′2,…,v′L}。对新的语音超矢量采用主成分分析算法(PCA,包括直接求解矩阵方法和迭代求解法),提取信道子空间U。
子空间投影补偿模块,用于利用语种子空间和信道子空间,对语音数据的超矢量和待测语音的超矢量进行投影补偿。
利用语种子空间L、信道子空间U,对超矢量v进行投影和补偿,提取超矢量v仅存在于语种子空间L的部分vL
训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训练语种模型。
A61:支持向量机训练算法;
训练模块令输入样本集为
Figure BSA00000165111500111
p=[1,2,…,P],θp∈{+1,-1},通常,θp=+1的样本称为正样本,θp=-1的样本称为负样本。SVM算法寻找最优分类面w,使得正负样本集之间的距离最大。最优分类面w是通过求解下述优化函数而得
min L = 1 2 | | &omega; | | 2 + C ( &Sigma; p = 1 P &xi; p )
其中,‖w‖2与正负样本之间距离成反比,ξp是在样本线性不可分的情况下引入的松弛变量,C是控制错分样本的惩罚程度。上式在对偶空间求解,优化函数变为
max &Sigma; p = 1 P &alpha; p - 1 2 &Sigma; p , q = 1 P &alpha; p &alpha; q &theta; p &theta; q K ( v p L , v q L )
其中,αp≥0,p=1,2,…,P,K(vp,vq)为
Figure BSA00000165111500115
的核函数。
设最优解α*,则最优分类面是训练样本的组合
Figure BSA00000165111500117
p=[1,2,…,P]。
A62:训练模块对已获得的超矢量,采用上述步骤A61中的支持向量机算法建立并训练语种模型。
本发明实施例提供的用于语种识别的建模装置还包括多坐标系原点存储模块、子空间模型存储模块和语种模型存储模块,
其中,多坐标系原点存储模块,用于存储来自多坐标系原点选择模块的坐标系原点;子空间模型存储模块,用于存储来自子空间选择模块的语种子空间和信道子空间;语种模型存储模块,用于存储来自训练模块的语种模型。
本发明实施例提供的用于语种识别的建模装置进一步包括识别模块,利用语种模型对待测超矢量打分,识别待测语音的语言种类。
具体的说,识别模块输入待测语音,对待测语音预处理得到特征序列,并根据坐标系选择算法和特征矢量映射算法,将特征矢量映射为待测超矢量,对待测超矢量进行投影和补偿,利用语种模型对待测超矢量打分,识别待测语音的语言种类。
首先输入待测语音,然后采用上述步骤A1、A2、A3和A5中的算法提取超矢量。
B1:语音预处理模块根据输入的待测语音,采用上述步骤A1、A2、A3和A5中的算法提取超矢量:包括:
B11:特征提取模块对待测语音进行预处理,从预处理后的待测语音中提取特征序列,特征序列是由一系列的特征向量组成;
B12:根据多坐标系原点存储模块存储的坐标系原点,特征矢量映射模块通过坐标系选择算法和特征序列映射算法,将所述特征矢量映射成待测超矢量;
B13:根据待测超矢量以及子空间模型存储模块存储的语种子空间和信道子空间,子空间投影补偿模块利用信道子空间和语种子空间对待测超矢量进行投影和补偿,提取待测超矢量仅存在于语种子空间的部分;
B2:识别模块利用语种模型存储模块存储的语种模型,根据子空间投影补偿模块输出的超矢量进行打分,得到输出分数。其中打分函数为:
f ( v ) = &Sigma; p = 1 P &alpha; p * &theta; p K ( v p L , v L ) + b * .
B3:识别模块对输出分数进行后处理,与判决门限比较,判别该段语音的语言种类。
根据本发明实施例提供的用于语种识别的建模装置,通过对语音信号特征序列的高维统计量有效建模,并采用子空间技术,去除了高维统计量中对识别无效的信息,提高了语种识别的正确率,又降低了在集成电路上的运算复杂度。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种用于语种识别的方法,其特征在于,包括如下步骤:
输入语音数据,对所述语音数据预处理得到特征序列,所述特征序列由特征矢量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征序列的特征矢量映射,并在时间上取平均,得超矢量。对所述超矢量进行投影和补偿,通过支持向量机算法建立并训练语种模型;
上述步骤包括:
1)对所述语音数据进行预处理,从所述预处理后的语音数据中提取特征序列,特征序列由特征矢量组成;
2)从所述特征矢量所在的空间中选择各个坐标系原点,确定所述特征矢量与坐标系原点之间的度量关系,根据坐标系选择算法和特征矢量映射算法,将所述特征序列的特征矢量映射,并在时间上取平均,得到超矢量;
3)根据所述超矢量,训练信道子空间和语种子空间,利用所述信道子空间和语种子空间对超矢量进行投影和补偿,提取超矢量仅存在于语种子空间的部分;
4)通过支持向量机算法,建立并训练语种模型;
输入待测语音,对所述待测语音预处理得到特征序列,所述特征序列由特征矢量组成,并根据坐标系选择算法和特征矢量映射算法,将所述特征序列的特征矢量映射,并在时间上取平均,得待测超矢量,对所述待测超矢量进行投影和补偿,利用所述语种模型对所述待测超矢量打分,识别所述待测语音的语言种类。
2.如权利要求1所述的方法,其特征在于,所述从特征矢量所在的空间中选择各个坐标系原点包括以下两种方式之一:
采用EM算法训练高斯混合模型,并将高斯混合模型均值作 为各个坐标系原点;
采用VQ算法,选用VQ码本作为各个坐标系的原点。
3.如权利要求1所述的方法,其特征在于,所述利用语种模型对所述待测超矢量打分,识别所述待测语音的语言种类进一步包括:
1)对所述待测语音进行预处理,从所述预处理后的待测语音中提取特征序列,特征序列由特征矢量组成;
2)利用根据坐标系选择算法和特征矢量映射算法,将所述特征序列的特征矢量映射,并在时间上取平均,得待测超矢量;
3)根据所述待测超矢量,利用信道子空间和语种子空间对所述待测超矢量进行投影和补偿,提取所述待测超矢量仅存在于语种子空间的部分;
4)利用所述语种模型对所述待测超矢量进行打分,与判决门限比较,识别所述待测语音的语言种类。
4.如权利要求1所述的方法,其特征在于,所述训练信道子空间和语种子空间通过以下算法之一:
主成分分析算法、概率主成分分析算法或者基于核方法的主成分分析算法。
5.如权利要求1或3所述的方法,其特征在于,利用所述信道子空间和语种子空间对所述待测超矢量进行投影和补偿进一步包括:
对所述语音数据,选取所述超矢量仅存在于语种子空间的部分;
对所述待测语音,选取所述待测超矢量仅存于语种子空间的部分。
6.一种用于语种识别的装置,其特征在于,包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块, 
其中,语音预处理模块,用于降噪,并去除与语种识别无关的内容,输出去除后的纯语音;
特征提取模块,用于读入所述预处理模块的语音,并提取特征,输出特征序列,特征序列由特征矢量组成;
多坐标系原点选择模块,用于选取辅助训练集,在特征矢量空间选择各个坐标系原点;
特征矢量映射模块,用于根据选定的各个坐标系原点,将所述特征提取模块输出的特征序列映射成为超矢量;
子空间提取模块,用于利用辅助训练集上的超矢量,训练语种子空间和信道子空间;
子空间投影补偿模块,用于利用所述语种子空间和信道子空间,对所述语音数据的超矢量和待测语音的超矢量进行投影补偿;
训练模块,用于对经过子空间投影补偿的超矢量,采用支持向量机算法建立并训练语种模型;
识别模块,利用所述语种模型对待测超矢量打分,识别所述待测语音的语言种类。
7.如权利要求6所述的装置,其特征在于,所述装置通过支持向量机算法建立并训练语种模型进一步包括:
1)语音预处理模块对所述语音数据进行预处理,特征提取模块从所述预处理后的语音数据中提取特征序列,特征序列由特征矢量组成;
2)所述多坐标系原点选择模块从所述特征矢量所在的空间中选择各个坐标系原点,确定所述特征矢量与坐标系原点之间的度量关系,所述特征矢量映射模块根据坐标系选择算法和特征矢量映射算法,将所述特征矢量映射,并在时间上取平均,得超矢量;
3)所述子空间提取模块根据所述超矢量,训练信道子空间和语种子空间,所述子空间投影补偿模块利用所述信道子空间和语种子空间对超矢量进行投影和补偿,提取超矢量仅存在于语种子空间的部分; 
4)所述训练模块通过支持向量机算法,建立并训练语种模型。
8.如权利要求7所述的装置,其特征在于,所述多坐标系原点选择模块从特征矢量所在的空间中选择各个坐标系原点包括以下两种方式之一:
采用EM算法训练高斯混合模型,并将高斯混合模型均值作为各个坐标系原点;
采用VQ算法,选用VQ码本作为各个坐标系的原点。
9.如权利要求6所述的装置,其特征在于,所述装置还包括多坐标系原点存储模块、子空间模型存储模块和语种模型存储模块,
所述多坐标系原点存储模块,用于存储来自所述多坐标系原点选择模块的坐标系原点;
所述子空间模型存储模块,用于存储来自子空间提取模块的语种子空间和信道子空间;
所述语种模型存储模块,用于存储来自所述训练模块的语种模型。
10.如权利要求9所述的装置,其特征在于,所述装置利用语种模型对所述待测超矢量打分,识别所述待测语音的语言种类进一步包括:
1)所述语音预处理模块对所述待测语音进行预处理,所述特征提取模块从所述预处理后的待测语音中提取特征序列,特征序列由特征矢量组成;
2)根据所述多坐标系原点存储模块存储的坐标系原点,特征矢量映射模块,通过坐标系选择算法和特征序列映射算法,将所述特征矢量映射,并在时间上取平均,得待测超矢量;
3)所述子空间投影补偿模块根据所述待测超矢量,利用所述子空间模型存储模块存储的语种子空间和信道子空间,对所述待测超矢量进行投影和补偿,提取所述待测超矢量仅存在于语种子空间的部分; 
4)所述识别模块利用所述语种模型存储模块存储的语种模型对所述待测超矢量进行打分,与判决门限比较,识别所述待测语音的语言种类。
11.如权利要求7所述的装置,其特征在于,所述子空间提取模块训练信道子空间和语种子空间通过以下算法之一:
主成分分析算法、概率主成分分析算法或者基于核方法的主成分分析算法。
12.如权利要求7或10所述的装置,其特征在于,所述子空间投影补偿模块利用所述信道子空间和语种子空间对所述待测超矢量进行投影和补偿进一步包括:
对所述语音数据,选取所述超矢量仅存在于语种子空间的部分;
对所述待测语音,选取所述待测超矢量仅存于语种子空间的部分。 
CN2010102072379A 2010-06-23 2010-06-23 一种用于语种识别的建模方法及装置 Expired - Fee Related CN101894548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102072379A CN101894548B (zh) 2010-06-23 2010-06-23 一种用于语种识别的建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102072379A CN101894548B (zh) 2010-06-23 2010-06-23 一种用于语种识别的建模方法及装置

Publications (2)

Publication Number Publication Date
CN101894548A CN101894548A (zh) 2010-11-24
CN101894548B true CN101894548B (zh) 2012-07-04

Family

ID=43103719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102072379A Expired - Fee Related CN101894548B (zh) 2010-06-23 2010-06-23 一种用于语种识别的建模方法及装置

Country Status (1)

Country Link
CN (1) CN101894548B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693723A (zh) * 2012-04-01 2012-09-26 北京安慧音通科技有限责任公司 一种基于子空间的非特定人孤立词识别方法及装置
CN103077720B (zh) * 2012-12-19 2015-02-11 中国科学院声学研究所 一种说话人识别方法及系统
CN103065622B (zh) * 2012-12-20 2015-10-07 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及系统
CN103077709B (zh) * 2012-12-28 2015-09-09 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN103853703B (zh) * 2014-02-19 2018-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN105632515B (zh) * 2014-10-31 2019-10-18 科大讯飞股份有限公司 一种发音检错方法及装置
CN104505091B (zh) * 2014-12-26 2018-08-21 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN106156009A (zh) * 2015-04-13 2016-11-23 中兴通讯股份有限公司 语音翻译方法及装置
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
CN106959943B (zh) * 2016-01-11 2020-10-30 阿里巴巴集团控股有限公司 语种识别更新方法及装置
CN108648747B (zh) * 2018-03-21 2020-06-02 清华大学 语种识别系统
CN109036437A (zh) * 2018-08-14 2018-12-18 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及计算机可读存储介质
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN111274828B (zh) * 2020-01-21 2021-02-02 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
CN111986650B (zh) * 2020-08-07 2024-02-27 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统
CN113611284B (zh) * 2021-08-06 2024-05-07 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统
CN115188366A (zh) * 2022-05-12 2022-10-14 广州云趣信息科技有限公司 基于深度学习的语种识别方法、装置、可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别系统的自动语音识别处理方法
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN101702314A (zh) * 2009-10-13 2010-05-05 清华大学 基于语种对的鉴别式语种识别模型建立方法
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552045B2 (en) * 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588535A (zh) * 2004-09-29 2005-03-02 上海交通大学 嵌入式语音识别系统的自动语音识别处理方法
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN101702314A (zh) * 2009-10-13 2010-05-05 清华大学 基于语种对的鉴别式语种识别模型建立方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
.MLLR特征的SVM语种识别算法.《清华大学学报(自然科学版)》.2009,第1284页第1.1节至第1286页第3.3节.
刘加
钟山
钟山;刘加;.MLLR特征的SVM语种识别算法.《清华大学学报(自然科学版)》.2009,第1284页第1.1节至第1286页第3.3节. *

Also Published As

Publication number Publication date
CN101894548A (zh) 2010-11-24

Similar Documents

Publication Publication Date Title
CN101894548B (zh) 一种用于语种识别的建模方法及装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107564513B (zh) 语音识别方法及装置
US9406298B2 (en) Method and apparatus for efficient i-vector extraction
WO2018107810A1 (zh) 声纹识别方法、装置、电子设备及介质
CN104167208B (zh) 一种说话人识别方法和装置
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN105654944B (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN110120230B (zh) 一种声学事件检测方法及装置
CN101640043A (zh) 基于多坐标序列内核的说话人识别方法和系统
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN109192200A (zh) 一种语音识别方法
CN108269575A (zh) 更新声纹数据的语音识别方法、终端装置及存储介质
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN116741148A (zh) 一种基于数字孪生的语音识别系统
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
JPH07261789A (ja) 音声認識の境界推定方法及び音声認識装置
US6076058A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
Shekofteh et al. MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space
KR101671305B1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161216

Address after: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee after: Beijing Hua Chong Chong Information Technology Co., Ltd.

Address before: 100084 Beijing 100084-82 mailbox

Patentee before: Qinghua UNiversity

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200330

Address after: 100084 Tsinghua University, Beijing, Haidian District

Patentee after: TSINGHUA University

Address before: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee before: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20210623