CN106297769B - 一种应用于语种识别的鉴别性特征提取方法 - Google Patents

一种应用于语种识别的鉴别性特征提取方法 Download PDF

Info

Publication number
CN106297769B
CN106297769B CN201510280471.7A CN201510280471A CN106297769B CN 106297769 B CN106297769 B CN 106297769B CN 201510280471 A CN201510280471 A CN 201510280471A CN 106297769 B CN106297769 B CN 106297769B
Authority
CN
China
Prior art keywords
posterior probability
feature vector
regular
phoneme posterior
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510280471.7A
Other languages
English (en)
Other versions
CN106297769A (zh
Inventor
袁庆升
周若华
云晓春
张健
陈训逊
颜永红
徐杰
李锐光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201510280471.7A priority Critical patent/CN106297769B/zh
Publication of CN106297769A publication Critical patent/CN106297769A/zh
Application granted granted Critical
Publication of CN106297769B publication Critical patent/CN106297769B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。

Description

一种应用于语种识别的鉴别性特征提取方法
技术领域
本发明涉及计算机语种识别领域,特别涉及一种应用于语种识别的鉴别性特征提取方法。
背景技术
语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术。这是个可使大规模跨语言语音识别应用成为可能的技术,可用于口语语言翻译、口语文件检索等。同时也是智能与安全领域信息提取的研究热点。语种识别技术的关键在于用科学的方法来度量不同语言的个性。认知学的实验表明,语言之间的差异可以由不同层次的特征反映出来,包括声学层特征、音素层特征、韵律特征、词法特征和句法特征。
声学层特征通常从原始语音直接提取,常用的有美尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感知器线性预测(PLP)等。考虑语音帧前后间的相互关系,通常要对特征进行差分变换,例如一阶差分,二阶差分等。音素层特征主要考虑了各语言间的音节和音素不完全相同、音节和音素出现频率的差异,以及音节和音素出现前后关系的不同作为识别依据。目前的语种识别系统大部分都基于声学层特征和音素层特征。
近年来,受益于信号处理、模式识别与机器学习等相关领域的科技突破,语种识别特征研究已取得了长足的进步,但仍有很多地方需要改进与进一步研究。参考文献[1](H.Wang,C.Leung,T.Lee,B.Ma and H.Li,“Shifted-Delta MLP Features for SpokenLanguage Recognition”,IEEE Signal Processing Letters,vol.20,issue 1,pp.15-18,2013.)中研究表明,音素的后验概率可直接作为特征:语音信号经音素识别器识别为帧级的音素后验概率向量后,用log运算规整,再利用PCA进行降维,代替传统的MFCC特征训练模型,在语种识别任务中取得优秀的性能。该特征由于不需要解码为音素序列或者音素网格,因此对音素识别器的依赖较小。实验结果显示,该特征性能明显优于提取音素串或者音素网格的传统特征。
参考文献[2](M.Diez,A.Varona,M.Penagarikano,L.J.Rodriguez-Fuentes andG.Bordel,“On the Use of Phone Log-likelihood Ratios as Features in SpokenLanguage Recognition”,Spoken Language Technology Workshop(SLT),2012IEEE,pp.274-279)使用了不同的规整技术,对概率比进行Log规整而不是直接对概率进行规整,从而定义了新的特征PLLR(Phone Log-Likelihood Ratio),同样取得了很好的性能。
参考文献[1]和参考文献[2]为提取音素层特征开辟了新的思路,但这两种方法中都没有考虑不同音素对语种识别的贡献是有差别的。具体来讲,不同音素在不同语种中的分布不同,有些音素集中出现在某个语种,而有些音素则很少出现于某个语种,那么这些音素对语种识别将比那些在所有语种中出现频率差不多的音素具有更高的语种鉴别性,在特征中应当给予高的权重。
发明内容
本发明的目的在于解决现有基于音素后验概率特征中未考虑不同音素具有不同语种鉴别性的不足。
为了实现上述目的,本发明提供了一种应用于语种识别的鉴别性特征提取方法,包括:
在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。
上述技术方案中,该方法包括:
训练阶段:
步骤101)、去除训练集中各段语音数据的非语音部分;其中,所述非语音部分包括静音段、噪声段;
步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量;
步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整;
步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小,得到F比指标的值;
步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F比指标值的基础上,设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重;
所述权重的计算表达式如下:
w(k)=x×F-Ratio(k)
其中,w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的权重,F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值,参数x为经过实验得到的经验值;
测试阶段:
步骤201)、去除待测试语音数据中的非语音部分;
步骤202)、对经过步骤201)处理的待测试语音数据做音素识别,得到该待测试语音数据的帧级的音素后验概率特征向量;
步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整;
步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重,为步骤203)所得到的规整后音素后验概率特征向量做加权。
上述技术方案中,该方法在训练阶段还包括:
步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权,利用加权后的特征数据训练主成分分析矩阵;
该方法在测试阶段还包括:
步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、加权后的音素后验概率特征向量进行降维处理,得到维数较低的音素后验概率特征向量。
上述技术方案中,所述规整操作采用下列两种方式之一实现:
规整方式1
lt(k)=log(pt(k));
规整方式2
其中,pt(k)表示第t帧的第k维的音素后验概率特征向量,lt(k)表示规整后的第t帧的第k维的音素后验概率特征向量。
上述技术方案中,所述步骤104)进一步包括:
为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个值的和,其表达式如下:
其中,T为语种i语句j中帧的总数;
设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验概率特征向量的和,其表达式如下:
其中,N为语种i中语音数据的条数;
设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征向量的总和,其表达式如下:
其中M为训练集中的语种总数;
mi(k)和m(k)分别为si(k)和s(k)的归一化值,它们的表达式分别如下:
则规整后的音素后验概率特征向量第k维的F比指标的值为:
本发明的优点在于
本发明的特点:(1)量化定义了音素后验概率特征向量各维对语种鉴别性的贡献;(2)根据音素后验概率特征向量各维对语种鉴别性的贡献,赋予其相应权重。具体的讲,鉴别性高的赋予其高权重,而鉴别性低的赋予其低权重。应用本发明所提特征大大提高了特征的语种鉴别性,应用该特征的语种识别系统取得了更优秀的识别性能,同时也没有降低系统的实时性。
附图说明
图1是本发明的方法在训练阶段计算F比指标以及权重的流程图;
图2是本发明的方法在训练阶段计算PCA矩阵的流程图;
图3是本发明的方法在测试阶段提取特征的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
本发明的鉴别性特征提取方法包括两个阶段,一为训练阶段,二为测试阶段。在训练阶段所要完成的工作是利用训练集中的语音数据计算F比指标(F-Ratio)以及利用训练集中的语音数据训练PCA(主成分分析,Principal Component Analysis)矩阵。在测试阶段所要完成的工作是:利用训练阶段所得到的F-Ratio指标以及PCA矩阵对所要测试的语音实现特征提取,所提取的特征具有语种鉴别性。
下面分别对训练阶段与测试阶段所要完成的工作分别予以说明。
一、训练阶段
假设一训练集中有M个语种的数据,每个语种有N条语句(每个语种语句条数不必相同),在计算F-Ratio指标时需要计算音素后验概率特征向量中每一维的F-Ratio指标。
参考图1,在训练阶段需要完成以下操作:
步骤101)、通过语音端点检测(Voice Activity Detection,VAD)技术,去除训练集中各段语音数据的非语音部分;其中,所述非语音部分包括静音段、噪声段等。
步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量;
以某一段语音数据为例,本步骤所得到的该段语音数据的每帧音素后验概率特征向量可表示为Pt=[pt(1),pt(2),…,pt(K)],其中K为音素个数,t表示帧号;
所述音素识别操作可采用音素识别器实现;
步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整;
以某一段语音数据为例,若将规整后的该段语音数据的每帧音素后验概率特征向量表示为Lt=[lt(1),lt(2),…,lt(K)],其中K为音素个数,t表示帧号,则所述规整操作可采用下列两种方式之一实现:
规整方式1
lt(k)=log(pt(k)) (1);
规整方式2
步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小,即F-Ratio的值。
为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个值的和,其表达式如下:
其中,T为语种i语句j中帧的总数。
设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验概率特征向量的和,其表达式如下:
其中,N为语种i中语音数据的条数。
设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征向量的总和,其表达式如下:
其中M为训练集中的语种总数。
mi(k)和m(k)分别为si(k)和s(k)的归一化值,它们的表达式分别如下:
则规整后的音素后验概率特征向量第k维的F-Ratio值为:
步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F-Ratio值的基础上,设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重。
所述权重的计算表达式如下:
w(k)=x×F-Ratio(k) (10)
参数x为经验值,可通过大量实验得到。计算得到的权重可应用于测试阶段,其数值大小在测试阶段不会改变。
上述步骤中,F-Ratio值与权重的计算都在训练阶段执行,在测试阶段不再重新计算,因此不会增加额外的运行时间。
在得到用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重后,根据这一权重值可进一步计算PCA矩阵。如图2所示,训练阶段可进一步包括:
步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权,利用加权后的特征数据训练PCA矩阵。
如何训练PCA矩阵为本领域技术人员所公知,此处不再重复。所得到的PCA矩阵对所有语种都是通用的。
二、测试阶段
经过训练阶段后,利用训练阶段所得到的F-Ratio指标与PCA矩阵为待测试的语音数据提取特征,包括以下步骤:
步骤201)、通过VAD技术去除待测试语音数据中的非语音部分;
步骤202)、对经过步骤201)处理的待测试语音数据做音素识别,得到该待测试语音数据的帧级的音素后验概率特征向量;
步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整;所述规整可采用公式(1)或公式(2)之一实现;
步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重,为步骤203)所得到的规整后音素后验概率特征向量做加权;
加权之后的音素后验概率特征向量表示为Rt=[rt(1),rt(2),…,rt(K)],其中的每一维的表达式为:
rt(k)=w(k)×lt(k) (11)
其中w(k)为根据第k维特征的鉴别性得到的权重。
经加权处理后的音素后验概率特征向量已经具备了语种鉴别性。
步骤205)、应用PCA矩阵对经过规整、加权后的特征向量进行降维处理,得到维数较低的特征向量。
设PCA矩阵为Y,降维后的最终特征表示为Ot=[ot(1),ot(2),…,ot(F)],其中F为特征经过降维后的维数,则
Ot=YRt (12)
步骤205)所实现的降维操作既可以优化特征,使其拥有更好的性能,同时还可以降低系统的消耗;且经过降维的特征向量依然具有语种鉴别性。
以上是对本发明方法的一种较佳实现方式的说明,本发明方法也可以有其他的实现方式,如省去训练PCA矩阵以及利用PCA矩阵降维的步骤,这一实现方式的效果略低于前述的较佳实现方式。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种应用于语种识别的鉴别性特征提取方法,包括:
在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权;
训练阶段:
步骤101)、去除训练集中各段语音数据的非语音部分;其中,所述非语音部分包括静音段、噪声段;
步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量;
步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整;
步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小,得到F比指标的值;
步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F比指标值的基础上,设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重;
所述权重的计算表达式如下:
w(k)=x×F-Ratio(k)
其中,w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的权重,F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值,参数x为经过实验得到的经验值;
测试阶段:
步骤201)、去除待测试语音数据中的非语音部分;
步骤202)、对经过步骤201)处理的待测试语音数据做音素识别,得到该待测试语音数据的帧级的音素后验概率特征向量;
步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整;
步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重,为步骤203)所得到的规整后音素后验概率特征向量做加权。
2.根据权利要求1所述的应用于语种识别的鉴别性特征提取方法,其特征在于,该方法在训练阶段还包括:
步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权,利用加权后的特征数据训练主成分分析矩阵;
该方法在测试阶段还包括:
步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、加权后的音素后验概率特征向量进行降维处理,得到维数较低的音素后验概率特征向量。
3.根据权利要求1或2所述的应用于语种识别的鉴别性特征提取方法,其特征在于,所述规整操作采用下列两种方式之一实现:
规整方式1
lt(k)=log(pt(k));
规整方式2
其中,pt(k)表示第t帧的第k维的音素后验概率特征向量,lt(k)表示规整后的第t帧的第k维的音素后验概率特征向量。
4.根据权利要求1或2所述的应用于语种识别的鉴别性特征提取方法,其特征在于,所述步骤104)进一步包括:
为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个值的和,其表达式如下:
其中,T为语种i语句j中帧的总数;
设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验概率特征向量的和,其表达式如下:
其中,N为语种i中语音数据的条数;
设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征向量的总和,其表达式如下:
其中M为训练集中的语种总数;
mi(k)和m(k)分别为si(k)和s(k)的归一化值,它们的表达式分别如下:
则规整后的音素后验概率特征向量第k维的F比指标的值为:
CN201510280471.7A 2015-05-27 2015-05-27 一种应用于语种识别的鉴别性特征提取方法 Expired - Fee Related CN106297769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510280471.7A CN106297769B (zh) 2015-05-27 2015-05-27 一种应用于语种识别的鉴别性特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510280471.7A CN106297769B (zh) 2015-05-27 2015-05-27 一种应用于语种识别的鉴别性特征提取方法

Publications (2)

Publication Number Publication Date
CN106297769A CN106297769A (zh) 2017-01-04
CN106297769B true CN106297769B (zh) 2019-07-09

Family

ID=57635498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510280471.7A Expired - Fee Related CN106297769B (zh) 2015-05-27 2015-05-27 一种应用于语种识别的鉴别性特征提取方法

Country Status (1)

Country Link
CN (1) CN106297769B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN110858477B (zh) * 2018-08-13 2022-05-03 中国科学院声学研究所 一种基于降噪自动编码器的语种识别分类方法及装置
CN111210805A (zh) * 2018-11-05 2020-05-29 北京嘀嘀无限科技发展有限公司 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置
CN110164417B (zh) * 2019-05-31 2021-07-06 科大讯飞股份有限公司 一种语种向量获得、语种识别的方法和相关装置
CN113744717A (zh) * 2020-05-15 2021-12-03 阿里巴巴集团控股有限公司 一种语种识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN1835076A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
CN101118745A (zh) * 2006-08-04 2008-02-06 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统

Also Published As

Publication number Publication date
CN106297769A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
Demircan et al. Feature extraction from speech data for emotion recognition
CN105632501A (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Bhukya Effect of gender on improving speech recognition system
Garg et al. Survey on acoustic modeling and feature extraction for speech recognition
Rabiee et al. Persian accents identification using an adaptive neural network
CN106875944A (zh) 一种语音控制家庭智能终端的系统
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Aggarwal et al. Fitness evaluation of Gaussian mixtures in Hindi speech recognition system
CN112216270A (zh) 语音音素的识别方法及系统、电子设备及存储介质
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
Jiang et al. Performance evaluation of deep bottleneck features for spoken language identification
Selvan et al. Speaker recognition system for security applications
Barman et al. State of the art review of speech recognition using genetic algorithm
Zailan et al. Comparative analysis of LPC and MFCC for male speaker recognition in text-independent context
CN114067793A (zh) 音频处理方法和装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190709