CN106297769B

CN106297769B - 一种应用于语种识别的鉴别性特征提取方法

Info

Publication number: CN106297769B
Application number: CN201510280471.7A
Authority: CN
Inventors: 袁庆升; 周若华; 云晓春; 张健; 陈训逊; 颜永红; 徐杰; 李锐光
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2019-07-09
Anticipated expiration: 2035-05-27
Also published as: CN106297769A

Abstract

本发明涉及一种应用于语种识别的鉴别性特征提取方法，包括：在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概率特征向量根据F比指标做特征加权。

Description

一种应用于语种识别的鉴别性特征提取方法

技术领域

本发明涉及计算机语种识别领域，特别涉及一种应用于语种识别的鉴别性特征提取方法。

背景技术

语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术。这是个可使大规模跨语言语音识别应用成为可能的技术，可用于口语语言翻译、口语文件检索等。同时也是智能与安全领域信息提取的研究热点。语种识别技术的关键在于用科学的方法来度量不同语言的个性。认知学的实验表明，语言之间的差异可以由不同层次的特征反映出来，包括声学层特征、音素层特征、韵律特征、词法特征和句法特征。

声学层特征通常从原始语音直接提取，常用的有美尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感知器线性预测(PLP)等。考虑语音帧前后间的相互关系，通常要对特征进行差分变换，例如一阶差分，二阶差分等。音素层特征主要考虑了各语言间的音节和音素不完全相同、音节和音素出现频率的差异，以及音节和音素出现前后关系的不同作为识别依据。目前的语种识别系统大部分都基于声学层特征和音素层特征。

近年来，受益于信号处理、模式识别与机器学习等相关领域的科技突破，语种识别特征研究已取得了长足的进步，但仍有很多地方需要改进与进一步研究。参考文献[1](H.Wang,C.Leung,T.Lee,B.Ma and H.Li,“Shifted-Delta MLP Features for SpokenLanguage Recognition”,IEEE Signal Processing Letters,vol.20,issue 1,pp.15-18,2013.)中研究表明，音素的后验概率可直接作为特征：语音信号经音素识别器识别为帧级的音素后验概率向量后，用log运算规整，再利用PCA进行降维，代替传统的MFCC特征训练模型，在语种识别任务中取得优秀的性能。该特征由于不需要解码为音素序列或者音素网格，因此对音素识别器的依赖较小。实验结果显示，该特征性能明显优于提取音素串或者音素网格的传统特征。

参考文献[2](M.Diez,A.Varona,M.Penagarikano,L.J.Rodriguez-Fuentes andG.Bordel,“On the Use of Phone Log-likelihood Ratios as Features in SpokenLanguage Recognition”,Spoken Language Technology Workshop(SLT),2012IEEE,pp.274-279)使用了不同的规整技术，对概率比进行Log规整而不是直接对概率进行规整，从而定义了新的特征PLLR(Phone Log-Likelihood Ratio)，同样取得了很好的性能。

参考文献[1]和参考文献[2]为提取音素层特征开辟了新的思路，但这两种方法中都没有考虑不同音素对语种识别的贡献是有差别的。具体来讲，不同音素在不同语种中的分布不同，有些音素集中出现在某个语种，而有些音素则很少出现于某个语种，那么这些音素对语种识别将比那些在所有语种中出现频率差不多的音素具有更高的语种鉴别性，在特征中应当给予高的权重。

发明内容

本发明的目的在于解决现有基于音素后验概率特征中未考虑不同音素具有不同语种鉴别性的不足。

为了实现上述目的，本发明提供了一种应用于语种识别的鉴别性特征提取方法，包括：

在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概率特征向量根据F比指标做特征加权。

上述技术方案中，该方法包括：

训练阶段：

步骤101)、去除训练集中各段语音数据的非语音部分；其中，所述非语音部分包括静音段、噪声段；

步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别，得到各段语音数据的帧级的音素后验概率特征向量；

步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整；

步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小，得到F比指标的值；

步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F比指标值的基础上，设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重；

所述权重的计算表达式如下：

w(k)＝x×F-Ratio(k)

其中，w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的权重，F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值，参数x为经过实验得到的经验值；

测试阶段：

步骤201)、去除待测试语音数据中的非语音部分；

步骤202)、对经过步骤201)处理的待测试语音数据做音素识别，得到该待测试语音数据的帧级的音素后验概率特征向量；

步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整；

步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重，为步骤203)所得到的规整后音素后验概率特征向量做加权。

上述技术方案中，该方法在训练阶段还包括：

步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权，利用加权后的特征数据训练主成分分析矩阵；

该方法在测试阶段还包括：

步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、加权后的音素后验概率特征向量进行降维处理，得到维数较低的音素后验概率特征向量。

上述技术方案中，所述规整操作采用下列两种方式之一实现：

规整方式1

l_t(k)＝log(p_t(k))；

规整方式2

其中，p_t(k)表示第t帧的第k维的音素后验概率特征向量，l_t(k)表示规整后的第t帧的第k维的音素后验概率特征向量。

上述技术方案中，所述步骤104)进一步包括：

设为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个值的和，其表达式如下：

其中，T为语种i语句j中帧的总数；

设s_i(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验概率特征向量的和，其表达式如下：

其中，N为语种i中语音数据的条数；

设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征向量的总和，其表达式如下：

其中M为训练集中的语种总数；

设m_i(k)和m(k)分别为s_i(k)和s(k)的归一化值，它们的表达式分别如下：

则规整后的音素后验概率特征向量第k维的F比指标的值为：

本发明的优点在于

本发明的特点：(1)量化定义了音素后验概率特征向量各维对语种鉴别性的贡献；(2)根据音素后验概率特征向量各维对语种鉴别性的贡献，赋予其相应权重。具体的讲，鉴别性高的赋予其高权重，而鉴别性低的赋予其低权重。应用本发明所提特征大大提高了特征的语种鉴别性，应用该特征的语种识别系统取得了更优秀的识别性能，同时也没有降低系统的实时性。

附图说明

图1是本发明的方法在训练阶段计算F比指标以及权重的流程图；

图2是本发明的方法在训练阶段计算PCA矩阵的流程图；

图3是本发明的方法在测试阶段提取特征的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明的鉴别性特征提取方法包括两个阶段，一为训练阶段，二为测试阶段。在训练阶段所要完成的工作是利用训练集中的语音数据计算F比指标(F-Ratio)以及利用训练集中的语音数据训练PCA(主成分分析，Principal Component Analysis)矩阵。在测试阶段所要完成的工作是：利用训练阶段所得到的F-Ratio指标以及PCA矩阵对所要测试的语音实现特征提取，所提取的特征具有语种鉴别性。

下面分别对训练阶段与测试阶段所要完成的工作分别予以说明。

一、训练阶段

假设一训练集中有M个语种的数据，每个语种有N条语句(每个语种语句条数不必相同)，在计算F-Ratio指标时需要计算音素后验概率特征向量中每一维的F-Ratio指标。

参考图1，在训练阶段需要完成以下操作：

步骤101)、通过语音端点检测(Voice Activity Detection,VAD)技术，去除训练集中各段语音数据的非语音部分；其中，所述非语音部分包括静音段、噪声段等。

以某一段语音数据为例，本步骤所得到的该段语音数据的每帧音素后验概率特征向量可表示为P_t＝[p_t(1)，p_t(2)，…，p_t(K)]，其中K为音素个数，t表示帧号；

所述音素识别操作可采用音素识别器实现；

以某一段语音数据为例，若将规整后的该段语音数据的每帧音素后验概率特征向量表示为L_t＝[l_t(1)，l_t(2)，…，l_t(K)]，其中K为音素个数，t表示帧号，则所述规整操作可采用下列两种方式之一实现：

规整方式1

l_t(k)＝log(p_t(k)) (1)；

规整方式2

步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小，即F-Ratio的值。

其中，T为语种i语句j中帧的总数。

其中，N为语种i中语音数据的条数。

其中M为训练集中的语种总数。

则规整后的音素后验概率特征向量第k维的F-Ratio值为:

步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F-Ratio值的基础上，设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重。

所述权重的计算表达式如下：

w(k)＝x×F-Ratio(k) (10)

参数x为经验值，可通过大量实验得到。计算得到的权重可应用于测试阶段，其数值大小在测试阶段不会改变。

上述步骤中，F-Ratio值与权重的计算都在训练阶段执行，在测试阶段不再重新计算，因此不会增加额外的运行时间。

在得到用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重后，根据这一权重值可进一步计算PCA矩阵。如图2所示，训练阶段可进一步包括：

步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权，利用加权后的特征数据训练PCA矩阵。

如何训练PCA矩阵为本领域技术人员所公知，此处不再重复。所得到的PCA矩阵对所有语种都是通用的。

二、测试阶段

经过训练阶段后，利用训练阶段所得到的F-Ratio指标与PCA矩阵为待测试的语音数据提取特征，包括以下步骤：

步骤201)、通过VAD技术去除待测试语音数据中的非语音部分；

步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整；所述规整可采用公式(1)或公式(2)之一实现；

步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重，为步骤203)所得到的规整后音素后验概率特征向量做加权；

加权之后的音素后验概率特征向量表示为R_t＝[r_t(1)，r_t(2)，…，r_t(K)]，其中的每一维的表达式为：

r_t(k)＝w(k)×l_t(k) (11)

其中w(k)为根据第k维特征的鉴别性得到的权重。

经加权处理后的音素后验概率特征向量已经具备了语种鉴别性。

步骤205)、应用PCA矩阵对经过规整、加权后的特征向量进行降维处理，得到维数较低的特征向量。

设PCA矩阵为Y，降维后的最终特征表示为O_t＝[o_t(1)，o_t(2)，…，o_t(F)]，其中F为特征经过降维后的维数，则

O_t＝YR_t (12)

步骤205)所实现的降维操作既可以优化特征，使其拥有更好的性能，同时还可以降低系统的消耗；且经过降维的特征向量依然具有语种鉴别性。

以上是对本发明方法的一种较佳实现方式的说明，本发明方法也可以有其他的实现方式，如省去训练PCA矩阵以及利用PCA矩阵降维的步骤，这一实现方式的效果略低于前述的较佳实现方式。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种应用于语种识别的鉴别性特征提取方法，包括：

在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标，所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小；在测试阶段为待测试的语音提取音素后验概率特征向量，并为所提取的音素后验概率特征向量根据F比指标做特征加权；

训练阶段：

所述权重的计算表达式如下：

w(k)＝x×F-Ratio(k)

测试阶段：

步骤201)、去除待测试语音数据中的非语音部分；

2.根据权利要求1所述的应用于语种识别的鉴别性特征提取方法，其特征在于，该方法在训练阶段还包括：

该方法在测试阶段还包括：

3.根据权利要求1或2所述的应用于语种识别的鉴别性特征提取方法，其特征在于，所述规整操作采用下列两种方式之一实现：

规整方式1

l_t(k)＝log(p_t(k))；

规整方式2

4.根据权利要求1或2所述的应用于语种识别的鉴别性特征提取方法，其特征在于，所述步骤104)进一步包括：

其中，T为语种i语句j中帧的总数；

其中，N为语种i中语音数据的条数；

其中M为训练集中的语种总数；

则规整后的音素后验概率特征向量第k维的F比指标的值为：