CN111599344A

CN111599344A - 一种基于拼接特征的语种识别方法

Info

Publication number: CN111599344A
Application number: CN202010244083.4A
Authority: CN
Inventors: 刘俊南; 江海; 王化; 刘文龙
Original assignee: Innomicro Technology Tianjin Co Ltd
Current assignee: Innomicro Technology Tianjin Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-28
Anticipated expiration: 2040-03-31
Also published as: CN111599344B

Abstract

本发明公开了一种基于拼接特征的语种识别方法，步骤1，获得语音信号的帧序列；步骤2，计算时长特征；步骤3，提取语音帧序列的底层声学特征；步骤4，得到音素特征序列；步骤5，获得拼接特征；步骤6，将拼接特征输入到i‑vector提取器中，提取得到语音帧序列的i‑vector特征表示；步骤7，得到lda‑vector特征；步骤8，将lda‑vector特征输入到训练好的分类器中，获得输入语音帧序列的语种标签。与现有技术相比，本发明结合了高层和底层声学特征这两种特征的优点；无需训练多个音素识别器，只需要提取高层声学特征；降低复杂度的同时，提高对语音信号的语种识别性能特别是语种识别准确率。

Description

一种基于拼接特征的语种识别方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种应用于语种识别的语种特征提取方法。

背景技术

语种识别是指判定输入语音所属语种类别的技术，作为机器自动翻译系统、语音识别系统的前端处理技术，在国际化服务转接方面具有重要价值。特别是近年来网络巨头公司的国际化、大数据的蓬勃发展，越来越需要用到语种识别来进行分别服务。

当前语种识别主流技术包括：基于全差异空间分析方法的i-vector方法、基于语音识别技术的PPRLM(并行音素识别语法模型)方法以及基于神经网络的embedding方法。其中基于语音识别技术的PPRML方法更被认为是最有发展的技术方法。针对现有的语种识别方法，使用PPRLM方法的系统虽然能够提取高层声学特征，在短语音上性能能够超过全差异空间分析方法，但PPRML方法需要训练多个语种的音素识别器，并且在长语音上效果并不比全差异空间分析方法更好。

如图1所示，为传统的语种识别方法示意图。该方法具体为一种基于全差异空间分析模型的语种识别方法，首先对待识别的语音数据进行分帧；提取其声学特征作为该方法的训练预料；训练全差异空间提取器，对训练预料进行i-vector提取；进行降维处理；然后使用Ida-vector训练分类器；当对新语音信号进行识别时，Ida-vector训练分类器对提取得到的i-vector特征进行语种的分类判别。传统基于全差异空间分析方法的语音识别系统直接使用底层声学特征，因此底层声学特征的选取对于识别准确率来说是相当重要的。目前的主流底层声学特征包括MFCC特征、FilterBank特征和PLP特征。底层声学特征主要用于描述语音信号的发音特点。但是底层声学特征不仅包含了音素区分信息，还包含了干扰语种信息的各种干扰如说话人、信道信息，并不能很好的描述语种特点。

高层特征能够体现音素上下文相关信息，并且是底层声学特征的优化，突出声学特征中的音素信息，而抑制其他干扰信息。如何利用高层特征实现语种识别方法是本发明亟待解决的技术问题。

发明内容

针对传统语种识别方法存在的缺陷，本发明旨在提出一种语种特征提取方法，利用声学特征、音素特征以及时长特征的拼接，结合全差异空间分析方法实现新的语种识别方法。

本发明的一种基于拼接特征的语种识别方法，包括以下步骤：

步骤1，对接收的输入语音信号进行分帧处理，获得语音信号的帧序列；

步骤2，计算输入语音信号的帧序列的总数，作为时长特征；

步骤3，提取语音帧序列的底层声学特征；

步骤4，将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征；

步骤5，将上下文扩展声学特征输入到训练好的音素识别神经网络中，利用音素识别器进行音素识别，得到音素特征序列；

步骤6，比较底层声学特征维度N和PLLR特征维度M，选择维度较大者进行PCA 降维，然后以底层声学特征为目标进行归一化，再进行拼接，作为拼接特征；

步骤6，将拼接特征输入到i-vector提取器中，提取得到语音帧序列的i-vector特征表示；其中i-vector提取器更包含UBM模型训练，具体描述如下：

使用GMM模型对全部训练语音拼接特征的概率分布进行建模，通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型，使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值，将分布平均值进行拼接得到超矢量 m；

然后每段语音的语音拼接特征使用MAPadaptation方法对GMM-UBM模型进行线性插值，获得每段语音的分布超矢量M；

每段语音通过全差异子空间模型，计算得到i-vector特征；

GMM模型的公式如下：

其中，P(y|θ)表示GMM概率分布，y表示输入特征，θ_k表示第k个高斯分量参数，K表示GMM内高斯分量数，φ(y|θ_k)表示第k个高斯分量概率分布，α_k表示每个高斯分量权重；

参数θ_k的计算公式如下：

θ_k＝(μ_k,δ_k)

其中，μ_k表示高斯分布均值，δ_k表示高斯分布方差；

MAP adaptation的计算公式如下：

其中，F表示某段语音的帧序列，y_f表示该帧特征；

通过最大后验概率找到最佳参数θ_max取其均值构成超矢量。

全差异子空间公式如下：

M＝m+Tω

其中，M表示某段语音的超矢量，m表示均值超矢量，T表示全差异子空间矩阵，通过训练得到，ω表示i-vector特征向量；

步骤7，使用归一化公式，以i-vector特征为目标对时长特征进行归一化，进行拼接得到t-vector特征，然后进行LDA降维，得到lda-vector特征；

步骤8，将lda-vector特征输入到训练好的分类器中，获得输入语音帧序列的语种标签，分类器训练过程具体描述如下：

以全部训练数据的lda-vector为训练输入，以对应的语种标签为输出，训练机器学习分类器，例如训练SVM、RandomForest或XGBoost。

与现有技术相比，本发明的一种基于拼接特征的语种特征提取方法具有以下积极技术效果：

(1)结合了高层和底层声学特征这两种特征的优点；

(2)无需训练多个音素识别器，只需要提取高层声学特征；

(3)降低复杂度的同时，提高对语音信号的语种识别性能特别是语种识别准确率。

附图说明

图1为传统的语种识别方法示意图；

图2为本发明的一种语种特征提取方法实施例示意图；

图3为实施例的音素特征提取的具体流程示意图；

图4为实施例的声学特征和音素特征降维拼接的具体流程示意图；

图5为实施例的ivector特征提取的具体流程示意图；

图6为实施例的lda-vector特征生成的具体流程示意图；

图7为实施例的语种识别分类器训练和分类判别的具体流程示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

如图2所示，为本发明的一种基于拼接特征的语种识别方法的实现模型示意图，该方法具体包括以下步骤：

步骤1，对接收的输入语音信号进行分帧处理，获得语音帧序列；具体地，先对语音信号进行预加重处理，以减少尖锐噪声影响，提高信号质量，然后使用语音信号处理技术的加汉明窗方法，得到每帧数据，其中选择汉明窗的窗长为25ms，窗移为10ms，叠加部分为15ms；

步骤2，计算输入语音信号的帧序列的总数，作为时长特征；

步骤3，提取语音帧序列的底层声学特征，可以选择MFCC特征、FilterBank特征或者PLP特征中的任意一种。为了描述方便后续都以MFCC特征为例，维度为N，计算MFCC的一阶、二阶差分，并与原始MFCC特征进行拼接得到底层声学特征，维度为N*3；

步骤4，为了利用语音帧上下文信息，对底层声学特征进行上下文扩展，将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征，音素特征都以PLLR特征为例，特征为维度为M；利用PPRLM抽取语音信号的高层表示PLLR特征，具体地，第t帧进行扩展时，将相邻的前T_l帧特征与后T_r帧特征与当前特征进行拼接，则得到的上下文扩展特征为(T_l+T_r+1)N维特征；将上下文扩展特征输入到训练好的音素识别神经网络中，得到PLLR特征序列；音素识别神经网络的具体描述，使用大量上下文扩展声学特征作为输入，对应的素序列标签作为输出，训练时延深度神经网络TDNN；使用训练好的音素识别神经网络，对输入语音信号的帧序列进行音素识别，得到语音帧序列的音素对数似然比序列作为PLLR特征，维度为M，即该识别器可识别音素总数；如图3所示，为实施例的音素特征提取的具体流程示意图；

步骤5，比较底层声学特征维度N和PLLR特征维度M，选择维度较大者进行PCA 降维，然后以底层声学特征为目标进行归一化，再进行拼接，为了描述方便假定M>N，则对PLLR特征进行PCA降维，目标维度为N，然后将降维后的PLLR以底层声学特征为目标进行归一化，然后拼接两个特征得到2N维新的特征，作为拼接特征；

归一化公式：

其中，p_max、p_min分别表示底层声学特征中最大值和最小值；

q_max、q_min分别表示待归一化特征中最大值和最小值；

q、q_new分别表示原始特征和归一化后特征；

步骤6，将拼接特征输入到i-vector提取器中，提取得到语音帧序列的i-vector特征表示；所述i-vector提取器包含两个子模块，即UBM模型模块和i-vector提取模块。如图5所示，为实施例的ivector特征提取的具体流程示意图。

训练UBM模型的具体描述如下：

GMM模型的公式如下：

其中，P(y|θ)表示GMM概率分布，y表示输入特征，θ_k表示第k个高斯分量参数， K表示GMM内高斯分量数，φ(y|θ_k)表示第k个高斯分量概率分布，α_k表示每个高斯分量权重；

参数θ_k的计算公式如下：

θ_k＝(μ_k,δ_k)

其中，μ_k表示高斯分布均值，δ_k表示高斯分布方差；

使用GMM模型(高斯混合模型)对全部训练语音拼接特征的概率分布进行建模，通过EM算法迭代训练得到GMM-UBM(通用背景模型universal background model)，训练时需要保证训练数据的均衡。使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值进行拼接得到超矢量supervector。假设GMM-UBM有C个分量，特征维度为F，那么最后得到的supervector的维度为C*F。然后对每段输入语音帧序列使用MAP adaptation(最大后验概率自适应)方法在GMM-UBM模型上进行自适应，得到的语音段均值超矢量supervector；

步骤7，使用归一化公式，以i-vector特征为目标对时长特征进行归一化，然后进行拼接，得到t-vector特征；然后进行LDA降维，得到lda-vector特征；

如图4所示，为实施例的声学特征和音素特征降维拼接的具体流程示意图。LDA 降维具体描述：以全部训练数据的语种拼接特征为训练输入，以对应的语种标签为输出，使数据类间距离最大类内距离最小原理，训练一个LDA降维矩阵，目标维度是所有语种标签数减一。例如，识别语种数为10，则降维目标维度为9。

如图6所示，为实施例的lda-vector特征生成的具体流程示意图。具体处理如下：

根据如下全差异空间分公式M＝m+Tω，其中：

M表示每段语音帧序列的supervector；

m代表某个语种全部数据分布均值超矢量均值mean of supervector；

T代表全差异空间分解矩阵；

ω代表分解因子，即每个语音帧序列特征的i-vector。

M和m都可以根据GMM-UBM模型进行自适应分布均值拼接求解得到，然后使用 EM算法迭代计算T矩阵，T矩阵就是i-vector提取器。

使用训练好的UBM通用背景模型，对输入语音帧序列先提取supervector，然后利用训练好的i-vector提取矩阵根据全差异空间分析方法提取输入语音的i-vector特征。

如图7所示，为实施例的语种识别分类器训练和分类判别的具体流程示意图，该流程以RandomForest为例。

所述底层声学特征可为以下任意一种：MFCC(Mel Frequency SepstrumCoefficient， Mel频率倒谱系数)特征、FilterBank(滤波器组)特征和PLP(PerceptualLinear Predictive，感知线性预测系数)特征。

所述步骤5的上下文扩展声学特征的拼接方法，具体为：各帧声学特征(维度为F)，与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征。

所述音素识别神经网络使用语音帧上下文扩展声学特征为输入，语音帧音素为标签进行训练得到的深度神经网络模型，中间包含一层瓶颈层,最后输出为音素概率，不限选用语种，使用大量标注了音素标签的语音数据进行训练得到。

所述音素特征可以为以下任意一种：音素对数似然比PLLR特征、音素识别瓶颈层输出BNF特征。

所述降维操作(PCA)，具体为：比较声学特征和音素特征维度大小，将其中较大维度的特征降维到与较小维度相同维度，得到降维后的声学特征LowF2和音素特征 HighF2。需要HighF2按照LowF1进行归一化；需要时长特征按照i-vector进行归一化。

所述i-vector提取器，是使用全局差异空间(Total Variability Space)分析方法训练得到的。

系统识别语种数量为Ln，LDA降维的目标维度是待识别语种数减一(Ln-1)。所述分类器可以为以下任意一种：SVM、RandomForest、XGBoost。

Claims

1.一种基于拼接特征的语种识别方法，其特征在于，该方法包括以下步骤：

步骤2，计算输入语音信号的帧序列的总数，作为时长特征；

步骤3，提取语音帧序列的底层声学特征；

步骤6，比较底层声学特征维度N和PLLR特征维度M，选择维度较大者进行PCA降维，然后以底层声学特征为目标进行归一化，再进行拼接，作为拼接特征；

使用GMM模型对全部训练语音拼接特征的概率分布进行建模，通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型，使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值，将分布平均值进行拼接得到超矢量m；

每段语音通过全差异子空间模型，计算得到i-vector特征；

GMM模型的公式如下：

参数θ_k的计算公式如下：

θ_k＝(μ_k,δ_k)

其中，μ_k表示高斯分布均值，δ_k表示高斯分布方差；

MAPadaptation的计算公式如下：

其中，F表示某段语音的帧序列，y_f表示该帧特征；

通过最大后验概率找到最佳参数θ_max取其均值构成超矢量。

全差异子空间公式如下：

M＝m+Tω

以全部训练数据的lda-vector为训练输入，以对应的语种标签为输出，训练机器学习分类器。

2.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，所述底层声学特征为MFCC特征、FilterBank特征和PLP特征中的任意一种。

3.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，所述步骤5中上下文扩展声学特征的拼接方法，具体处理为：各帧声学特征(维度为F)，与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征。

4.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，所述音素识别器为使用语音帧上下文扩展声学特征为输入，语音帧音素为标签进行训练得到的深度神经网络模型，中间包含一层瓶颈层,最后输出为音素概率，不限选用语种，使用大量标注了音素标签的语音数据进行训练得到。

5.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，所述音素特征为音素对数似然比PLLR特征、音素识别瓶颈层输出BNF特征的任意一种。

6.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，通过所述降维处理后得到的是声学特征LowF2和音素特征HighF2。

7.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，若该方法的识别语种数量为Ln，则LDA降维的目标维度为待识别语种数减一，即Ln-1。

8.如权利要求1所述的一种基于拼接特征的语种识别方法，其特征在于，所述分类器为SVM、RandomForest、XGBoost中的任意一种。